Grad-CAMとは？仕組みや原理、画像認識でのCAM手法との違いについて徹底解説

2024.01.31

INDEX

Grad-CAMとは？
Grad-CAMの意味とCAMについて
勾配に重みをつけたものがGrad-CAM
Grad-CAMはなぜ必要なのか
適切なデータを収集できる
画像認識の根拠がわかる
Grad-CAMの仕組み・原理
Grad-CAMのメリット
ブラックボックス化を防げる
改良点がわかる
Grad-CAMのデメリット
勾配消失問題
既にGrad-CAMを上回る技術が存在する
Grad-CAMとその他のCAM手法との違い
Grad-CAM++
ScoreCAM
LayerCAM
まとめ
さらに、今注目を集める生成AIリスキリングの第一歩を。生成AIパスポートとは？

皆さんはGrad-CAMをご存じですか？Grad-CAMは画像認識に関する手法の1つで、AIが何を根拠に認識をしたのかを示すために存在しています。AIが考えていることを可視化させる仕組みについて気になる方も多いはずです。

本記事ではGrad-CAMとは何かに着目し、Grad-CAMの仕組みや原理、Grad-CAMを必要とする理由などをご紹介していきます。

Grad-CAMとは？

Grad-CAMとはどういうものなのか、その意味や基本的な情報についてご紹介していきます。

Grad-CAMの意味とCAMについて

Grad-CAMの正式名称は「Graddient-weighted Class Activation Mapping」です。直訳すると「勾配加重クラス活性化マッピング」となります。

クラス活性化マッピング、CAMとは畳み込みニューラルネットワークの予測において、視覚的に説明を行うための手法となっています。一見すると間違いのような予測に思えても、視覚的に見える状態にすることで、決して間違いではないことを証明することが可能です。

また、間違った予測をしている場合になぜ間違った予測になっているのかを確認することもできます。CAMは2016年に登場しており、画像認識の精度を高めるきっかけになった手法です。

勾配に重みをつけたものがGrad-CAM

Grad-CAMはCAMをより進化させたものと言えます。勾配加重クラスとあるように、予測値に対して出される勾配に対して重みをつけることにより、重要な部分を可視化させていくのがGrad-CAMです。

勾配が大きければ大きいほど、予測値に影響を与えやすく、それだけ重視されるものという考えから作られた技術です。この結果、特定の部分だけ鋭く反応を見せるようになるので、しっかりと認識することが可能となります。

Grad-CAMはなぜ必要なのか

そもそもGrad-CAMはなぜ必要なのか、その理由をご紹介します。

適切なデータを収集できる

元々CAMを用いるメリットとして、学習モデルの精度を高められる点が挙げられます。もしも間違った特徴をベースにして予測を行っていた場合に、可視化される中でその事実がわかるので、適切なデータを収集して学習を行っていくことができます。

学習データの中では十分立派な精度であったとしても、実際に画像認識を行う中ですぐには順応せず、間違った特徴を捉えてしまって誤った認識をする場合があります。Grad-CAMなどを利用すれば、どんな認識をしているかがすぐにわかるので、適切なデータを収集した形で改めて学習を行わせることができます。

画像認識の根拠がわかる

なぜその認識に至ったのか、その根拠が明確にわかるのがGrad-CAMが必要な理由です。例えば、猫や犬の認識をする場合、どこを見て猫もしくは犬と判断したのか、ヒートマップを見れば明らかになります。猫特有の目を根拠としたのか、それとも、犬ならではの顔つきを根拠としたのかが一目瞭然です。

一方、誤認識をした場合でも、光の影などが影響した可能性があるなど、不正解になったものからもそのヒントを得ることができます。可視化された部分を分析していく中で、どの部分を見れば正答率が高いのか、何が影響して不正解につながりやすくなるのか、Grad-CAMだとはっきりします。

Grad-CAMの仕組み・原理

ここからはGrad-CAMの仕組みや原理についてご紹介します。そもそも畳み込みニューラルネットワークに関して、畳み込み層などがいくつも重なっている特徴抽出に関する部分と、特徴量を受け取って教師あり学習を行う部分に分けられます。

そして、一番最後の層では特徴量から確率スコアへの変換を行っていきます。確率スコアは、例えば自動車もしくは自転車のいずれかに分類する際、入力された画像に関して自動車の確率が80％、自転車の確率が20％と計算されたら、確率スコアが最も高いのは自動車なので、自動車のタグがつけられます。

Grad-CAMの場合では、自動車もしくは自転車を仕分けする際に、確率スコアの影響が出やすい画像の部分に関して、微分係数を活用して特定していきます。特定の画像の部分において少しだけ変化を加えた場合、どれだけ確率スコアに影響が出るのか、その大きさを示したものが微分係数です。この微分係数が勾配を意味し、Grad-CAMにつながっていきます。

Grad-CAMのメリット

ここからはGrad-CAMに関するメリットについてご紹介していきます。

ブラックボックス化を防げる

ディープラーニングにおける大きな問題は、ブラックボックス化です。なぜその結論に至ったのか、そのプロセスがわからないと検証のしようがなく、仮にうまくいかない場合に対処したくてもできないのが実情です。

なぜ犬や猫を正しく認識できるのか、どんな時に間違うのか、結果だけではわかりません。Grad-CAMが登場する前には、画像認識を行うAIが黒人系の人物をゴリラと認識してタグをつけてしまったことで大騒ぎになりました。なぜそんなことになったのか、出力結果だけではわかりません。結局原因がわからずじまいでした。

Grad-CAMがあれば、なぜそのような誤認識になったのかが一目瞭然です。可視化できれば説明もしやすく、画像認識やディープラーニングの知識がない人でも納得しやすくなります。

改良点がわかる

Grad-CAMの特徴でもご紹介した通り、Grad-CAMを活用することでどの部分を見て認識しているかがわかります。犬や猫の区別をつける際には顔を見て判断している様子がGrad-CAMに関する論文でも示されています。

一方、学習済みのモデルそのものに何かしらの問題、バイアスがかかっていることが明らかになることもあります。Grad-CAMの論文では医者と看護師を分類するモデルが紹介されており、男性の医者、女性の看護師で学習させたために、女性の医者を見て看護師と判断してしまったケースが紹介されています。

この時、性別の情報を排除して改めて学習を行わせたところ、医者であれば聴診器などを見て判別するようになっています。このようにバイアスがかかっているかどうかなど、改良点がわかります。

Grad-CAMのデメリット

次にご紹介するのはGrad-CAMのデメリットについてです。

勾配消失問題

Grad-CAMを利用するうえでネックとなるのが勾配消失問題です。何層もあり、層が深くなっているニューラルネットワークで画像認識で重要な勾配がほとんどなくなってしまい、学習につながりにくくなる問題です。

勾配消失問題は多層ニューラルネットワークではありがちな問題であり、Grad-CAMでも起きやすいとされています。勾配がゼロな層があると、そこから先の層でもゼロになってしまい、学習どころではなくなります。Grad-CAMでは勾配消失問題を解決できないために、課題の1つとされていました。

既にGrad-CAMを上回る技術が存在する

Grad-CAMはAIがどこを見た上で認識を行っているのかを可視化させるものとして重宝されてきたことは間違いありません。しかし、Grad-CAMは登場から数年以上経過している状況です。加速度的な進化を遂げるディープラーニングの世界において数年以上経過した技術は相当古い状態と言えます。

既にGrad-CAMから進化したような技術が多く存在しており、Grad-CAMは古い技術となっています。わざわざGrad-CAMを導入するメリットはそこまでなく、Grad-CAMの改良系とされるGrad-CAM++やScoreCAMなどを活用する方がいいでしょう。

Grad-CAMの改良系では勾配消失問題の解消が行われています。ランプ係数であるReLUを通すことで勾配消失問題が起きにくくなることから、Grad-CAM++ではReLUを導入しています。Eigen-CAMになると勾配を用いずに画像認識を行えるようにしており、CAMは年々進化を遂げていることが言えるでしょう。

この進化の過程に関しては次の項目で改めて解説します。

Grad-CAMとその他のCAM手法との違い

最後にGrad-CAMとそれ以外のCAM手法についてご紹介します。

Grad-CAM++

Grad-CAM++はGrad-CAMの改良系で、1つの勾配ではなく複数の勾配を利用することでより多くの情報を収集でき、より正しいマップの作成につなげられます。またどの部分の領域が予測につながっているのかを表現できるのも特徴的です。

ScoreCAM

ScoreCAMとGrad-CAMの違いは勾配の有無です。Grad-CAMでは勾配を用いていますが、ScoreCAMでは勾配を用いていません。勾配を使うと勾配消失問題に出くわすため、ScoreCAMではその心配がなくなります。

ScoreCAMでは画像を使ってマップを作り、その際に画像の特徴を抽出してマスク化させ、画像を重ねて再びモデルを使って学習させることで最終的にヒートマップの作成につなげていきます。

LayerCAM

Layer-CAMはCAM手法の中でも最新系の手法です。Layer-CAMではそれぞれの層でマップを作り、それぞれで重みの計算を行います。それぞれの層で出てきた特徴を組み合わせていく中でより詳細に解釈が行えるようになります。

まとめ

Grad-CAMが登場した時にはかなり画期的な手法であり、ブラックボックス化を避けるためにも重要な技術として話題となりました。その後数年で様々な進化を遂げており、Grad-CAMの弱点を補うような技術も多く出ている状態です。どのように認識して識別を行っているのか、その一端がチェックできるのはディープラーニングを理解するうえでとても大事なことと言えます。

さらに、今注目を集める生成AIリスキリングの第一歩を。生成AIパスポートとは？

生成AIパスポートは、一般社団法人生成AI活用普及協会（GUGA）が提供する、AI初心者のために誕生した、生成AIリスクを予防する資格試験です。AIを活用したコンテンツ生成の具体的な方法や事例に加え、企業のコンプライアンスに関わる個人情報保護、著作権侵害、商用利用可否といった注意点などを学ぶことができます。

⽣成AIの台頭により、AIはエンジニアやデータサイエンティストといった技術職の方々だけではなく誰もがAIを使えるようになりました。今、私たちがインターネットを当たり前に活用していることと同様に、誰もが生成AIを当たり前に活用する未来が訪れるでしょう。

そのような社会では、採用や取引の場面で、生成AIを安全に活用できる企業・人材であることが選ばれる前提条件になり「生成AIレベルの証明」が求められることが予測できます。生成AIパスポート試験に合格すると、合格証書が発行されるため、自身が生成AIを安全に活用するためのリテラシーを有する人材であることを、客観的な評価として可視化することが可能です。

ぜひあなたも生成AIレベルを証明し「生成AI人材」に仲間入りしましょう！

詳細はこちら