【シンプルに理解】画像認識CNNのVGGを分かりやすく解説

今回は世界的な画像認識コンペであるISLVRCで2014年に準優勝を飾ったVGGを紹介してみようと思います。

画像認識CNNの火付け役となったAlexNetとの比較も交えて紹介していこうと思いますので、AlexNetをご存知ない方は是非↓の記事をまず読んでみて下さい。

VGGとは？

VGGはオックスフォード大学のVisual Geometry Groupによって開発されたモデルです。お察しの通り、ネーミングはグループ名の頭文字に由来します。

VGGもAlexNetと同様に畳み込み層、プーリング層、全結合層を持っています。
まずは、これらの層がどのような構造になっているのかを見ていきましょう。

224×224のサイズ（RGBの3チャンネル）の入力画像に対して、3×3のサイズで64枚のフィルターを適用して、畳み込みを行ないます。AlexNetでは11×11、5×5、3×3などのフィルターが使われていましたが、VGGにおけるフィルターは3×3しかありません。
stride=1・padding=1という条件なので、畳み込み後もサイズの変化はなく、224×224です。

畳み込み後のサイズ計算が分からない方は、【初心者でも分かる】畳み込みニューラルネットワークを基礎から解説をご参照ください。

畳み込みの後の活性化関数は、AlexNetと同じく、ReLUを使っています。ReLu関数が分からない方は是非↓の記事も読んでみて下さい。

VGGでは、最初と同様に、ここで3×3のフィルターをもう1度適用します。同じ操作なので、ここでも出力サイズは224×224のままです。

ここで初めて、サイズ変更をするために最大値プーリングを行ないます。2×2のプーリングをstride=2の条件で行ないます。そのため、出力サイズはちょうど半分（112×112）になります。

プーリング後のサイズ計算が分からない方は、【初心者でも分かる】畳み込みニューラルネットワークを基礎から解説をご参照ください。

ここまで見たように、VGGは3×3のフィルターを数回通して、その後に最大値プーリングでサイズを半分にするということを繰り返します。

では、何回繰り返すのかというと、それはモデルによります。ここまでVGGと一口に言ってきましたが、VGG16やVGG19など層の深さによっていくつかのモデルが存在します。例えば、VGG16であれば、畳み込み層13層＋全結合層3層という構成になっています。

VGG16の場合の構造を示すと以下のようになります。

この図から分かるように、畳み込み層を全て通った時点で最大値プーリングを5回実行しているので、入力画像のサイズは
$224 × \frac{1}{2} × \frac{1}{2} × \frac{1}{2} × \frac{1}{2} × \frac{1}{2} = 7$
つまり、7×7になっています。

さて、最後は全結合層です。
7×7の出力が512枚（フィルターの数）ありますから、これを全結合層で1列に直すと、$7 × 7 × 512 = 25088$個のノードがあることになります。
それも踏まえると、VGGの全結合層は次のようになります。端的に言ってしまえば、AlexNetと同じです。