Imagenet trained cnns-are_biased_towards

いきなりですが、問題です

これは何でしょう？
①ネコ
②イヌ
③ゾウ

①カバ
②サイ
③ゾウ

①ネコ
②サイ
③ゾウ

CNNによる認識率は…
ImageNetを学習したResNet50では(c)を
うまく識別できていない

IMAGENET-TRAINED CNNS ARE BIASED
TOWARDS TEXTURE; INCREASING SHAPE
BIAS IMPROVES ACCURACY AND
ROBUSTNESS.
@mo_takusan9922
20181205
Under review at ICLR 2019 (review scores 8,8,7)

自己紹介
• 理工学部情報工学科3年
• KCS
• 気づいたら公式サイトに投稿
している記事がunityしかない

Significance
• ImageNetでCNNが学習しているのは主にテクスチャであり、
オブジェクトの形はほとんど学習していないことを示した
• ImageNetにスタイル変換を施した学習セット(SIN)を用いるこ
とで形に注目が行く

BackGround : ImageNet (IN)
• 1400万枚以上の画像が収録されているデータセット
• 2万枚以上のカテゴリに分かれている
• ベンチマークとしても良く利用される
https://cs.stanford.edu/people/karpathy/cnnembed/

BackGround : CNNの学習
• CNNは層を経るごとにエッジなどの低いレベルの特徴量を学習
し組み合わせることで複雑な形状を認識していると考えられて
いる
• 物体検出においては形状の傾向を獲得する方が重要[Ritter et
al. , 2017]

• ImageNetを学習したVGG16などは以下のようにモザイク状に
した画像に対しても高い認識率を誇る[Anonymous, 2018]

• エッジの認識が重要であるのにも関わらず、テクスチャの学習
しかしていない
→ この問題を解決することが
深層学習、CV及び神経科学分野において重要

Method : Psychophysical Experiments
• Geirhos et al. (2018) のパラダイムに従って、同じ画像におけ
るの人間と CNN の分類のパフォーマンスを正確に直接比較

Method : Data Set (Phychophysics)
• 以下の画像に対して物体認識タスクを行い、テクスチャ及び形
状のバイアスを評価する
• オリジナル : 元の画像
• グレースケール : 輝度情報のみ
• シルエット : 影のみ
• エッジ : 輪郭のみ
• テクスチャ : 質感のみ
• キューコンフリクト : 画風変換によってテクスチャを変化させたもの

Method : Stylized-ImageNet (SIN)
• 元画像のテクスチャ情報を除去しランダムに選ばれた画像のテ
クスチャ情報を付与したImageNetデータセットで学習
• テクチャ付与にはAdaIN style transfer[Huang & Belongie,
2017]による画風変換を利用

Results : Overcoming The Texture Bias
• CNNがテクスチャにバイアスをかけてしまった原因はデータ
セットにあると考えられる
• ImageNetはローカルな情報のみを利用して高い認識精度を達
成できることが知られている[Anonymous, 2018]
→ SINを利用することでこの仮説を検証

Results : Overcoming The Texture Bias

Results : Robustness and Accuracy
• 形状にバイアスをかけたResNet-50のロバスト性と精度を以下
の方法で向上させる
• INとSINを合わせたデータセットで学習させる
• INに対してfine-tuningした状態でINとSINを合わせたデータセットを
使って学習させる(=Shape-ResNet)
• これらを通常のResNet-50と次のようにして比較
1. IN の分類性能
2. Pascal VOC 2007 への転位学習
3. 画像の摂動に対する頑健性

• IN の分類性能
• Pascal VOC 2007 への転位学習

• 画像の摂動に対する頑健性

参考
• Robert Geirhos. IMAGENET-TRAINED CNNS ARE BIASED
TOWARDS TEXTURE; INCREASING SHAPE BIAS IMPROVES
ACCURACY AND ROBUSTNESS. Under review as a
conference paper at ICLR 2019. 2018
• @karpathy. t-SNE visualization of CNN. Results
codeshttps://cs.stanford.edu/people/karpathy/cnnembed/.
(参照日: 2018/12/02)
• Stanford Vision Lab, Stanford University, Princeton
University.ImageNet. http://www.image-net.org/ .2016

Imagenet trained cnns-are_biased_towards

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Mehr von KCS Keio Computer Society

Mehr von KCS Keio Computer Society (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (11)

Imagenet trained cnns-are_biased_towards

Hinweis der Redaktion