190602 what does_cnn_see

CNNが⾒て
いるものは︖
~ICLR 2019の研究から読み解くCNNの
性質〜
発表者︓
藤井亮宏＠ExaWizards

画像認識で頻繁に使われるCNNは何を見て判断しているのか？
従来の通説
Intermediate CNN layers recognize
“parts of familiar objects, and subsequent
layers [...] detect objects as combinations of
these parts” (LeCun et al. (2015) )
CNNは物体の各パーツ（形状）
の組み合わせで判断している
※Geirhos et al. (2019) から引⽤

自己紹介
• 名前︓
Ø 藤井亮宏(アキヒロ)
• 所属︓
Ø 株式会社エクサウィザーズ＠京都オフィス
• 仕事内容
Ø データ解析
Ø Deep learningとか使って⾊々（画像、時系列、医療
etc…）
@akihiro_akichan
論⽂の⼀⾔解説とかしてます。

ICLR 2019で発表された衝撃の結果
「 CNNは形状を見ておらず、テクスチャ（表面の質感）で
判断している！」Geirhos et al. (2019)
⼈間が⾒ると猫に⾒えるが、CNNは
「インド像」判断している

ICLR 2019で発表された衝撃の結果
シルエットや線画だと人間は判断できるが、CNNでは確信度が大幅に
低下する。
逆にテスクチャだけの情報だと人は間違うことがあるが、CNNは間違
えない。
Geirhos et al. (2019)

確かにテクスチャの比重大きいかも・・・？
• 形状は変えないが、ノイズを与えて（テクスチャを変化させ）モデ
ルの予測結果を変えるAdversarial Attack
• テクスチャは変えらえるが、形状変化は難しいCycle GAN
GoodFellow et al.(2014)
Zhu et al.(2017)

ICLR2019の研究を「CNNがテクスチャを見ている」という観
点から解釈すると。。。
ネットワークではなく、データを蒸留して数十枚〜数百枚の画像だけで、普通
のデータセットで学習させた結果に匹敵する結果を出した研究。
ICLR2019 Wang et al.(2018)
蒸留されたMNIST
数字の形状よりもテクスチャの情報を活⽤しているように⾒える
Dataset Distillation

ICLR2019の研究を「CNNがテクスチャを見ている」という観
点から解釈すると。。。
Stylized ImageNet (対象となる物体・動物の形状以外にノイズを加えたデータ
セット)で学習させると、様々なノイズを乗せたデータセット(ImageNet-C)にお
ける頑健性が向上したという報告。
ImageNet-Cではノイズによってテクスチャが変更されているが、Stylized
ImageNetでテクスチャに依らない分類根拠を得られ、頑健性が向上したと考察
できる。
ImageNet-C
（ICLR2019, Hendrycks et al.(2019))
Stylized ImageNet
（ICLR2019, Geirhos et al. (2019) ）
BENCHMARKING NEURAL NETWORK ROBUSTNESS TO COMMON
CORRUPTIONS AND PERTURBATIONS

まとめ
「CNNは形状ではなくテクスチャを見ている」という報告がICLR2019
でされ、その仮説を補強するような結果がいくつか見られた。
この性質を深く理解することで、新たな研究結果が生まれるかもしれな
い。

190602 what does_cnn_see

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Mehr von 亮宏藤井

Mehr von 亮宏藤井 (8)