SlideShare ist ein Scribd-Unternehmen logo
1 von 27
いきなりですが、問題です
これは何でしょう?
①ネコ
②イヌ
③ゾウ
これは何でしょう?
①ネコ
②イヌ
③ゾウ
これは何でしょう?
①カバ
②サイ
③ゾウ
これは何でしょう?
①カバ
②サイ
③ゾウ
これは何でしょう?
①ネコ
②サイ
③ゾウ
これは何でしょう?
①ネコ
②サイ
③ゾウ
CNNによる認識率は…
ImageNetを学習したResNet50では(c)を
うまく識別できていない
IMAGENET-TRAINED CNNS ARE BIASED
TOWARDS TEXTURE; INCREASING SHAPE
BIAS IMPROVES ACCURACY AND
ROBUSTNESS.
@mo_takusan9922
20181205
Under review at ICLR 2019 (review scores 8,8,7)
自己紹介
• 理工学部情報工学科3年
• KCS
• 気づいたら公式サイトに投稿
している記事がunityしかない
Significance
• ImageNetでCNNが学習しているのは主にテクスチャであり、
オブジェクトの形はほとんど学習していないことを示した
• ImageNetにスタイル変換を施した学習セット(SIN)を用いるこ
とで形に注目が行く
BackGround : ImageNet (IN)
• 1400万枚以上の画像が収録されているデータセット
• 2万枚以上のカテゴリに分かれている
• ベンチマークとしても良く利用される
https://cs.stanford.edu/people/karpathy/cnnembed/
BackGround : CNNの学習
• CNNは層を経るごとにエッジなどの低いレベルの特徴量を学習
し組み合わせることで複雑な形状を認識していると考えられて
いる
• 物体検出においては形状の傾向を獲得する方が重要[Ritter et
al. , 2017]
BackGround : CNNの学習
• ImageNetを学習したVGG16などは以下のようにモザイク状に
した画像に対しても高い認識率を誇る[Anonymous, 2018]
BackGround : CNNの学習
• エッジの認識が重要であるのにも関わらず、テクスチャの学習
しかしていない
→ この問題を解決することが
深層学習、CV及び神経科学分野において重要
Method : Psychophysical Experiments
• Geirhos et al. (2018) のパラダイムに従って、同じ画像におけ
るの人間と CNN の分類のパフォーマンスを正確に直接比較
Method : Data Set (Phychophysics)
• 以下の画像に対して物体認識タスクを行い、テクスチャ及び形
状のバイアスを評価する
• オリジナル : 元の画像
• グレースケール : 輝度情報のみ
• シルエット : 影のみ
• エッジ : 輪郭のみ
• テクスチャ : 質感のみ
• キューコンフリクト : 画風変換によってテクスチャを変化させたもの
Method : Stylized-ImageNet (SIN)
• 元画像のテクスチャ情報を除去しランダムに選ばれた画像のテ
クスチャ情報を付与したImageNetデータセットで学習
• テクチャ付与にはAdaIN style transfer[Huang & Belongie,
2017]による画風変換を利用
Results : Shape vs Texture
Results : Shape vs Texture
Results : Overcoming The Texture Bias
• CNNがテクスチャにバイアスをかけてしまった原因はデータ
セットにあると考えられる
• ImageNetはローカルな情報のみを利用して高い認識精度を達
成できることが知られている[Anonymous, 2018]
→ SINを利用することでこの仮説を検証
Results : Overcoming The Texture Bias
Results : Overcoming The Texture Bias
Results : Robustness and Accuracy
• 形状にバイアスをかけたResNet-50のロバスト性と精度を以下
の方法で向上させる
• INとSINを合わせたデータセットで学習させる
• INに対してfine-tuningした状態でINとSINを合わせたデータセットを
使って学習させる(=Shape-ResNet)
• これらを通常のResNet-50と次のようにして比較
1. IN の分類性能
2. Pascal VOC 2007 への転位学習
3. 画像の摂動に対する頑健性
Results : Robustness and Accuracy
• IN の分類性能
• Pascal VOC 2007 への転位学習
Results : Robustness and Accuracy
• 画像の摂動に対する頑健性
参考
• Robert Geirhos. IMAGENET-TRAINED CNNS ARE BIASED
TOWARDS TEXTURE; INCREASING SHAPE BIAS IMPROVES
ACCURACY AND ROBUSTNESS. Under review as a
conference paper at ICLR 2019. 2018
• @karpathy. t-SNE visualization of CNN. Results
codeshttps://cs.stanford.edu/people/karpathy/cnnembed/.
(参照日: 2018/12/02)
• Stanford Vision Lab, Stanford University, Princeton
University.ImageNet. http://www.image-net.org/ .2016

Weitere ähnliche Inhalte

Mehr von KCS Keio Computer Society

ゼロから作るDeepLearning 2~3章 輪読
ゼロから作るDeepLearning 2~3章 輪読ゼロから作るDeepLearning 2~3章 輪読
ゼロから作るDeepLearning 2~3章 輪読KCS Keio Computer Society
 
ゼロから作るDeepLearning 3.3~3.6章 輪読
ゼロから作るDeepLearning 3.3~3.6章 輪読ゼロから作るDeepLearning 3.3~3.6章 輪読
ゼロから作るDeepLearning 3.3~3.6章 輪読KCS Keio Computer Society
 
[論文略説]Stochastic Thermodynamics Interpretation of Information Geometry
[論文略説]Stochastic Thermodynamics Interpretation of Information Geometry[論文略説]Stochastic Thermodynamics Interpretation of Information Geometry
[論文略説]Stochastic Thermodynamics Interpretation of Information GeometryKCS Keio Computer Society
 
Outrageously Large Neural Networks:The Sparsely-Gated Mixture-of-Experts Laye...
Outrageously Large Neural Networks:The Sparsely-Gated Mixture-of-Experts Laye...Outrageously Large Neural Networks:The Sparsely-Gated Mixture-of-Experts Laye...
Outrageously Large Neural Networks:The Sparsely-Gated Mixture-of-Experts Laye...KCS Keio Computer Society
 
ハミルトニアンモンテカルロ法についての説明
ハミルトニアンモンテカルロ法についての説明ハミルトニアンモンテカルロ法についての説明
ハミルトニアンモンテカルロ法についての説明KCS Keio Computer Society
 
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...KCS Keio Computer Society
 
U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介
U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介
U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介KCS Keio Computer Society
 

Mehr von KCS Keio Computer Society (20)

Word2vec alpha
Word2vec alphaWord2vec alpha
Word2vec alpha
 
テンソル代数
テンソル代数テンソル代数
テンソル代数
 
Hindsight experience replay
Hindsight experience replayHindsight experience replay
Hindsight experience replay
 
Kml 輪読514
Kml 輪読514Kml 輪読514
Kml 輪読514
 
ゼロから作るDeepLearning 5章 輪読
ゼロから作るDeepLearning 5章 輪読ゼロから作るDeepLearning 5章 輪読
ゼロから作るDeepLearning 5章 輪読
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
ゼロから作るDeepLearning 2~3章 輪読
ゼロから作るDeepLearning 2~3章 輪読ゼロから作るDeepLearning 2~3章 輪読
ゼロから作るDeepLearning 2~3章 輪読
 
ゼロから作るDeepLearning 4章 輪読
ゼロから作るDeepLearning 4章 輪読ゼロから作るDeepLearning 4章 輪読
ゼロから作るDeepLearning 4章 輪読
 
Soft Actor Critic 解説
Soft Actor Critic 解説Soft Actor Critic 解説
Soft Actor Critic 解説
 
ゼロから作るDeepLearning 3.3~3.6章 輪読
ゼロから作るDeepLearning 3.3~3.6章 輪読ゼロから作るDeepLearning 3.3~3.6章 輪読
ゼロから作るDeepLearning 3.3~3.6章 輪読
 
[論文略説]Stochastic Thermodynamics Interpretation of Information Geometry
[論文略説]Stochastic Thermodynamics Interpretation of Information Geometry[論文略説]Stochastic Thermodynamics Interpretation of Information Geometry
[論文略説]Stochastic Thermodynamics Interpretation of Information Geometry
 
Graph Convolutional Network 概説
Graph Convolutional Network 概説Graph Convolutional Network 概説
Graph Convolutional Network 概説
 
AIを作ることと理解すること
AIを作ることと理解することAIを作ることと理解すること
AIを作ることと理解すること
 
Random forest の解説
Random forest の解説Random forest の解説
Random forest の解説
 
Outrageously Large Neural Networks:The Sparsely-Gated Mixture-of-Experts Laye...
Outrageously Large Neural Networks:The Sparsely-Gated Mixture-of-Experts Laye...Outrageously Large Neural Networks:The Sparsely-Gated Mixture-of-Experts Laye...
Outrageously Large Neural Networks:The Sparsely-Gated Mixture-of-Experts Laye...
 
ハミルトニアンモンテカルロ法についての説明
ハミルトニアンモンテカルロ法についての説明ハミルトニアンモンテカルロ法についての説明
ハミルトニアンモンテカルロ法についての説明
 
AI班ハードウェア領域
AI班ハードウェア領域AI班ハードウェア領域
AI班ハードウェア領域
 
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
 
U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介
U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介
U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介
 
TDAの概要と適用・有用性
TDAの概要と適用・有用性TDAの概要と適用・有用性
TDAの概要と適用・有用性
 

Kürzlich hochgeladen

論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 

Kürzlich hochgeladen (11)

論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 

Imagenet trained cnns-are_biased_towards

Hinweis der Redaktion

  1. for VGG-16, BagNet-9/17/33 reach 0.70 / 0.79 / 0.88
  2. CNNによる推論と同じくらいの時間で直観的に選ばせた
  3. この時、オリジナルとテクスチャの選び方は使用するモデル全てでうまく分類できたもの これに対してオリジナルにグレースケール、シルエット、、などの変化を付ける これによってテクスチャによって分類できたのか、それとも形状によって分類できたのかわかる
  4. 反復様式では非常に長い時間かかる 単体のフィードフォワードで任意の画風に変換できるという点で採用された
  5. ほぼすべてのオブジェクトとテクスチャ画像 (オリジナルとテクスチャデータセット) CNNs と人間の両方によって正しく認識された 形状とテクスチャ情報を両方含んでいるグレースケール画像でも同様にうまく認識された シルエット画像の場合、明らかに人間よりもImageNetで訓練されたCNNは認識制度が低い エッジの場合はさらに顕著 したがって人間はテクスチャ情報を持たない画像に対してもうまく認識できるのに対してImageNetで学習されたCNNはテクスチャ情報が存在しない場合は認識できない これはエッジの画像をネットワークが過去に見たことがないために 訓練時に存在しなかったスケッチ画像は自然な画像からの統計量が大きく異なるため 訓練時に学習しなかったドメインに対してはうまく適応することができないことを示す。 これ現実の画像で学習したCNNではアニメ画像をうまく識別することができないとかいうの前からなかったっけ?って思いました ものは言いようかな?と… シルエットを生成するためにオブジェクトの輪郭が黒い色で埋められた場合、CNN の認識精度は人間の精度よりもはるかに低かった。これは、さらにエッジ刺激のために顕著であった, 人間のオブザーバーは、テクスチャ情報をほとんど持っていない画像とはるかに良い対処することを示す.これらの実験の1つの混同は CNNs が (ネットワークが前に決して見たことがない) スケッチに (ネットワークが訓練された) 自然なイメージからのイメージの統計量の大きい変更すなわち領域の転位とうまく対処しない傾向があることである。
  6. 人間が赤丸 AlexNetがムラサキダイヤモンド VGG16が青い三角 GoogLeNetが水色丸 ResNet-50がグレー正方形 人間は正しく認識できたカテゴリでは95.9%で形状を元に決定を行っていることを示す。 CNNでは多くの場合、テクスチャを元に決定していることが分かる AlexNet: 42.9% 対 57.1%; VGG-16: 17.2% shape 82.8% GoogLeNet: 31.2% 対 68.8%; ResNet-50: 22.1% 対 77.9%
  7. 画像全体の形状を統合し分類するプロセスを経るのではなく、たくさんの部分的なテクスチャの様子を統合するだけで十分に認識できる
  8. (学習に利用したデータセット)→(テストに利用したデータセット) SINを利用した場合に認識精度が低下するのはSINがINに比べて難しいタスクであるため SIN→INでは認識率が改善していることからも分かる BagNetはResNet-50のアーキテクチャを持つが、認識するために利用する画像領域の最大サイズを33*33、17*17、9*9に制限したもの 「画像全体の形状を統合し分類するプロセスを経るのではなく、たくさんの部分的なテクスチャの様子を統合するだけで十分に認識できる」を証明できる
  9. 赤丸:人間 黄四角:SINのResNet-50 灰四角:INのResNet-50 SINによって学習することによって、INでは22%しか形状を見ていなかったResNet-50が81%も形状を見るように変化した
  10. 赤丸:人間 黄四角:SINのResNet-50 灰四角:INのResNet-50 SINによって学習することによって、INでは22%しか形状を見ていなかったResNet-50が81%も形状を見るように変化した
  11. トップ1と top5 ImageNet の検証精度に関して、バニラ ResNet を凌駕しています。これは、SIN が ImageNet での有用なデータ増大であり、アーキテクチャの変更なしにモデルのパフォーマンスを向上できることを示しています。 パスカル VOC の 2007.トレーニングデータに SIN を組み込むことで70.7だったmAP50の認識率が75.1へと向上。 テクスチャベース表現よりも経常ベース表現は有益であるという直感に沿っている。 MAPは物体認識タスクにおいて現れた正解ラベルの内どれだけ正しく認識できたかの平均を全てのオブジェクトに対して平均をとったもの mAP50 のオブジェクト検出性能が大幅に向上します。これは、オブジェクトの検出のために、形状ベースの表現は、テクスチャベースの表現よりも有益であるという直感に沿って、物体を包含する地上の真理の長方形は、グローバルオブジェクトの形状に合わせたデザインであるためです。
  12. ノイズ、コントラスト変化、ハイ・ローパスフィルタリング、Eidolonなどによって画像が歪んでいる場合のモデルの精度がどれほど劣化するかテストした結果 SINで学習したモデルの方が、ほとんど全ての歪みに対してINで学習したものよりも良い結果を示している。 Lowパスフィルタでは唯一悪い結果を示したが、ローパスフィルタによってエッジ情報が無くなるためだと考えられる。 しかし全体としては人間の歪みに対するロバスト性にかなり近くなっている。 歪みに対する頑健性または位相ノイズ、コントラスト変化、ハイ・ローパスフィルタリング、まぼろし摂動などによって画像が歪んでいる場合、モデルの精度がどのように劣化するかを体系的にテストしました。この比較の結果、ヒト参照用のデータは、図6の視覚化である。歪み画像の数パーセントの精度を欠いている間、罪の訓練を受けたネットワークは、ほとんどすべての画像操作で訓練を受けた CNN よりも優れています。(ローパスフィルタリング/ブラーは、sin によって訓練されたネットワークがより影響を受けやすい唯一のディストーションタイプであり、絵画を通した sin の高周波信号の過剰表現と鋭いエッジへの依存に起因する可能性があります。罪の訓練を受けた ResNet-50 は、訓練中に歪みのいずれかを見たことがないにもかかわらず、人間レベルの歪みの堅牢性に近づく。