Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

MIRU_Preview_JSAI2019

1.401 Aufrufe

Veröffentlicht am

Multi-task learning and visual explanation using CNN

Veröffentlicht in: Technologie
  • DOWNLOAD FULL BOOKS, INTO AVAILABLE FORMAT ......................................................................................................................... ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/y3nhqquc } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/y3nhqquc } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/y3nhqquc } ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/y3nhqquc } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/y3nhqquc } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/y3nhqquc } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Antworten 
    Sind Sie sicher, dass Sie …  Ja  Nein
    Ihre Nachricht erscheint hier

MIRU_Preview_JSAI2019

  1. 1. Convolutional Neural Networkによる 画像認識と視覚的説明 1 山下 隆義 中部大学 機械知覚ロボティクスグループ mprg.jp
  2. 2. 画像認識分野での深層学習 • 物体認識のコンペティションを通じて飛躍的に進歩 AlexNet VGG16 GoogLeNet ResNet Team year Error (top-5) AlexNet 2012 15.3% Clarifai 2013 11.2% VGG 2014 7.32% GoogLeNet 2014 6.67% ResNet 2015 3.57% ResNet+ 2016 2.99% SENet 2017 2.25% human expert 5.1% 2 classification task
  3. 3. CNN(深層学習)の長所 入出力の組み合わせ次第で色々な問題に応用できる 3
  4. 4. 様々なタスクへの応用例 姿勢推定 セグメンテーション 物体検出 行動認識 4
  5. 5. 様々なタスクへの応用例 フロー推定 強化学習 SLAM 画像生成(GAN) 5
  6. 6. CNN(深層学習)の長所 入出力の組み合わせ次第で色々な問題に応用できる 6 複数の問題を同時に実行できる(マルチタスク)
  7. 7. マルチタスク学習のポイント 7 どのようなタスクを組み合わせるか? どのように学習するか?
  8. 8. マルチタスク〜物体検出+インスタンスセグメンテーション〜 • Mask R-CNN • 検出とセグメンテーションを同時に行う 8 K. He, “Mask R-CNN“, ICCV2017.
  9. 9. マルチタスク〜物体検出+セグメンテーション〜 • シングルショット系物体検出をエンコード・デコード構造で行う 9 C. Fu, W. Liu, “DSSD : Deconvolutional Single Shot Detector", arXiv:1701.06659, 2017
  10. 10. マルチタスク〜物体検出+セグメンテーション〜 • シングルショット系物体検出をエンコード・デコード構造で行う • 物体検出とセグメンテーションを同時に行う • セグメンテーション結果をNMSに反映 10 荒木, “マルチタスク学習を導入したDeconvolutional Single Shot Detectorによる物体検出とセグメンテーションの高精度化", MIRU2018
  11. 11. 評価結果(セグメンテーション) 11 手法 Global Accuracy[%] Class Accuracy[%] Mean IoU[%] SegNet 78.19 72.16 53.97 提案手法 91.80 87.31 78.30 +14% +15% +24% 入力画像 教師画像 SegNet 提案手法 荒木, “マルチタスク学習を導入したDeconvolutional Single Shot Detectorによる物体検出とセグメンテーションの高精度化", MIRU2018
  12. 12. 評価結果(物体検出) 12 手法 識別率[%] 未検出率[%] boxの重なり率[%] DSSD 88.43 30.19 81.37 提案手法 91.50 29.68 83.68 +3% +0.5% +2% DSSD 提案手法 検出位置精度が向上 荒木, “マルチタスク学習を導入したDeconvolutional Single Shot Detectorによる物体検出とセグメンテーションの高精度化", MIRU2018
  13. 13. マルチタスク〜GAN+属性推定〜 • 特定の属性を含む画像を生成できるようにGeneratorDiscriminatorを改 良 • Discriminatorをマルチタスク化 13 足立, “重みを導入したConditional Generative Adversarial Networkによる顔画像生成の高品質化", MIRU2018 z Deconv3Deconv2 Deconv1 属性情報y generated image conv1 conv2 FC real image
  14. 14. マルチタスク〜GAN+属性推定〜 14 足立, “重みを導入したConditional Generative Adversarial Networkによる顔画像生成の高品質化", MIRU2018 女性+笑顔 女性+サングラス
  15. 15. マルチタスク〜GAN+属性推定〜 15 足立, “重みを導入したConditional Generative Adversarial Networkによる顔画像生成の高品質化", MIRU2018 男性+笑顔 男性+サングラス+ヒゲ
  16. 16. マルチタスク化したネットワーク構造 Hard Parameter SharingSoft Parameter Sharing タスクごとに個別のネットワーク 各層で特徴が近くなるように学習 共通した層と個別の層で構成 低層で共通な特徴を学習 16 S.Ruder, "An Overview of Multi-Task Learning in Deep Neural Networks, arXiv:1706.05098, 2017.
  17. 17. マルチタスク〜顔器官点+属性推定〜 • Shared LayersとTask-specific Layersを並列に構築 • Shared Layersの特徴は各Task-specific Layersに入力 • タスク共通の特徴とタスク固有の特徴を考慮した学習および推定が 可能 17 Input Conv Conv Conv FC Output Conv Conv Conv FC Output Conv Conv Conv Task-specific Layers (TaskA) Task-specific Layers (TaskB) Shared Layers 128×128 Input image Arched_Eyebrows 5_o_Clock_Shadow Young ・・・ 顔器官点検出 顔属性推定 松井, “Separation Multi-task Networksによる顔器官点と顔属性の同時推定”, PRMU研究会, 2018.10
  18. 18. 特徴マップの可視化結果例 18 Input SharedLayers FacialLandmark Detection FacialAttribute Estimation 松井, “Separation Multi-task Networksによる顔器官点と顔属性の同時推定”, PRMU研究会, 2018.10
  19. 19. 特徴マップの可視化結果例 19 Input SharedLayers FacialLandmark Detection FacialAttribute Estimation 松井, “Separation Multi-task Networksによる顔器官点と顔属性の同時推定”, PRMU研究会, 2018.10
  20. 20. 顔属性推定の精度比較 • CelebAデータセットにおいて,従来手法を上回る推定精度を達成 20 Average [%] FaceTracer [Kumar+, 2008] 81.1 PANDA-w [Zhang+, 2014] 79.8 PANDA-l [Zhang+, 2014] 85.4 LNets + ANet [Liu+, 2015] 87.3 Baseline 89.9 Ours ( Seperation Multi-task Network ) 90.0 松井, “Separation Multi-task Networksによる顔器官点と顔属性の同時推定”, PRMU研究会, 2018.10
  21. 21. 入力と出力の関係だけで良いのか?
  22. 22. 認識から制御までの一貫学習による自動運転 • End-to-End学習による自動運転 – NVIDIA Self-Driving Cars [Borjaski+, arXiv’16] 22 ニューラルネットの学習 学習済みのニューラネットが操舵角を出力 https://devblogs.nvidia.com/parallelforall/deep-learning-self-driving-cars/ https://www.youtube.com/watch?v=qhUvQiKec2U
  23. 23. シミュレータ(GTAV)の利用 • 人が実際にGrand Theft Auto V (GTAV)を走行してデータを収集 – 取得データ:フレーム,ステアリング,スロットル,車体速度 23 村瀬, “自己状態を付与したCNNによる自動運転制御の高精度化”, PRMU研究会, 2017.10
  24. 24. ステアリングとスロットルの制御値の推定 • 画像と車体速度を入力しステアリングとスロットルの制御値を回帰 24 入力1: 畳み込み層 (5層) RGB画像 (1フレーム ) - Back prop. 車体速度入力2: 学習データ: ステアリングとスロットルの命令値を記録 誤差 ステアリング スロットル 出力: Conv.1 Conv.2 Conv.3 Conv.4 Conv.5 Fc.6 Fc.7 Fc.8 Output 全結合層 (3層) 村瀬, “自己状態を付与したCNNによる自動運転制御の高精度化”, PRMU研究会, 2017.10
  25. 25. 一貫学習による自動走行例(上り坂) 25 カメラ映像のみを入力 自己状態を付与 村瀬, “自己状態を付与したCNNによる自動運転制御の高精度化”, PRMU研究会, 2017.10
  26. 26. 一貫学習による自動走行例(下り坂) 26 カメラ映像のみを入力 自己状態を付与 村瀬, “自己状態を付与したCNNによる自動運転制御の高精度化”, PRMU研究会, 2017.10
  27. 27. 安全度を考慮した自動走行 • ネットワークの全結合層に安全度を導入 • 安全度:スロットルの開閉度合いをもとに定義 • 運転モードの切り替えが可能 27 -ステアリング,スロットル 教師データ : ステアリング,スロットル 誤差 逆伝播
  28. 28. 安全度を考慮した自動走行 28 速度 安全度 速度推移 アクセル, ブレーキ
  29. 29. 安全度を考慮した自動走行 29
  30. 30. 30 ディープラーニングは何を見ている?
  31. 31. 深層学習の判断根拠を解釈するには? • 入力に対する感度を分析:SmoothGrad [Similkov+, arXiv’17] • 様々な入力から出力の傾向を推定:LIME [Ribeiro+, KDD’16] • 入力に対する着眼点(アテンション)をモデルに組み込む: • Class Activation Mapping(CAM) [Zhou+, CVPR’16], • GradCAM [Selvaraju+, arXiv’16] • Residual Attention Network [Wang+, CVPR’17] 31 Qiita @icoxfog417 “ディープラーニングの判断根拠を理解する手法” https://qiita.com/icoxfog417/items/8689f943fd1225e24358 SmoothGrad LIME CAM
  32. 32. Class Activation Mapping (CAM) • CNNの推論において反応した領域をヒートマップとして可視化 • 畳み込み層のみで構築したCNN + Global Average Poolingを使用 32 Conv.1_1 Conv.1_2 Conv.2_1 Conv.2_2 Conv.3_1 Conv.3_2 Conv.3_3 Conv.4_1 Conv.4_2 Conv.4_3 Conv.5_1 Conv.5_2 Conv.5_3 Global average pooling Output … Average Average Average Feature map w1 w2 w3× × ×+ + + ・・・ = Class activation mapping Attention map … … … Australian terrier w1 w2 w3 B. Zhou, “Learning Deep Features for Discriminative Localization”, CVPR2016
  33. 33. CAMによるアテンションマップ • 該当クラスの注目領域をハイライト 33 B. Zhou, “Learning Deep Features for Discriminative Localization”, CVPR2016
  34. 34. Class Activation Mappingの問題点 ImageNet Dataset (validation)の比較結果 • GAPを通過して推論するため識別性能が低下 34 B. Zhou, “Learning Deep Features for Discriminative Localization”, CVPR2016
  35. 35. Attention Branch Network • GAPからAttention mapを生成するネットワーク • Feature extractor:特徴マップを出力 • Attention Branch:Attention mapを生成 • Perception Branch:Attention mapを用いて最終的な推論結果を出力 Attention Branch GAP Res. Attention Block Perception Branch Output layer Res.Block5 × ΣAttention map Inputimage Feature Extractor Conv.1 Res.Block2 Res.Block3 Res.Block4 学習誤差 𝐿 (𝐱) = 𝐸 (𝐱) + 𝐸 (𝐱) 𝐸 (𝐱) 𝐸 (𝐱) Attention branchの学習誤差 (Softmax + Cross entropy) Perception branchの学習誤差 (Softmax + Cross entropy) 35 H. Fukui, “Attention Branch Network: Learning of Attention Mechanism for Visual Explanation”, CVPR2019
  36. 36. … 特徴マップ@ResBlock4 Feature Extractor conv.1〜Res.Block4 Attention Branch Networkの推論処理 Attention Branch GAP Res. Attention Block Perception Branch Feature Extractor Attention map • 特徴マップにAttention mapを乗算してPerception Branchで推論 • Perception Branchの出力を最終的な推論結果として使用 36 Input image Attention map … × Attention map 特徴マップ Res.Block5 Classification result Output layer Σ H. Fukui, “Attention Branch Network: Learning of Attention Mechanism for Visual Explanation”, CVPR2019
  37. 37. 一般物体認識(画像分類タスク) 37 CIFAR100 DatasetImageNet Dataset 100クラスの物体認識 - 学習サンプル数:60,000 - 評価サンプル数:10,000 1000クラスの物体認識 - 学習サンプル数:1,281,167 - 評価サンプル数:50,000 H. Fukui, “Attention Branch Network: Learning of Attention Mechanism for Visual Explanation”, CVPR2019
  38. 38. ImageNetにおける認識精度比較 38 Panther Attention mapの可視化結果 Gold fish Boston terrier ネットワーク ResNet50 RsNet101 ResNet152 Attentionの有無 無し 有り 無し 有り 無し 有り Top-1 error 24.1 23.1 22.5 21.8 22.2 21.4 Top-5 error 7.2 6.6 6.4 6.0 6.2 5.7 H. Fukui, “Attention Branch Network: Learning of Attention Mechanism for Visual Explanation”, CVPR2019
  39. 39. CIFAR100における認識精度比較 39 ネットワーク ResNet110 DenseNet Wide ResNet ResNeXt Attentionの有無 無し 有り 無し 有り 無し 有り 無し 有り Top-1 error 24.1 22.5 22.5 21.6 18.9 18.1 18.3 17.7 →ResNetの派生ネットワークに対しても応用可能 H. Fukui, “Attention Branch Network: Learning of Attention Mechanism for Visual Explanation”, CVPR2019
  40. 40. ABNのマルチタスク(顔属性認識)への適用 • タスク毎にAttention branchを導入し,アテンションマップを生成 • Perception branchはタスク毎のアテンションを利用してスコアを出力 Attention Branch GAP GAP GAP Multi-task Global Average Pooling Res. Attention Block Perception Branch Output layer (5_o_Clock_Shadow) Res.Block 5 × Attention map Output layer (Arched_Eyebrows) × Attention map Output layer (Young) … × Attention map Res.Block 5 Res.Block 5 Sharing weight Label (40 attributes) 40 →タスク毎のPerception BranchにてAttention mapを用いて顔属性を認識 Conv.1 Res.Block2 Res.Block3 Res. Block 4 H. Fukui, “Attention Branch Network: Learning of Attention Mechanism for Visual Explanation”, CVPR2019
  41. 41. 顔属性を認識する時の判断根拠 41 Heavy_Makeup Wearing_NecklaceSmiling Blond_Hair Wearing_Earrings入力
  42. 42. 自動運転と判断根拠の同時獲得 • 回帰推定に対応したAttention branchを導入してABNを構築 • 特徴マップに重み(カーネル)を畳み込んで連続値に変換 →A en on Branch, Regression Branchを回帰タスクとして学習 tanh × Σ 特徴マップ 重みフィルタ Weighted GAP Value 回帰タスク ステアリング:-1.0 ~ +1.0 スロットル:0 ~ 1.0 44 入力1: RGB画像 (1フレーム ) 車体速度入力2: Conv.1 Conv.2 Conv.3 Conv.4 Conv.5 Attention Branch GAP Conv.6 Conv.7 Conv.8 Conv.9 Attention Branch ΣAttention map Regression Branch × Fc.6 Fc.7 Fc.8 Output K. Mori, “Visual Explanation by Attention Branch Network for End-To-End Learning-Based Self-Driving", IV2019
  43. 43. 自動運転制御の視覚的説明 45 Attention map入力画像 K. Mori, “Visual Explanation by Attention Branch Network for End-To-End Learning-Based Self-Driving", IV2019
  44. 44. カーブ(ステアリング時)におけるアテンション 46 ステアリング:0.18 スロットル:0.07 Attention map 入力画 像 ステアリング:-0.04 スロットル:0.12 → ステアリングと反対方向の車線に沿ってアテンションが発生 K. Mori, “Visual Explanation by Attention Branch Network for End-To-End Learning-Based Self-Driving", IV2019
  45. 45. アテンションの言語説明 減速シーンにおける結果 47 Steering : 0.04  0.02 Throttle : 0.05  -0.15 man on a red motorcycle. Attention map Dense captioning キャプション選択入力画像 K. Mori, “Visual Explanation by Attention Branch Network for End-To-End Learning-Based Self-Driving", IV2019
  46. 46. マルチタスク〜強化学習+アテンション〜 • A3Cベースの深層強化学習にアテンションを導入 • A en on branch → 状態価値とアテンションマップを出力 • Percep on branch → アテンションマップを利用して行動を出力 48 Policy Value Attention map Attention branch Feature extractor Perception branch Global Network … … Policy ValueAttention branch Feature extractor Perception branch Environment 1 Environment n Policy ValueValue branch Feature extractor Policy branch Worker 1 Worker n Asynchronous … Asynchronous 福井, “Attention機構を導入したA3Cの提案", ロボット学会, 2018
  47. 47. マルチタスク〜強化学習+アテンション〜 49 # of iteration Score Score # of iteration Score # of iteration Beam Rider Battle Zone SpaceInvader 福井, “Attention機構を導入したA3Cの提案", ロボット学会, 2018
  48. 48. アテンションの利用価値は? 視覚的説明のみか? 50
  49. 49. Bayesian Attention Branch Network • 不確実性を考慮した ABN • Bayesian Neural Network を ABN に導入 • 学習時および評価時に Dropout を使用 • Residual Block 3・4 に Dropoutを追加 • 評価時に MCDO(Monte Carlo DropOut) を適用 51 Attention map Feature extractor Convolutionlayer1 Residual Block2 Inputimage Attention branch Conv. Conv. Convolution layers Perception branch Residual Block4 + Dropout GAP Conv. Residual Block3 + Dropout SoftmaxSoftmax 塚原, “不確実性の導入によるAttention Branch Network の信頼性向上, MIRU2019
  50. 50. Bayesian Attention Branch Network • 不確実性を考慮した ABN • MCDO によるサンプリング • 平均 :出力結果の推定 • エントロピー:不確実性の推定 • 不確実性の低い branch の出力結果を推論結果として採用 52 Output Attention map Feature extractor Convolutionlayer1 Residual Block2 Inputimage Attention branch Conv. Conv. Convolution layers Perception branch Residual Block4 + Dropout GAP Conv. Residual Block3 + Dropout Uncertainty Sampling Uncertainty Sampling SoftmaxSoftmax 塚原, “不確実性の導入によるAttention Branch Network の信頼性向上, MIRU2019
  51. 51. 認識精度の評価 • データセット:Imagenet • ベースネットワーク:ResNet152 53 手法 Top-1 Accuracy[%] Top-5 Accuracy[%] ResNet 77.81 - ABN 79.35 94.55 Bayesian ABN 80.31 95.01 Bayesian ABN が最も高い認識精度を達成 塚原, “不確実性の導入によるAttention Branch Network の信頼性向上, MIRU2019
  52. 52. 信頼度or不確実性を閾値とした場合の精度比較 • Bayesian ABN :ABN に対して認識精度向上 • 不確実性による閾値:認識精度との強い相関 54 塚原, “不確実性の導入によるAttention Branch Network の信頼性向上, MIRU2019
  53. 53. 不確実性とAttention mapの関係(CIFAR100) 55 入力画像 Attention map 不確実性 推論結果 正解ラベル :0.000 :ライオン :ライオン 不確実性 推論結果 正解ラベル :0.273 :椅子 :ネズミ 物体領域を注視 物体とは異なる領域を注視 塚原, “不確実性の導入によるAttention Branch Network の信頼性向上, MIRU2019
  54. 54. まとめ • マルチタスクに対応した畳み込みニューラルネットワーク • 入出力以外の補助情報の重要性 • 視覚的説明(アテンション)の抽出と活用 • Attention Branch Network • アテンションの手動修正 • 質問などは, takayoshi@isc.chubu.ac.jp @takayosiy 58
  55. 55. 参考文献 • K. He, “Mask R-CNN“, ICCV2017. • C. Fu, W. Liu, “DSSD : Deconvolutional Single Shot Detector", arXiv:1701.06659, 2017 • 荒木, “マルチタスク学習を導入したDeconvolutional Single Shot Detectorによる物体検出とセグメンテーションの高精度化", MIRU2018 • 足立, “重みを導入したConditional Generative Adversarial Networkによる顔画像生成の高品質化", MIRU2018 • S.Ruder, "An Overview of Multi-Task Learning in Deep Neural Networks, arXiv:1706.05098, 2017. • 松井, “Separation Multi-task Networksによる顔器官点と顔属性の同時推定”, PRMU研究会, 2018.10 • https://devblogs.nvidia.com/parallelforall/deep-learning-self-driving-cars/ • 村瀬, “自己状態を付与したCNNによる自動運転制御の高精度化”, PRMU研究会, 2017.10 • B. Zhou, “Learning Deep Features for Discriminative Localization”, CVPR2016 • H. Fukui, “Attention Branch Network: Learning of Attention Mechanism for Visual Explanation”, CVPR2019 • K. Mori, “Visual Explanation by Attention Branch Network for End-To-End Learning-Based Self-Driving", IV2019 • 福井, “Attention機構を導入したA3Cの提案", ロボット学会, 2018 • 塚原, “不確実性の導入によるAttention Branch Network の信頼性向上, MIRU2019 • M. Mitsuhara, “Embedding Human Knowledge in Deep Neural Network via Attention Map”, ArXiv 1905.03540, 2019 59
  56. 56. 教授 藤吉弘亘 Hironobu Fujiyoshi E-mail: fujiyoshi@isc.chubu.ac.jp 1997年 中部大学大学院博士後期課程修了, 1997年 米カーネギーメロン大学ロボット工学研究所Postdoctoral Fellow, 2000年 中部大学工学部 情報工学科講師, 2004年 中部大学准教授, 2005年 米カーネギーメロン大学ロボット工学研究所客員研究員(~2006年), 2010年 中部大学教授, 2014年名古屋大学客員教授. 計算機視覚,動画像処理,パターン認識・理解の研究に従事. ロボカップ研究賞(2005年),情報処理学会論文誌CVIM優秀論文賞(2009年),情報処理学会山下記念研究賞(2009年),画像センシングシンポ ジウム優秀学術賞(2010, 2013, 2014年) ,電子情報通信学会 情報・システムソサイエティ論文賞(2013年)他 准教授 山下隆義 Takayoshi Yamashita E-mail:takayoshi@isc.chubu.ac.jp 2002年 奈良先端科学技術大学院大学博士前期課程修了, 2002年 オムロン株式会社入社, 2009年 中部大学大学院博士後期課程修了(社会人 ドクター), 2014年 中部大学講師,2017年 中部大学准教授. 人の理解に向けた動画像処理,パターン認識・機械学習の研究に従事. 画像センシングシンポジウム高木賞(2009年),電子情報通信学会 情報・システムソサイエティ論文賞(2013年),電子情報通信学会PRMU 研究会研究奨励賞(2013年)受賞. 機械知覚&ロボティクス研究グループ 60 特任助教 平川 翼 Tsubasa Hirakawa E-mail:hirakawa@mprg.chubu.ac.jp 2013年 広島大学大学院博士課程前期終了,2014年 広島大学大学院博士課程後期入学,2017年 中部大学研究員 (~2019年),2017年 広島 大学大学院博士後期課程修了.2019年 中部大学特任助教.2014年 独立行政法人日本学術振興会特別研究員DC1.2014年 ESIEE Paris客 員研究員 (〜2015年). コンピュータビジョン,パターン認識,医用画像処理の研究に従事.

×