SlideShare ist ein Scribd-Unternehmen logo
1 von 74
Downloaden Sie, um offline zu lesen
CNNを用いた画像認識における判断根拠と
精度向上への活用方法
1
山下 隆義
中部大学 機械知覚ロボティクスグループ
mprg.jp
画像認識分野での深層学習
• 物体認識のコンペティションを通じて飛躍的に進歩
AlexNet
VGG16
GoogLeNet
ResNet
Team year Error (top-5)
AlexNet 2012 15.3%
Clarifai 2013 11.2%
VGG 2014 7.32%
GoogLeNet 2014 6.67%
ResNet 2015 3.57%
ResNet+ 2016 2.99%
SENet 2017 2.25%
human expert 5.1%
2
classification task
3
ディープラーニングは何を見ている?
深層学習の判断根拠を解釈するには?
• 入力に対する感度を分析:SmoothGrad [Similkov+, arXiv’17]
• 様々な入力から出力の傾向を推定:LIME [Ribeiro+, KDD’16]
• 入力に対する着眼点(アテンション)をモデルに組み込む:
• Class Activation Mapping(CAM) [Zhou+, CVPR’16],
• GradCAM [Selvaraju+, arXiv’16]
• Residual Attention Network [Wang+, CVPR’17]
4
Qiita @icoxfog417 “ディープラーニングの判断根拠を理解する手法”
https://qiita.com/icoxfog417/items/8689f943fd1225e24358
SmoothGrad LIME CAM
Class Activation Mapping (CAM)
• CNNの推論において反応した領域をヒートマップとして可視化
• 畳み込み層のみで構築したCNN + Global Average Poolingを使用
55
Conv.1_1
Conv.1_2
Conv.2_1
Conv.2_2
Conv.3_1
Conv.3_2
Conv.3_3
Conv.4_1
Conv.4_2
Conv.4_3
Conv.5_1
Conv.5_2
Conv.5_3
Global average pooling
Output
…
Average
Average
Average
Feature map
w1 w2 w3× × ×+ + + ・・・ =
Class activation mapping
Attention map
…
…
…
Australian terrier
w1
w2
w3
B. Zhou, “Learning Deep Features for Discriminative Localization”, CVPR2016
CAMによるアテンションマップ
• 該当クラスの注目領域をハイライト
6
B. Zhou, “Learning Deep Features for Discriminative Localization”, CVPR2016
Class Activation Mappingの問題点
ImageNet Dataset (validation)の比較結果
• GAPを通過して推論するため識別性能が低下
7
B. Zhou, “Learning Deep Features for Discriminative Localization”, CVPR2016
Attention Branch Network
• GAPからAttention mapを生成するネットワーク
• Feature extractor:特徴マップを出力
• Attention Branch:Attention mapを生成
• Perception Branch:Attention mapを用いて最終的な推論結果を出力
Attention Branch
GAP
Res.
Attention
Block
Perception Branch
Output layer
Res.Block5
×
ΣAttention map
Inputimage
Feature Extractor
Conv.1
Res.Block2
Res.Block3
Res.Block4
学習誤差 𝐿 𝑎𝑙𝑙(𝐱) = 𝐸 𝑎𝑡𝑡(𝐱) + 𝐸 𝑝𝑒𝑟(𝐱)
𝐸 𝑝𝑒𝑟(𝐱)
𝐸 𝑎𝑡𝑡(𝐱)
Attention branchの学習誤差
(Softmax + Cross entropy)
Perception branchの学習誤差
(Softmax + Cross entropy)
8
H. Fukui, “Attention Branch Network: Learning of Attention Mechanism for Visual Explanation”, CVPR2019
…
特徴マップ@ResBlock4
Feature Extractor
conv.1〜Res.Block4
Attention Branch Networkの推論処理
Attention Branch
GAP
Res.
Attention
Block
Perception Branch
Feature Extractor
Attention map
• 特徴マップにAttention mapを乗算してPerception Branchで推論
• Perception Branchの出力を最終的な推論結果として使用
9
Input image
Attention map
…
×
Attention map
特徴マップ
Res.Block5
Classification
result
Output layer
Σ
H. Fukui, “Attention Branch Network: Learning of Attention Mechanism for Visual Explanation”, CVPR2019
一般物体認識(画像分類タスク)
10
CIFAR100 DatasetImageNet Dataset
100クラスの物体認識
- 学習サンプル数:60,000
- 評価サンプル数:10,000
1000クラスの物体認識
- 学習サンプル数:1,281,167
- 評価サンプル数:50,000
H. Fukui, “Attention Branch Network: Learning of Attention Mechanism for Visual Explanation”, CVPR2019
ImageNetにおける認識精度比較
11
Panther
Attention mapの可視化結果
Gold fish Boston terrier
ネットワーク ResNet50 RsNet101 ResNet152
Attentionの有無 無し 有り 無し 有り 無し 有り
Top-1 error 24.1 23.1 22.5 21.8 22.2 21.4
Top-5 error 7.2 6.6 6.4 6.0 6.2 5.7
H. Fukui, “Attention Branch Network: Learning of Attention Mechanism for Visual Explanation”, CVPR2019
CIFAR100における認識精度比較
12
ネットワーク
ResNet110 DenseNet Wide ResNet ResNeXt
Attentionの有無 無し 有り 無し 有り 無し 有り 無し 有り
Top-1 error 24.1 22.5 22.5 21.6 18.9 18.1 18.3 17.7
→ResNetの派生ネットワークに対しても応用可能
H. Fukui, “Attention Branch Network: Learning of Attention Mechanism for Visual Explanation”, CVPR2019
ABNのマルチタスク(顔属性認識)への適用
• タスク毎にAttention branchを導入し,アテンションマップを生成
• Perception branchはタスク毎のアテンションを利用してスコアを出力
Attention Branch
GAP
GAP
GAP
Multi-task
Global Average Pooling
Res.
Attention
Block
Perception Branch
Output layer
(5_o_Clock_Shadow)
Res.Block
5
×
Attention
map
Output layer
(Arched_Eyebrows)
×
Attention
map
Output layer
(Young)
…
×
Attention
map
Res.Block
5
Res.Block
5
Sharing weight
Label
(40 attributes)
13
→タスク毎のPerception BranchにてAttention mapを用いて顔属性を認識
Conv.1
Res.Block2
Res.Block3
Res. Block 4
H. Fukui, “Attention Branch Network: Learning of Attention Mechanism for Visual Explanation”, CVPR2019
顔属性を認識する時の判断根拠
14
Heavy_Makeup Wearing_NecklaceSmiling Blond_Hair Wearing_Earrings入力
眼底画像の疾患判定への適用
• 眼底画像からの疾患判別
• ポリープ状脈絡膜血管症:加齢黄斑変性によって起こる脈絡膜部分の疾患
15
正常
疾患
眼底画像の疾患判定への適用
16
疾患眼底画像 専門家 従来手法(Grad-CAM) 提案手法(ABN)
自動運転と判断根拠の同時獲得
• 回帰推定に対応したAttention branchを導入してABNを構築
• 特徴マップに重み(カーネル)を畳み込んで連続値に変換
→Attention Branch, Regression Branchを回帰タスクとして学習
tanh
× Σ
特徴マップ 重みフィルタ
Weighted GAP
Value
回帰タスク
ステアリング:-1.0 ~ +1.0スロ
ットル:0 ~ 1.0
17
入力1:
RGB画像
(1フレーム)
車体速度入力2:
Conv.1
Conv.2
Conv.3
Conv.4
Conv.5
Attention Branch
GAP
Conv.6
Conv.7
Conv.8
Conv.9
Attention Branch
ΣAttention map
Regression Branch
×
Fc.6
Fc.7
Fc.8
Output
K. Mori, “Visual Explanation by Attention Branch Network for End-To-End Learning-Based Self-Driving", IV2019
自動運転制御の視覚的説明
18
Attention map入力画像
K. Mori, “Visual Explanation by Attention Branch Network for End-To-End Learning-Based Self-Driving", IV2019
カーブ(ステアリング時)におけるアテンション
19
ステアリング:0.18 スロットル:0.07
Attention map
入力画
像
ステアリング:-0.04 スロットル:0.12
→ ステアリングと反対方向の車線に沿ってアテンションが発生
K. Mori, “Visual Explanation by Attention Branch Network for End-To-End Learning-Based Self-Driving", IV2019
アテンションの言語説明
減速シーンにおける結果
20
Steering : 0.04  0.02
Throttle : 0.05  -0.15
man on a red motorcycle.
Attention map
Dense captioning
キャプション選択入力画像
K. Mori, “Visual Explanation by Attention Branch Network for End-To-End Learning-Based Self-Driving", IV2019
マルチタスク〜強化学習+アテンション〜
• A3Cベースの深層強化学習にアテンションを導入
• Attention branch → 状態価値とアテンションマップを出力
• Perception branch → アテンションマップを利用して行動を出力
21
Policy
Value
Attention map
Attention branch
Feature
extractor
Perception branch
Global Network
…
…
Policy
ValueAttention branch
Feature
extractor
Perception branch
Environment 1
Environment n
Policy
ValueValue branch
Feature
extractor
Policy branch
Worker 1
Worker n
Asynchronous
…
Asynchronous
福井, “Attention機構を導入したA3Cの提案", ロボット学会, 2018
マルチタスク〜強化学習+アテンション〜
22
# of iteration
Score
Score
# of iteration
Score
# of iteration
Beam Rider Battle Zone SpaceInvader
福井, “Attention機構を導入したA3Cの提案", ロボット学会, 2018
アテンションの利用価値は?
視覚的説明のみか?
23
Bayesian Attention Branch Network
• 不確実性を考慮した ABN
• Bayesian Neural Network を ABN に導入
• 学習時および評価時に Dropout を使用
• Residual Block 3・4 に Dropoutを追加
• 評価時に MCDO(Monte Carlo DropOut) を適用
24
Attention
map
Feature extractor
Convolutionlayer1
Residual
Block2
Inputimage
Attention branch
Conv.
Conv.
Convolution
layers
Perception branch
Residual
Block4
+
Dropout
GAP
Conv.
Residual
Block3
+
Dropout
SoftmaxSoftmax
塚原, “不確実性の導入によるAttention Branch Network の信頼性向上,
MIRU2019
Bayesian Attention Branch Network
• 不確実性を考慮した ABN
• MCDO によるサンプリング
• 平均 :出力結果の推定
• エントロピー:不確実性の推定
• 不確実性の低い branch の出力結果を推論結果として採用
25
Output
Attention
map
Feature extractor
Convolutionlayer1
Residual
Block2
Inputimage
Attention branch
Conv.
Conv.
Convolution
layers
Perception branch
Residual
Block4
+
Dropout
GAP
Conv.
Residual
Block3
+
Dropout
Uncertainty
Sampling
Uncertainty
Sampling
SoftmaxSoftmax
塚原, “不確実性の導入によるAttention Branch Network の信頼性向上,
MIRU2019
認識精度の評価
• データセット:Imagenet
• ベースネットワーク:ResNet152
26
手法
Top-1
Accuracy[%]
Top-5
Accuracy[%]
ResNet 77.81 -
ABN 79.35 94.55
Bayesian ABN 80.31 95.01
Bayesian ABN が最も高い認識精度を達成
塚原, “不確実性の導入によるAttention Branch Network の信頼性向上,
MIRU2019
信頼度or不確実性を閾値とした場合の精度比較
• Bayesian ABN :ABN に対して認識精度向上
• 不確実性による閾値:認識精度との強い相関
27
塚原, “不確実性の導入によるAttention Branch Network の信頼性向上,
MIRU2019
不確実性とAttention mapの関係(CIFAR100)
28
入力画像 Attention map
不確実性
推論結果
正解ラベル
:0.000
:ライオン
:ライオン
不確実性
推論結果
正解ラベル
:0.273
:椅子
:ネズミ
物体領域を注視
物体とは異なる領域を注視
塚原, “不確実性の導入によるAttention Branch Network の信頼性向上,
MIRU2019
手動(人の知見)によるネットワークの調整
• 誤認識したテストサンプルをうまく認識できるようにしたい
• DNNのパラメータを手動で調整
• パラメータ数が多大なので,何をどのように変更すれば良いか
• AlexNet:約6,110万パラメータ
• VGG:約1.4億パラメータ
• ResNet152:約6,019万パラメータ
29
…
特徴マップ@ResBlock4
Feature Extractor
conv.1〜Res.Block4
Attention Branch
GAP
Res. Attention
Block
Perception Branch
Feature Extractor
Attention map
Input image
Attention map
…
×
Res.Block
Classification
result
Output layer
Σ
Attention mapを調整
M. Mitsuhara, “Embedding Human Knowledge in Deep Neural Network via Attention Map”, ArXiv, 2019
手動によるAttention mapの調整(アプリ)
• 誤認識したテストサンプルをうまく認識できるようにしたい
• DNNのパラメータを手動で調整
– パラメータ数が多大なので,何をどのように変更すれば良いか?
• AlexNet:約6110万パラメータ数
• VGG:約1.4億パラメータ数
• ResNet152:約6019万パラメータ数
30
M. Mitsuhara, “Embedding Human Knowledge in Deep Neural Network via Attention Map”, ArXiv 1905.03540, 2019
Attention mapの修正による誤認識率の削減
31
修正したサンプル数 1,000枚
Top-1 error [%] Top-5 error [%]
修正前 100.0 19.0
修正後 83.2 15.8
ImageNet Dataset(validation)の誤認識率の変化
-16.8%
‘ambulance’: 0.98ambulance ‘police van’: 0.84eft ‘eft’: 0.97‘bottlecap’: 0.99
入力画像 修正前 修正後修正前入力画像修正後
Attention mapの修正により認識結果の改善が可能
M. Mitsuhara, “Embedding Human Knowledge in Deep Neural Network via Attention Map”, ArXiv 1905.03540, 2019
ABNのファインチューニング
• 人手で修正したAttention mapを用いてABNを ファイン
チューニング
32
M. Mitsuhara, “Embedding Human Knowledge in Deep Neural Network via Attention Map”, ArXiv 1905.03540, 2019
ABNのファインチューニング
• Step1:ABNが誤認識したAttention mapを収集
• Step2:人手でAttention mapを修正
33
M. Mitsuhara, “Embedding Human Knowledge in Deep Neural Network via Attention Map”, ArXiv 1905.03540, 2019
ABNのファインチューニング
• Step1:ABNが誤認識したAttention mapを収集
• Step2:人手でAttention mapを修正
34
M. Mitsuhara, “Embedding Human Knowledge in Deep Neural Network via Attention Map”, ArXiv 1905.03540, 2019
ABNのファインチューニング
• Step1:ABNが誤認識したAttention mapを収集
• Step2:人手でAttention mapを修正
35
M. Mitsuhara, “Embedding Human Knowledge in Deep Neural Network via Attention Map”, ArXiv 1905.03540, 2019
ABNのファインチューニング
• Step3:L2ノルム誤差を用いてAttention branchとPerception
branchをファインチューニング
36
𝐿 𝑎𝑙𝑙(x) = 𝐿 𝑎𝑡𝑡(x) + 𝐿 𝑝𝑒𝑟(x) + 𝐿 𝑚𝑎𝑝(x)
𝑀 x − 𝑀′(x) 2
M. Mitsuhara, “Embedding Human Knowledge in Deep Neural Network via Attention Map”, ArXiv 1905.03540, 2019
詳細画像識別における評価
• CUB-200-2010 Datasetによる評価
– 200種類の鳥画像を分類
• 学習サンプル数:3,000
• 評価サンプル数:3,033
37
CUB-200-2010 Dataset 修正したAttention map
M. Mitsuhara, “Embedding Human Knowledge in Deep Neural Network via Attention Map”, ArXiv 1905.03540, 2019
Model bubble Top-1 accuracy [%] Top-5 accuracy [%]
BoF [Deng+, CVPR’13] 〇 32.8 --
ResNet18 + ABN
×
32.38 57.27
ResNet34 + ABN 30.99 53.68
ResNet50 + ABN 31.68 57.01
Our (ResNet18 + ABN)
〇
36.00 62.41
Our (ResNet34 + ABN) 35.84 60.70
Our (ResNet50 + ABN) 36.93 63.14
認識精度の比較
38
ABNに提案手法を取り入れることで認識精度が向上
CUB-200-2010 Datasetの認識率の比較
M. Mitsuhara, “Embedding Human Knowledge in Deep Neural Network via Attention Map”, ArXiv 1905.03540, 2019
提案手法とABNにおけるAttention mapの比較
39
入力画像 ABN 提案手法
yellow-breasted chat ‘hooded oriole’
0.29
‘yellow-breasted chat’
0.54
green violetear ‘ruby-throated hummingbird’
0.70
‘green violetear’
0.88
認識性能と視覚的説明性が向上
M. Mitsuhara, “Embedding Human Knowledge in Deep Neural Network via Attention Map”, ArXiv 1905.03540, 2019
医用画像認識の評価
• INDIAN DIABETIC RETINOPATHY IMAGE DATASET(IDRiD) による評価
– 眼底画像による疾患のグレード識別を対象としたデータセット
– サンプル数:81
40
M. Mitsuhara, “Embedding Human Knowledge in Deep Neural Network via Attention Map”, ArXiv 1905.03540, 2019
認識精度の比較
提案手法の導入により認識性能が向上
41
92.89
93.34
93.73
92.0
92.2
92.4
92.6
92.8
93.0
93.2
93.4
93.6
93.8
94.0
AlexNet AlexNet + ABN Our (AlexNet + ABN)
Accuracy[%]
IDRiDの認識率の比較
M. Mitsuhara, “Embedding Human Knowledge in Deep Neural Network via Attention Map”, ArXiv 1905.03540, 2019
専門医
提案手法とABNのAttention mapの比較
42
入力画像 ABN 提案手法
疾患領域のみに注視領域が反応
M. Mitsuhara, “Embedding Human Knowledge in Deep Neural Network via Attention Map”, ArXiv 1905.03540, 2019
43
ネットワークを効率的に転移するには?
ネットワーク間の知識転移
– 知識を伝えることで成績が向上
44
Teacher
Student 𝑝2
𝑝1
蒸留
Student
Student 𝑝2
𝑝1
相互学習
南, “複数ネットワークの共同学習における知識転移グラフの自動最適化”, MIRU2019
ネットワークの蒸留
Knowledge Distillation (KD) [G. Hinton+, 2015]
45
Teacher
Student
𝑝2
Cross Entropy
Cross Entropy
𝑝1
label
pre-trained
Soft target
Hard target
Hard target + Soft targetで学習
南, “複数ネットワークの共同学習における知識転移グラフの自動最適化”, MIRU2019
𝑝1
𝑝2
label
Cross Entropy
KL divergence
Student
Student
相互学習
Deep Mutual Learning (DML) [Y. Zhang+, 2018]
– KDよりも精度が向上
46
KL divergenceで 𝑝1と 𝑝2を近づけ合う
南, “複数ネットワークの共同学習における知識転移グラフの自動最適化”, MIRU2019
蒸留・相互学習の派生手法
47
Student
Student 𝑝2
𝑝1
Student
Student
𝑝1
Student 𝑝3
𝑝2
Student
Student 𝑝2
𝑝1
Teacher
Student 𝑝2
𝑝1
Teacher
Student 𝑝2
𝑝1
Teacher
TA 𝑝2
𝑝1
Student 𝑝3
蒸留
相互学習
Knowledge distillation
[G. Hinton+, 2015]
Born Again
[Furlanello+, 2018]
Teacher assistant
[Mirzadeh+, 2019]
Deep Mutual Learning
[Y. Zhang+, 2018]
Largeモデル-Smallモデル 同一サイズ モデル数 ≧ 3
Largeモデル-Smallモデル 同一サイズ 中間モデルあり
蒸留・相互学習の派生手法
48
人が設計した限定的な学習方法
蒸留
相互学習
Largeモデル-Smallモデル 同一サイズ モデル数 ≧ 3
Largeモデル-Smallモデル 同一サイズ 中間モデルあり
本研究の目標
共同学習をクラスルームスケールへ拡張
– 多様性の高い学習が可能
49
提案手法
50
従来手法を内包しつつ
新しい学習方法を含むような表現方法を提案
(知識転移グラフの提案)
様々な共同学習が可能なフレームワークを構築
4種類のGate関数により知識転移を制御
南, “複数ネットワークの共同学習における知識転移グラフの自動最適化”, MIRU2019
グラフ表現への変換
51
Knowledge Distillation
𝑚2 𝑚1
Large Small
Teacher
Student 𝑝2
𝑝1
Student
Student 𝑝2
𝑝1
𝑚2 𝑚1
Large Small
Deep Mutual Learning
南, “複数ネットワークの共同学習における知識転移グラフの自動最適化”, MIRU2019
知識転移グラフ
52
南, “複数ネットワークの共同学習における知識転移グラフの自動最適化”, MIRU2019
𝑚3
𝑚1
𝑚2
𝐿 𝑦,1
𝐿 𝑦,2
𝐿 𝑦,3
𝐿1,2
𝐿1,3𝐿2,1
𝐿3,1
𝐿3,2
𝐿2,3
𝑦
𝑦
𝑦
知識転移グラフ
– 補助ノードが評価対象ノードの学習をサポートする
53
教師ラベル
評価対象ノード
ResNet
補助ノード
ResNet
Wide ResNet
DenseNet
…
南, “複数ネットワークの共同学習における知識転移グラフの自動最適化”, MIRU2019
𝑚3
𝑚1
𝑚2
𝐿 𝑦,1
𝐿 𝑦,2
𝐿 𝑦,3
𝐿1,2
𝐿1,3𝐿2,1
𝐿3,1
𝐿3,2
𝐿2,3
𝑦
𝑦
𝑦
知識転移グラフ
– 各エッジに異なる損失関数を定義
➢多様な学習方法を表現
54
損失関数
𝐿 = 𝐻(𝑝
𝑦
^ , 𝑝 𝑛)
𝐿 = 𝐾𝐿(𝑝 𝑛||𝑝 𝑚)
𝐿 = 0
…
南, “複数ネットワークの共同学習における知識転移グラフの自動最適化”, MIRU2019
𝑚3
𝑚1
𝑚2
𝐿 𝑦,1
𝐿 𝑦,2
𝐿 𝑦,3
𝐿1,2
𝐿1,3𝐿2,1
𝐿3,1
𝐿3,2
𝐿2,3
𝑦
𝑦
𝑦
– Knowledge Distillation (KD)
➢一方向の知識転移
知識転移グラフ
55
南, “複数ネットワークの共同学習における知識転移グラフの自動最適化”, MIRU2019
𝑚3
𝑚1
𝑚2
𝐿 𝑦,1
𝐿 𝑦,2
𝐿 𝑦,3
𝐿1,2
𝐿1,3𝐿2,1
𝐿3,1
𝐿3,2
𝐿2,3
𝑦
𝑦
𝑦
知識転移グラフ
56
– Deep Mutual Learning (DML)
➢双方向の知識転移
南, “複数ネットワークの共同学習における知識転移グラフの自動最適化”, MIRU2019
𝑚3
𝑚1
𝑚2
𝐿 𝑦,1
𝐿 𝑦,2
𝐿 𝑦,3
𝐿1,2
𝐿1,3𝐿2,1
𝐿3,1
𝐿3,2
𝐿2,3
𝑦
𝑦
𝑦
知識転移グラフ
– 損失関数の組み合わせを変える
➢ 新たな学習方法を表現可能
57
南, “複数ネットワークの共同学習における知識転移グラフの自動最適化”, MIRU2019
𝑚3
𝑚1
𝑚2
𝐿 𝑦,1
𝐿 𝑦,2
𝐿 𝑦,3
𝐿1,2
𝐿1,3𝐿2,1
𝐿3,1
𝐿3,2
𝐿2,3
𝑦
𝑦
𝑦
– ノード2からノード1への知識転移
𝐿
𝑦
^
,1
𝐿
𝑦
^
,2
𝐿1,2 𝐿3,1
𝐿3,2
𝐿2,3
𝑦
^
𝑦
^
𝑚1
𝑚2
𝐿2,1
損失関数
58
𝑚1𝑚2
Gate
KL div
Cutoff Gate
Linear Gate
Correct Gate
Through Gate
Loss
func
Forward
𝒑 𝒚2 𝒙) 𝒑 𝒚 𝟏 𝒙)
𝐿2,1(𝒑2, 𝒑1)
Hard target
or
Soft target
知識転移先
ノード
南, “複数ネットワークの共同学習における知識転移グラフの自動最適化”, MIRU2019
– ノード2からノード1への知識転移
𝐿
𝑦
^
,1
𝐿
𝑦
^
,2
𝐿1,2 𝐿3,1
𝐿3,2
𝐿2,3
𝑦
^
𝑦
^
𝑚1
𝑚2
𝐿2,1
損失関数
59
Gate
KL div
Cutoff Gate
Linear Gate
Correct Gate
Through Gate
Backprop
Detach
Loss
func
𝒑 𝒚2 𝒙) 𝒑 𝒚 𝟏 𝒙)
𝐿2,1(𝒑2, 𝒑1)
Hard target
or
Soft target
知識転移先
ノード
南, “複数ネットワークの共同学習における知識転移グラフの自動最適化”, MIRU2019
𝑚1𝑚2
Backward
– ノード2からノード1への知識転移
𝐿
𝑦
^
,1
𝐿
𝑦
^
,2
𝐿1,2 𝐿3,1
𝐿3,2
𝐿2,3
𝑦
^
𝑦
^
𝑚1
𝑚2
𝐿2,1
損失関数
60
Gate
KL div
Cutoff Gate
Linear Gate
Correct Gate
Through Gate
Forward
Hard target
or
Soft target
知識転移先
ノード
𝐿2,1(𝒑2, 𝒑1)
𝑚1
𝑚2
𝐿2,1
南, “複数ネットワークの共同学習における知識転移グラフの自動最適化”, MIRU2019
𝑚1𝑚2
𝐿
𝑦
^
,1
𝐿
𝑦
^
,2
𝐿1,2 𝐿3,1
𝐿3,2
𝐿2,3
𝑦
^
𝑦
^
𝑚1
𝑚2
𝐿2,1
損失関数
– ノード2からノード1への知識転移
61
Gate
Cutoff Gate
Linear Gate
Correct Gate
Through Gate
Forward
Hard target
or
Soft target
知識転移先
ノード
𝐺 𝐷 𝐾𝐿 = 𝐷 𝐾𝐿
変更を加えない
𝐿2,1(𝒑2, 𝒑1)
𝑚1
𝑚2
𝐿2,1
南, “複数ネットワークの共同学習における知識転移グラフの自動最適化”, MIRU2019
𝑚1𝑚2
KL div
𝐿
𝑦
^
,1
𝐿
𝑦
^
,2
𝐿1,2 𝐿3,1
𝐿3,2
𝐿2,3
𝑦
^
𝑦
^
𝑚1
𝑚2
𝐿2,1
𝑚1
𝑚2
𝐿2,1
損失関数
– ノード2からノード1への知識転移
62
Gate
Cutoff Gate
Linear Gate
Correct Gate
Through Gate
Forward
Hard target
or
Soft target
知識転移先
ノード
𝐺 𝐷 𝐾𝐿 = 0
常に0を出力する
(エッジを切断する)
𝐿2,1(𝒑2, 𝒑1)
南, “複数ネットワークの共同学習における知識転移グラフの自動最適化”, MIRU2019
𝑚1𝑚2
KL div
𝐿
𝑦
^
,1
𝐿
𝑦
^
,2
𝐿1,2 𝐿3,1
𝐿3,2
𝐿2,3
𝑦
^
𝑦
^
𝑚1
𝑚2
𝐿2,1
𝑚1
𝑚2
𝐿2,1
損失関数
– ノード2からノード1への知識転移
63
Gate
Cutoff Gate
Linear Gate
Correct Gate
Through Gate
Forward
Hard target
or
Soft target
知識転移先
ノード
𝐺 𝐷 𝐾𝐿 =
𝑡
𝑡 𝑚𝑎𝑥
∙ 𝐷 𝐾𝐿
時間と共に出力が
大きくなる
𝐿2,1(𝒑2, 𝒑1)
南, “複数ネットワークの共同学習における知識転移グラフの自動最適化”, MIRU2019
𝑚1𝑚2
KL div
𝐿
𝑦
^
,1
𝐿
𝑦
^
,2
𝐿1,2 𝐿3,1
𝐿3,2
𝐿2,3
𝑦
^
𝑦
^
𝑚1
𝑚2
𝐿2,1
𝑚1
𝑚2
𝐿2,1
損失関数
– ノード2からノード1への知識転移
64
Gate
Cutoff Gate
Linear Gate
Correct Gate
Through Gate
Forward
Hard target
or
Soft target
知識転移先
ノード
𝐺 𝐷 𝐾𝐿 = 𝛿
𝑦
^
, 𝑦 𝑚2
∙ 𝐷 𝐾𝐿
正解したサンプルの
情報のみを伝える
𝐿2,1(𝒑2, 𝒑1)
南, “複数ネットワークの共同学習における知識転移グラフの自動最適化”, MIRU2019
𝑚1𝑚2
KL div
𝐿
𝑦
^
,1
𝐿
𝑦
^
,2
𝐿1,2 𝐿3,1
𝐿3,2
𝐿2,3
𝑦
^
𝑦
^
𝑚1
𝑚2
𝐿2,1
𝑚1
𝑚2
𝐿2,1
損失関数
– ノード2からノード1への知識転移
65
Gate
Cutoff Gate
Linear Gate
Correct Gate
Through Gate
Forward
Hard target
or
Soft target
知識転移先
ノード
𝐿2,1(𝒑2, 𝒑1)
南, “複数ネットワークの共同学習における知識転移グラフの自動最適化”, MIRU2019
𝑚1𝑚2
KL div
知識転移グラフの最適化
ハイパーパラメータサーチで最適化
– 最適化手法:ASHA (Asynchronous Successive Halving Algorithm)
– パラメータ:Gate関数と補助ノード
66
𝑚3
𝑚1
𝑚2
𝐿
𝑦
^
,1
𝐿
𝑦
^
,2
𝐿
𝑦
^
,3
𝐿1,2
𝐿1,3𝐿2,1
𝐿3,1
𝐿3,2
𝐿2,3
𝑦
^
𝑦
^
𝑦
^
補助ノード
Gate関数
• ResNet32
• ResNet110
• WideResNet28-2
• Through Gate
• Cutoff Gate
• Linear Gate
• Correct Gate
評価対象ノード
• ResNet32
組み合わせ:1,179,648 通り(ノード数3の場合)
南, “複数ネットワークの共同学習における知識転移グラフの自動最適化”, MIRU2019
67
サーバ数 :30台
探索回数 :1500回
フレームワーク :Optuna
最適化によって獲得された知識転移グラフ
– 評価対象ノード :73.73%
– Vanillaモデル :70.71%
68
始めはKDライクな学習、次第にKD+DMLな学習が行われる
蒸留
相互学習
教師ラベル
評価対象ノード
補助ノード
(pre-trained)
補助ノード
教師ラベル
南, “複数ネットワークの共同学習における知識転移グラフの自動最適化”, MIRU2019
最適化によって獲得された知識転移グラフ
– 評価対象ノード :73.49%
– Vanillaモデル :70.71%
69
教師ラベルが存在しない
(pre-trainedモデルの知識のみを使って学習している)
pre-trained
南, “複数ネットワークの共同学習における知識転移グラフの自動最適化”, MIRU2019
従来手法との比較
– データセット :CIFAR-100
– 学習ノード数 :4
– 最適化対象ノード :ResNet32
70
Method Accuracy 補助ノード
vanilla 70.71 -
KD 71.88 WideResNet28-2 (pre-trained)
DML 72.76 ResNet32
Ours 73.36 ResNet32
Ours 74.34 ResNet32, WideResNet28-2
南, “複数ネットワークの共同学習における知識転移グラフの自動最適化”, MIRU2019
主要なデータセットによる評価
– 最適化対象ノード :ResNet32
71
ノード数 CIFAR10 CIFAR100 Tiny-ImageNet
vanilla 93.12 70.71 53.18
2 93.65 72.88 54.69
3 93.92 73.46 55.02
4 93.99 74.34 55.80
5 94.14 74.54 55.30
6 94.17 74.22 55.16
7 94.07 74.71 54.78
南, “複数ネットワークの共同学習における知識転移グラフの自動最適化”, MIRU2019
共同学習における知識転移グラフの自動最適化
■ 大規模並列分散環境での実験
■ グラフの分析
■ アンサンブルノードの追加
■ 中間層からの知識転移
■ Encoder-decoder
■ GANs
■ マルチタスクへの拡張
72
Github
https://github.com/somaminami/DCL
南, “複数ネットワークの共同学習における知識転移グラフの自動最適化”, MIRU2019
まとめ
• 視覚的説明(アテンション)の抽出と活用
• Attention Branch Network
• アテンションの手動修正
• 新たな蒸留・相互学習手法(共同学習)
• 質問などは, takayoshi@isc.chubu.ac.jp
ツィッター: @takayosiy
73
教授
藤吉弘亘 Hironobu Fujiyoshi E-mail: fujiyoshi@isc.chubu.ac.jp
1997年 中部大学大学院博士後期課程修了, 1997年 米カーネギーメロン大学ロボット工学研究所Postdoctoral Fellow, 2000年 中部大学工学部情
報工学科講師, 2004年 中部大学准教授, 2005年 米カーネギーメロン大学ロボット工学研究所客員研究員(~2006年), 2010年 中部大学教授,
2014年名古屋大学客員教授.
計算機視覚,動画像処理,パターン認識・理解の研究に従事.
ロボカップ研究賞(2005年),情報処理学会論文誌CVIM優秀論文賞(2009年),情報処理学会山下記念研究賞(2009年),画像センシングシンポジ
ウム優秀学術賞(2010, 2013, 2014年) ,電子情報通信学会 情報・システムソサイエティ論文賞(2013年)他
准教授
山下隆義 Takayoshi Yamashita E-mail:takayoshi@isc.chubu.ac.jp
2002年 奈良先端科学技術大学院大学博士前期課程修了, 2002年 オムロン株式会社入社, 2009年 中部大学大学院博士後期課程修了(社会人ド
クター), 2014年 中部大学講師,2017年 中部大学准教授.
人の理解に向けた動画像処理,パターン認識・機械学習の研究に従事.
画像センシングシンポジウム高木賞(2009年),電子情報通信学会 情報・システムソサイエティ論文賞(2013年),電子情報通信学会PRMU研
究会研究奨励賞(2013年)受賞.
機械知覚&ロボティクス研究グループ
74
特任助教
平川 翼 Tsubasa Hirakawa E-mail:hirakawa@mprg.chubu.ac.jp
2013年 広島大学大学院博士課程前期終了,2014年 広島大学大学院博士課程後期入学,2017年 中部大学研究員 (~2019年),2017年 広島大
学大学院博士後期課程修了.2019年 中部大学特任助教.2014年 独立行政法人日本学術振興会特別研究員DC1.2014年 ESIEE Paris客員研
究員 (〜2015年).
コンピュータビジョン,パターン認識,医用画像処理の研究に従事.

Weitere ähnliche Inhalte

Was ist angesagt?

0から理解するニューラルネットアーキテクチャサーチ(NAS)
0から理解するニューラルネットアーキテクチャサーチ(NAS)0から理解するニューラルネットアーキテクチャサーチ(NAS)
0から理解するニューラルネットアーキテクチャサーチ(NAS)
MasanoriSuganuma
 

Was ist angesagt? (20)

Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
 
論文紹介:Dueling network architectures for deep reinforcement learning
論文紹介:Dueling network architectures for deep reinforcement learning論文紹介:Dueling network architectures for deep reinforcement learning
論文紹介:Dueling network architectures for deep reinforcement learning
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 
0から理解するニューラルネットアーキテクチャサーチ(NAS)
0から理解するニューラルネットアーキテクチャサーチ(NAS)0から理解するニューラルネットアーキテクチャサーチ(NAS)
0から理解するニューラルネットアーキテクチャサーチ(NAS)
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
Transformer 動向調査 in 画像認識
Transformer 動向調査 in 画像認識Transformer 動向調査 in 画像認識
Transformer 動向調査 in 画像認識
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解する
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
ResNetの仕組み
ResNetの仕組みResNetの仕組み
ResNetの仕組み
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
 
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
MIRU2013チュートリアル:SIFTとそれ以降のアプローチMIRU2013チュートリアル:SIFTとそれ以降のアプローチ
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
 
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
 
[DL輪読会]DropBlock: A regularization method for convolutional networks
[DL輪読会]DropBlock: A regularization method for convolutional networks[DL輪読会]DropBlock: A regularization method for convolutional networks
[DL輪読会]DropBlock: A regularization method for convolutional networks
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ
 

Ähnlich wie 20190804_icml_kyoto

大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
n_hidekey
 

Ähnlich wie 20190804_icml_kyoto (20)

MIRU_Preview_JSAI2019
MIRU_Preview_JSAI2019MIRU_Preview_JSAI2019
MIRU_Preview_JSAI2019
 
予測の不確かさのユーザー調査
予測の不確かさのユーザー調査予測の不確かさのユーザー調査
予測の不確かさのユーザー調査
 
DeepLearningDay2016Summer
DeepLearningDay2016SummerDeepLearningDay2016Summer
DeepLearningDay2016Summer
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
画像認識と深層学習
画像認識と深層学習画像認識と深層学習
画像認識と深層学習
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
 
Deep residual learning for image recognition
Deep residual learning for image recognitionDeep residual learning for image recognition
Deep residual learning for image recognition
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
 
NVIDIA Seminar ディープラーニングによる画像認識と応用事例
NVIDIA Seminar ディープラーニングによる画像認識と応用事例NVIDIA Seminar ディープラーニングによる画像認識と応用事例
NVIDIA Seminar ディープラーニングによる画像認識と応用事例
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
第1回NIPS読み会・関西発表資料 篠崎
 第1回NIPS読み会・関西発表資料 篠崎 第1回NIPS読み会・関西発表資料 篠崎
第1回NIPS読み会・関西発表資料 篠崎
 
第1回NIPS読み会・関西発表資料
第1回NIPS読み会・関西発表資料第1回NIPS読み会・関西発表資料
第1回NIPS読み会・関西発表資料
 
【2016.01】(2/3)cvpaper.challenge2016
【2016.01】(2/3)cvpaper.challenge2016【2016.01】(2/3)cvpaper.challenge2016
【2016.01】(2/3)cvpaper.challenge2016
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
 
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
 
IEEE ITSS Nagoya Chapter
IEEE ITSS Nagoya ChapterIEEE ITSS Nagoya Chapter
IEEE ITSS Nagoya Chapter
 
[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~
[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~
[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~
 
これから始める人のためのディープラーニング基礎講座
これから始める人のためのディープラーニング基礎講座これから始める人のためのディープラーニング基礎講座
これから始める人のためのディープラーニング基礎講座
 
MIRU2018 tutorial
MIRU2018 tutorialMIRU2018 tutorial
MIRU2018 tutorial
 
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてCVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
 

Mehr von Takayoshi Yamashita (8)

AI_DL_Education
AI_DL_EducationAI_DL_Education
AI_DL_Education
 
RL_Tutorial
RL_TutorialRL_Tutorial
RL_Tutorial
 
UsingChainerMN
UsingChainerMNUsingChainerMN
UsingChainerMN
 
DeepLearningTutorial
DeepLearningTutorialDeepLearningTutorial
DeepLearningTutorial
 
Tutorial-DeepLearning-PCSJ-IMPS2016
Tutorial-DeepLearning-PCSJ-IMPS2016Tutorial-DeepLearning-PCSJ-IMPS2016
Tutorial-DeepLearning-PCSJ-IMPS2016
 
DeepLearningDay2016Spring
DeepLearningDay2016SpringDeepLearningDay2016Spring
DeepLearningDay2016Spring
 
ICIP2014 Presentation
ICIP2014 PresentationICIP2014 Presentation
ICIP2014 Presentation
 
MIRU2014 tutorial deeplearning
MIRU2014 tutorial deeplearningMIRU2014 tutorial deeplearning
MIRU2014 tutorial deeplearning
 

20190804_icml_kyoto