Weitere ähnliche Inhalte
Ähnlich wie Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings (20)
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
- 2. 論文情報
• タイトル
- Trainable Calibration Measures For Neural Networks From
Kernel Mean Embeddings
• 著者
- Aviral Kunmar, Sunita Sarawagi, Ujjwal Jain
• Department of Computer Science and Engineering, IIT
Bombay, Mumbai, India
• 掲載
- ICML2018
• 内容
- ディープニューラルネットワークは出力値の較正が不十分
- カーネル埋め込みによる訓練可能な較正基準であるMMCEを提案
• コード
- https://github.com/aviralkumar2907/MMCE
• (実験のコード)
2
- 3. 背景
• ディープニューラルネットの出力値は較正が不十分
- On Calibration of Modern Neural Networks
• Chuan Guo, Geoff Pleiss, Yu Sun, Kilian Q. Weinberger
• ICML2017
3
(左)
LeNet(1998):5層
(右)
ResNet(2016):110層
Accuracyは高いが
自信過剰(over-confidence)
- 5. 較正の誤差
• ECE (Expected Calibration Error)
- データサンプル𝐷~𝑃 𝜃,𝑫のECEを推定するために
𝑟の範囲[0,1]を𝐵個のビンに等分割
• 較正誤差項(CE)を追加して最適化
- 上記のECEは不連続すぎて使えない
- 本論文ではKernel Mean Embeddingsを用いたMMCEを提案
5
- 6. カーネル法
• データを高次元の特徴空間に写像する方法
- 再生核ヒルベルト空間(RKHS)を用いると
特徴ベクトルの内積がカーネル関数によって計算可能
• 𝜙(𝑥), 𝜙(𝑦) = 𝑘(𝑥, 𝑦)
6
𝜙: Ω → 𝐻
特徴写像
Ω
元の空間
𝐻
特徴空間
𝑥
𝜙(𝑥)
𝜙 𝑥 = 𝑘 ・, 𝑥
𝑘:カーネル関数(参考)
カーネル法入門1.カーネル法へのイントロダクション(accessed 2019-0726)
https://www.ism.ac.jp/~fukumizu/OsakaU2014/OsakaU_1intro.pdf
カーネル法正定値カーネルを用いたデータ解析 (accessed 2019-0726)
https://www.ism.ac.jp/~fukumizu/ISM_lecture_2004/Lecture2004_kernel_method.pdf
- 7. Kernel Mean Embeddings
• カーネル平均
- 特性的なカーネル関数によるカーネル平均は分布の全モーメントの
情報をもつ
- 分布間の距離の計算に利用可能
• MMD(Maximum Mean Discrepancy)
7
(参考)
潜在分布のカーネル埋め込みによる異種データ間マッチング (accessed 2019-0726)
https://www.jstage.jst.go.jp/article/pjsai/JSAI2015/0/JSAI2015_2F11/_pdf/-char/ja
2標本問題の新展開~古典的手法からカーネル法まで~(accessed 2019-0726)
https://qiita.com/yuchi_m/items/7132b426d848dc81ad9f#%E6%AD%A3%E5%AE%9A%E5%80%A4%E3%82%AB%E3%83%BC%E3%83%8
- 8. MMCE (Maximum Mean Calibration Error)
• 学習可能な較正誤差の提案(MMCE)
- Maximum Mean Calibration Error
較正誤差の平均の上界
- サンプリングによる推定
- カーネル関数による計算
• 論文中の実験ではLaplacian kernelを使用
8
- 9. MMCE (Maximum Mean Calibration Error)
• ニューラルネットのミニバッチ学習
- バッチサイズは100くらいあれば十分
• MMCEの重みづけ
- 𝑐 = 0となるインスタンスが少ない
9
- 10. Why Does MMCE work?
• MMCE
- インスタンスのペアを比較
• NLL
- インスタンスに対して個別に機能
10
- 11. Why Does MMCE work?
• (例:式9の3項目に注目)
- 次のインスタンスのペアを考える
• 高い信頼度(0.99)で誤分類されたインスタンス
• 信頼度ほぼ1で正しく分類されたインスタンス(𝜒)
- NLL
• 𝜒のconfidenceをより上げるように働く(自信過剰)
- MMCE(3項目)
• 𝜒のconfidenceを下げるように働く
11
- 12. Why Does MMCE work?
• MMCEとBaseline(普通の)に対するTest NLLについて
- BaselineはMMCEより簡単に過学習
• MMCEはバッチ内に正しく分類された例と誤分類された例が
混ざってる場合に最も効果的
- training accuracyが100%の時は意味ない
12
- 13. 実験
• データセット
- CIFAR-10
• 画像分類(10クラス)
- CIFAR-100
• 100クラス
- CaltechBirds 200
• 画像分類(imagenetの鳥、200クラス)
- 20 Newsgroups
• ニュース記事分類(20クラス)
- IMDB reviews
• 映画レビューの感情分類
- UC Irvine Human Activity Recognition(HAR)
• 6人の電話対応の行動分類
• 時系列データ
- Stanford Sentiment Treebank(SST)
• 映画のレビューの感情分析
13
- 14. 実験
• モデル(公開されてるモデルを使用)
- 画像分類(CIFAR-10, 100, Caltech Birds 200)
• Resnet
- https://github.com/tensorflow/models/tree/master/official/resnet
- https://github.com/tensorflow/models/tree/master/research/resnet
- https://github.com/visipedia/tf_classification
- 20 Newsgroups
• global pooling Convolutional Network
- https://github.com/keras-
team/keras/blob/master/examples/pretrained_word_embed
dings.py
- IMDB reviews
• hierarchical attention networks
- https://github.com/ilivans/tf-rnn-attention
- UCI HAR
• LSTM
- https://github.com/guillaume-chevalier/LSTM-Human-Activity-
Recognition
- SST
• TreeLSTM
- https://github.com/nicolaspi/treelstm 14
batch size:defaultが128以下の場合128に
(例外としてSSTは25のまま)
- 15. 実験
• 比較する手法
- Baseline
• NLLで最適化したモデル
- Baseline+T
• temperature scaling(先行研究)
- 温度Tで出力を矯正
- MMCE, MMCEm, MMCE+T
• 提案手法とその派生
- Entropy penalty(先行研究)
• over-confidenceを減らすためにentropy-penaltyを正則化項と
して追加
- Kernel regression(Nadaraya-Watson)
• CEとして式(12)を使用
15𝑃(c = 1|r) のNadaraya-Watson推定量
- 16. 先行研究
• Temperature Scaling
- On Calibration of Modern Neural Networks
• Chuan Guo, Geoff Pleiss, Yu Sun, Kilian Q. Weinberger
• ICML2017
- 確率を事後修正 𝑠𝑜𝑓𝑡𝑚𝑎𝑥(
𝑥
𝑇
)
• Entropy Penalty
- Regularizing Neural Networks by Penalizing Confident Output
Distributions
• Gabriel Pereyra, George Tucker, Jan Chorowski, Łukasz Kaiser,
Geoffrey Hinton
• ICLR2017
• どちらも較正誤差を改善させるが、高confidenceの予測を減らす
16
- 20. 実験結果 Baseline と MMCE(提案手法)
• baselineモデルをMMCEでfine-tuning
- ゼロからの学習ほどではないがECEを改善
20
- 23. 実験結果 Temperature scaling(TS)との比較
• CS99:𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒 ≥ 0.99となる予測の集合
- |CS99|: 𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒 ≥ 0.99の割合[%]
• 先行研究の手法は高confidenceの予測を減らす
- Acc: Accuracy[%]
• 較正が正しいならCS99のAccuracyは99%以上となる
• Accuracyが99を超えてる場合|CSS99|が大きい方が良い
23
自信過剰なBaselineは
• |CS99|が大きい
• Accは99%を下回る
TSはCSS99のAccを99%以上にする
|CSS99|を大きく下げる
MMCEは|CS99|
が比較的高い