SlideShare ist ein Scribd-Unternehmen logo
1 von 29
Downloaden Sie, um offline zu lesen
Trainable Calibration Measures For
Neural Networks From Kernel Mean
Embeddings
北海道大学情報科学研究科
調和系工学研究室
修士2年 吉田
2019年7月26日 論文紹介ゼミ
1
論文情報
• タイトル
- Trainable Calibration Measures For Neural Networks From
Kernel Mean Embeddings
• 著者
- Aviral Kunmar, Sunita Sarawagi, Ujjwal Jain
• Department of Computer Science and Engineering, IIT
Bombay, Mumbai, India
• 掲載
- ICML2018
• 内容
- ディープニューラルネットワークは出力値の較正が不十分
- カーネル埋め込みによる訓練可能な較正基準であるMMCEを提案
• コード
- https://github.com/aviralkumar2907/MMCE
• (実験のコード)
2
背景
• ディープニューラルネットの出力値は較正が不十分
- On Calibration of Modern Neural Networks
• Chuan Guo, Geoff Pleiss, Yu Sun, Kilian Q. Weinberger
• ICML2017
3
(左)
LeNet(1998):5層
(右)
ResNet(2016):110層
Accuracyは高いが
自信過剰(over-confidence)
問題設定
• 多クラス分類モデル
- ニューラルネット(パラメータ𝜃,入力𝑥)の予測する確率分布
- ニューラルネットの予測ラベル
- correctness score
- confidence score
• もし正しく較正されているなら
- 𝑟𝑖 = 𝛼の時𝑐𝑖 = 1となる確率は𝛼
• 例:𝑟 = 0.7の予測が100個あったら、その内70個が正解
- 式で表すと
4
𝑃 𝜃,𝑫 𝑟, 𝑐 :𝑟, 𝑐の分布
較正の誤差
• ECE (Expected Calibration Error)
- データサンプル𝐷~𝑃 𝜃,𝑫のECEを推定するために
𝑟の範囲[0,1]を𝐵個のビンに等分割
• 較正誤差項(CE)を追加して最適化
- 上記のECEは不連続すぎて使えない
- 本論文ではKernel Mean Embeddingsを用いたMMCEを提案
5
カーネル法
• データを高次元の特徴空間に写像する方法
- 再生核ヒルベルト空間(RKHS)を用いると
特徴ベクトルの内積がカーネル関数によって計算可能
• 𝜙(𝑥), 𝜙(𝑦) = 𝑘(𝑥, 𝑦)
6
𝜙: Ω → 𝐻
特徴写像
Ω
元の空間
𝐻
特徴空間
𝑥
𝜙(𝑥)
𝜙 𝑥 = 𝑘 ・, 𝑥
𝑘:カーネル関数(参考)
カーネル法入門1.カーネル法へのイントロダクション(accessed 2019-0726)
https://www.ism.ac.jp/~fukumizu/OsakaU2014/OsakaU_1intro.pdf
カーネル法正定値カーネルを用いたデータ解析 (accessed 2019-0726)
https://www.ism.ac.jp/~fukumizu/ISM_lecture_2004/Lecture2004_kernel_method.pdf
Kernel Mean Embeddings
• カーネル平均
- 特性的なカーネル関数によるカーネル平均は分布の全モーメントの
情報をもつ
- 分布間の距離の計算に利用可能
• MMD(Maximum Mean Discrepancy)
7
(参考)
潜在分布のカーネル埋め込みによる異種データ間マッチング (accessed 2019-0726)
https://www.jstage.jst.go.jp/article/pjsai/JSAI2015/0/JSAI2015_2F11/_pdf/-char/ja
2標本問題の新展開~古典的手法からカーネル法まで~(accessed 2019-0726)
https://qiita.com/yuchi_m/items/7132b426d848dc81ad9f#%E6%AD%A3%E5%AE%9A%E5%80%A4%E3%82%AB%E3%83%BC%E3%83%8
MMCE (Maximum Mean Calibration Error)
• 学習可能な較正誤差の提案(MMCE)
- Maximum Mean Calibration Error
較正誤差の平均の上界
- サンプリングによる推定
- カーネル関数による計算
• 論文中の実験ではLaplacian kernelを使用
8
MMCE (Maximum Mean Calibration Error)
• ニューラルネットのミニバッチ学習
- バッチサイズは100くらいあれば十分
• MMCEの重みづけ
- 𝑐 = 0となるインスタンスが少ない
9
Why Does MMCE work?
• MMCE
- インスタンスのペアを比較
• NLL
- インスタンスに対して個別に機能
10
Why Does MMCE work?
• (例:式9の3項目に注目)
- 次のインスタンスのペアを考える
• 高い信頼度(0.99)で誤分類されたインスタンス
• 信頼度ほぼ1で正しく分類されたインスタンス(𝜒)
- NLL
• 𝜒のconfidenceをより上げるように働く(自信過剰)
- MMCE(3項目)
• 𝜒のconfidenceを下げるように働く
11
Why Does MMCE work?
• MMCEとBaseline(普通の)に対するTest NLLについて
- BaselineはMMCEより簡単に過学習
• MMCEはバッチ内に正しく分類された例と誤分類された例が
混ざってる場合に最も効果的
- training accuracyが100%の時は意味ない
12
実験
• データセット
- CIFAR-10
• 画像分類(10クラス)
- CIFAR-100
• 100クラス
- CaltechBirds 200
• 画像分類(imagenetの鳥、200クラス)
- 20 Newsgroups
• ニュース記事分類(20クラス)
- IMDB reviews
• 映画レビューの感情分類
- UC Irvine Human Activity Recognition(HAR)
• 6人の電話対応の行動分類
• 時系列データ
- Stanford Sentiment Treebank(SST)
• 映画のレビューの感情分析
13
実験
• モデル(公開されてるモデルを使用)
- 画像分類(CIFAR-10, 100, Caltech Birds 200)
• Resnet
- https://github.com/tensorflow/models/tree/master/official/resnet
- https://github.com/tensorflow/models/tree/master/research/resnet
- https://github.com/visipedia/tf_classification
- 20 Newsgroups
• global pooling Convolutional Network
- https://github.com/keras-
team/keras/blob/master/examples/pretrained_word_embed
dings.py
- IMDB reviews
• hierarchical attention networks
- https://github.com/ilivans/tf-rnn-attention
- UCI HAR
• LSTM
- https://github.com/guillaume-chevalier/LSTM-Human-Activity-
Recognition
- SST
• TreeLSTM
- https://github.com/nicolaspi/treelstm 14
batch size:defaultが128以下の場合128に
(例外としてSSTは25のまま)
実験
• 比較する手法
- Baseline
• NLLで最適化したモデル
- Baseline+T
• temperature scaling(先行研究)
- 温度Tで出力を矯正
- MMCE, MMCEm, MMCE+T
• 提案手法とその派生
- Entropy penalty(先行研究)
• over-confidenceを減らすためにentropy-penaltyを正則化項と
して追加
- Kernel regression(Nadaraya-Watson)
• CEとして式(12)を使用
15𝑃(c = 1|r) のNadaraya-Watson推定量
先行研究
• Temperature Scaling
- On Calibration of Modern Neural Networks
• Chuan Guo, Geoff Pleiss, Yu Sun, Kilian Q. Weinberger
• ICML2017
- 確率を事後修正 𝑠𝑜𝑓𝑡𝑚𝑎𝑥(
𝑥
𝑇
)
• Entropy Penalty
- Regularizing Neural Networks by Penalizing Confident Output
Distributions
• Gabriel Pereyra, George Tucker, Jan Chorowski, Łukasz Kaiser,
Geoffrey Hinton
• ICLR2017
• どちらも較正誤差を改善させるが、高confidenceの予測を減らす
16
実験
• 評価(低いほど良い)
- ECE(B=20)
- Brier Score
- NLL
17
実験結果 Baseline と MMCE(提案手法)
• Accuracyを落とすことなくECEを改善
18
実験結果 Baseline と MMCE(提案手法)
• Brier Score, NLLについても同様
19
実験結果 Baseline と MMCE(提案手法)
• baselineモデルをMMCEでfine-tuning
- ゼロからの学習ほどではないがECEを改善
20
実験結果 Temperature scaling(TS)との比較
• 表には無いがAccuracyは変化なし
• BaselineとMMCEともにtemperature scalingでECEが改善
• 全体的にMMCE+Tがベスト
21
実験結果 Temperature scaling(TS)との比較
• reliability plot
- 完璧な較正が出来ている場合、破線(y=x)に接する
• Baselineは自信過剰
• TSはBaselineの自信過剰を大幅に修正
22
TSが修正しすぎ
実験結果 Temperature scaling(TS)との比較
• CS99:𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒 ≥ 0.99となる予測の集合
- |CS99|: 𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒 ≥ 0.99の割合[%]
• 先行研究の手法は高confidenceの予測を減らす
- Acc: Accuracy[%]
• 較正が正しいならCS99のAccuracyは99%以上となる
• Accuracyが99を超えてる場合|CSS99|が大きい方が良い
23
自信過剰なBaselineは
• |CS99|が大きい
• Accは99%を下回る
TSはCSS99のAccを99%以上にする
|CSS99|を大きく下げる
MMCEは|CS99|
が比較的高い
実験結果 Entropy penalty
• Entropy penalty
- ECEは改善されている
- |CS99|が大幅に減少
24
実験結果 Kernel Regression
• Kernel Regression
- 較正の改善には効果なし
- 損失関数の分母にカーネル関数があるのが問題?
• MMCEは分子のみ
25
実験結果 MMCEの重みづけについて
• 重み付けなし(MMCEm)
• 重みづけしたMMCEの方が良い較正
26
実験結果 較正項の重み(𝜆)の調整
• 提案手法(MMCE)は𝜆の変化に堅牢
- accuracyも同様
27
実験結果 計算効率
• 1エポック当たりの計算時間
- NVIDIA Titan X GPU
- Baselineに対するオーバーヘッドが10%を超えることは無い
28
まとめ
• 学習可能な較正誤差(MMCE)を提案
- 信頼度の高い予測を最大限に維持する
- 較正誤差を最小限に抑える
- 高速に学習可能(オーバーヘッド10%以下)
29

Weitere ähnliche Inhalte

Was ist angesagt?

You Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasks
harmonylab
 

Was ist angesagt? (20)

2019 08 20_dl
2019 08 20_dl2019 08 20_dl
2019 08 20_dl
 
A PID Controller Approach for Stochastic Optimization of Deep Networks
A PID Controller Approach for Stochastic Optimization of Deep NetworksA PID Controller Approach for Stochastic Optimization of Deep Networks
A PID Controller Approach for Stochastic Optimization of Deep Networks
 
PredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade ConvolutionsPredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade Convolutions
 
AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...
AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...
AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...
 
Top-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender SystemTop-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender System
 
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
 
Real-Time Semantic Stereo Matching
Real-Time Semantic Stereo MatchingReal-Time Semantic Stereo Matching
Real-Time Semantic Stereo Matching
 
Feature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learningFeature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learning
 
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
 
You Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasks
 
Mobilenet
MobilenetMobilenet
Mobilenet
 
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
 
MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Aucti...
MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Aucti...MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Aucti...
MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Aucti...
 
Playing Atari with Six Neurons
Playing Atari with Six NeuronsPlaying Atari with Six Neurons
Playing Atari with Six Neurons
 
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
 
Predictron
PredictronPredictron
Predictron
 
Understanding Blackbox Predictions via Influence Functions
Understanding Blackbox Predictions via Influence FunctionsUnderstanding Blackbox Predictions via Influence Functions
Understanding Blackbox Predictions via Influence Functions
 
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
 
Recursively Summarizing Books with Human Feedback
Recursively Summarizing Books with Human FeedbackRecursively Summarizing Books with Human Feedback
Recursively Summarizing Books with Human Feedback
 
修士論文
修士論文修士論文
修士論文
 

Ähnlich wie Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings

[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
de:code 2017
 

Ähnlich wie Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings (20)

NeurIPS2019参加報告
NeurIPS2019参加報告NeurIPS2019参加報告
NeurIPS2019参加報告
 
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
 
データセンターカンファレンス基調対談_ネットワーク帯域を使いまくる
データセンターカンファレンス基調対談_ネットワーク帯域を使いまくるデータセンターカンファレンス基調対談_ネットワーク帯域を使いまくる
データセンターカンファレンス基調対談_ネットワーク帯域を使いまくる
 
[DL輪読会]Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Ima...
[DL輪読会]Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Ima...[DL輪読会]Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Ima...
[DL輪読会]Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Ima...
 
20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術
 
IEEE/ACM SC2013報告
IEEE/ACM SC2013報告IEEE/ACM SC2013報告
IEEE/ACM SC2013報告
 
経済学のための実践的データ分析 5.特許データの分析
経済学のための実践的データ分析 5.特許データの分析経済学のための実践的データ分析 5.特許データの分析
経済学のための実践的データ分析 5.特許データの分析
 
Tomorrow's software testing for embedded systems ~明日にでも訪れてしまう組込みシステムのテストの姿~
Tomorrow's software testing for embedded systems ~明日にでも訪れてしまう組込みシステムのテストの姿~Tomorrow's software testing for embedded systems ~明日にでも訪れてしまう組込みシステムのテストの姿~
Tomorrow's software testing for embedded systems ~明日にでも訪れてしまう組込みシステムのテストの姿~
 
Elasticsearchと機械学習を実際に連携させる
Elasticsearchと機械学習を実際に連携させるElasticsearchと機械学習を実際に連携させる
Elasticsearchと機械学習を実際に連携させる
 
PSpiceの活用方法 (2005年)
PSpiceの活用方法 (2005年)PSpiceの活用方法 (2005年)
PSpiceの活用方法 (2005年)
 
2021 03-09-ac ri-nngen
2021 03-09-ac ri-nngen2021 03-09-ac ri-nngen
2021 03-09-ac ri-nngen
 
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステムオープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
 
JAWS DAYS 2022
JAWS DAYS 2022JAWS DAYS 2022
JAWS DAYS 2022
 
研究を加速するChainerファミリー
研究を加速するChainerファミリー研究を加速するChainerファミリー
研究を加速するChainerファミリー
 
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
 
22nd ACM Symposium on Operating Systems Principles (SOSP2009)参加報告
22nd ACM Symposium on Operating Systems Principles (SOSP2009)参加報告22nd ACM Symposium on Operating Systems Principles (SOSP2009)参加報告
22nd ACM Symposium on Operating Systems Principles (SOSP2009)参加報告
 
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~
 
[DL輪読会]Measuring abstract reasoning in neural networks
[DL輪読会]Measuring abstract reasoning in neural networks[DL輪読会]Measuring abstract reasoning in neural networks
[DL輪読会]Measuring abstract reasoning in neural networks
 
モデル検査紹介
モデル検査紹介モデル検査紹介
モデル検査紹介
 
学生からみた松江高専生とOpenStackで遊んだお話
学生からみた松江高専生とOpenStackで遊んだお話学生からみた松江高専生とOpenStackで遊んだお話
学生からみた松江高専生とOpenStackで遊んだお話
 

Mehr von harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
harmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab
 

Mehr von harmonylab (20)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 

Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings

  • 1. Trainable Calibration Measures For Neural Networks From Kernel Mean Embeddings 北海道大学情報科学研究科 調和系工学研究室 修士2年 吉田 2019年7月26日 論文紹介ゼミ 1
  • 2. 論文情報 • タイトル - Trainable Calibration Measures For Neural Networks From Kernel Mean Embeddings • 著者 - Aviral Kunmar, Sunita Sarawagi, Ujjwal Jain • Department of Computer Science and Engineering, IIT Bombay, Mumbai, India • 掲載 - ICML2018 • 内容 - ディープニューラルネットワークは出力値の較正が不十分 - カーネル埋め込みによる訓練可能な較正基準であるMMCEを提案 • コード - https://github.com/aviralkumar2907/MMCE • (実験のコード) 2
  • 3. 背景 • ディープニューラルネットの出力値は較正が不十分 - On Calibration of Modern Neural Networks • Chuan Guo, Geoff Pleiss, Yu Sun, Kilian Q. Weinberger • ICML2017 3 (左) LeNet(1998):5層 (右) ResNet(2016):110層 Accuracyは高いが 自信過剰(over-confidence)
  • 4. 問題設定 • 多クラス分類モデル - ニューラルネット(パラメータ𝜃,入力𝑥)の予測する確率分布 - ニューラルネットの予測ラベル - correctness score - confidence score • もし正しく較正されているなら - 𝑟𝑖 = 𝛼の時𝑐𝑖 = 1となる確率は𝛼 • 例:𝑟 = 0.7の予測が100個あったら、その内70個が正解 - 式で表すと 4 𝑃 𝜃,𝑫 𝑟, 𝑐 :𝑟, 𝑐の分布
  • 5. 較正の誤差 • ECE (Expected Calibration Error) - データサンプル𝐷~𝑃 𝜃,𝑫のECEを推定するために 𝑟の範囲[0,1]を𝐵個のビンに等分割 • 較正誤差項(CE)を追加して最適化 - 上記のECEは不連続すぎて使えない - 本論文ではKernel Mean Embeddingsを用いたMMCEを提案 5
  • 6. カーネル法 • データを高次元の特徴空間に写像する方法 - 再生核ヒルベルト空間(RKHS)を用いると 特徴ベクトルの内積がカーネル関数によって計算可能 • 𝜙(𝑥), 𝜙(𝑦) = 𝑘(𝑥, 𝑦) 6 𝜙: Ω → 𝐻 特徴写像 Ω 元の空間 𝐻 特徴空間 𝑥 𝜙(𝑥) 𝜙 𝑥 = 𝑘 ・, 𝑥 𝑘:カーネル関数(参考) カーネル法入門1.カーネル法へのイントロダクション(accessed 2019-0726) https://www.ism.ac.jp/~fukumizu/OsakaU2014/OsakaU_1intro.pdf カーネル法正定値カーネルを用いたデータ解析 (accessed 2019-0726) https://www.ism.ac.jp/~fukumizu/ISM_lecture_2004/Lecture2004_kernel_method.pdf
  • 7. Kernel Mean Embeddings • カーネル平均 - 特性的なカーネル関数によるカーネル平均は分布の全モーメントの 情報をもつ - 分布間の距離の計算に利用可能 • MMD(Maximum Mean Discrepancy) 7 (参考) 潜在分布のカーネル埋め込みによる異種データ間マッチング (accessed 2019-0726) https://www.jstage.jst.go.jp/article/pjsai/JSAI2015/0/JSAI2015_2F11/_pdf/-char/ja 2標本問題の新展開~古典的手法からカーネル法まで~(accessed 2019-0726) https://qiita.com/yuchi_m/items/7132b426d848dc81ad9f#%E6%AD%A3%E5%AE%9A%E5%80%A4%E3%82%AB%E3%83%BC%E3%83%8
  • 8. MMCE (Maximum Mean Calibration Error) • 学習可能な較正誤差の提案(MMCE) - Maximum Mean Calibration Error 較正誤差の平均の上界 - サンプリングによる推定 - カーネル関数による計算 • 論文中の実験ではLaplacian kernelを使用 8
  • 9. MMCE (Maximum Mean Calibration Error) • ニューラルネットのミニバッチ学習 - バッチサイズは100くらいあれば十分 • MMCEの重みづけ - 𝑐 = 0となるインスタンスが少ない 9
  • 10. Why Does MMCE work? • MMCE - インスタンスのペアを比較 • NLL - インスタンスに対して個別に機能 10
  • 11. Why Does MMCE work? • (例:式9の3項目に注目) - 次のインスタンスのペアを考える • 高い信頼度(0.99)で誤分類されたインスタンス • 信頼度ほぼ1で正しく分類されたインスタンス(𝜒) - NLL • 𝜒のconfidenceをより上げるように働く(自信過剰) - MMCE(3項目) • 𝜒のconfidenceを下げるように働く 11
  • 12. Why Does MMCE work? • MMCEとBaseline(普通の)に対するTest NLLについて - BaselineはMMCEより簡単に過学習 • MMCEはバッチ内に正しく分類された例と誤分類された例が 混ざってる場合に最も効果的 - training accuracyが100%の時は意味ない 12
  • 13. 実験 • データセット - CIFAR-10 • 画像分類(10クラス) - CIFAR-100 • 100クラス - CaltechBirds 200 • 画像分類(imagenetの鳥、200クラス) - 20 Newsgroups • ニュース記事分類(20クラス) - IMDB reviews • 映画レビューの感情分類 - UC Irvine Human Activity Recognition(HAR) • 6人の電話対応の行動分類 • 時系列データ - Stanford Sentiment Treebank(SST) • 映画のレビューの感情分析 13
  • 14. 実験 • モデル(公開されてるモデルを使用) - 画像分類(CIFAR-10, 100, Caltech Birds 200) • Resnet - https://github.com/tensorflow/models/tree/master/official/resnet - https://github.com/tensorflow/models/tree/master/research/resnet - https://github.com/visipedia/tf_classification - 20 Newsgroups • global pooling Convolutional Network - https://github.com/keras- team/keras/blob/master/examples/pretrained_word_embed dings.py - IMDB reviews • hierarchical attention networks - https://github.com/ilivans/tf-rnn-attention - UCI HAR • LSTM - https://github.com/guillaume-chevalier/LSTM-Human-Activity- Recognition - SST • TreeLSTM - https://github.com/nicolaspi/treelstm 14 batch size:defaultが128以下の場合128に (例外としてSSTは25のまま)
  • 15. 実験 • 比較する手法 - Baseline • NLLで最適化したモデル - Baseline+T • temperature scaling(先行研究) - 温度Tで出力を矯正 - MMCE, MMCEm, MMCE+T • 提案手法とその派生 - Entropy penalty(先行研究) • over-confidenceを減らすためにentropy-penaltyを正則化項と して追加 - Kernel regression(Nadaraya-Watson) • CEとして式(12)を使用 15𝑃(c = 1|r) のNadaraya-Watson推定量
  • 16. 先行研究 • Temperature Scaling - On Calibration of Modern Neural Networks • Chuan Guo, Geoff Pleiss, Yu Sun, Kilian Q. Weinberger • ICML2017 - 確率を事後修正 𝑠𝑜𝑓𝑡𝑚𝑎𝑥( 𝑥 𝑇 ) • Entropy Penalty - Regularizing Neural Networks by Penalizing Confident Output Distributions • Gabriel Pereyra, George Tucker, Jan Chorowski, Łukasz Kaiser, Geoffrey Hinton • ICLR2017 • どちらも較正誤差を改善させるが、高confidenceの予測を減らす 16
  • 18. 実験結果 Baseline と MMCE(提案手法) • Accuracyを落とすことなくECEを改善 18
  • 19. 実験結果 Baseline と MMCE(提案手法) • Brier Score, NLLについても同様 19
  • 20. 実験結果 Baseline と MMCE(提案手法) • baselineモデルをMMCEでfine-tuning - ゼロからの学習ほどではないがECEを改善 20
  • 21. 実験結果 Temperature scaling(TS)との比較 • 表には無いがAccuracyは変化なし • BaselineとMMCEともにtemperature scalingでECEが改善 • 全体的にMMCE+Tがベスト 21
  • 22. 実験結果 Temperature scaling(TS)との比較 • reliability plot - 完璧な較正が出来ている場合、破線(y=x)に接する • Baselineは自信過剰 • TSはBaselineの自信過剰を大幅に修正 22 TSが修正しすぎ
  • 23. 実験結果 Temperature scaling(TS)との比較 • CS99:𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒 ≥ 0.99となる予測の集合 - |CS99|: 𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒 ≥ 0.99の割合[%] • 先行研究の手法は高confidenceの予測を減らす - Acc: Accuracy[%] • 較正が正しいならCS99のAccuracyは99%以上となる • Accuracyが99を超えてる場合|CSS99|が大きい方が良い 23 自信過剰なBaselineは • |CS99|が大きい • Accは99%を下回る TSはCSS99のAccを99%以上にする |CSS99|を大きく下げる MMCEは|CS99| が比較的高い
  • 24. 実験結果 Entropy penalty • Entropy penalty - ECEは改善されている - |CS99|が大幅に減少 24
  • 25. 実験結果 Kernel Regression • Kernel Regression - 較正の改善には効果なし - 損失関数の分母にカーネル関数があるのが問題? • MMCEは分子のみ 25
  • 28. 実験結果 計算効率 • 1エポック当たりの計算時間 - NVIDIA Titan X GPU - Baselineに対するオーバーヘッドが10%を超えることは無い 28
  • 29. まとめ • 学習可能な較正誤差(MMCE)を提案 - 信頼度の高い予測を最大限に維持する - 較正誤差を最小限に抑える - 高速に学習可能(オーバーヘッド10%以下) 29