SlideShare ist ein Scribd-Unternehmen logo
1 von 25
Essentially No Barriers
in Neural Network Energy Landscape
2018/9/23 Pan Seminar
Presenter: Simossyi @Deepcore Kernel
書誌情報
Title: Essentially No Barriers in Neural Network Energy Landscape
Authors: Felix Draxler, Kambis Veschgini, Manfred Salmhofer,
Fred A. Hamprecht
Conference: ICML2018 accepted
Citations: 2
論文の内容を一言で
最新の分子シミュレーション手法(autoNEB)を使って大規模モデル
(ResNet, DenseNet)のロス関数のランドスケープを調べた
- ロス関数のランドスケープに関する研究はすでにされていたが近代的なモデ
ルで調べたのは初
- データセットもやや大きめ(CIFAR10, CIFAR100). CNNでの先行研究は
MNISTではされていたがCIFARは初
- 実験結果からモデルパラメータが増えるほどロス関数の局所解同士がエネル
ギー障壁的な意味で平坦に繋がっていることがわかった!
目次
1. ランドスケープとは?
2. AutoNEBとは?
3. 実験&結果
目次
1. ランドスケープとは?
2. AutoNEBとは?
3. 実験&結果
ロス関数のランドスケープはパラメータに対するロスの大きさ
- パラメータが一つの時のロスのランドスケープはこんな感じ
- DNNのパラメータ空間は超高次元なのでこの図のように直接プロットはでき
ないが局所解同士を繋いで間を線形補間すると一次元に落とせるのでプロッ
ト可能(たまにやる)
DNNの局所解は谷になっているのか?
- DNNのランドスケープの話になるとなんとなく(急な)谷を想像しがち
- しかしDNNに関しては局所解は必ずしも谷にはなっていない
- ランドスケープが平坦な方が汎化が良いと言う主張もある[Keskar 2016]
- DNNのロスが小さいところは離散的に存在する谷ではなく多様体をなしてい
るのでは??(仮説)(この論文では証明してない)(多様体だといいね)
ロス0部分空間が連結なら局所解同士は滑らかに繋げられる
- DNNのロスが0のパラメータ同士が弧状連結なら求めたパラメータ同士を繋
ぐ経路が存在してその経路上もロスが0であるようにできるはず!
- なので局所解を10個とってきてそれを繋ぐロス0経路を見つけてきたぜ!!
(論文内容)
おまけ) DNNの不変性
- ReLUを使ったDNNは層ごとの出力を丸ごとリスケーリングしても解が不変
[Dinh 2017]
ex) 層iの重みをk(≠0)倍, 層j(j≠i)の重みを1/k倍しても出力は不変
- softmax関数は平行移動に関して不変
ex)最終層の重みは平行移動しても出力は不変
- 今回検証しているパターンは少なくとも一つ目には該当しないらしい
二つ目は記述がなかったので不明
- 上記二つの性質によりロス0のパラメータは無限に作れる
目次
1. ランドスケープとは?
2. AutoNEBとは?
3. 実験&結果
分子シミュレーションの方法で経路を見つける
- ロスの値をエネルギーだと見ると, 今回の問題は二つの地点を結ぶ経路のエ
ネルギー障壁を最小化する問題を解くことで達成できる
- 分子シミュレーションにいい感じの手法があるのでそれを転用する
元々は化学反応の原系と生成系のエネルギー障壁を調べるヒューリスティク
スとして使われてる手法
経路を点で近似して点でのエネルギーを最小化する
- 基本的には経路上に点を打って各点でのエネルギーを最小化する
以下は求めるべき経路が満たす式. 経路上での最大値を最小化する経路を採
用する
実際に最適化するエネルギー関数
- Lはロス, kはサンプリングの密度を表す
- 第二項はヒューリスティクスな調整項. 経路が極端に直線になったりするの
を防ぐ効果があるとか
等間隔で最小になりそうなので点が接近することをペナライズしている?
最適化手法 NEBとautoNEB
- さっきのエネルギー関数を最適化する方法にはNEB[Jonson 1998]とその改
良版autoNEB[Kolsbjerg 2016]がある
- どっちも適当な射影をしながら勾配を補正していい感じの解を見つける
(エネルギーの大きいところを詳細に探索したいという気持ちの射影をする)
NEBのアルゴリズム 1/2
- エネルギーを普通に微分するとこうなる. 第一項はロス由来の勾配, 第二項は
正則化項由来の勾配
- NEBではこの勾配を補正した勾配を降りる
NEBのアルゴリズム 2/2
- τへの射影を使って補正する. τは隣接した大きい方の点を向いたベクトル
τは正規化されてるので内積部分が射影になる
autoNEBはサンプル点の数が自動で変わる
- autoNEBはNEBではハイパーパラメータ決め打ちだった経路上の点の数を適
応的に変える. 少ない時にサンプル点を増やしてエネルギー障壁を詳細に見
積れるようにしてるらしい
目次
1. ランドスケープとは?
2. AutoNEBとは?
3. 実験&結果
autoNEB使ってランドスケープを調べたよー
【実験条件】
- model: Basic CNN(浅くて残差接続がないもの)
ResNet-20, 32, 44, 56
DenseNet-40-12, 100-12-BC
- Dataset: CIFAR-10, 100
【結果】
- エネルギー障壁での訓練ロス, テストロスの大きさをプロットした
- モデルごとに訓練のどの段階でエネルギー障壁を越えるかプロットした
- 見つけた経路がエネルギー障壁を回避してることをプロットした
学習の経過
- 最初はエネルギー障壁が高いがだんだん回避できて平坦に繋げるようになる
学習完了 DenseNetではエネルギー障壁はほぼフラット
- 局所解での平均ロスとエネルギー障壁の平均ロ
スをプロットしたもの
- DNNが広く, 深くなるに連れて局所解とエネル
ギー障壁でのロスの値が近づく
- テストデータでも同じ傾向
モデルはいつエネルギー障壁を越えるか
- エネルギー障壁でのロス(の平均)を
経過するのが学習のどの段階かを示
すプロット
- DenseNetは学習後半で, ResNetは学
習中盤でエネルギー障壁を超えてる
(局所解スタックから抜けてる?)
見つけた経路を線形補間と比べてみた
- 適当にパラメータの次元を取ってき
て線形補間の場合のロスと比べた
- 図の上側は線形補間した点との距離
- 見つけた経路は線形補間した場合の
エネルギー障壁を回避するようにパ
ラメータが動いてそうな気がする
まとめ
- 分子シミュレーションの手法を使うことで任意の局所解をエネルギー障壁な
しで平坦に繋ぐことができた
- 特にモデルが大きくなるほど(パラメータ数が増えるほど)この傾向が顕著で
あることがわかった
- ロス0のパラメータ空間が多様体をなしているといいなあ
おしまい
オワオワリでーす

Weitere ähnliche Inhalte

Ähnlich wie Essentially no barriers in neural network energy landscape

ISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernelISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernel
弘毅 露崎
 

Ähnlich wie Essentially no barriers in neural network energy landscape (14)

NSDI17-reading-kaneko
NSDI17-reading-kanekoNSDI17-reading-kaneko
NSDI17-reading-kaneko
 
2020 08 05_dl_DETR
2020 08 05_dl_DETR2020 08 05_dl_DETR
2020 08 05_dl_DETR
 
ISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernelISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernel
 
Bi-Directional Block Self-Attention for Fast and Memory-Efficient Sequence Mo...
Bi-Directional Block Self-Attention for Fast and Memory-Efficient Sequence Mo...Bi-Directional Block Self-Attention for Fast and Memory-Efficient Sequence Mo...
Bi-Directional Block Self-Attention for Fast and Memory-Efficient Sequence Mo...
 
汎用ニューラルネットワークポテンシャル「PFP」による材料探索_MRS-J2021招待講演_2021/12/15
汎用ニューラルネットワークポテンシャル「PFP」による材料探索_MRS-J2021招待講演_2021/12/15汎用ニューラルネットワークポテンシャル「PFP」による材料探索_MRS-J2021招待講演_2021/12/15
汎用ニューラルネットワークポテンシャル「PFP」による材料探索_MRS-J2021招待講演_2021/12/15
 
PFP:材料探索のための汎用Neural Network Potential_中郷_20220422POLセミナー
PFP:材料探索のための汎用Neural Network Potential_中郷_20220422POLセミナーPFP:材料探索のための汎用Neural Network Potential_中郷_20220422POLセミナー
PFP:材料探索のための汎用Neural Network Potential_中郷_20220422POLセミナー
 
Paper: seq2seq 20190320
Paper: seq2seq 20190320Paper: seq2seq 20190320
Paper: seq2seq 20190320
 
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
 
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
 
Panel Discussion@WebDB forum 2014
Panel Discussion@WebDB forum 2014Panel Discussion@WebDB forum 2014
Panel Discussion@WebDB forum 2014
 
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
 
【2016.07】cvpaper.challenge2016
【2016.07】cvpaper.challenge2016【2016.07】cvpaper.challenge2016
【2016.07】cvpaper.challenge2016
 
【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016
 
[DL輪読会]マテリアルズインフォマティクスにおける深層学習の応用
[DL輪読会]マテリアルズインフォマティクスにおける深層学習の応用[DL輪読会]マテリアルズインフォマティクスにおける深層学習の応用
[DL輪読会]マテリアルズインフォマティクスにおける深層学習の応用
 

Mehr von Simossyi Funabashi

Mehr von Simossyi Funabashi (10)

Randomized smoothing
Randomized smoothingRandomized smoothing
Randomized smoothing
 
Adversarial examples are a natural consequence of test error in noise
Adversarial examples are a natural consequence of test error in noiseAdversarial examples are a natural consequence of test error in noise
Adversarial examples are a natural consequence of test error in noise
 
style transferとinstance normalization
style transferとinstance normalizationstyle transferとinstance normalization
style transferとinstance normalization
 
The evaluation for the defense of adversarial attacks
The evaluation for the defense of adversarial attacksThe evaluation for the defense of adversarial attacks
The evaluation for the defense of adversarial attacks
 
Convex optimization
Convex optimization Convex optimization
Convex optimization
 
Simple and deterministic matrix sketching
Simple and deterministic matrix sketchingSimple and deterministic matrix sketching
Simple and deterministic matrix sketching
 
敵対的サンプル・摂動サーベイ
敵対的サンプル・摂動サーベイ敵対的サンプル・摂動サーベイ
敵対的サンプル・摂動サーベイ
 
Introduction of Faster R-CNN
Introduction of Faster R-CNNIntroduction of Faster R-CNN
Introduction of Faster R-CNN
 
Faster rcnnスライド
Faster rcnnスライドFaster rcnnスライド
Faster rcnnスライド
 
Don't Decay the Learning Rate, Increase the Batch Size Thesis introduction
Don't Decay the Learning Rate, Increase the Batch Size Thesis introduction Don't Decay the Learning Rate, Increase the Batch Size Thesis introduction
Don't Decay the Learning Rate, Increase the Batch Size Thesis introduction
 

Essentially no barriers in neural network energy landscape