SlideShare ist ein Scribd-Unternehmen logo
1 von 18
Group Normalization
arXivTimes勉強会
2018/03/30
株式会社ALBERT 山内隆太郎
書誌情報
• Yuxin Wu, Kaiming He
• Facebook AI Research(FAIR)の人々
• Kaiming氏はいつもシンプルで力強いアイディアを出してきて凄い
• ResNetとかMask R-CNNとか
• https://arxiv.org/abs/1803.08494
Batch Normalizationの問題点
• Batch Normalization(BN)はバッチサイズが小さい場合に著し
く精度が下がる
• バッチの統計量を正しく推定できなくなるため
• 高精細な画像を用いたDetectionやSegmentationの学習では、メモリ
の制約からバッチサイズを確保できないことが多い
• 2とか4とか
• 評価時には事前に計算された統計量を用いるが、データの分布
が変わると意味をなさない
• 転移学習する場合に困る
BNの問題点への対処
• 凄い計算機を使う
• 本質的ではない
• Batch Renormalization
• バッチではなく学習セット全体の統計量を推定する
• Weight Normalization
• filter weightの方を正規化
• Batch次元と独立なNormalization
• Layer Normalization
• Instance Normalization
• ↑この2つはRNN/LSTMやGANでは効果的だが、画像認識では微妙
• Group Normalization
• 今回提案するのはこれ
Group Normalizationの特徴
• チャネルをいくつかのグループに分け、各グループについて正
規化する
• バッチ次元に対し独立なので、バッチサイズが変化しても精度
が変わらない
• バッチサイズ大:BN≒GN(>Others)
• バッチサイズ小:GN>BN
• 実装・導入が簡単
バッチサイズとエラー率
• 十分なバッチサイズ(>16)ではBNがわずかに良いが、バッチサ
イズが小さくなるとBNは著しく精度が落ちる
実装例(TensorFlow)
• 簡単
さまざまなNormalization methods
さまざまなNormalization methods
• 正規化の仕方はどれも
𝑥𝑖 =
1
𝜎𝑖
(𝑥𝑖 − 𝜇𝑖)
• どのような単位で正規化するかによって
• Batch Norm
• Layer Norm
• Instance Norm
• Group Norm
といった違いが出てくる
Group Normalization
• グループ数Gを適当に決めてチャネルをG個に分ける
• 右図はG=2
• 各グループで正規化
• バッチ次元を貫いていないのでバッチサイズで
精度が変わらない
また、バッチに含まれる異常なサンプルに影響
されない
GNのよさ(あるいはLN, INのよくなさ)
• チャネルは互いに独立ではなく共同で特徴を表現している
• SIFTやHOGのようなクラシカルな特徴量もそうだった
• Layer Normalization
• GNのG=1に相当
• 正規化が強すぎる
• あるチャネルが他のチャネルを潰してしまう
• Instance Normalization
• GNのG=Cに相当
• チャネルの独立性を仮定している
• チャネル毎に正規化されるため、チャネル間の関係が捉えられない
実験1 Image Classification in ImageNet
• ResNet-50でImageNetを学習
• 8 GPUsで計算
• バッチ統計量はGPUごとに算出
• 基本的にG=32
• 実験
1. バッチサイズ32でBN, GN, LN, INの精度を比較
2. バッチサイズを変えながらBNとGNの精度を比較
3. Batch Renormalizationとの比較
4. Gを変える
5. ResNet-101の場合
6. VGG16における結果と分析
実験1-1 結果
• BNがGNよりわずかに良い
実験1-2 結果
• BNはバッチサイズが小さくなると精度が一気に下がるがGNは
変わらず
実験1-3, 4
• 1-3. Batch Renormとの比較(バッチサイズ:4)
• GN(24.2%)>BR(26.3%)>GN(27.3%)
• 1-4. Gを変える
• G=32が最もよい
• 1Groupごとのチャネル数を固定した
場合、16チャネルが最も良い
実験1-5, 6
• ResNet-101
• バッチサイズ32: BN(22.0%)>GN(22.4%)
• バッチサイズ2: GN(23.0%)>GN(31.9%)
• VGG16
Future Work
• 今回用いたネットワークはBN前提に設計されている。これを
GNに最適化したら性能は上がるだろうか?
• IN, LNはRNN/LSTMではうまく機能するが、GNはどうか?
感想・疑問
• 凄い計算機を用意しにくいわれわれにとっては大変ありがたい
研究
• とくにDetectorの学習…
• 図が良い
• BNはチャネル毎に正規化されるので、チャネル間の関係を利
用しにくいはずだが、なぜINと比較して高い性能が出ているの
か?
• ミニバッチがある程度大きければチャネル間の関係がある程度安定す
る?

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
A3C解説
A3C解説A3C解説
A3C解説
 
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
 
Kaggleのテクニック
KaggleのテクニックKaggleのテクニック
Kaggleのテクニック
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
 
強化学習の分散アーキテクチャ変遷
強化学習の分散アーキテクチャ変遷強化学習の分散アーキテクチャ変遷
強化学習の分散アーキテクチャ変遷
 
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 

Mehr von Ryutaro Yamauchi (6)

SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation
 
Structure from Motion
Structure from MotionStructure from Motion
Structure from Motion
 
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
 
[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency
[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency
[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency
 
Hybrid computing using a neural network with dynamic
Hybrid computing using a neural network with dynamicHybrid computing using a neural network with dynamic
Hybrid computing using a neural network with dynamic
 

Group normalization