深層学習第4章大規模深層学習の実現技術

深層学習(人工知能学会監修,近代科学社)
第4章大規模深層学習の実現技術
田中孝昌（筑波大）
©田中孝昌 1

4.1 はじめに
4.2 深層学習の最適化
4.2.1 深層学習の基本計算
活性化関数、勾配降下法
誤差逆伝播法、連鎖律
4.2.2 確率的勾配降下法
ミニバッチ法
4.3 高速化手法
4.3.1 分散並列処理：DistBelief
モデル並列化、データ並列化、Downpour SGD
Sandblaster L-BFGS、LBFGS法
4.3.2 GPUを用いた大規模ニューラルネットワークの実現
4.3.3 InfiniBandの利用
4.3.4 学習収束の高速化
バッチ正規化、内部共変量シフト、蒸留、暗黒知識
©田中孝昌 2

4.4 過学習制御：DropOut
4.5 活性化関数
4.5.1 ReLU
4.5.2 MaxOut
4.6 学習率の調整
4.6.1 AdaGrad
4.6.2 Adam
4.6.3 超パラメータの最適化
グリッド探索、ランダム探索
4.7 実装技術
4.7.1 実装の正しさのチェック
中心差分
4.8 おわりに
©田中孝昌 3

4.2.1 深層学習の基本計算:活性化関数
©田中孝昌 4
(引用)Deep learningの技術と未来,得居誠也,http://www.slideshare.net/beam2d/deep-learning-22544096

4.2.1 深層学習の基本計算:勾配降下法
• 𝑦を予測するモデルを𝑓(𝜃)とし， 𝜃は重みとする
• 全学習データ𝑁における実績値𝑦とモデルからの予測値 𝑦の差を示す損
失関数𝐿(𝜃)を最小にする𝜃∗を求める
• 𝜃(𝑡)
における𝐿(𝜃)の勾配𝑣を求め、勾配の方向へ学習率𝜏の分だけ更新
した𝜃(𝑡+1)で再び𝐿(𝜃)の勾配を求める
• 勾配が十分に小さくなる，もしくは十分に試行したときに探索を止める，こ
れらはハイパーパラメータになる
©田中孝昌 5
𝜃 𝑡+1
← 𝜃 𝑡
− 𝜏𝑣 (4.2)
𝐿 𝜃 =
𝑛=1
𝑁
𝐿 𝑛(𝜃)𝑣 =
𝜕𝐿(𝜃)
𝜕𝜃
|𝜃 = 𝜃 𝑡

4.2.1 深層学習の基本計算:誤差逆伝播法,連鎖率
©田中孝昌 6
(引用)Deep Learning実装の基礎と実践,得居誠也,http://www.slideshare.net/beam2d/deep-learningimplementation
誤差を後ろ（入力層）寄り
のせいだと考える

4.2.2 確率的勾配降下法
©田中孝昌 7
• 勾配降下法において𝐿(𝜃)は全学習データ𝑁から求められるが
確率的勾配降下法において𝐿(𝜃)はランダムに選択された
1つのサンプル𝑛から求められる
• 並列計算資源を有効活用するために1つのサンプル𝑛ではなく，
10から100程度のサイズ𝐵のサンプルを1つのミニバッチ𝐷𝑡として𝑡個の
ミニバッチを用いて確率的勾配降下法を行うことをミニバッチ法という
𝐿 𝜃 =
𝑛=1
𝑁
𝐿 𝑛(𝜃) 𝐿 𝜃 = 𝐿 𝑛(𝜃)
(勾配降下法) (確率的勾配降下法)
𝐿 𝜃 =
1
𝐵𝑡
𝑛∈𝐷𝑡
𝐿 𝑛(𝜃)
(ミニバッチ法)
(参考)深層学習，岡谷貴之，講談社

4.3 高速化手法
• 深層学習アーキテクチャ非依存の汎用手法
– 2つのアプローチ方向
• ソフトウェア
– 分散並列処理
– ミニバッチ正規化
– 蒸留
• ハードウェア
– GPU
– InfiniBand
©田中孝昌 8

• DistBelief以前
– MapReduce(2004,Google)
• 自明な並列性/ノード間通信少→深層学習に不適
– 分散並列処理SGD
• マシンごとの計算時間、通信時間がばらつき最遅マシ
ンによる待ち時間
• パラメータ更新時の排他制御による待ち時間
• 上記排他制御をしない方式は特徴ベクトルおよび勾
配が疎なら更新の衝突確率が低く成功するが、深層
学習の場合は密であるので困難
©田中孝昌 9

（参考）MapReduceの概要
（引用）平成２１年度産学連携ソフトウェア工学実践事業報告書,経済産業省,株式会社NTTデータ
http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf
MapReduce が最も有名である。Hadoop の分散処理フレームワークは、
MapReduce プログラムモデルに基づいている。大量データの処理を Map と
Reduce の 2 つのフェーズに分けて行う仕組みである。Map フェーズでは、処
理対象の入力データを細かいブロックに分割し、多数のサーバに分散して処
理を実施する。Reduce フェーズでは、Map フェーズでの処理結果に対して、
同じキーを持つデータを同じサーバにて集計を行う。MapReduce の処理全体
を MapReduce ジョブと呼び、MapReduce ジョブは多数の Map タスクと
Reduce タスクに分割して実行される。
SHUFFLE
MAP
REDUCE
図 1-2 MapReduce の概要
（例）文章中の単語の出現回数の集計
mapタスク
割り当てられた文章の一部分を単語に区
切って縦に並べた単語リストを作る
shuffleフェーズ
mapタスクから受け取った単語リストを
reduceタスクに配る、この際同じ単語は同
じreduceタスクに割り当てる（例えば、あ行
はピンク、か行は灰、さ行は緑）
reduceタスク
割り当てられた単語リストに含まれる単語
の数を集計する
©田中孝昌 10

• Model parallelism • Data parallelism
– Downpour SGD(online)
– Sandblaster L-BFGS(batch)
Large Scale Distributed Deep Networks(2012)
http://research.google.com/pubs/pub40565.html
©田中孝昌 11
各ノードがラン
ダムに選んだ
学習データを保
持、PSから重み
を受け取り、勾
配を返す
各ノードが分割
された学習デー
タを保持、PSか
ら重みを受け取
り、勾配を返す

• DistBeliefは大規模ニューラルネットワークの口
火を切った研究（2012）
• Jeff DeanらはDistBeliefを改良したTensorFlowを
Googleの第二世代機械学習システムとして発表
(2015)
– TensorFlowはオープンソースとして公開中
– Jeff DeanはDistBeliefを非常に成功であったがいくつ
かの制約があったと評価
• ニューラルネットワークに特化
• 理解が困難
• Googleの内部インフラと密接に関係するためコードが公開
できなかった
TensorFlow - Google’s latest machine learning system, open sourced for everyone
http://googleresearch.blogspot.jp/2015/11/tensorflow-googles-latest-machine_9.html
©田中孝昌 12

• The free lunch is over [2004]
– ソフトウェア開発者は何もしなくてもハードウェア開発者が処理性能を
上げてくれていた（時代が終わった）
– 分散並列処理の時代（マルチコア、マルチノード）
https://www.karlrupp.net/2015/06/40
-years-of-microprocessor-trend-data/
©田中孝昌 13
トランジスタ数
を増やしても処
理性能が上が
らなくなった

自然言語処理における特徴量表現（従来）
• 1-of-n (1-of-k)表現 • 転置インデックス
– 疎行列へのアクセス効
率化
©田中孝昌 14
big 3
gpu 8
・・・
Implementation of big neural network
with using GPU
implementation
of
big
neural
network
with
using
GPU
big gpu ・・・
0 0
0 0
1 0
0 0
0 0
0 0
0 0
0 1

自然言語処理における特徴量表現（深層学習）
©田中孝昌 15
（引用）単語・句の分散表現の学習，単語の分散表現と構成性の計算モデルの発展
http://www.slideshare.net/naoakiokazaki/ss-55494101
http://www.slideshare.net/naoakiokazaki/20150530-jsai2015

GPUの特徴について補足
• 汎用化GPU=GPGPU(General Purpose computing on GPU)
– コア数は多いが同じ命令しか実行できない（Single Instruction Multiple Data）
– 同じモデルを大量の学習データにあてはめるような深層学習の処理は得意
©田中孝昌 16
(引用)宇都宮大 Pear−labホームページ
http://aquila.is.utsunomiya-u.ac.jp/ja/index.php?id=34

4.3.3 InfiniBandの利用
• 並列分散処理における通信性能ボトルネック
を解消する技術
©田中孝昌 17
InfiniBand Trade Association（規格標準化のための業界団体）
http://www.infinibandta.org/content/pages.php?pg=technology_overview

4.3.4 学習収束の高速化:バッチ正規化
(Batch Normalization)
• SGDのミニバッチ法実行時にミニ
バッチごとのデータ分布の違い
（内部共変量シフト internal
covariate shift）が発生
• 学習が遅くなったり、初期値依存
性が高まる
• だからミニバッチごとに平均0、分
散1に正規化
• Back propagationのときΓ,βを推定
©田中孝昌 18
(論文)http://jmlr.org/proceedings/papers/v37/ioffe15.pdf
(参考) http://qiita.com/supersaiakujin/items/8a465ecb1dcbc7df8b02

4.3.4 学習収束の高速化
• 蒸留
– 大きなモデル（教師モデル）からヒント（暗黒知識）を
貰い、性能の良い小さなモデル（生徒モデル）を作る
手法
– 生徒モデルの学習時は入力データ(ハードターゲット)
と教師モデルの出力（ソフトターゲット）の確率分布の
交差エントロピーの重み付き和を最小化
• ハードターゲット
– 学習事例の1-of-n表現
• ソフトターゲット
– 教師モデルの出力する確率分布
– 式4.9のTを1より大きくして平滑化
©田中孝昌 19

4.4 過学習制御:DropOut
• アンサンブル学習の一種
• 訓練データごとにランダム(ハイパーパラメータα)にノードを無効化して学習
• 推論時は各ノードからの出力をα倍し、各学習時のモデルからの推論の幾何平均
に近似
• L2正則化と同じ効果（wを全体的に小さくする）
©田中孝昌 20
(参考)Deep learningの技術と未来 http://www.slideshare.net/beam2d/deep-learning-22544096

4.5.2 活性化関数:MaxOut
• Dropoutを活かす手法として開発
• 任意の凸関数を近似可能
• MNISTの判別でMaxOut+DropoutがRectifier+Dropoutに勝利
©田中孝昌 22
(論文)Maxout Networks
http://jmlr.org/proceedings/papers/v28/goodfellow13.pdf
(参考)
http://www.slideshare.net/stjunya/maxout-networks
http://www.slideshare.net/beam2d/deep-learning-22544096

4.6.1 学習率の調整:AdaGrad
• 各次元ごとに今までの勾配の2乗和をとって平方根をとって割る
• ハイパーパラメータはひとつだけ
• 学習の初期に学習率の分母が小さ過ぎて、学習率が大きくなり過ぎ、学
習が失敗する問題がある
©田中孝昌 23
(論文) Adaptive Subgradient Methods for Online Learning and Stochastic Optimization
http://jmlr.org/papers/volume12/duchi11a/duchi11a.pdf
(参考) http://www.logos.t.u-tokyo.ac.jp/~hassy/deep_learning/adagrad/
SGD
AdaGrad
学習率を少しずつ小さくしていく効果

4.6.2 学習率の調整:Adam
• 勾配の向きの変化に反応する
– 変化が少ないとE(g)/ E(𝑔2)は1に近づき、多いと分子E(g)
が相対的に小さくなる
©田中孝昌 24
(論文) A METHOD FOR STOCHASTIC OPTIMIZATION
http://arxiv.org/pdf/1412.6980v8.pdf
(参考)30分でわかるAdam，echizen_tm
https://ja.scribd.com/doc/260859670/30minutes-Adam
𝜃𝑡= 𝜃𝑡−1-𝛼E(g)/ E(𝑔2)
SGD
Adam
勾配の向きが毎回変わって
いるようなら学習率が大きす
ぎると考え小さくする効果

4.6.3 学習率の調整:超パラメータの最適化
• グリッド探索よりランダム探索のほうがよい
– グリッドで重要なパラメータ（特に学習率）を固定
しても無駄
– ランダムは計算をいつやめてもよい
– ランダムは非同期で計算できる
– 試行が失敗しても無視すればいい
©田中孝昌 25
(論文) Practical recommendations for gradient-based training of deep architectures
(参考) Practical recommendations for gradient-based training of deep architectures
http://www.slideshare.net/koji_matsuda/practical-recommendation-fordeeplearning

4.7.1 実装技術:実装の正しさのチェック
• 一次差分近似を用いて求められた勾配と比
較(𝜖 = 10−4
が目安)
• 小さいデータセットで訓練誤差が小さくなるか
確認
©田中孝昌 26
(論文) Practical recommendations for gradient-based training of deep architectures
(参考) Practical recommendations for gradient-based training of deep architectures
http://www.slideshare.net/koji_matsuda/practical-recommendation-fordeeplearning

深層学習第4章大規模深層学習の実現技術

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 深層学習第4章大規模深層学習の実現技術

Similar to 深層学習第4章大規模深層学習の実現技術 (20)

Recently uploaded

Recently uploaded (7)