SlideShare ist ein Scribd-Unternehmen logo
1 von 12
Downloaden Sie, um offline zu lesen
DeepLearning輪読会
10.7-10.14
リクルートテクノロジーズ
坪坂 正志
本⽇の内容
• ⻑期のRNNにおける課題
• 10.7 The challenge of long-term dependencies
• 課題を克服するための⼿法について
• 10.8 Echo state networks
• 10.10 Leaky Units
• 10.9, 10.14 skip connection, multiple time scale
• 10.12,10.13 second-order optimization, clipping gradients,
regularizing to encourage information flow
• 10.11 LSTM and other gated RNNs
RNNの問題
• Recurrent networkは⼊⼒に対して同じ操作を繰り返していく
ため共通の重みを何回かかけてくと⾮常に値が⼤きくなるか0
に近づくかのいずれかとなる
• 例えば⼊⼒と⾮線形項を除いたRNNの隠れ層の式 ℎ(#)
= 𝑤ℎ(#'()
を考え
ると初期の⼊⼒によらず0か発散のいずれかになることがわかる
• 通常のdeep networkでは各レイヤーで異なる重みを使うためこ
ういう問題は発⽣しない
• これによりgradient-basedの学習⽅法を⽤いようとすると短期
の勾配の影響が⻑期の勾配に⽐べて⾮常に⼤きくうまく学習で
きないという問題が発⽣する
Echo state networks
• Echo state networkは⼊⼒から隠れ層
のマッピングや隠れ層間の遷移の重み
は固定する
• 隠れ層から出⼒への変換の部分だけ学
習する
• この場合学習は単なる線形回帰の問題
なので勾配の消失などの問題は⼀切発
⽣しない、また学習も速い
• U, Wは過去の情報が消失/発散しない
ように⼀定のスペクトル半径となるよ
うに設定する
この部分のパラ
メータは⼊⼒と
して与えられて
いる
隠れ層から出⼒への重
みだけ学習
Leaky units
• unitの値の更新の際に自分の過去の値をそのまま利用するself-
connectionを導入する
• 式で書くと 𝜇(#)
= 𝛼𝜇(#'()
+ (1 − 𝛼)𝑣(#)
となる
• Self-connectionについては最近画像のコンテストILSVRC 2015
で優勝したResNetでも使われているアイディア
• http://research.microsoft.com/en-
us/um/people/kahe/ilsvrc15/ilsvrc2015_deep_residual_learning_kai
minghe.pdf
Skip connection, Multiple time scale
• Skip Connection through time
• 時刻tからt+1のコネクション以外にもtからt+dのようなジャンプして
いるコネクションを追加する
• Multiple time scale
• Skip connectionではユニットは遠い過去の情報を⼊⼒として受け取る
が⼀個前の情報にも依存している
• Multiple time scaleの場合⼀個前ではなく2個,4個,8個と遠い距離の⼊
⼒のみを受け取るユニットを⽤意してネットワークを構成する
Second-order optimization
• ⼀次の勾配が0に近づくタイミングで⼆次の勾配も同様に0に近
づくことがわかっている
• この場合second-order optimizationを使うと
• 例えばニュートン法の更新が 𝑥 ← 	𝑥 −
=>
=>>
であることから⽐率は変わら
ないことからfirst-orderの⽅法と違ってvanishing gradient問題が回避
できる
• しかし、second-order optimizationの計算量の課題からこの⽅
法はあまり使われずSGD + LSTMが主流の⽅法となっている
• これは機械学習でよくある最適化が簡単なモデルを構築する法
が最適化を⼯夫するよりも簡単だという話となっている
Clipping gradients
• 勾配が⼤きくならないようにgradientの値を計算した後に値が
閾値を超えていたら修正する
• 修正の仕⽅は
• Element wise : 要素ごとに閾値で抑える
• Clip the norm : 勾配のノルムを計算して、ノルムが閾値以下になるよ
うに修正
• Clip the normの⽅が勾配の⽅向が変わらないという利点があるが⼆者
の性能については実験的にはあまり⼤差がない
Regularizing to encourage information flow
• Gradient clippingは勾配の発散には対処できるが消失には対応
できていない
• ⼀つのアイディアとして時刻tにおける損失関数の勾配の影響が
過去にも残るような正則化項をいれるという⽅法があり、以下
の正則化項が提案されている
Gated RNNs
• Leaky unitは過去の情報を蓄積するためのαという項を備えて
いた
• Gated RNNsではこの部分の過去の情報を蓄積するための項を
各ステップで変化させていく
• またGated RNNsでは過去の情報を忘却するための機構も備え
ている
LSTM
• ⼊⼒と出⼒の形式はRNNと同じ
• Stateの更新
• Stateの更新はLeaky Unit同様過去の値と現在の⼊⼒を
混ぜるという⽅針、ただしLeaky Unitと違い要素ごとに
⼊⼒に応じて係数を変更する
• 𝑠@
(#)
= 𝑓@
#
B 𝑠@
#'(
+ 𝑔@
#
B 𝑖@
(#)
• 𝑓@
(#)
= 𝜎(𝑏@
=
+ 𝑈@
=
𝑥 #
+ 𝑊@
=
ℎ(#'()
) forget gate
• 𝑔@
(#)
= 𝜎(𝑏@
I
+ 𝑈@
I
𝑥 #
+ 𝑊@
I
ℎ(#'()
) external input gate
• 𝑖@
(#)
= 𝜎(𝑏@ + 𝑈@ 𝑥 #
+ 𝑊@ℎ(#'()
) input
• 隠れ層の更新
• ℎ@
(#)
= tanh 𝑠@
#
𝑞@
(#)
• 𝑞@
(#)
= 𝜎(𝑏@
M
+ 𝑈@
M
𝑥 #
+ 𝑊@
M
ℎ #'(
) output gate
Other gated RNNs
• GRU
• ℎ@
(#)
= 𝑢@
(#)
ℎ@
(#'()
+ (1 − 𝑢@
#
)𝑖@
(#'()
• 𝑢@
(#)
= 𝜎(𝑏@
O
+ 𝑈@
O
𝑥 #
+ 𝑊@
O
ℎ(#'()
) update gate
• 𝑖@
(#)
= 𝜎(𝑏@ + 𝑈@ 𝑥 #
+ 𝑊@(𝑟⨂ℎ #'(
))
• 𝑟@
(#)
= 𝜎(𝑏@
R
+ 𝑈@
R
𝑥 #
+ 𝑊@
R
ℎ(#'()
) reset gate
• Update gateとreset gateという⼆つの部分で元の隠れ層の値を
残すかどうかをコントロールしている
• LSTMに⽐べgateが⼀つ減っている分学習するパラメータが少
なくなっている

Weitere ähnliche Inhalte

Was ist angesagt?

Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some PreliminaryDeep Learning JP
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
 
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリングmlm_kansai
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?Deep Learning JP
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...Deep Learning JP
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)Satoshi Hara
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
 
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理Taiji Suzuki
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational AutoencoderDeep Learning JP
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用Yasunori Ozaki
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep LearningSeiya Tokui
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイDeep Learning JP
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion ModelsDeep Learning JP
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual FeaturesARISE analytics
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門joisino
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential EquationsDeep Learning JP
 

Was ist angesagt? (20)

Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
研究効率化Tips Ver.2
研究効率化Tips Ver.2研究効率化Tips Ver.2
研究効率化Tips Ver.2
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
 

Mehr von 正志 坪坂

KDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossingKDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossing正志 坪坂
 
WSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor modelWSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor model正志 坪坂
 
Deeplearning勉強会20160220
Deeplearning勉強会20160220Deeplearning勉強会20160220
Deeplearning勉強会20160220正志 坪坂
 
OnlineMatching勉強会第一回
OnlineMatching勉強会第一回OnlineMatching勉強会第一回
OnlineMatching勉強会第一回正志 坪坂
 
Tokyowebmining ctr-predict
Tokyowebmining ctr-predictTokyowebmining ctr-predict
Tokyowebmining ctr-predict正志 坪坂
 
Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計正志 坪坂
 
Contexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMiningContexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMining正志 坪坂
 
Introduction to contexual bandit
Introduction to contexual banditIntroduction to contexual bandit
Introduction to contexual bandit正志 坪坂
 
確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング正志 坪坂
 
Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)正志 坪坂
 
static index pruningについて
static index pruningについてstatic index pruningについて
static index pruningについて正志 坪坂
 

Mehr von 正志 坪坂 (20)

Recsys2018 unbiased
Recsys2018 unbiasedRecsys2018 unbiased
Recsys2018 unbiased
 
WSDM2018Study
WSDM2018StudyWSDM2018Study
WSDM2018Study
 
Recsys2016勉強会
Recsys2016勉強会Recsys2016勉強会
Recsys2016勉強会
 
KDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossingKDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossing
 
WSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor modelWSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor model
 
Deeplearning勉強会20160220
Deeplearning勉強会20160220Deeplearning勉強会20160220
Deeplearning勉強会20160220
 
OnlineMatching勉強会第一回
OnlineMatching勉強会第一回OnlineMatching勉強会第一回
OnlineMatching勉強会第一回
 
Recsys2015
Recsys2015Recsys2015
Recsys2015
 
KDD 2015読み会
KDD 2015読み会KDD 2015読み会
KDD 2015読み会
 
Recsys2014 recruit
Recsys2014 recruitRecsys2014 recruit
Recsys2014 recruit
 
EMNLP2014_reading
EMNLP2014_readingEMNLP2014_reading
EMNLP2014_reading
 
Tokyowebmining ctr-predict
Tokyowebmining ctr-predictTokyowebmining ctr-predict
Tokyowebmining ctr-predict
 
KDD2014_study
KDD2014_study KDD2014_study
KDD2014_study
 
Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計
 
Contexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMiningContexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMining
 
Introduction to contexual bandit
Introduction to contexual banditIntroduction to contexual bandit
Introduction to contexual bandit
 
確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング
 
Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)
 
Tokyowebmining2012
Tokyowebmining2012Tokyowebmining2012
Tokyowebmining2012
 
static index pruningについて
static index pruningについてstatic index pruningについて
static index pruningについて
 

Deeplearning輪読会

  • 2. 本⽇の内容 • ⻑期のRNNにおける課題 • 10.7 The challenge of long-term dependencies • 課題を克服するための⼿法について • 10.8 Echo state networks • 10.10 Leaky Units • 10.9, 10.14 skip connection, multiple time scale • 10.12,10.13 second-order optimization, clipping gradients, regularizing to encourage information flow • 10.11 LSTM and other gated RNNs
  • 3. RNNの問題 • Recurrent networkは⼊⼒に対して同じ操作を繰り返していく ため共通の重みを何回かかけてくと⾮常に値が⼤きくなるか0 に近づくかのいずれかとなる • 例えば⼊⼒と⾮線形項を除いたRNNの隠れ層の式 ℎ(#) = 𝑤ℎ(#'() を考え ると初期の⼊⼒によらず0か発散のいずれかになることがわかる • 通常のdeep networkでは各レイヤーで異なる重みを使うためこ ういう問題は発⽣しない • これによりgradient-basedの学習⽅法を⽤いようとすると短期 の勾配の影響が⻑期の勾配に⽐べて⾮常に⼤きくうまく学習で きないという問題が発⽣する
  • 4. Echo state networks • Echo state networkは⼊⼒から隠れ層 のマッピングや隠れ層間の遷移の重み は固定する • 隠れ層から出⼒への変換の部分だけ学 習する • この場合学習は単なる線形回帰の問題 なので勾配の消失などの問題は⼀切発 ⽣しない、また学習も速い • U, Wは過去の情報が消失/発散しない ように⼀定のスペクトル半径となるよ うに設定する この部分のパラ メータは⼊⼒と して与えられて いる 隠れ層から出⼒への重 みだけ学習
  • 5. Leaky units • unitの値の更新の際に自分の過去の値をそのまま利用するself- connectionを導入する • 式で書くと 𝜇(#) = 𝛼𝜇(#'() + (1 − 𝛼)𝑣(#) となる • Self-connectionについては最近画像のコンテストILSVRC 2015 で優勝したResNetでも使われているアイディア • http://research.microsoft.com/en- us/um/people/kahe/ilsvrc15/ilsvrc2015_deep_residual_learning_kai minghe.pdf
  • 6. Skip connection, Multiple time scale • Skip Connection through time • 時刻tからt+1のコネクション以外にもtからt+dのようなジャンプして いるコネクションを追加する • Multiple time scale • Skip connectionではユニットは遠い過去の情報を⼊⼒として受け取る が⼀個前の情報にも依存している • Multiple time scaleの場合⼀個前ではなく2個,4個,8個と遠い距離の⼊ ⼒のみを受け取るユニットを⽤意してネットワークを構成する
  • 7. Second-order optimization • ⼀次の勾配が0に近づくタイミングで⼆次の勾配も同様に0に近 づくことがわかっている • この場合second-order optimizationを使うと • 例えばニュートン法の更新が 𝑥 ← 𝑥 − => =>> であることから⽐率は変わら ないことからfirst-orderの⽅法と違ってvanishing gradient問題が回避 できる • しかし、second-order optimizationの計算量の課題からこの⽅ 法はあまり使われずSGD + LSTMが主流の⽅法となっている • これは機械学習でよくある最適化が簡単なモデルを構築する法 が最適化を⼯夫するよりも簡単だという話となっている
  • 8. Clipping gradients • 勾配が⼤きくならないようにgradientの値を計算した後に値が 閾値を超えていたら修正する • 修正の仕⽅は • Element wise : 要素ごとに閾値で抑える • Clip the norm : 勾配のノルムを計算して、ノルムが閾値以下になるよ うに修正 • Clip the normの⽅が勾配の⽅向が変わらないという利点があるが⼆者 の性能については実験的にはあまり⼤差がない
  • 9. Regularizing to encourage information flow • Gradient clippingは勾配の発散には対処できるが消失には対応 できていない • ⼀つのアイディアとして時刻tにおける損失関数の勾配の影響が 過去にも残るような正則化項をいれるという⽅法があり、以下 の正則化項が提案されている
  • 10. Gated RNNs • Leaky unitは過去の情報を蓄積するためのαという項を備えて いた • Gated RNNsではこの部分の過去の情報を蓄積するための項を 各ステップで変化させていく • またGated RNNsでは過去の情報を忘却するための機構も備え ている
  • 11. LSTM • ⼊⼒と出⼒の形式はRNNと同じ • Stateの更新 • Stateの更新はLeaky Unit同様過去の値と現在の⼊⼒を 混ぜるという⽅針、ただしLeaky Unitと違い要素ごとに ⼊⼒に応じて係数を変更する • 𝑠@ (#) = 𝑓@ # B 𝑠@ #'( + 𝑔@ # B 𝑖@ (#) • 𝑓@ (#) = 𝜎(𝑏@ = + 𝑈@ = 𝑥 # + 𝑊@ = ℎ(#'() ) forget gate • 𝑔@ (#) = 𝜎(𝑏@ I + 𝑈@ I 𝑥 # + 𝑊@ I ℎ(#'() ) external input gate • 𝑖@ (#) = 𝜎(𝑏@ + 𝑈@ 𝑥 # + 𝑊@ℎ(#'() ) input • 隠れ層の更新 • ℎ@ (#) = tanh 𝑠@ # 𝑞@ (#) • 𝑞@ (#) = 𝜎(𝑏@ M + 𝑈@ M 𝑥 # + 𝑊@ M ℎ #'( ) output gate
  • 12. Other gated RNNs • GRU • ℎ@ (#) = 𝑢@ (#) ℎ@ (#'() + (1 − 𝑢@ # )𝑖@ (#'() • 𝑢@ (#) = 𝜎(𝑏@ O + 𝑈@ O 𝑥 # + 𝑊@ O ℎ(#'() ) update gate • 𝑖@ (#) = 𝜎(𝑏@ + 𝑈@ 𝑥 # + 𝑊@(𝑟⨂ℎ #'( )) • 𝑟@ (#) = 𝜎(𝑏@ R + 𝑈@ R 𝑥 # + 𝑊@ R ℎ(#'() ) reset gate • Update gateとreset gateという⼆つの部分で元の隠れ層の値を 残すかどうかをコントロールしている • LSTMに⽐べgateが⼀つ減っている分学習するパラメータが少 なくなっている