Suche senden
Hochladen
Deeplearning輪読会
•
8 gefällt mir
•
9,410 views
正志 坪坂
Folgen
BengioのDeep Learningの輪読会資料 http://www.deeplearningbook.org/ 10.7-10.14
Weniger lesen
Mehr lesen
Wissenschaft
Melden
Teilen
Melden
Teilen
1 von 12
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Empfohlen
GAN(と強化学習との関係)
GAN(と強化学習との関係)
Masahiro Suzuki
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
Masanao Ochi
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
最適輸送の解き方
最適輸送の解き方
joisino
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
Deep Learning JP
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
Empfohlen
GAN(と強化学習との関係)
GAN(と強化学習との関係)
Masahiro Suzuki
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
Masanao Ochi
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
最適輸送の解き方
最適輸送の解き方
joisino
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
Deep Learning JP
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
Deep Learning JP
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
mlm_kansai
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
Deep Learning JP
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
Deep Learning JP
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
Satoshi Hara
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
Taiji Suzuki
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
Deep Learning JP
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
研究効率化Tips Ver.2
研究効率化Tips Ver.2
cvpaper. challenge
生成モデルの Deep Learning
生成モデルの Deep Learning
Seiya Tokui
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Deep Learning JP
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
Deep Learning JP
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
ARISE analytics
最適輸送入門
最適輸送入門
joisino
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
Deep Learning JP
Recsys2018 unbiased
Recsys2018 unbiased
正志 坪坂
WSDM2018Study
WSDM2018Study
正志 坪坂
Weitere ähnliche Inhalte
Was ist angesagt?
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
Deep Learning JP
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
mlm_kansai
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
Deep Learning JP
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
Deep Learning JP
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
Satoshi Hara
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
Taiji Suzuki
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
Deep Learning JP
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
研究効率化Tips Ver.2
研究効率化Tips Ver.2
cvpaper. challenge
生成モデルの Deep Learning
生成モデルの Deep Learning
Seiya Tokui
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Deep Learning JP
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
Deep Learning JP
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
ARISE analytics
最適輸送入門
最適輸送入門
joisino
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
Deep Learning JP
Was ist angesagt?
(20)
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
全力解説!Transformer
全力解説!Transformer
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
研究効率化Tips Ver.2
研究効率化Tips Ver.2
生成モデルの Deep Learning
生成モデルの Deep Learning
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
最適輸送入門
最適輸送入門
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
Mehr von 正志 坪坂
Recsys2018 unbiased
Recsys2018 unbiased
正志 坪坂
WSDM2018Study
WSDM2018Study
正志 坪坂
Recsys2016勉強会
Recsys2016勉強会
正志 坪坂
KDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossing
正志 坪坂
WSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor model
正志 坪坂
Deeplearning勉強会20160220
Deeplearning勉強会20160220
正志 坪坂
OnlineMatching勉強会第一回
OnlineMatching勉強会第一回
正志 坪坂
Recsys2015
Recsys2015
正志 坪坂
KDD 2015読み会
KDD 2015読み会
正志 坪坂
Recsys2014 recruit
Recsys2014 recruit
正志 坪坂
EMNLP2014_reading
EMNLP2014_reading
正志 坪坂
Tokyowebmining ctr-predict
Tokyowebmining ctr-predict
正志 坪坂
KDD2014_study
KDD2014_study
正志 坪坂
Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計
正志 坪坂
Contexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMining
正志 坪坂
Introduction to contexual bandit
Introduction to contexual bandit
正志 坪坂
確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング
正志 坪坂
Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)
正志 坪坂
Tokyowebmining2012
Tokyowebmining2012
正志 坪坂
static index pruningについて
static index pruningについて
正志 坪坂
Mehr von 正志 坪坂
(20)
Recsys2018 unbiased
Recsys2018 unbiased
WSDM2018Study
WSDM2018Study
Recsys2016勉強会
Recsys2016勉強会
KDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossing
WSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor model
Deeplearning勉強会20160220
Deeplearning勉強会20160220
OnlineMatching勉強会第一回
OnlineMatching勉強会第一回
Recsys2015
Recsys2015
KDD 2015読み会
KDD 2015読み会
Recsys2014 recruit
Recsys2014 recruit
EMNLP2014_reading
EMNLP2014_reading
Tokyowebmining ctr-predict
Tokyowebmining ctr-predict
KDD2014_study
KDD2014_study
Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計
Contexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMining
Introduction to contexual bandit
Introduction to contexual bandit
確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング
Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)
Tokyowebmining2012
Tokyowebmining2012
static index pruningについて
static index pruningについて
Deeplearning輪読会
1.
DeepLearning輪読会 10.7-10.14 リクルートテクノロジーズ 坪坂 正志
2.
本⽇の内容 • ⻑期のRNNにおける課題 • 10.7
The challenge of long-term dependencies • 課題を克服するための⼿法について • 10.8 Echo state networks • 10.10 Leaky Units • 10.9, 10.14 skip connection, multiple time scale • 10.12,10.13 second-order optimization, clipping gradients, regularizing to encourage information flow • 10.11 LSTM and other gated RNNs
3.
RNNの問題 • Recurrent networkは⼊⼒に対して同じ操作を繰り返していく ため共通の重みを何回かかけてくと⾮常に値が⼤きくなるか0 に近づくかのいずれかとなる •
例えば⼊⼒と⾮線形項を除いたRNNの隠れ層の式 ℎ(#) = 𝑤ℎ(#'() を考え ると初期の⼊⼒によらず0か発散のいずれかになることがわかる • 通常のdeep networkでは各レイヤーで異なる重みを使うためこ ういう問題は発⽣しない • これによりgradient-basedの学習⽅法を⽤いようとすると短期 の勾配の影響が⻑期の勾配に⽐べて⾮常に⼤きくうまく学習で きないという問題が発⽣する
4.
Echo state networks •
Echo state networkは⼊⼒から隠れ層 のマッピングや隠れ層間の遷移の重み は固定する • 隠れ層から出⼒への変換の部分だけ学 習する • この場合学習は単なる線形回帰の問題 なので勾配の消失などの問題は⼀切発 ⽣しない、また学習も速い • U, Wは過去の情報が消失/発散しない ように⼀定のスペクトル半径となるよ うに設定する この部分のパラ メータは⼊⼒と して与えられて いる 隠れ層から出⼒への重 みだけ学習
5.
Leaky units • unitの値の更新の際に自分の過去の値をそのまま利用するself- connectionを導入する •
式で書くと 𝜇(#) = 𝛼𝜇(#'() + (1 − 𝛼)𝑣(#) となる • Self-connectionについては最近画像のコンテストILSVRC 2015 で優勝したResNetでも使われているアイディア • http://research.microsoft.com/en- us/um/people/kahe/ilsvrc15/ilsvrc2015_deep_residual_learning_kai minghe.pdf
6.
Skip connection, Multiple
time scale • Skip Connection through time • 時刻tからt+1のコネクション以外にもtからt+dのようなジャンプして いるコネクションを追加する • Multiple time scale • Skip connectionではユニットは遠い過去の情報を⼊⼒として受け取る が⼀個前の情報にも依存している • Multiple time scaleの場合⼀個前ではなく2個,4個,8個と遠い距離の⼊ ⼒のみを受け取るユニットを⽤意してネットワークを構成する
7.
Second-order optimization • ⼀次の勾配が0に近づくタイミングで⼆次の勾配も同様に0に近 づくことがわかっている •
この場合second-order optimizationを使うと • 例えばニュートン法の更新が 𝑥 ← 𝑥 − => =>> であることから⽐率は変わら ないことからfirst-orderの⽅法と違ってvanishing gradient問題が回避 できる • しかし、second-order optimizationの計算量の課題からこの⽅ 法はあまり使われずSGD + LSTMが主流の⽅法となっている • これは機械学習でよくある最適化が簡単なモデルを構築する法 が最適化を⼯夫するよりも簡単だという話となっている
8.
Clipping gradients • 勾配が⼤きくならないようにgradientの値を計算した後に値が 閾値を超えていたら修正する •
修正の仕⽅は • Element wise : 要素ごとに閾値で抑える • Clip the norm : 勾配のノルムを計算して、ノルムが閾値以下になるよ うに修正 • Clip the normの⽅が勾配の⽅向が変わらないという利点があるが⼆者 の性能については実験的にはあまり⼤差がない
9.
Regularizing to encourage
information flow • Gradient clippingは勾配の発散には対処できるが消失には対応 できていない • ⼀つのアイディアとして時刻tにおける損失関数の勾配の影響が 過去にも残るような正則化項をいれるという⽅法があり、以下 の正則化項が提案されている
10.
Gated RNNs • Leaky
unitは過去の情報を蓄積するためのαという項を備えて いた • Gated RNNsではこの部分の過去の情報を蓄積するための項を 各ステップで変化させていく • またGated RNNsでは過去の情報を忘却するための機構も備え ている
11.
LSTM • ⼊⼒と出⼒の形式はRNNと同じ • Stateの更新 •
Stateの更新はLeaky Unit同様過去の値と現在の⼊⼒を 混ぜるという⽅針、ただしLeaky Unitと違い要素ごとに ⼊⼒に応じて係数を変更する • 𝑠@ (#) = 𝑓@ # B 𝑠@ #'( + 𝑔@ # B 𝑖@ (#) • 𝑓@ (#) = 𝜎(𝑏@ = + 𝑈@ = 𝑥 # + 𝑊@ = ℎ(#'() ) forget gate • 𝑔@ (#) = 𝜎(𝑏@ I + 𝑈@ I 𝑥 # + 𝑊@ I ℎ(#'() ) external input gate • 𝑖@ (#) = 𝜎(𝑏@ + 𝑈@ 𝑥 # + 𝑊@ℎ(#'() ) input • 隠れ層の更新 • ℎ@ (#) = tanh 𝑠@ # 𝑞@ (#) • 𝑞@ (#) = 𝜎(𝑏@ M + 𝑈@ M 𝑥 # + 𝑊@ M ℎ #'( ) output gate
12.
Other gated RNNs •
GRU • ℎ@ (#) = 𝑢@ (#) ℎ@ (#'() + (1 − 𝑢@ # )𝑖@ (#'() • 𝑢@ (#) = 𝜎(𝑏@ O + 𝑈@ O 𝑥 # + 𝑊@ O ℎ(#'() ) update gate • 𝑖@ (#) = 𝜎(𝑏@ + 𝑈@ 𝑥 # + 𝑊@(𝑟⨂ℎ #'( )) • 𝑟@ (#) = 𝜎(𝑏@ R + 𝑈@ R 𝑥 # + 𝑊@ R ℎ(#'() ) reset gate • Update gateとreset gateという⼆つの部分で元の隠れ層の値を 残すかどうかをコントロールしている • LSTMに⽐べgateが⼀つ減っている分学習するパラメータが少 なくなっている
Jetzt herunterladen