More Related Content
Similar to 日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎" (20)
More from Shinnosuke Takamichi (20)
日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"
- 2. /18
概要
背景:その強力さが叫ばれて久しい深層学習技術
– LSTM, CNN, Seq2Seq, CTC, GAN, AE, MemoryNet, SuperNN, etc.
問題:名前は聞いたことあるけど,中身をよく知らない…
– (研究で使ってるけど,ぶっちゃけ中身をよく知らない)
本発表:
– “名前は聞いたことある” から “仕組みがちょっとわかる” へ
– 信号処理とも絡めつつ概要を紹介
2
このスライドはslideshareにアップロード済みです.
(twitter: #asj2017a か 高道HPを参照)
- 5. /18
前のページの構造 (single-layer NN) を積み重ねる!
– 複数のSingle-layer NN から成る関数
Forward propagationを式で書くと…
Feed-Forward NN
5
⋯
⋯
⋯
⋯
𝒙 𝒚
𝒉1 = 𝒇1 𝑾1 𝒙 + 𝒃1 𝒚 = 𝒇 𝐿 𝑾L 𝒉 𝐿−1 + 𝒃 𝐿
𝒉1 𝒉 𝐿−1
𝒚 = 𝒇 𝐿 𝑾L 𝒇 𝐿−1 𝑾L−𝟏 … 𝒇1 𝑾1 𝒙 + 𝒃1 … + 𝒃 𝐿−1 + 𝒃 𝐿
- 6. /18
推定値 𝒚 と正解値 𝒚 から計算される損失関数 𝐿 ⋅ を最小化
– 二乗誤差 𝐿 𝐲, 𝒚 = 𝒚 − 𝒚 ⊤ 𝒚 − 𝒚
損失関数を最小化するようにモデルパラメータ 𝑾, 𝒃 を更新
– 勾配法がしばしば使われる(𝛼は学習係数 [AdaGradなどを使用])
モデルパラメータの学習
6
𝑾1 ← 𝑾1 − 𝛼
𝜕𝐿 𝐲, 𝒚
𝜕𝑾1
⋯
⋯
⋯
⋯
𝒙 𝒚𝒉1 𝒉 𝐿−1
𝒚
𝐿 ⋅ 𝐿 𝐲, 𝒚
𝜕𝐿 𝐲, 𝒚 𝜕𝒚𝜕𝒚 𝜕𝒉 𝐿−1𝜕𝒉1 𝜕𝑾1
合成関数なので,各関数の
微分の積として得られる
- 8. /18
RNN (Recurrent NN):
リカレント構造を持ったNN
NNの出力の一部を入力に戻すNN (LSTMは,これの派生)
– 構造情報など(例えば音声の時間構造)の依存性を記憶
8
𝒙 𝑡−2
⋯
𝒚 𝑡−2
𝒚 𝑡−2 𝐿 ⋅
Loss 𝑡−2
𝒙 𝑡−1
⋯
𝒚 𝑡−1
𝒚 𝑡−1 𝐿 ⋅
Loss 𝑡−1
𝒙 𝒕
⋯
𝒚 𝑡
𝒚 𝑡 𝐿 ⋅
Loss 𝑡
𝒙 𝑡+1
⋯
𝒚 𝑡+1
𝒚 𝑡+1 𝐿 ⋅
Loss 𝑡+1
- 9. /18
BPTT: Back propagation Through Time
当該時間におけるbackpropagationを,過去の時間に伝播
– 一定時間でbackwardを打ち切る方法をTruncated BPTTという
9
𝒙 𝑡−2
⋯
𝒚 𝑡−2
𝒚 𝑡−2 𝐿 ⋅
Loss 𝑡−2
𝒙 𝑡−1
⋯
𝒚 𝑡−1
𝒚 𝑡−1 𝐿 ⋅
Loss 𝑡−1
𝒙 𝒕
⋯
𝒚 𝑡
𝒚 𝑡 𝐿 ⋅
Loss 𝑡
𝒙 𝑡+1
⋯
𝒚 𝑡+1
𝒚 𝑡+1 𝐿 ⋅
Loss 𝑡+1
Backward path
- 10. /18
信号処理における畳み込み
畳み込み層:基本的に動作は同じ
– 主なパラメータは
– ー filter size: 右図の灰色部分の形
– ー #stride: filterの移動幅
– ー #padding: 端の0埋め数
– ー #channel: filterの数
• 異なるフィルタ係数を持った
複数のfliterを利用
CNN (Convolutional NN):
畳み込み構造を持ったNN
10https://github.com/vdumoulin/conv_arithmetic からgifを引用
Timeは ね
は は
21 21
ね ね
21 21
全時間で同じ
フィルタ係数がかかる
- 14. /18
Deep generative model
(深層生成モデル)
Deep generative modelとは
– DNNを使ってデータの生成分布を表現するモデル
– 前述の自己回帰型CNNも,これに相当
ここでは,分布変形に基づく方法を紹介
– 既知の確率分布を観測データの分布に変形
– 生成データ 𝒚 の分布と観測データ 𝒚 の分布が似るようにDNNを学習
14
𝒙 ~ 𝑁 𝟎, 𝑰 𝑮 ⋅ 𝒚𝒚 = 𝑮 𝒙
生成
データの
分布
分布の近さを
計算
- 15. /18
Generative Adversarial Network (GAN):
分布間距離の最小化
Generative adversarial network [Goodfellow et al., 2014.]
– 分布間の近似 Jensen-Shannon divergence を最小化
– 𝑮 ⋅ と,観測/生成データを識別する識別モデル 𝑫 ⋅ を敵対
15
𝒚
⋯
⋯
⋯
⋯
𝑮 ⋅
𝑫 ⋅
1: 観測
0: 生成
- 16. /18
Moment Matching Network (MMN):
モーメント間距離の最小化
Moment matching network [Li et al., 2015.]
– 分布のモーメント (平均,分散,…) 間の二乗距離を最小化
– 実装上は,グラム行列のノルムの差を最小化
16
𝒚
𝒚
⋯
⋯
⋯
⋯
𝑮 ⋅
- 18. /18
まとめ
深層学習を深く学習するための基礎を紹介
基礎構造
– Feed-Forward neural networks (FFNN)
– Recurrent neural networks (RNN) … LSTMなど
– Convolutional neural networks (CNN) … WaveNetなど
Deep generative models
– Generative adversarial networks (GAN) … 敵対的学習
– Moment-matching networks (MMN)
18
- 22. /18
Denoising AE
より頑健な次元圧縮を行うため,入力側にノイズを付与
– ノイジーな入力から,元のデータを復元する
どんなノイズを加える?
– Drop: ランダムに,使用する次元を減らす
• 𝒙 = 1,1,0,0,1,0,1 ^⊤ ∘ 𝒙 ( ∘ は要素積)
– Gauss: ガウスノイズを付与する
• 𝒙 = 𝒙 + 𝑵 𝟎, 𝜆𝑰 ( 𝜆 は分散)
22
𝒙
𝒉
𝒙 𝑳 𝒙, 𝒙 = 𝒙 − 𝒙 ⊤
𝒙 − 𝒙
𝒙 = 𝑫 𝑬 𝒙