深層学習 (Deep Learning) は認識識タスクで成功した
3
⾳音声:2011 年年に GMM より単語誤識識別率率率で 10% 前後も改善
画像:2012 年年に⼀一般物体認識識のコンテ
スト (ILSVRC) で他⼿手法に誤識識別率率率で
10% 程度度の差をつけて勝利利
F. Seide, G. Li and D. Yu.
Conversational Speech Transcription Using Context-Dependent Deep
Neural Network, in INTERSPEECH, pp. 437-440 (2011)
J. Deng, A. Berg, S. Satheesh, H. Su, A. Khosla and F.-F. Li
. Large Scale Visual Recognition Challenge 2012. ILSVRC2012
Workshop.
例例:多層パーセプトロンの実装
Chainer での実装例例
layer1 = F.Linear(n_in, n_hidden)
layer2 = F.Linear(n_hidden, n_out)
h = F.relu(layer1(x))
y = layer2(h)
loss = softmax_cross_entropy(y, t)
12
x
W1 W2b1 b2
+ +h y
t
loss
Linear ReLU Linear
f(x) = max(0, x)
ReLU
誤差逆伝播は⾃自動化できる(後退型⾃自動微分)
l からはじめて逆向きにヤコビ⾏行行列列をかけていく
l 計算の順序さえ記録しておけば、単にヤコビ⾏行行列列を順にかけるだけなので、⾃自
動化できる(⾃自分でヤコビ⾏行行列列をかける順番を定義する必要はない)
l 多くの Deep Learning フレームワークは、この誤差逆伝播が⾃自動化できる枠組
みを与えている
l こうやって勾配を⾃自動的に求めるアルゴリズムを(後退型)⾃自動微分という
13
t
1
Linear ReLU Linear
DD+D+ DD D y
b2W2W1 b1
hx
a =
loss
a
( a)
loss = 1
⾳音声認識識:双⽅方向リカレントネット, Deep Speech
l ⼊入⼒力力はスペクトログラム系列列
l 前向き RNN と後向き RNN を並
べて、両⽅方の出⼒力力を上の層に⼊入
⼒力力する
l 未来の情報もつかって予測する
ことに相当
l ⾳音声でもデータの作成⽅方法や
data augmentation が重要に
なってきている
– ノイズやエコーを合成
– ヘッドホンで雑⾳音環境を再現
しながらしゃべってもらう
(ランバート効果)
21
A. Hannun, C. Case, J. Casper, B. Catanzaro, G. Diamos,
E. Elsen, R. Prenger, S. Satheesh, S. Sengupta, A.
Coates, A. Y. Ng. Deep Speech: Scaling up end-‐‑‒to-‐‑‒end
speech recognition. arXiv:1412.5567
機械翻訳:Encoder-‐‑‒Decoder モデル
l ソース⾔言語の⽂文を Encoder RNN に⼊入⼒力力して、その最終状態をもとにターゲッ
ト⾔言語の⽂文を Decoder RNN が出⼒力力する
l これを単純に教師あり学習
– たとえば英語の⽂文をフランス語の⽂文に変換する RNN を学習
– State of the Art に匹敵する性能を発揮しつつある
l オリジナルの論論⽂文では LSTM (Long Short-‐‑‒Term Memory) を 4 層重ねた
RNN を使⽤用
22
I. Sutskever, O. Vinyals, Q. V. Le. Sequence to
Sequence Learning with Neural Networks. NIPS 2014.
機械翻訳:Attention による⼊入⼒力力の選択
l “Decode” するときに、⼊入⼒力力の⼀一部を⾒見見なお
す
l どこを⾒見見直すか⾃自体も RNN が出⼒力力する
– ⼊入⼒力力データの⼀一部を選択して forward す
ることを attention という
l 左図では双⽅方向リカレントネットで各単語の
⽂文脈特徴をつくり、それに attention を当て
て decoder RNN に⼊入⼒力力している
l Attention では⼊入⼒力力データの情報量量は増えな
いが、すべてを RNN の状態に押し込む必要
がなくなるので、学習が “楽になる”
23
D. Bahdanau, K. Cho, Y. Bengio. Neural
Machine Translation by Jointly Learning
to Align and Translate. ICLR 2015.
Encoder-‐‑‒Decoder モデルの応⽤用:キャプション⽣生成
l 画像を⽂文章に「翻訳」
l Encoder は ConvNet (GoogLeNet) で、
Decoder は リカレントネット
24
O. Vinyals, A. Toshev, S. Bengio, D.
Erhan. Show and Tell :A Neural Image
Caption Generation. arXiv:1411.4555v2
Attention を⽤用いた Encoder-‐‑‒Decoder でのキャプション⽣生成
25
K. Xu, J. L. Ba, R. Kiros, K. Cho,
A. Courville, R. Salakhutdinov, R.
S. Zemel, Y. Bengio. Show, Attent
and Tell: Neural Image Caption
Generation with Visual Attention.
arXiv:1502.03044v2.
ゲームプレイ (DQN):ConvNet+Q学習+勾配法
l 直近数フレームの画⾯面を⼊入⼒力力として、ど
のボタンを押せばよいか ConvNet に予
測させる
l 教師は与えず、スコアを報酬としてそれ
を最⼤大化するように強化学習
l 右図はゲームごとのスコア⼀一覧
26
V. Mnih, et al. Human-‐‑‒level control through
deep reinforcement learning. Nature, vol.518,
Feb. 26, 2015.
このラインから上は
⼈人間並 or ⼈人間以上
⽣生成モデル:変分 AutoEncoder
l 潜在変数からデータを⽣生成する過程(⽣生成器)を NN であらわす
l 逆にデータから潜在変数を推定する過程(認識識器)も別の NN であらわす
l この 2 つの確率率率モデル と がマッチするように学習
– 実際には Decoder モデルの最尤推定として定式化して、それを Encoder
モデルを使った変分法によって学習する
l ⾃自由度度の⾼高い確率率率モデルで、たくさんの拡張が提案されている
28
NNx z
NNx z
q(x)q(z|x)
p(z)p(x|z)
Encoder
(認識識器)
Decoder
(⽣生成器)
p q
⽣生成モデル:Attention+変分 AE による逐次的な画像⽣生成
29
l 「キャンバス」に差分を次々⽣生成していく
l 上の画像では、⻘青いピクセルが⽩白く塗る操作を、⾚赤いピクセルが⿊黒く塗る操作
を表していて、右に⾏行行くほど時間が進む
l 確率率率モデルとしては、変分 AE にリカレントネットを組み込んだもの
l 上の画像は私が⾏行行った再現結果
K. Gregor, I. Danihelka, A. Graves. D. J. Rezende, D.
Wierstra. DRAW: A Recurrent Neural Network For Image
Generation. ICML 2015.
⽣生成モデル:敵対的ネットワークス
l ⽣生成器と識識別器という 2 つの NN を同時に学習する
– 識識別器:⽣生データと⽣生成器がつくったデータを判別するのが⽬目標
– ⽣生成器は識識別器に間違えさせる(=うまく⽣生データを模倣する)のが⽬目標
30
NN xz
generator
NN
⽣生成データ?
⽣生データ?
discriminator
I. J. Goodfellow, J. P.-‐‑‒Abadie, M. Mirza, B. Xu, D. W.-‐‑‒Farley, S. Ozair, A. Courville, Y. Bengio.
Generative Adversarial Nets. NIPS 2014.
⼤大きな画像の⽣生成:解像度度を段階的に上げていく
32
E. Denton, S. Chintala, A. Szlam, R. Fergus. Deep Generative
Image Models using a Laplacian pyramid of Adversarial Networks.
arXiv:1506.05751v1
アナロジー⽣生成:表現を混ぜる
l NN の中間層の値や、変分 AE の推定された を「表現」といったりする
l 表現の⼀一部を固定したまま、ほかの部分を別のもの(例例えば別のデータの表
現)に差し替えたり似せたりすることで「アナロジー」ができる
l アナロジー表現を表すようなデータを求めることで、そのアナロジーを⽣生成で
きる
33
z
NNx
u
v
NNx
u
v
x
⽣生成部分は NN だったり、
誤差逆伝播による最適化だったり
アナロジー⽣生成:変分 AutoEncoder によるラベル変更更
左端の画像を⼊入⼒力力としてラベルつき変分 AE の を認識識器で推定して、ラベルだけ
変えて⽣生成器に通すと右カラムの画像が⽣生成できる
(つまり、左端の⽂文字のような雰囲気の別の字が⽣生成できる)
34
z
D. P. Kingma, D. J. Rezende, S. Mohamed, M. Welling. Semi-‐‑‒Supervised Learning with
Deep Generative Models. NIPS 2014.