Long Short-term Memory
- 3. Grid Long Short-term Memory
面白そうな論文 ”Grid Long Short-term Memory”
[Kalchbrenner+ 2015]
Long Short-term Memory(LSTM)を縦横につなげ
てやるとWikipediaの文字予測タスクでNN界最強
中国語英語翻訳でもphrase-based reference
systemよりはるかに性能がいい
これを理解するために遡っていく…
3
http://arxiv.org/abs/1507.01526
- 9. 問題: Input Weight Conflict
(著者曰く勾配ベースの手法すべてにある問題)
ある情報を、必要になるまで覚えておきたい
つまり、その情報が来たときに
ニューロンの活性は変わってほしい
しかし、他の情報が来たときに
ニューロンの活性は変わってほしくない
変わるか変わらないかが重みの値で表現されてい
る仕組みでは、この衝突が学習の妨げになる
9
- 10. 問題: Output Weight Conflict
出力に関しても同様に
「覚えておいた値を使う」と
「必要になるまで使わない」とを
出力重みの値で表現するのはConflict
10
- 18. Forget Gate
[Gers+ 1999] “Learning to Forget: Continual
Prediction with”
従来のLSTMは手動で記憶をリセットしていたが
それを自動でリセットできるようにしたよ、
という論文
http://citeseerx.ist.psu.edu/viewdoc/download?do
i=10.1.1.55.5709&rep=rep1&type=pdf
18