Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
2014/11/22 
EMNLP2014読み会@PFI 
Learning Phrase Representations using 
RNN Encoder-‐‑‒Decoder 
for Statistical Machine Trans...
はじめに 
Neural Network系技術を統計的機械翻訳(SMT)に 
活かす研究は流行っている,ACL2014も多かった 
(best paperもそうだった) 
多くはphrase-based SMTの枠組みのどこかに活かす形 
今回...
Agenda 
- はじめに 
- RNN Encoder-Decoder 
! 
! 
出てくる技術 
- RNN 
- LSTM(のシンプル版) 
- Maxout 
! 
- 実験・結果 
! 
出てくる技術 
- phrase-base...
Agenda 
- はじめに 
- RNN Encoder-Decoder 
! 
! 
出てくる技術 
- RNN 
- LSTM(のシンプル版) 
- Maxout 
! 
- 実験・結果 
! 
出てくる技術 
- phrase-base...
RNN Encoder-Decoder 
2種類のRNN
RNN Encoder-Decoder 
1. Encoder 
現言語列の単語をひと 
つずつ受け取り,隠れ 
状態ベクトルcを作る 
RNN
RNN Encoder-Decoder 
2. Decoder 
cから目的言語列を生 
成するRNN
よく見るシンプルな 
RNNの図 
今回の図 
ちなみに
よく見るシンプルな 
RNNの図 
つまり 
- ◯は連続値ベクトル 
- xはone-hotベクトル 
今回の図 
ちなみに
RNN Encoder-DecoderのEncoder
Encoder (LSTM-likeな活性化関数)
Encoder (LSTM-likeな活性化関数) 
?
X1 X2 
target!!
実際は… 
X1 X2 
reset gate: 
どのくらい前回の 
隠れ層が影響する 
か 
r
X1 X2 
resetを考慮した 
仮のhidden unit 
r
z 
X1 X2 
update gate 
r
z 
X1 X2 
今回の入力単語を 
どのくらい使うか? 
をupdate gate 
が決定 
r
z 
r 
X1 X2 
実際には隠れ層(1000次元)の各ユニットが独立した↑になってる 
- reset gateが1になりやすいユニットは短い時間依存を担当 
- update gateが1になりやすいユニットは長い時間依存を担当
RNN Encoder-DecoderのDecoder
RNN Encoder-DecoderのDecoder
RNN Encoder-DecoderのDecoder 
隠れ層の活性化関数は 
さっきのLSTM亜種 
[点線部分]以外大体Encoderと一緒
RNN Encoder-DecoderのDecoder 
出力層の活性化 
関数はMaxout
Training 
訓練後は 
1. 目的言語列の生成 
2. (原言語列-目的言語列)対 
の翻訳確率 
に使える
Training 
訓練後は 
1. 目的言語列の生成 
2. (原言語列-目的言語列)対 
の翻訳確率 
に使える 
今回は1.は定性評価のみ
実験 
提案手法をphrased-base SMTの素性として使う 
(Moses with default settings)
phrase-base SMTにおけるデコーダとしての対数線形モデル 
の素性関数fn(f,e)に追加する 
RNN: 
- 提案手法による入力文のフレーズ対の翻訳確率(フレーズ対の数分足す) 
- フレーズ対の数 (フレーズ対の数だけ翻訳確率...
BLUE 
RNN, CSLMどっちも貢献してる
Table 2 
現言語phraseに対するtop-scoredな目的言語 
phraseの実例(baselineと比較) 
割愛 
まぁ良い感じ 
提案手法はphrase table上の出現頻度に寄らないとか 
RNNencoderは短めのp...
さすがにアレかなと思ったので急遽貼りました 
baseline翻訳モデル提案手法 
Table 2の上半分
さすがにアレかなと思ったので急遽貼りました 
baseline翻訳モデル提案手法 
Table 2の下半分
Table 3: 提案手法が生成したphraseたち 
phrase tableにないものも生成できている 
→将来的に従来のphrase tableの代替に?
Figure 4: お約束,単語ベクトルの次元削減による可視化 
青い部分を拡大 
もっと大きな図は付録として最後についてます
Figure 5: cの次元圧縮による可視化 
良い感じにphrase空間ができてる(論文をご参照下さい…)
Figure 5: cの次元圧縮による可視化 
さすがにいっこ拡大してみる
Conclusion 
RNN Encoder-Decoderというものを提案 
encoder: 任意長の原言語列 → 中間表現 
decoder: 中間表現 → 任意長の目的言語列 
Large Potential 
phrase tabl...
おまけ 
Neural Machine Translation
おまけ1, Bengio先生勢のNMT本編的論文
純粋にNNだけで翻訳生成(デコード時に幅10でビームサーチ) 
この論文の提案手法(grConv) 今日のやつ(RNNenc) 
次のおまけ 
のやつ 
文長・未知語数別のBLUEスコア
次のおまけ 
のやつ 
文の長さ,未知語の数で かなり変わる 
っていう論文がすでにarXivに….
おまけ2 
話題になったこれとの関係
このへんを
こう!
わりと似てる!
NMT的に生成したもののBLUEスコア
NMT的に生成したもののBLUEスコア 
“おまけ1”で出てきた結果の表 
見比べるべき条件は 
このふたつ
NMT的に生成したもののBLUEスコア 
“おまけ1”で出てきた結果の表 
ハイパーパラメータが違ったり 
この数値だけだと優劣分からない 
モデルも一緒ではないので
おまけ3
単語の分散表現の学習について 
有名なの今日の 
バイリンガルで学習するとモノリンガルな 
単語類似度評価セットも向上 
! 
“bilingual word embeddings”は以前からあったが 
実際に有名な評価セットで優位性を報告した...
単語の分散表現の学習について 
有名なの今日の 
新しい単語類似度 
評価セット 
バイリンガルで学習するとモノリンガルな 
単語類似度評価セットも向上 
! 
“bilingual word embeddings”は以前からあったが 
実際に...
単語の分散表現の学習について 
有名なの今日の 
これもNMT 
しかもBLUEはRNNencより良いっぽい 
バイリンガルで学習するとモノリンガルな 
! 
! 
! 
単語類似度評価セットも向上 
! 
“bilingual word em...
全体まとめ 
Neural Machine Translationやばそう 
! 
純粋にNNだけでちゃんと生成ができそうな報 
告が溜まってきた? 
! 
先行者はBengio先生組やGoogle組
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation
Nächste SlideShare
Wird geladen in …5
×

Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation

EMNLP2014読み会の資料です.
おまけはNeural Machine Translationについて.

  • Loggen Sie sich ein, um Kommentare anzuzeigen.

Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation

  1. 1. 2014/11/22 EMNLP2014読み会@PFI Learning Phrase Representations using RNN Encoder-‐‑‒Decoder for Statistical Machine Translation 菊池 悠太
  2. 2. はじめに Neural Network系技術を統計的機械翻訳(SMT)に 活かす研究は流行っている,ACL2014も多かった (best paperもそうだった) 多くはphrase-based SMTの枠組みのどこかに活かす形 今回は 翻訳の枠組みがNeural Networkだけで完結する Neural Machine Translation ....の(Bengio先生達にとっての)序章的論文 ! 本稿ではまだphrase-based SMTの素性として使った時の報告 時間があれば触れる用におまけを用意したが絶対時間足りない
  3. 3. Agenda - はじめに - RNN Encoder-Decoder ! ! 出てくる技術 - RNN - LSTM(のシンプル版) - Maxout ! - 実験・結果 ! 出てくる技術 - phrase-based SMT - Feed Forward Neural Network Language Model (FFNNLM) - おまけたち (Neural Machine Translation系の話題)
  4. 4. Agenda - はじめに - RNN Encoder-Decoder ! ! 出てくる技術 - RNN - LSTM(のシンプル版) - Maxout ! - 実験・結果 ! 出てくる技術 - phrase-based SMT - Feed Forward Neural Network Language Model (FFNNLM) - おまけたち (Neural Machine Translation系の話題)
  5. 5. RNN Encoder-Decoder 2種類のRNN
  6. 6. RNN Encoder-Decoder 1. Encoder 現言語列の単語をひと つずつ受け取り,隠れ 状態ベクトルcを作る RNN
  7. 7. RNN Encoder-Decoder 2. Decoder cから目的言語列を生 成するRNN
  8. 8. よく見るシンプルな RNNの図 今回の図 ちなみに
  9. 9. よく見るシンプルな RNNの図 つまり - ◯は連続値ベクトル - xはone-hotベクトル 今回の図 ちなみに
  10. 10. RNN Encoder-DecoderのEncoder
  11. 11. Encoder (LSTM-likeな活性化関数)
  12. 12. Encoder (LSTM-likeな活性化関数) ?
  13. 13. X1 X2 target!!
  14. 14. 実際は… X1 X2 reset gate: どのくらい前回の 隠れ層が影響する か r
  15. 15. X1 X2 resetを考慮した 仮のhidden unit r
  16. 16. z X1 X2 update gate r
  17. 17. z X1 X2 今回の入力単語を どのくらい使うか? をupdate gate が決定 r
  18. 18. z r X1 X2 実際には隠れ層(1000次元)の各ユニットが独立した↑になってる - reset gateが1になりやすいユニットは短い時間依存を担当 - update gateが1になりやすいユニットは長い時間依存を担当
  19. 19. RNN Encoder-DecoderのDecoder
  20. 20. RNN Encoder-DecoderのDecoder
  21. 21. RNN Encoder-DecoderのDecoder 隠れ層の活性化関数は さっきのLSTM亜種 [点線部分]以外大体Encoderと一緒
  22. 22. RNN Encoder-DecoderのDecoder 出力層の活性化 関数はMaxout
  23. 23. Training 訓練後は 1. 目的言語列の生成 2. (原言語列-目的言語列)対 の翻訳確率 に使える
  24. 24. Training 訓練後は 1. 目的言語列の生成 2. (原言語列-目的言語列)対 の翻訳確率 に使える 今回は1.は定性評価のみ
  25. 25. 実験 提案手法をphrased-base SMTの素性として使う (Moses with default settings)
  26. 26. phrase-base SMTにおけるデコーダとしての対数線形モデル の素性関数fn(f,e)に追加する RNN: - 提案手法による入力文のフレーズ対の翻訳確率(フレーズ対の数分足す) - フレーズ対の数 (フレーズ対の数だけ翻訳確率の総和が発生するため,これで公平さを取る狙い) CSLM[Schwenk2007] (基本的には[Bengio2003]のFFNNLMのこと): - 目的言語列の生成確率 Word Penalty - 出てきたUnknown wordの数
  27. 27. BLUE RNN, CSLMどっちも貢献してる
  28. 28. Table 2 現言語phraseに対するtop-scoredな目的言語 phraseの実例(baselineと比較) 割愛 まぁ良い感じ 提案手法はphrase table上の出現頻度に寄らないとか RNNencoderは短めのphraseを好むとか 
  29. 29. さすがにアレかなと思ったので急遽貼りました baseline翻訳モデル提案手法 Table 2の上半分
  30. 30. さすがにアレかなと思ったので急遽貼りました baseline翻訳モデル提案手法 Table 2の下半分
  31. 31. Table 3: 提案手法が生成したphraseたち phrase tableにないものも生成できている →将来的に従来のphrase tableの代替に?
  32. 32. Figure 4: お約束,単語ベクトルの次元削減による可視化 青い部分を拡大 もっと大きな図は付録として最後についてます
  33. 33. Figure 5: cの次元圧縮による可視化 良い感じにphrase空間ができてる(論文をご参照下さい…)
  34. 34. Figure 5: cの次元圧縮による可視化 さすがにいっこ拡大してみる
  35. 35. Conclusion RNN Encoder-Decoderというものを提案 encoder: 任意長の原言語列 → 中間表現 decoder: 中間表現 → 任意長の目的言語列 Large Potential phrase tableの一部ないし全部を置き換える RNNベースだしSpeech recognitionにも使えそう
  36. 36. おまけ Neural Machine Translation
  37. 37. おまけ1, Bengio先生勢のNMT本編的論文
  38. 38. 純粋にNNだけで翻訳生成(デコード時に幅10でビームサーチ) この論文の提案手法(grConv) 今日のやつ(RNNenc) 次のおまけ のやつ 文長・未知語数別のBLUEスコア
  39. 39. 次のおまけ のやつ 文の長さ,未知語の数で かなり変わる っていう論文がすでにarXivに….
  40. 40. おまけ2 話題になったこれとの関係
  41. 41. このへんを
  42. 42. こう!
  43. 43. わりと似てる!
  44. 44. NMT的に生成したもののBLUEスコア
  45. 45. NMT的に生成したもののBLUEスコア “おまけ1”で出てきた結果の表 見比べるべき条件は このふたつ
  46. 46. NMT的に生成したもののBLUEスコア “おまけ1”で出てきた結果の表 ハイパーパラメータが違ったり この数値だけだと優劣分からない モデルも一緒ではないので
  47. 47. おまけ3
  48. 48. 単語の分散表現の学習について 有名なの今日の バイリンガルで学習するとモノリンガルな 単語類似度評価セットも向上 ! “bilingual word embeddings”は以前からあったが 実際に有名な評価セットで優位性を報告したのは初?
  49. 49. 単語の分散表現の学習について 有名なの今日の 新しい単語類似度 評価セット バイリンガルで学習するとモノリンガルな 単語類似度評価セットも向上 ! “bilingual word embeddings”は以前からあったが 実際に有名な評価セットで優位性を報告したのは初?
  50. 50. 単語の分散表現の学習について 有名なの今日の これもNMT しかもBLUEはRNNencより良いっぽい バイリンガルで学習するとモノリンガルな ! ! ! 単語類似度評価セットも向上 ! “bilingual word embeddings”は以前からあったが ! 実際に有名な評価セットで優位性を報告したのは初?
  51. 51. 全体まとめ Neural Machine Translationやばそう ! 純粋にNNだけでちゃんと生成ができそうな報 告が溜まってきた? ! 先行者はBengio先生組やGoogle組

×