Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation
http://arxiv.org/abs/1609.08144
を読んでみたので、簡単にまとめました。間違い等は是非ご指摘ください。
1. Google's Neural Machine
Translation System: Bridging the
Gap between Human and
Machine Translation
中澤 敏明
2016年 黒橋・河原研 夏の勉強会
http://arxiv.org/abs/1609.08144
2. NMTの問題点
1. トレーニングも翻訳も(PBSMTに比べて)遅い
2. 低頻度語の翻訳が弱い
– 既存手法はattentionに頼っているが、attentionは
信頼性が低い
• Addressing the Rare Word Problem in Neural Machine
Translation
• On Using Very Large Target Vocabulary for Neural Machine
Translation
– 翻字(transliteration)するべきな時もある
3. 必ずしも入力文の全てを翻訳してくれない
4. いろいろ手法が提案されてるけど、scaleする?
3. Google’s Neural Machine Translation:
GNMT
• ベースはattentionモデル
• 8層LSTM RNN with residual connection
• 計算の並列化のために、attentionはdecoderの1
層目からencoderの最終層に対して行う
• 重みの量子化(quantization)による高速inference
• Tensor Processing Unit (TPU)
• 低頻度語をsub-word units (wordpieces)で扱う
• beam search decodingでlength normalizationと
coverage penaltyを使う
quality of the system gets closer to that of average
human translators