Weitere ähnliche Inhalte Mehr von Sotetsu KOYAMADA(小山田創哲) (10) 【論文紹介】Reward Augmented Maximum Likelihood for Neural Structured Prediction4. 背景: Seq2Seq
詳しくはSutskever et al. 2014, Cho et al. 2014, Bahdanau et al. 2015あたりを参照
(Attentionメカニズムについては http://distill.pub/2016/augmented-rnns/ も参考になる)
Sutskever et al. 2014より引用
6. 背景: Seq2Seqの強化学習による最適化(とその問題点)
デコーダーのを方策と見立てて現在時点までの自分の予測の系列(とコンテキスト)を現在の状態、として次の
トークンを行動として予測・学習する
Ranzato et al. 2016: RNNによるDecoderの予測を確率的な方策だとして、文の最後まで予測をしたら BLUE等
のスコアによって報酬を与えることで強化学習の問題に落とし、 REINFORCEで解いている。 強化学習の問題と
しては行動空間が大きすぎるので、クロスエントロピー誤差も組み合わせることにより解決する MIXERを提案。
具体的には、最初の方の epochはクロスエントロピー誤差だけでトレーニングし、その後で段々と REINFORCE
で学習するトークン数を後ろから前に広げていく。
Bahdanau et al. 2017: REINFORCEベースの手法は勾配の分散が大きくなってしまうので、 actor-criticにして
行動価値関数も推定することで分散を減らして性能の向上をさせたい。 先行研究と同じように Decoderを確率的
な方策と見なし、各トークンを予測したときに BLUE等から報酬を定めて強化学習の枠組みに落とし込み、
actor-criticで解いている。 また、大きい行動空間を制限するためのヒューリスティックな工夫や、 報酬がスパース
になるのを避けるため部分系列にも報酬を定義するなどの工夫もした上で対数尤度でプレトレーニングもしてい
る。
結局のところ、(1) 行動空間が大きすぎるのに加え、 (2) 報酬がスパース(系列の終わりだけ)という2つの問題が
あり、結局MLベースでプレトレーニングのようなことをしないと両手法うまく学習できない。