Cold-Start Reinforcement Learning with Softmax Policy Gradient

3. • • • • • • •

6. • • • •

7. 調子はどうですか？ RNN

8. 調子はどうですか？昨日単語を出力 RNN

9. 調子はどうですか？昨日入力側に持ってきて・・・ RNN

10. 調子はどうですか？昨日生成した結果を入力の最後に追加 RNN

11. 調子はどうですか？昨日から RNN

12. 調子はどうですか？昨日から RNN

13. 調子はどうですか？昨日からインフルエンザ RNN

14. 調子はどうですか？昨日からインフルエンザです RNN

15. • • •

16. 「調子」「は」「どう」「ですか」文章を単語に分割して・・・ RNN

17. 「0100000」「0000010」「1000000」「0001000」ベクトルで表現 RNN

18. 「0100000」「0000010」「1000000」「0001000」出力は単語の生成確率 0.1 0.0 0.0 0.1 0.0 0.8 80%で「昨日」を選択 RNN softmax

19. • • 昨日（80%）明日（0%）天気（0%）・・・今日（10%）

20. • • 昨日（80%）明日（0%）天気（0%）・・・今日（10%）から（80%）も（10%）と（0%）・・・

21. • • 昨日（80%）明日（0%）天気（0%）・・・今日（10%）から（80%）も（10%）と（0%）・・・インフルエンザ（10%）・・・

22. 昨日（80%）明日（0%）天気（0%）・・・今日（10%）から（80%）も（10%）と（0%）・・・インフルエンザ（10%）・・・ •

23. • x y • 昨日明日天気・・・今日からもと・・・インフルエンザ・・・調子はどうですか？ RNNの出力がyになるように学習、要はsoftmax cross entropy

24. • • T • • 昨日明日天気・・・今日調子はどうですか？（´・ω・｀）知らんがな・・・適当な単語出したろ・・・

25. ＿＿＿_ ／＼／ ─ ─ ＼／（●）（●）＼ | （__人__） | ./ ∩ノ ⊃ ／ ( ＼／＿ノ | | .＼ “ ／＿＿| | ＼／＿＿＿／論文の書き方10000000000000 パターンくらい教えてあげよう /＼＿＿_／ヽ／'''''' '''''':::::::＼ . |（●）, ､（●）､ .:| ＋ | ,,ﾉ(､_, )ヽ､,, .::::| . | ｀-=ﾆ=- ' .:::::::| + ＼｀ﾆﾆ´ .:::::／ + ,,.....イ.ヽヽ、ﾆ__ ーーノﾞ-､. : | '; ＼_____ ノ.| ヽ i | ＼/ﾞ（__)＼,| i | ＞ヽ. ハ | |｜理想的な教師あり学習の場合ほうほうこんなやつはいない

26. ／￣￣＼／ _ノ＼ | （ ●）（●） . | （__人__） | ｀ ⌒´ﾉ . | } . ヽ } ヽノ＼ / く＼＼ | ＼＼＼ | |ヽ、二⌒)､＼／￣￣￣＼／ ― ― ＼／（●）（●）＼ | （__人__） | ＼ｍj |⌒´ ／〈＿_ﾉノﾉ Kaiming Heの論文を10本見せてやるから、来週までに同等の成果と論文書けや（・・・・・コピペしよ実際に教師あり学習をしようとすると・・・

27. • 昨日（80%）明日（0%）天気（0%）・・・今日（10%）から（80%）も（10%）と（0%）・・・インフルエンザ（10%）・・・

28. • • • •

29. ＿＿＿_ ／_ノヽ､_＼ﾐﾐﾐ oﾟ(（●）) (（●）)ﾟo ﾐﾐﾐ /⌒)⌒)⌒) ::::::⌒（__人__）⌒:::＼ /⌒)⌒)⌒) | / / / |r┬-| | (⌒)/ / / /／ | :::::::::::(⌒) | | | ／|＾|￣￣￣￣￣￣￣￣| | ノ | | | ＼| | | ヽ / `ー'´ | | | | | l||l 从人 l||l. | | VAIO. | ヽ .---一ー_~､⌒)､⌒)^),| | | ヽ＿＿＿＿＿,ノ|二二二二|_|＿＿＿＿＿__________| 強化学習の場合 peisukeとかいう奴の書く論文、全部ウ○コ！こんなやつはいる・・・ので、一応は解ける

30. • • • • • •

33. ／＼／＼ｷﾘｯ . ／（ー）（ー）＼／ ⌒（__人__）⌒ ＼ | |r┬-| | ＼ `ー'´ ／ノ＼／´ ヽ | ｌ＼ヽ -一''''''"~~｀`'ー--､ -一'''''''ー-､. ヽ＿＿＿＿(⌒)(⌒)⌒) ) (⌒＿(⌒)⌒)⌒)) 論文書けた！

34. ／￣￣＼／ﾉ( _ノ＼ | ⌒(（ ●）（●） .| （__人__） /⌒l | ｀ ⌒´ﾉ |`'''| ／ ⌒ヽ } | | ＿＿＿_ ／へ＼ }__/ / ／─ ?＼／／ | ノノ／●））（（●＼ . ’, ･ぐぇあ ( _ ノ | ＼´ ＿／（__人__）’,∴＼ , ’ | ＼＿,, -- ''" ￣￣ﾞ''?---└'´￣｀ヽ/ > て .| ＿＿ノ／（ヽ＿,, -- ''"￣ヽ､￣ `ー'´ ／ｒ'"￣＼ , '´ / .| ＼ ( / | ＼＼ / ／＼／＼ｷﾘｯ . ／（ー）（ー）＼／ ⌒（__人__）⌒ ＼ | |r┬-| | ＼ `ー'´ ／ノ＼／´ ヽ | ｌ＼ヽ -一''''''"~~｀`'ー--､ -一'''''''ー-､. ヽ＿＿＿＿(⌒)(⌒)⌒) ) (⌒＿(⌒)⌒)⌒)) 微妙！論文書けた！

44. ／＼／＼ｷﾘｯ . ／（ー）（ー）＼／ ⌒（__人__）⌒ ＼ | |r┬-| | ＼ `ー'´ ／ノ＼／´ ヽ | ｌ＼ヽ -一''''''"~~｀`'ー--､ -一'''''''ー-､. ヽ＿＿＿＿(⌒)(⌒)⌒) ) (⌒＿(⌒)⌒)⌒)) 論文書けた！／￣￣＼／ _ノ＼（ ●）（●） . （__人__）そこの表現は○○○だろ… ｀ ⌒´ﾉ常識的に考えて… . } . ヽ } ヽノ＼ / く＼＼＼＼＼ヽ、二⌒)､＼時々良い表現を教えてやりたい

45. • • • 従来適当に文章を生成したら・・・・・・イケてる！なんかlogとexpくっつけてみた提案手法

47. とある文章zが生成された時に・・・・・・その文章の良さRに応じて、生成した方向に学習をすすめるが大抵ゼロなので、パラメータが更新されない学習が進んでいない段階では、

48. とあるqの確率で文章をサンプリングして、その文章を記憶生成モデルと、教師の文章両方を加味してサンプリングすなわち、pの出力した下手な文章に、Rを参考にしたちょっと良い表現を加えて、学習を進める

49. • • • • • •

50. • • •

51. • • • •

52. • • • • • •

54. 画像と文の組み合わせを入力して、勾配を出力する問題

55. 期待値を計算するためのモンテカルロサンプリング

56. 全ての新しいワード候補zに関する良し悪しを計算

57. NN（ pq ）の出力と報酬分布（r）の出力の和のsoftmaxより各zの出現確率が求まるので、新たなzをサンプリング

58. 実装上は -log pq をloss値とすればOK

59. W=0の場合は単にzをサンプリング

60. サンプルしたzを生成文に追加

61. • • • •

62. • • • • • •

63. • • • •

64. • • • • • •

Cold-Start Reinforcement Learning with Softmax Policy Gradient

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Mehr von Fujimoto Keisuke

Mehr von Fujimoto Keisuke (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (8)

Cold-Start Reinforcement Learning with Softmax Policy Gradient