Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

「世界モデル」と関連研究について

4.600 Aufrufe

Veröffentlicht am

強化学習アーキテクチャ勉強会の資料

Veröffentlicht in: Ingenieurwesen
  • Als Erste(r) kommentieren

「世界モデル」と関連研究について

  1. 1. 2018/05/15
  2. 2. ¤ ¤ 2013 3 ¤ 2015 3 ¤ 2018 3 ¤ ¤ 2018 4 ~ ¤ ¤ ¤ ¤ Deep Learning ¤ Goodfellow Deep Learning
  3. 3. ¤ World Models ¤ David Ha, Jürgen Schmidhuber ¤ arXiv: 1803.10122 Web https://worldmodels.github.io/ ¤ Ha hardmaru ¤ ¤ ¤ ¤ 3
  4. 4. ¤ ¤ ¤ “World Model” ¤
  5. 5. ¤ ¤ ¤ ¤ internal model ¤ ¤ world model ¤ dynamics model
  6. 6. ¤ “The image of the world around us, which we carry in our head, is just a model. Nobody in his head imagines all the world, government or country. He has only selected concepts, and relationships between them, and uses those to represent the real system. (Forrester, 1971)” ¤ ¤ [Chang+ 17, Cell] ->
  7. 7. ¤ ¤ Jeff Hawkins On Intelligence ¤ ¤ ¤ -> 8
  8. 8. ¤ ¤ ¤ ¤ ¤ ¤ ¤ PredNet [Watanabe+ 18] http://www.psy.ritsumei.ac.jp/~akitaoka/rotsnakes.html
  9. 9. AI ¤ AI AI ¤ AI 1. 2.
  10. 10. ¤ ¤ ! " # $ !’ ¤ &("|!) ¤ MDP Recap: the reinforcement learning objective The Anatomy of a Reinforcement Learning Problem Slide from Sergey Levine Recap: the reinforcement learning objective
  11. 11. ¤ ¤ ¤ -> ¤ ¤ ¤ ¤ 1. 2. 3. 4. 2 Model-based RL Review improve the policy Correcting for model errors: refitting model with new data, replanning with MPC, using local models Model-based RL from raw observations: learn latent space, typically with unsupervised learning, or model &plan directly in observational space e.g., backprop through model supervised learning Even simpler… generic trajectory optimization, solve however you want • How can we impose constraints on trajectory optimization?
  12. 12. ¤ ¤ ¤ ¤ ¤ ¤ RBF DNN ¤ ¤ ¤ ¤ PILCO ¤ Guided policy search (trajectory optimization) ¤ CMA-ES Policy Search Classification Yet, it’s a grey zone… Important Extensions: • Contextual Policy Search [Kupscik, Deisenroth, Peters & Neumann, AAAI 2013], [Silva, Konidaris & Barto, ICML 2012], [Kober & Peters, IJCAI 2011], [Paresi & Peters et al., IROS 2015] • Hierarchical Policy Search [Daniel, Neumann & Peters., AISTATS 2012], [Wingate et al., IJCAI 2011], [Ghavamzadeh & Mahedevan, ICML 2003] 9 Direct Policy Search Value-Based RL Evolutionary Strategies, CMA-ES Episodic REPS Policy Gradients, eNAC Actor Critic, Natural Actor Critic Model-based REPS PS by Trajectory Optimization Q-Learning, Fitted Q LSPIPILCO Advantage Weighted Regression Conservative Policy Iteration Model-Based Policy Search Methods 85 Learn dynamics model from data-set + More data efficient than model-free methods + More complex policies can be optimized • RBF networks [Deisenroth & Rasmussen, 2011] • Time-dependent feedback controllers [Levine & Koltun, 2014] • Gaussian Processes [Von Hoof, Peters & Nemann, 2015] • Deep neural nets [Levine & Koltun, 2014][Levine & Abbeel, 2014] Limitations: - Learning good models is often very hard - Small model errors can have drastic damage on the resulting policy (due to optimization) - Some models are hard to scale - Computational Complexity
  13. 13. PILCO ¤ PILCO (probabilistic inference for learning control) [Deisenroth+ 11] ¤ ¤ ¤ RBF ¤ 1. 2. ¤ ¤ 3. Greedy Policy Updates: PILCO [Deisenroth & Rasmussen 2011] Model Learning: • Use Bayesian models which integrate out model uncertainty Gaussian Processes • Reward predictions are not specialized to a single model Internal Stimulation: • Iteratively compute • Moment matching: deterministic approximate inference Policy Update: • Analytically compute expected return and its gradient • Greedily Optimize with BFGS 88 Greedy Policy Updates: PILCO [Deisenroth & Rasmussen 2011] Model Learning: • Use Bayesian models which integrate out model uncertainty Gaussian Processes • Reward predictions are not specialized to a single model Internal Stimulation: • Iteratively compute • Moment matching: deterministic approximate inference Policy Update: • Analytically compute expected return and its gradient • Greedily Optimize with BFGS 88 Greedy Policy Updates: PILCO [Deisenroth & Rasmussen 2011] Model Learning: • Use Bayesian models which integrate out model uncertainty Gaussian Processes • Reward predictions are not specialized to a single model Internal Stimulation: • Iteratively compute • Moment matching: deterministic approximate inference Policy Update: • Analytically compute expected return and its gradient • Greedily Optimize with BFGS 88 Greedy Policy Updates: PILCO [Deisenroth & Rasmussen 2011] Model Learning: • Use Bayesian models which integrate out model uncertainty Gaussian Processes • Reward predictions are not specialized to a single model Internal Stimulation: • Iteratively compute • Moment matching: deterministic approximate inference Policy Update: • Analytically compute expected return and its gradient • Greedily Optimize with BFGS 88 Greedy Policy Updates: PILCO [Deisenroth & Rasmussen 2011] Model Learning: • Use Bayesian models which integrate out model uncertainty Gaussian Processes • Reward predictions are not specialized to a single model Internal Stimulation: • Iteratively compute • Moment matching: deterministic approximate inference Policy Update: • Analytically compute expected return and its gradient • Greedily Optimize with BFGS 88 What’s the problem? backprop backprop backprop • Similar parameter sensitivity problems as shooting methods • But no longer have convenient second order LQR-like method, because policy parameters couple all the time steps, so no dynamic programming • Similar problems to training long RNNs with BPTT • Vanishing and exploding gradients • Unlike LSTM, we can’t just “choose” a simple dynamics, dynamics are chosen by nature
  14. 14. Guided Policy Search via trajectory optimization ¤ ¤ ¤ trajectory optimization ¤ DNN trajectory optimization+ guided policy search [Levine+ 14]
  15. 15. CMA-ES ¤ Model-based 1 ¤ Evolution Strategy ES ¤ ¤ ¤ ¤ CMA-ES ( ¤ ¤ ¤ 1. 2. 3. 2 http://yuki-koyama.hatenablog.com/entry/2017/01/20/172109
  16. 16. ¤ ¤ [Gu+ 16] ¤ etc. ¤ ¤ ¤
  17. 17. ¤ ¤ 1980 Feed-forward neural networks FNN ¤ 1990 RNN -> ¤ RNN ¤ “Making the World Differentiable” [Schmidhuber, 1990] ¤ RNN RNN
  18. 18. ¤ ¤ Learning deep dynamical models from image pixels [Wahlström+ 14] From Pixels to Torques: Policy Learning with Deep Dynamical Models [Wahlstrom+ 15] ¤ deep dynamical model DDM ¤
  19. 19. VAE ¤ ! "; $ ¤ ¤ " ¤ ¤ Variational autoencoder VAE [Kingma+ 13] [Rezende+ 14] ¤ " % &'(%|") " ~ !,("|%) % ~ !(%) &' % " = .(%|/ " , 12 (")) !, " % = ℬ("|/ " )
  20. 20. VAE ¤ ! "~$ " ! ¤ ¤ ! (a) Learned Frey Face manifold (b) Learned MNIST manifold Figure 4: Visualisations of learned data manifold for generative models with two-dimensional latent space, learned with AEVB. Since the prior of the latent space is Gaussian, linearly spaced coor- dinates on the unit square were transformed through the inverse CDF of the Gaussian to produce values of the latent variables z. For each of these values z, we plotted the corresponding generative p✓(x|z) with the learned parameters ✓. [Kingma+ 13]
  21. 21. VAE ¤ VAE ¤ ¤ GAN ¤ disentangle ¤ ¤ ¤ β-VAE[Higgins+ 17] ¤ ¤ [Burgess+ 18]
  22. 22. “World Model”
  23. 23. ¤ Schmidhuber ¤ ¤ ¤ + 25
  24. 24. ¤ ¤ 3 ¤ Vision Model V ¤ Memory RNN M ¤ Controller C V M 26
  25. 25. Vision Model V ¤ 2D Variational Autoencoder VAE ¤ 27
  26. 26. MDN-RNN M ¤ M !" !"#$ ¤ %(!"#$|(", !", ℎ") ¤ ( ℎ RNN ¤ !"#$ ¤ M MDN-RNN[Graves + 13, Ha+ 17] ¤ RNN ¤ ¤ Ha 28
  27. 27. ¤ [Bishop+ 94] ¤ ¤ ¤ ! " ¤ 29
  28. 28. MDN-RNN ¤ SketchRNN[Ha+ 17] ¤ MDN-RNN 30
  29. 29. Controller (C) Model ¤ ¤ C ¤ ! RNN ℎ ¤ ¤ CMA-ES ¤ 1 867 31
  30. 30. ¤ V M C 32 h z C
  31. 31. 1 ¤ ¤ 3 ¤ 10000 ¤ 33
  32. 32. V M ¤ VAE V ¤ V ! M ¤ " ¤ 34
  33. 33. 1. V ¤ M ¤ ¤ 35
  34. 34. 2. V M ¤ ¤ 36
  35. 35. ¤ ¤ OpenAI Gym leaderboard ¤ RGB ¤ 37
  36. 36. ¤ SketchRNN ¤ VAE 38
  37. 37. 2 VizDoom ¤ VizDoom Doom ¤ ¤ 750 39
  38. 38. ¤ M ¤ !"#$% (!%) 2 ¤ ( )%*+, !%*+ -%, )%, ℎ%) ¤ C 40
  39. 39. ¤ 900 ¤ ¤ ! ¤ 41
  40. 40. ¤ ¤ 1000 ¤ 42
  41. 41. ¤ ¤ 13 BB ¤ ¤ ¤ ¤ 43
  42. 42. ¤ MDN-RNN ¤ C M ¤ ! ¤ 44
  43. 43. ¤ ¤ ¤ ¤ Learning To Think[Schmidhuber+ 15] 1. M C 2. 3. M M C 4. 2 ¤ 1 ¤ 2 ¤ curiosity ¤ 45
  44. 44. ¤ ¤ ¤ ¤ Replay Comes of Age ¤ 46
  45. 45. ¤ ¤ MDN-RNN VAE ¤ VAE ¤ ¤ ¤ Friston ¤ Wahlström M V ¤ VRNN[Chung+ 15] 47
  46. 46. Friston ¤ ¤ !"($) ¤ ¤ ¤ https://en.wikipedia.org/wiki/Free_energy_principle 164 第 9 章 考察 ると,内部モデルは生成モデルによって実現される. 内部モデルを機械学習における生成モデルと捉え,行動と結びつけた枠組で有名なのが Friston による自由エネルギー原理(free-energy principle) [Friston 10] である.自由エネル ギー原理では,生物学的なシステムが内部状態の自由エネルギーを最小化することによって秩 序を維持していると考えている. 状態 x*8 と潜在変数 z を持つ生成モデル pθ(x, z) を考えて,近似分布を qφ(z) とする. また,負の周辺尤度の上界である変分自由エネルギー(負の変分下界)を F(x; φ, θ) = −Eqφ(z)[log p(x, z)] + H[qφ(z)] とする.自由エネルギー原理では,内部パラメータ φ と行動 a は,(変分)自由エネルギーを最小化するように更新すると考える. ˆφ = arg min φ F(x; φ, θ), ˆa = arg min a F(x; φ, θ). なお,ここでの arg mina は,自由エネルギーが最小になるような x を選ぶ行動 a を取るとい うことである.また,生成モデルのパラメータ θ については,上記の更新を一定数繰り返した 後に更新する. 自由エネルギー原理では,入力は単純に状態 x として考えられている.ある状態 x を受け 取ったときに内部状態が更新され,その後生成モデルを元に,自由エネルギーが最小になる ような状態 x を選ぶ行動 a が取られる.しかし実際には,外界からの刺激は五感を通じてマ ルチモーダル情報として得られるため,自由エネルギーは複数のモダリティ x や w を含んだ 164 ると,内部モデルは生成モデルによって実現される. 内部モデルを機械学習における生成モデルと捉え,行動と結びつけ Friston による自由エネルギー原理(free-energy principle) [Friston 10 ギー原理では,生物学的なシステムが内部状態の自由エネルギーを最小化 序を維持していると考えている. 状態 x*8 と潜在変数 z を持つ生成モデル pθ(x, z) を考えて,近似分 また,負の周辺尤度の上界である変分自由エネルギー(負の変分下 −Eqφ(z)[log p(x, z)] + H[qφ(z)] とする.自由エネルギー原理では,内部 a は,(変分)自由エネルギーを最小化するように更新すると考える. ˆφ = arg min φ F(x; φ, θ), ˆa = arg min a F(x; φ, θ). なお,ここでの arg mina は,自由エネルギーが最小になるような x を選 うことである.また,生成モデルのパラメータ θ については,上記の更新 後に更新する. 自由エネルギー原理では,入力は単純に状態 x として考えられている 取ったときに内部状態が更新され,その後生成モデルを元に,自由エネ ような状態 x を選ぶ行動 a が取られる.しかし実際には,外界からの刺 第 9 章 考察 デルは生成モデルによって実現される. を機械学習における生成モデルと捉え,行動と結びつけた枠組で有名なのが 自由エネルギー原理(free-energy principle) [Friston 10] である.自由エネル ,生物学的なシステムが内部状態の自由エネルギーを最小化することによって秩 いると考えている. 潜在変数 z を持つ生成モデル pθ(x, z) を考えて,近似分布を qφ(z) とする. 辺尤度の上界である変分自由エネルギー(負の変分下界)を F(x; φ, θ) = x, z)] + H[qφ(z)] とする.自由エネルギー原理では,内部パラメータ φ と行動 自由エネルギーを最小化するように更新すると考える. ˆφ = arg min φ F(x; φ, θ), ˆa = arg min a F(x; φ, θ). の arg mina は,自由エネルギーが最小になるような x を選ぶ行動 a を取るとい .また,生成モデルのパラメータ θ については,上記の更新を一定数繰り返した . ギー原理では,入力は単純に状態 x として考えられている.ある状態 x を受け 内部状態が更新され,その後生成モデルを元に,自由エネルギーが最小になる 164 第 9 章 考察 ると,内部モデルは生成モデルによって実現される. 内部モデルを機械学習における生成モデルと捉え,行動と結びつけた枠組で有名なのが Friston による自由エネルギー原理(free-energy principle) [Friston 10] である.自由エネル ギー原理では,生物学的なシステムが内部状態の自由エネルギーを最小化することによって秩 序を維持していると考えている. 状態 x*8 と潜在変数 z を持つ生成モデル pθ(x, z) を考えて,近似分布を qφ(z) とする. また,負の周辺尤度の上界である変分自由エネルギー(負の変分下界)を F(x; φ, θ) = −Eqφ(z)[log p(x, z)] + H[qφ(z)] とする.自由エネルギー原理では,内部パラメータ φ と行動 a は,(変分)自由エネルギーを最小化するように更新すると考える. ˆφ = arg min φ F(x; φ, θ), ˆa = arg min a F(x; φ, θ). なお,ここでの arg mina は,自由エネルギーが最小になるような x を選ぶ行動 a を取るとい うことである.また,生成モデルのパラメータ θ については,上記の更新を一定数繰り返した 後に更新する. 自由エネルギー原理では,入力は単純に状態 x として考えられている.ある状態 x を受け 取ったときに内部状態が更新され,その後生成モデルを元に,自由エネルギーが最小になる ような状態 x を選ぶ行動 a が取られる.しかし実際には,外界からの刺激は五感を通じてマ ルチモーダル情報として得られるため,自由エネルギーは複数のモダリティ x や w を含んだ
  47. 47. LeCun Y LeCun How Much Information Does the Machine Need to Predict? “Pure” Reinforcement Learning (cherry) The machine predicts a scalar reward given once in a while. A few bits for some samples Supervised Learning (icing) The machine predicts a category or a few numbers for each input Predicting human-supplied data 10 10,000 bits per sample→ Unsupervised/Predictive Learning (cake) The machine predicts any part of its input for any observed part. Predicts future frames in videos Millions of bits per sample (Yes, I know, this picture is slightly offensive to RL folks. But I’ll make it up)
  48. 48. ¤ ¤ C ¤ ¤ PredNet [Lotter+ 16] ¤
  49. 49. ¤ ¤ … ¤ 51 内部モデル 外界 行動 刺激 (マルチモーダル情報)
  50. 50. ¤ ¤ ¤ Schmidhuber ¤ ¤ ¤ ¤ POMDP 52

×