Weitere ähnliche Inhalte
Ähnlich wie 論文紹介: Value Prediction Network (20)
Mehr von Katsuki Ohto (8)
論文紹介: Value Prediction Network
- 2. 概要 (VALUE PREDICTION NETWORK)
複雑な強化学習タスクを効率的に解く
ニューラルネットワークアーキテクチャと学習、実行法の提案
未知環境にて環境のモデルを学習しながら状態の価値を学習
効率な経路を選択する課題やAtariゲームにて
既存研究(DQN)を上回る成果をあげた
以降、特に注釈がない場合には
図はValue Prediction Network (Oh et al, 2017)
からの引用
- 3. 強化学習 REINFORCEMENT LEARNING
強化学習課題
(ここでは)エージェントが未知の環境で試行錯誤しながら
段々上手くなっていくような問題設定
目的 : 将来的に得る報酬(ゲームの得点など)の総計を最大化すること
DQNが
ブロック崩しを
上達する様子
Mnih et al.
(2015)
- 5. モデルフリー強化学習の例
Deep Q-Network で扱われるニューラルネットワークのモデルの例 (Mnih et al., 2015)
左側で現在状態の画像入力を受け取り、
Convolutional Neural Network を通じて
行動の価値(以後の報酬合計の期待値)
を予測(右側)
学習後には予測された行動価値が大きい
行動を選ぶ
特徴:
- 入力から直接計算して答えを出す
-「直感」的行動のみ学習される
- 6. モデルベース強化学習 VPN導入
モデルベース強化学習 :
- 環境のモデル(状態遷移、報酬ら)を一緒に学習
- 深く思慮できる(探索)
困難な点: 少ない観測サンプルから環境のモデルを作ることは、
ゲームのような小さな課題でも難しい
先行研究やVPNのアプローチ: 観測した状態を
「抽象的な状態(abstract state)」にエンコーディングし、
「抽象的な状態」の上で遷移モデルを学習
「抽象的な状態」一体何ぞや?
- 7. 抽象的状態表現 (ABSTRACT STATE REPRESENTATION)
Word2Vecのイメージに近い
- 単語の意味を数値ベクトルで表現
- 数値として演算できる
単語→数値ベクトルへの変換を、
環境からの観測→数値ベクトル(or行列)に置き換えてみる
- 目的のタスクの特徴を掴む状態表現が得られれば、効率よく学習できると期待
(背景など、課題に不要な情報が抜ける)
- ただし、抽象的な状態空間上で遷移や報酬を考えた結果、現実と乖離する可能性も
- 実用的なのか?→先行研究(Predictron)が有効性を示唆
(Mikolov et al., 2013)
- 8. 先行研究: PREDICTRON
The Predictron: End-To-End Learning and Planning (Silver et al., 2017)
マルコフ報酬過程(時系列で観測と報酬を得るが、
自分で行動を選べない過程)にて
良い価値推定を得るのに抽象状態表現による先読みを使う
遷移モデルの表現としてCNNを利用
右図がアーキテクチャの概要
(図は1層分、事前に抽象状態へのエンコーディング済)
下から、kステップ後の抽象状態 𝑠 𝑘
を受けとり、
途中で抽象状態の価値 𝑣 𝑘
即時報酬 𝑟 𝑘+1
割引率 𝛾 𝑘+1
収益の重み 𝜆 𝑘
(TD(𝜆) の𝜆)
最後に 次の抽象状態 𝑠 𝑘+1 を出力
先読みして価値を推定することで単純な純伝搬ネットより高精度
Predictronの
1層分の構造
- 9. VALUE PREDICTION NETWORK (VPN)
Predictronは行動決定のない系での価値推定
行動決定を行う場合にも同種の手法が使える、というのがVPNの提案
VPNでできるようになったこと…行動空間が有限、(それほど候補が多くない)時に候補を絞って
数手分探索し行動を決められる
抽象状態空間上での先読みを
行動候補で枝分かれさせて、
数手先まで探索
+ロールアウト(分岐させずに先読み)
によって行動を決定
探索によって得る価値推定の式: (モンテカルロ的に平均)
𝑑 探索の残り深さ
- 10. VALUE PREDICTION NETWORK (VPN) アーキテクチャ
VPNのアーキテクチャ
VPNを構成するモジュール
- ① Encoding (環境の観測 𝑥 から 抽象状態 𝑠 へ変換),
- ② Value (抽象状態 𝑠 から 価値 𝑉 を出力)
- ③ Outcome (抽象状態 𝑠 から 報酬 𝑟 割引率 𝛾 を出力) ※ 𝜆 はVPNではなし
- ④ Transition (抽象状態 𝑠 から 次の抽象状態 𝑠′
を出力)
行動(オプション)𝑜 の入力が追加
- 11. VALUE PREDICTION NETWORK (VPN) アーキテクチャ
VPNのアーキテクチャ
抽象状態の遷移関数の詳細
(Appendix E)
全体を Residual Net として
抽象状態の変化分だけを学習
(変化は全体に対して小さめという仮定)
- 12. VALUE PREDICTION NETWORK (VPN) 学習
学習法
右図横軸が実時間、縦軸が先読み
学習の誤差関数
𝑅 は探索ありの先読みをして推定した価値
𝑣 は探索なしの推定価値
マルチステップQ学習(価値=最善の手の価値)
即時報酬 𝑟 は実際の観測値に近づける
割引率 𝛾 は掛け算スケールなので log を取ってMSEに入れる
学習時の行動系列生成(実際の行動)は 𝜖 −グリーディで生成
- 13. 実験① CORRECT TASK
制限時間の中でエージェント(緑)が複数のゴール(青)のうち何個到達できるか
各マスの状態を 10 x 10 x 3 の行列として観測が与えられる
一定確率でゴールが動いたり、強制的に移動させたれたりなどの不確定バージョンでも検証
- 14. 実験① CORRECT TASK 結果
DQN, OPN (抽象状態ではなく観測の直接モデル化にトライしたもの)と比較
Greedy (近くのゴールに行く), Shortest (deterministicの場合の最適解)
確定性課題 (a) 不確定性課題 (b) の双方で他のモデル(解析解以外)を上回った
OPNは確定性なら性能が高いが、不確定性だと大幅に悪くなる。
現実の観測の平均化された状態(あり得ない)を生成して探索するからではないか?
- 16. 実験② ATARI GAMES VPNの出力例
行動系列とVPNの評価
相手を避ける動きをした (b) に高い評価がついている
逆に相手にぶつかって死ぬ (e) は低評価
Hinweis der Redaktion
- 例えば自動運転
- やりたいことはモデルベース学習
- 例えば自動運転
- 例えば自動運転
- 例えば自動運転
- 例えば自動運転
- 自分がここにいるかもしれないしいないかもしれない OK だが 自分の体が真っ二つで半分だけ