論文紹介: Value Prediction Network

論文紹介: VALUE PREDICTION NETWORK
2018/1/13 NIPS2017 読み会 KATSUKI OHTO

概要 (VALUE PREDICTION NETWORK)
 複雑な強化学習タスクを効率的に解く
 ニューラルネットワークアーキテクチャと学習、実行法の提案
 未知環境にて環境のモデルを学習しながら状態の価値を学習
 効率な経路を選択する課題やAtariゲームにて
既存研究（DQN）を上回る成果をあげた
以降、特に注釈がない場合には
図はValue Prediction Network (Oh et al, 2017)
からの引用

強化学習 REINFORCEMENT LEARNING
 強化学習課題
 （ここでは）エージェントが未知の環境で試行錯誤しながら
段々上手くなっていくような問題設定
 目的 : 将来的に得る報酬（ゲームの得点など）の総計を最大化すること
DQNが
ブロック崩しを
上達する様子
Mnih et al.
(2015)

モデルベース強化学習 ORモデルフリー強化学習
 未知の環境で上手く動けるようになるには？
 ①環境のモデル（ルール）を覚えて考える
⇨ モデルベース強化学習
 ②環境のモデルを明示的に扱わずに直接行動を選ぶ
⇨ モデルフリー強化学習（DQN など）

モデルフリー強化学習の例
 Deep Q-Network で扱われるニューラルネットワークのモデルの例（Mnih et al., 2015）
 左側で現在状態の画像入力を受け取り、
Convolutional Neural Network を通じて
行動の価値（以後の報酬合計の期待値）
を予測（右側）
 学習後には予測された行動価値が大きい
行動を選ぶ
 特徴：
- 入力から直接計算して答えを出す
-「直感」的行動のみ学習される

モデルベース強化学習 VPN導入
 モデルベース強化学習 :
- 環境のモデル（状態遷移、報酬ら）を一緒に学習
- 深く思慮できる（探索）
 困難な点: 少ない観測サンプルから環境のモデルを作ることは、
ゲームのような小さな課題でも難しい
 先行研究やVPNのアプローチ: 観測した状態を
「抽象的な状態（abstract state）」にエンコーディングし、
「抽象的な状態」の上で遷移モデルを学習
 「抽象的な状態」一体何ぞや？

抽象的状態表現 (ABSTRACT STATE REPRESENTATION)
 Word2Vecのイメージに近い
- 単語の意味を数値ベクトルで表現
- 数値として演算できる
 単語→数値ベクトルへの変換を、
環境からの観測→数値ベクトル(or行列)に置き換えてみる
- 目的のタスクの特徴を掴む状態表現が得られれば、効率よく学習できると期待
（背景など、課題に不要な情報が抜ける）
- ただし、抽象的な状態空間上で遷移や報酬を考えた結果、現実と乖離する可能性も
- 実用的なのか？→先行研究（Predictron）が有効性を示唆
(Mikolov et al., 2013)

先行研究: PREDICTRON
 The Predictron: End-To-End Learning and Planning (Silver et al., 2017)
 マルコフ報酬過程（時系列で観測と報酬を得るが、
自分で行動を選べない過程）にて
良い価値推定を得るのに抽象状態表現による先読みを使う
 遷移モデルの表現としてCNNを利用
 右図がアーキテクチャの概要
（図は1層分、事前に抽象状態へのエンコーディング済）
下から、kステップ後の抽象状態 𝑠 𝑘
を受けとり、
途中で抽象状態の価値 𝑣 𝑘
即時報酬 𝑟 𝑘+1
割引率 𝛾 𝑘+1
収益の重み 𝜆 𝑘
(TD(𝜆) の𝜆)
最後に次の抽象状態 𝑠 𝑘+1 を出力
 先読みして価値を推定することで単純な純伝搬ネットより高精度
Predictronの
1層分の構造

VALUE PREDICTION NETWORK (VPN)
 Predictronは行動決定のない系での価値推定
 行動決定を行う場合にも同種の手法が使える、というのがVPNの提案
 VPNでできるようになったこと…行動空間が有限、（それほど候補が多くない）時に候補を絞って
数手分探索し行動を決められる
 抽象状態空間上での先読みを
行動候補で枝分かれさせて、
数手先まで探索
＋ロールアウト（分岐させずに先読み）
によって行動を決定
 探索によって得る価値推定の式: (モンテカルロ的に平均)
𝑑 探索の残り深さ

VALUE PREDICTION NETWORK (VPN) アーキテクチャ
 VPNのアーキテクチャ
 VPNを構成するモジュール
- ① Encoding (環境の観測 𝑥 から抽象状態 𝑠 へ変換),
- ② Value (抽象状態 𝑠 から価値 𝑉 を出力)
- ③ Outcome (抽象状態 𝑠 から報酬 𝑟 割引率 𝛾 を出力) ※ 𝜆 はVPNではなし
- ④ Transition (抽象状態 𝑠 から次の抽象状態 𝑠′
を出力)
 行動（オプション）𝑜 の入力が追加

VALUE PREDICTION NETWORK (VPN) アーキテクチャ
 VPNのアーキテクチャ
 抽象状態の遷移関数の詳細
(Appendix E)
 全体を Residual Net として
抽象状態の変化分だけを学習
（変化は全体に対して小さめという仮定）

VALUE PREDICTION NETWORK (VPN) 学習
 学習法
 右図横軸が実時間、縦軸が先読み
 学習の誤差関数
 𝑅 は探索ありの先読みをして推定した価値
𝑣 は探索なしの推定価値
マルチステップQ学習（価値=最善の手の価値）
 即時報酬 𝑟 は実際の観測値に近づける
 割引率 𝛾 は掛け算スケールなので log を取ってMSEに入れる
 学習時の行動系列生成（実際の行動）は 𝜖 −グリーディで生成

実験① CORRECT TASK
 制限時間の中でエージェント（緑）が複数のゴール（青）のうち何個到達できるか
 各マスの状態を 10 x 10 x 3 の行列として観測が与えられる
 一定確率でゴールが動いたり、強制的に移動させたれたりなどの不確定バージョンでも検証

実験① CORRECT TASK 結果
 DQN, OPN (抽象状態ではなく観測の直接モデル化にトライしたもの)と比較
Greedy (近くのゴールに行く), Shortest (deterministicの場合の最適解)
 確定性課題 (a) 不確定性課題 (b) の双方で他のモデル（解析解以外）を上回った
 OPNは確定性なら性能が高いが、不確定性だと大幅に悪くなる。
現実の観測の平均化された状態（あり得ない）を生成して探索するからではないか？

実験② ATARI GAMES
 Atari の
9種類のゲーム
 DQNと比較し、
Alien, Ms. Pacman
以外で上回った

実験② ATARI GAMES VPNの出力例
 行動系列とVPNの評価
 相手を避ける動きをした (b) に高い評価がついている
 逆に相手にぶつかって死ぬ (e) は低評価

実験③ 学習時と実行時の探索深さ
 学習時の探索深さ（凡例のかっこ内）より
実行時の探索深さ（グラフの横軸）
が深い場合
 Collect Task (Deterministic) で検証
 学習時深さ 3以上でやれば
実行時の悪化は少なかった
 特に、学習時にロールアウトだけ深くした
VPN(5)* は実行時深くても安定

逆に深さ 1 で学習した VPN(1) は性能低下

感想
 初夏にPredictron論文（行動決定がない想定）を読んだ時に、
行動決定ありのバージョンが冬には出るんではと話していたがその通りだった
（Predictron は DeepMind,、VPN はミシガン大学 & Google Brain）
ただ思うのと実際にやるのは大違い
 全探索でなく行動を数個選んで進めるだけで性能が上がるのは
モンテカルロ木探索（AlphaGo等）の性能の高さと関連していて興味深い
 行動候補が多い場合や連続の場合にサンプリングで頑張れそう？
 環境のモデルが既知な課題においても、
不確定性ありの場合などで抽象状態表現が有効か気になる

論文紹介: Value Prediction Network

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie 論文紹介: Value Prediction Network

Ähnlich wie 論文紹介: Value Prediction Network (20)

Mehr von Katsuki Ohto

Mehr von Katsuki Ohto (8)

論文紹介: Value Prediction Network

Hinweis der Redaktion