Weitere ähnliche Inhalte
Ähnlich wie 【論文紹介】PGQ: Combining Policy Gradient And Q-learning (12)
Mehr von Sotetsu KOYAMADA(小山田創哲) (10)
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
- 2. Table of Contents
■ 論文概要
■ 強化学習の問題設定と定義
■ Q学習と方策勾配法のReview
■ 論文の理論的結果 (1)
■ 論文の理論的結果 (2)
■ 提案手法の説明: PGQ
■ 実験結果
■ 参考文献
- 10. 一般的な強化学習の問題設定 (1)
マルコフ決定過程 (MDP)
環境 は現在の 状態 と 行動 にだけ依存して未知の 状態遷
移確率 から次の 状態 と 即時報酬 を返す
エージェント は現在の 状態 と 報酬 を観測し、現在の 方
策 に基づいて次の 行動 を返す
サンプル系列 が生成される
P
( , ) ∼ P(⋅ | , )Xt+1 Rt+1 Xt At
π
∼ π(⋅ | )At Xt
( , , , , , …)X0 A0 R1 X1 A1
- 12. ある方策に基づく価値関数
Def. 行動価値関数 (期待値は状態遷移確率と方策 )
Def. 方策 に基づくベルマン作用素
(ただし、 )
この行動価値関数 は、ベルマン作用素の不動点 (i.e.,
) として求まる(める)
π
(x, a) := E
[
| = x, = a
]
Q
π
∑
t=0
∞
γ
t
Rt+1 X0 A0
π
Q(x, a) = r(x, a) + γ π( | )P( |x, a)Q( , )T
π
∑
,x
′
a
′
a
′
x
′
x
′
x
′
a
′
r(x, a) = E [ | = x, = a]Rt+1 Xt At
Q
π
Q = QT
π
- 17. 方策勾配法
方策 をパラメトライズした上で を直接最適化する
■ 方策勾配定理 [Sutton+99]
■ からサンプルを生成してサンプル平均を取れば 不偏
推定量が計算できるので、それを使って更新を行なう
■ 逆に のような推定している分布に関するサンプリン
グが必要なような確率的最適化の場面では強化学習以外
の文脈でも使われる (e.g., hard attention [Mnih+14,
Xu+15] , sequence generatioon [Ranzato+16,
Bahdanau+17])
π πθ
J(θ) = E [ (x, a) log(π(a|x))]∇θ Q
π
∇θ
π
π
- 22. Q学習は本質的に方策オフ型
Review: Q学習の更新則
■ 更新則の期待値のサンプル平均が推定方策に依存して
いないため、 関係無い分布からサンプリングをしてもサ
ンプル平均が不偏推定量になる
■ 逆に、現在の に基づく最適方策
のサンプルだけから学習するのは不可能( の -グリ
ーディ方策やボルツマン方策など探索的行動も取らなけ
れば任意の状態・行動に対し十分なサンプルが得られな
い)
∝ ( − ) = E [( − ) ]Δθ ∇θ T
∗
Qθ Qθ T
∗
Qθ Qθ ∇θ Qθ
Q(x, a) := r(x, a) + γ P( |x, a) Q( , )T
∗
∑
x
′
x
′
max
a
′
x
′
a
′
Qθ
(x, a)argmaxa
Qθ
Qθ
ϵ
- 23. Q学習のPros/Cons
■ Pros: 経験再生 [Lin92] を使えるのでデータ効率的
■ Pros: 任意の方策からサンプリングされたデータで学
習可能(サンプルサイズが十分あれば)
■ Cons: 複数ステップ法への拡張が難しい(サンプル平
均がサンプリングする方策に依存するようになるのでバ
イアスが生じる)
このConsを解決するアプローチ
■ Importance sampling (IS) [Precup+00] 推定方策と
行動方策の分布比に応じて重み付け
■ Retrace(λ) [Munos+16] ISの分散爆発を避けつつ長
く先読みできるよう工夫
■ PCL [Nachum+17] 本論文を踏まえた発展
- 40. ■ [Watkins89] Learning from delayed rewards. PhD
thesis 1989
■ [Williams&Peng91] Function Optimization Using
Connectionist Reinforcement Learning Algorithms.
Connection Science 1991
■ [Williams+92] Simple statistical gradient-
following algorithms for connectionist reinforcement
learning Machine Learning 1992.
■ [Lin92] Self-Improving Reactive Agents Based On
Reinforcement Learning, Planning and Teaching.
Machine Leanring
■ [Sutton+99] Policy Gradient Methods for
Reinforcement Learning with Function
Approximation. NIPS 1999
- 41. ■ [Rummery&Niranjan94] On-line Q-learning using
connectionist systems. 1994
■ [Singh+00] Convergence Results for Single-Step
On-Policy Reinforcement-Learning Algorithms.
Machine Learning 2000
■ [Precup+00] Eligibility Traces for Off-Policy Policy
Evaluation. ICML 2000
■ [Szepesvari10] Algorithms for Reinforcement
Learning. 2010
■ [Mnih+13] Playing atari with deep reinforcement
learning. NIPS-WS 2013
- 42. ■ [Mnih+14] Recurrent Models of Visual Attention.
NIPS 2014
■ [Mnih+15] Human-level control through deep
reinforcement learning. Nature 2015
■ [Xu+15] Show, attend and tell: Neural image
caption generation with visual attention ICML 2015
■ [Mnih+16] Asynchronous Methods for Deep
Reinforcement Learning ICML 2016
■ [Ranzato+16] Sequence level training with
recurrent neural networks ICLR 2016
- 43. ■ [Wang+16] Dueling Network Architectures for
Deep Reinforcement Learning ICML 2016
■ [Bahdanau+17] An Actor-Critic Algorithm for
Sequence Prediction. ICLR 2017
■ [Munos+16] Safe and efficient off-policy
reinforcement learning. NIPS 2016
■ [Wang+17] Sample Efficient Actor-Critic with
Experience Replay. ICLR 2017
■ [O’Donoghue+17] PGQ: Combining Policy Gradient
and Q-learning. ICLR 2017
- 44. ■ [Nachum+17] Bridging the Gap Between Value and
Policy Based Reinforcement Learning. submitted to
ICML 2017