[DL輪読会]V-MPO: On-Policy Maximum a Posteriori Policy Optimization for Discrete and Continuous Control

DEEP LEARNING JP
[DL Papers]
V-MPO: On-Policy Maximum a Posteriori Policy
Optimization for Discrete and Continuous Control
Hiroki Furuta
http://deeplearning.jp/

書誌情報
• タイトル: V-MPO: On-Policy Maximum a Posteriori Policy Optimization for
Discrete and Continuous Control
• 著者: H. Francis Song, Abbas Abdolmaleki, Jost Tobias Springenberg, Aidan Clark, Hubert Soyer, Jack W. Rae, Seb
Noury, Arun Ahuja, Siqi Liu, Dhruva Tirumala, Nicolas Heess, Dan Belov, Martin Riedmiller, Matthew M. Botvinick
• 所属: DeepMind
• URL: https://arxiv.org/abs/1909.12238
• 概要: On-Policyの方策勾配法は, 勾配の分散の大きさやエントロピー正則
化の調整で性能が制限されていた. 方策勾配法の代替として, EMアルゴリ
ズムによる方策反復法のV-MPOを提案した.
2

研究背景
• 深層学習×強化学習によって様々な分野で人間を超えた
Dota2[OpenAI 2018], Capture the Flag[Jaderberg+ 2019], StarCraftⅡ[DeepMind 2019], In-Hand
Manipulation[OpenAI 2018]など
• これらにはOn-Policyの方策勾配法ベースの手法が用いられてきた
Proximal Policy Optimization(PPO)[Schulman+ 2017], Importance-Weighted Actor-Learner
Architecture(IMPALA) [Espeholt+ 2018]など
• On-Policyの方策勾配法にはいくつか課題が存在
3

研究背景
• 特に高次元行動空間の場合, 方策勾配法は勾配の分散が大きいことがパ
フォーマンスを制約してしまう
• また実装上, エントロピー正則化項のチューニングが重要となる
• 方策勾配法とは別のアプローチとして, まず更新のターゲットとなる最適な
方策を計算し, そのターゲット方策に近づける方向にパラメータを更新する
方法がOff-Policyの手法で存在
Maximum a Posteriori Policy Optimisation (MPO)[Abdolmaleki+ 2018]
方策勾配法は, 方策勾配の方向に従って直接パラメータを更新する
4

問題設定
• 通常の強化学習と同じく, 状態𝑠, 行動𝑎, 初期状態分布𝜌(𝑠0), 遷移確率
𝑝(𝑠′|𝑠, 𝑎), 報酬関数𝑟(𝑠, 𝑎), 割引率𝛾 ∈ [0, 1]からなるマルコフ決定過程
(MDP)の下で方策𝜋 𝜃(𝑎|𝑠)を最適化
 𝜃はニューラルネットワークのパラメータ
• 強化学習は累積期待報酬を最大にする方策を見つける問題
5

V-MPOの大まかなPseudo Algorism
V-MPOは以下を反復する方策反復法として考えられる
• Policy Evaluation
状態価値関数𝑉(𝑠)を学習
• Policy Improvement
EMアルゴリズムによって方策を改善
E-Step:更新のターゲットとなる最適な方策をKL制約の下で求める
M-Step:ターゲット方策に近づく方向にKL制約の下でパラメータを更新する
6

関連研究
• パラメータの更新幅をKL制約によって制限
TRPO[Schuluman+ 2015], PPO[Schulman+ 2017]: V-MPOのE-StepのKL制約に相当
• 強化学習×EMアルゴリズム
MPO[Abdolmaleki+ 2018]: Off-Policyバージョン, Q関数を用いる
REPS[Peters+ 2010]: M-StepにKL制約を用いる, NNではうまく行ってない
他にもRWR[Peters+ 2007]などもEMアルゴリズムによる
• Policy ImprovementがSPU[Vuong+ 2019]と類似
M-Stepの最適化の違いによりSPUのアルゴリズムはPPOに近い
7

Policy Evaluation
• n-step先まで考慮したTD学習で状態価値関数𝑉(𝑠)を学習
• Policy Improvementで用いるAdvantage関数:
• PopArt[van Hasselt+ 2016]による価値の正規化を用いる
Taskごとに報酬のスケールが異なるMulti-taskの設定で提案された手法
8

Policy Improvement in V-MPO
• 方策が改善すれば𝐼 = 1, 改善しなければ0のbinary変数𝐼を導入
• 𝐼 = 1で条件付けられた方策のパラメータ𝜃の事後分布(posterior
distribution)を考える. ただし,
• 次の等式において, 𝑋 → 𝐼, 𝑍 → 𝑠, 𝑎とする
• E-stepで𝜓でKLを最小化, M-Stepで𝜃で下界を最大化して学習 9
下界(Lower Bound) KL

E-Step
• E-Stepでは下界がlog 𝑝 𝜃(𝐼 = 1)にできるだけ近づくように, つまりKLダイ
バージェンスを最小化するような𝜓を選ぶ
• つまり,
10

E-Step
• これは, state-actionの確率を方策が改善する確率で重み付けしていると
みなせる
• 直感的に考えると, それぞれの状態で高いadvantageの行動が選ばれてい
るときに,方策が改善する確率は大きいはず
11

E-Step
• 厳密には,𝜓は次の制約付き最適化問題のラグランジュ関数を解くことで求
められる
• E-Stepでは,𝜓について最適化, つまり温度(temperature)𝜂について最適化
を行う(双対関数の最小化)
12
ラグランジュ関数

M-Step
• M-Stepでは事前分布の項log 𝑝(𝜃)を含めて下界の最大化を行う
• 事前分布の項を考えずに, 𝜃に依存する項のみ取り出す
→方策のパラメータ𝜃に関する, 重みつきの最尤推定のような形に書ける
→方策勾配法とは異なった更新方法 13

M-Step
• 事前分布の項を次のように近似
事前分布に平均𝜇 = 𝜃 𝑜𝑙𝑑, 分散Σ−1 = 𝛼𝐹(𝜃 𝑜𝑙𝑑)の正規分布を仮定した場合に相当
• よって, M-Stepでは次の制約付き最適化問題を解けばよいことになる
• E-Step同様にラグランジュ関数を考えるが, M-Stepではラグランジュ乗数𝛼
を座標降下法(Coordinate descent)によって最適化
14
sgはstop gradientの意味
ラグランジュ関数

実験: Multi-task DMLab-30/Atari-57
• Discrete ControlのMulti-taskの設定で比較
IMPALAはpopulation-based training(PBT)を用いてハイパラを調整
R2D2+は個々の環境で学習したもの
15

実験: DMLab-30
• DMLab-30の4つのタスクに関して既存手法/人間と比較
16

実験: Atari-57
• Atari-57の4つのタスクに関して既存手法(R2D2)と比較
LSTMの代わりにTransformer-XL(TrXL)を用いている
17

実験: Continuous Control
• Humanoid run(22-dim)/gaps(56-dim), MuJoCo Ant-v1, Walker2d-v1で
DDPG, SVG, MPO, PPO, SACらと比較
• Off-PolicyのMPOやSACは100倍以上サンプル効率が高いが, 最終的なパ
フォーマンスはOn-PolicyのV-MPOの方が高い
18

まとめ
• 方策勾配法の代替として, EMアルゴリズムによる方策反復法のV-MPOを
提案した.
• Discrete ControlのDMLab-30, Atari-57やMulti-taskの設定, Continuous
Controlのそれぞれの実験で既存手法を上回る
• EMアルゴリズムによる方策反復法のアプローチが, 既存の方策勾配法や
Actor-Criticの手法より良い可能性がある
19

[DL輪読会]V-MPO: On-Policy Maximum a Posteriori Policy Optimization for Discrete and Continuous Control

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Mehr von Deep Learning JP

Mehr von Deep Learning JP (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (11)

[DL輪読会]V-MPO: On-Policy Maximum a Posteriori Policy Optimization for Discrete and Continuous Control