[DL輪読会]V-MPO: On-Policy Maximum a Posteriori Policy Optimization for Discrete and Continuous Control
1. DEEP LEARNING JP
[DL Papers]
V-MPO: On-Policy Maximum a Posteriori Policy
Optimization for Discrete and Continuous Control
Hiroki Furuta
http://deeplearning.jp/
2. 書誌情報
• タイトル: V-MPO: On-Policy Maximum a Posteriori Policy Optimization for
Discrete and Continuous Control
• 著者: H. Francis Song, Abbas Abdolmaleki, Jost Tobias Springenberg, Aidan Clark, Hubert Soyer, Jack W. Rae, Seb
Noury, Arun Ahuja, Siqi Liu, Dhruva Tirumala, Nicolas Heess, Dan Belov, Martin Riedmiller, Matthew M. Botvinick
• 所属: DeepMind
• URL: https://arxiv.org/abs/1909.12238
• 概要: On-Policyの方策勾配法は, 勾配の分散の大きさやエントロピー正則
化の調整で性能が制限されていた. 方策勾配法の代替として, EMアルゴリ
ズムによる方策反復法のV-MPOを提案した.
2