SlideShare ist ein Scribd-Unternehmen logo
1 von 19
DEEP LEARNING JP
[DL Papers]
V-MPO: On-Policy Maximum a Posteriori Policy
Optimization for Discrete and Continuous Control
Hiroki Furuta
http://deeplearning.jp/
書誌情報
• タイトル: V-MPO: On-Policy Maximum a Posteriori Policy Optimization for
Discrete and Continuous Control
• 著者: H. Francis Song, Abbas Abdolmaleki, Jost Tobias Springenberg, Aidan Clark, Hubert Soyer, Jack W. Rae, Seb
Noury, Arun Ahuja, Siqi Liu, Dhruva Tirumala, Nicolas Heess, Dan Belov, Martin Riedmiller, Matthew M. Botvinick
• 所属: DeepMind
• URL: https://arxiv.org/abs/1909.12238
• 概要: On-Policyの方策勾配法は, 勾配の分散の大きさやエントロピー正則
化の調整で性能が制限されていた. 方策勾配法の代替として, EMアルゴリ
ズムによる方策反復法のV-MPOを提案した.
2
研究背景
• 深層学習×強化学習によって様々な分野で人間を超えた
Dota2[OpenAI 2018], Capture the Flag[Jaderberg+ 2019], StarCraftⅡ[DeepMind 2019], In-Hand
Manipulation[OpenAI 2018]など
• これらにはOn-Policyの方策勾配法ベースの手法が用いられてきた
Proximal Policy Optimization(PPO)[Schulman+ 2017], Importance-Weighted Actor-Learner
Architecture(IMPALA) [Espeholt+ 2018]など
• On-Policyの方策勾配法にはいくつか課題が存在
3
研究背景
• 特に高次元行動空間の場合, 方策勾配法は勾配の分散が大きいことがパ
フォーマンスを制約してしまう
• また実装上, エントロピー正則化項のチューニングが重要となる
• 方策勾配法とは別のアプローチとして, まず更新のターゲットとなる最適な
方策を計算し, そのターゲット方策に近づける方向にパラメータを更新する
方法がOff-Policyの手法で存在
Maximum a Posteriori Policy Optimisation (MPO)[Abdolmaleki+ 2018]
方策勾配法は, 方策勾配の方向に従って直接パラメータを更新する
4
問題設定
• 通常の強化学習と同じく, 状態𝑠, 行動𝑎, 初期状態分布𝜌(𝑠0), 遷移確率
𝑝(𝑠′|𝑠, 𝑎), 報酬関数𝑟(𝑠, 𝑎), 割引率𝛾 ∈ [0, 1]からなるマルコフ決定過程
(MDP)の下で方策𝜋 𝜃(𝑎|𝑠)を最適化
 𝜃はニューラルネットワークのパラメータ
• 強化学習は累積期待報酬を最大にする方策を見つける問題
5
V-MPOの大まかなPseudo Algorism
V-MPOは以下を反復する方策反復法として考えられる
• Policy Evaluation
状態価値関数𝑉(𝑠)を学習
• Policy Improvement
EMアルゴリズムによって方策を改善
E-Step:更新のターゲットとなる最適な方策をKL制約の下で求める
M-Step:ターゲット方策に近づく方向にKL制約の下でパラメータを更新する
6
関連研究
• パラメータの更新幅をKL制約によって制限
TRPO[Schuluman+ 2015], PPO[Schulman+ 2017]: V-MPOのE-StepのKL制約に相当
• 強化学習×EMアルゴリズム
MPO[Abdolmaleki+ 2018]: Off-Policyバージョン, Q関数を用いる
REPS[Peters+ 2010]: M-StepにKL制約を用いる, NNではうまく行ってない
他にもRWR[Peters+ 2007]などもEMアルゴリズムによる
• Policy ImprovementがSPU[Vuong+ 2019]と類似
M-Stepの最適化の違いによりSPUのアルゴリズムはPPOに近い
7
Policy Evaluation
• n-step先まで考慮したTD学習で状態価値関数𝑉(𝑠)を学習
• Policy Improvementで用いるAdvantage関数:
• PopArt[van Hasselt+ 2016]による価値の正規化を用いる
Taskごとに報酬のスケールが異なるMulti-taskの設定で提案された手法
8
Policy Improvement in V-MPO
• 方策が改善すれば𝐼 = 1, 改善しなければ0のbinary変数𝐼を導入
• 𝐼 = 1で条件付けられた方策のパラメータ𝜃の事後分布(posterior
distribution)を考える. ただし,
• 次の等式において, 𝑋 → 𝐼, 𝑍 → 𝑠, 𝑎とする
• E-stepで𝜓でKLを最小化, M-Stepで𝜃で下界を最大化して学習 9
下界(Lower Bound) KL
E-Step
• E-Stepでは下界がlog 𝑝 𝜃(𝐼 = 1)にできるだけ近づくように, つまりKLダイ
バージェンスを最小化するような𝜓を選ぶ
• つまり,
10
E-Step
• これは, state-actionの確率を方策が改善する確率で重み付けしていると
みなせる
• 直感的に考えると, それぞれの状態で高いadvantageの行動が選ばれてい
るときに,方策が改善する確率は大きいはず
11
E-Step
• 厳密には,𝜓は次の制約付き最適化問題のラグランジュ関数を解くことで求
められる
• E-Stepでは,𝜓について最適化, つまり温度(temperature)𝜂について最適化
を行う(双対関数の最小化)
12
ラグランジュ関数
M-Step
• M-Stepでは事前分布の項log 𝑝(𝜃)を含めて下界の最大化を行う
• 事前分布の項を考えずに, 𝜃に依存する項のみ取り出す
→方策のパラメータ𝜃に関する, 重みつきの最尤推定のような形に書ける
→方策勾配法とは異なった更新方法 13
M-Step
• 事前分布の項を次のように近似
事前分布に平均𝜇 = 𝜃 𝑜𝑙𝑑, 分散Σ−1 = 𝛼𝐹(𝜃 𝑜𝑙𝑑)の正規分布を仮定した場合に相当
• よって, M-Stepでは次の制約付き最適化問題を解けばよいことになる
• E-Step同様にラグランジュ関数を考えるが, M-Stepではラグランジュ乗数𝛼
を座標降下法(Coordinate descent)によって最適化
14
sgはstop gradientの意味
ラグランジュ関数
実験: Multi-task DMLab-30/Atari-57
• Discrete ControlのMulti-taskの設定で比較
IMPALAはpopulation-based training(PBT)を用いてハイパラを調整
R2D2+は個々の環境で学習したもの
15
実験: DMLab-30
• DMLab-30の4つのタスクに関して既存手法/人間と比較
16
実験: Atari-57
• Atari-57の4つのタスクに関して既存手法(R2D2)と比較
LSTMの代わりにTransformer-XL(TrXL)を用いている
17
実験: Continuous Control
• Humanoid run(22-dim)/gaps(56-dim), MuJoCo Ant-v1, Walker2d-v1で
DDPG, SVG, MPO, PPO, SACらと比較
• Off-PolicyのMPOやSACは100倍以上サンプル効率が高いが, 最終的なパ
フォーマンスはOn-PolicyのV-MPOの方が高い
18
まとめ
• 方策勾配法の代替として, EMアルゴリズムによる方策反復法のV-MPOを
提案した.
• Discrete ControlのDMLab-30, Atari-57やMulti-taskの設定, Continuous
Controlのそれぞれの実験で既存手法を上回る
• EMアルゴリズムによる方策反復法のアプローチが, 既存の方策勾配法や
Actor-Criticの手法より良い可能性がある
19

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
 
最適化超入門
最適化超入門最適化超入門
最適化超入門
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions
 
単純ベイズ法による異常検知 #ml-professional
単純ベイズ法による異常検知  #ml-professional単純ベイズ法による異常検知  #ml-professional
単純ベイズ法による異常検知 #ml-professional
 
【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
強化学習その2
強化学習その2強化学習その2
強化学習その2
 
ブースティング入門
ブースティング入門ブースティング入門
ブースティング入門
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
 
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
 

Mehr von Deep Learning JP

Mehr von Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Kürzlich hochgeladen

Kürzlich hochgeladen (11)

知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 

[DL輪読会]V-MPO: On-Policy Maximum a Posteriori Policy Optimization for Discrete and Continuous Control