2. 書誌情報
以下の論⽂の内容が中⼼
n The Surprising Effectiveness of PPO in Cooperative, Multi-Agent Games
- NeurIPS2022
n Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning
- ICLR2022
n Multi-Agent Reinforcement Learning is a Sequence Modeling Problem
- NeurIPS2023
Shota Imai | The University of Tokyo
2
8. 中央集権型学習分散型実⾏
CTDE; Centralized Learning Distributed Execution
n 現在のMARLの最重要概念
n 中央集権型学習:学習時のみ,勾配を計算する時に全体のエージェントの情報を含む環境の「グローバルな情
報」を使う
(e.g, 各エージェントの⽅策パラメータの勾配計算に部分観測に加え真の状態sを使う)
n 分散型実⾏:テスト時には,各エージェントは⾃⾝の部分観測のみを⼊⼒として⽅策を実⾏
(例)
学習時には,全エージェントの情報sやuを使って,⽅策勾配を
のように計算し,テスト時には各エージェントは⽅策𝜋(𝑢!|𝜏!)のみを使い,グローバルな情報の⼊⼒を必要とし
ない
n COMA[Foerster+ 2017]以降,特に⽤いられるアプローチで,
“in many cases, learning can take place in a simulator or a laboratory in which extra state information is
available and agents can communicate freely”[Foerster+ 2016]
つまり,「マルチエージェントの学習は,研究的な環境でシミュレータ等を使えるため,学習を促進するために
追加の状態の情報を使ってもよい」という仮定によるアプローチ
n 本来エージェントが動作するテスト環境(Execution時)は,基本的に各エージェントが個別の観測だけを受け
取って強調しているため,グローバルな情報は使えない
Shota Imai | The University of Tokyo
8
11. 初期のCTDE型⼿法
n COMA(Counterfactual Multi-Agent Policy Gradients)
- CTDEが導⼊された⼿法
- シングルRLの⽅策勾配をCTDEで改良
n MADDPG(Multi-Agent Deterministic Policy Gradients)
- DDPGをCTDEで改良
Shota Imai | The University of Tokyo
11
12. IGM原理に基づく価値分解型の⼿法
n VDN
- 価値分解型⼿法の元祖
- 各エージェントの個別価値の和とCTDEの勾配計算時に⽤いる共同価値を⼀致させる
n QMIX
- 最もよく使われるMARLの代表的アルゴリズム
- HypernetworkベースのMixing networkで共同価値を計算
n QTRAN
- IGM原理が提唱された⼿法
- 共同価値を学習しやすい形に変換
n QPLEX
- シングルRLでも使われたDueling Networkを使⽤
- 個別価値と共同価値の両⽅にDueling Networkの機構を組み込む
Shota Imai | The University of Tokyo
12
13. IGM原理(Individual Global-Max Principle)
n 各エージェント𝑎が個別の観測𝑜!(または観測の履歴𝜏!)を基に出⼒する⾏動価値𝑄!と,
CTDE型の⼿法で勾配を計算する時に⽤いる𝑄"#(𝜏, 𝒖)について以下の関係を満たす場合,
この⼿法における⾏動価値はIGMを満たす
n つまり各エージェント個体がそれぞれ「最適だと思っている」(=⾏動価値が最も⾼い)
⾏動をまとめた共同⾏動が,エージェント全体としても現在の状態(or軌道)の下で最
も⾼い⾏動価値を持つ,という状況を満たす
n IGMを満たさない場合,学習時の共同価値が最⼤の時と個別のエージェントの価値の最
⼤の時がずれるため,分散型実⾏時に各エージェントが個別価値ベースで⾏動を選択す
ると,全体としての最適⾏動にならない
n QTRANで提唱される前のVDNやQMIXも,実はこの性質を持っていた
Shota Imai | The University of Tokyo
13
16. MAPPO(Multi-Agent Proximal Policy Optimization)
n シングルRLでよく使われるPPOを,学習アルゴリズムはそのままにハイパラや実装を
MARL向けに調整した⼿法
n MARLで重要とされてきたIGM原理を満たさず,役割学習などの機構も持たないが,既存
のMARLアルゴリズムを圧倒する性能を発揮
Shota Imai | The University of Tokyo
16
17. おさらい / PPO
n TRPOを改良した⼿法で,より実装を単純にし,強⼒にしたもの
- TRPO(Trust Region Policy Optimization):⽅策勾配において適切な勾配の更新幅を保証
n 更新前の⽅策と新しい⽅策の確率密度⽐が,ある値1 − 𝜖, 1 + 𝜖の範囲に収まるよう制約
をかけて学習
Shota Imai | The University of Tokyo
17
21. 実装上の⼯夫の効果 / グローバル情報と個別情報の使い⽅
n CTDEで使うグローバルな情報についての定義をいくつか設定し,それを学習に使った場
合でどう性能が変化するかを分析
- CL(concatenation of local observations):全てのエージェントの観測をconcatしたものを
グローバル情報とする
- EP(EnvironmentProvided global state ):環境・全エージェントの要約情報をグローバル情
報とする
- AS(Agent-Specific Global State ):各エージェント固有の観測とグローバル情報を組み合
わせる
- FP(Featured-Pruned Agent-Specific Global State):ASで,各エージェントで被っている
う情報を削除したもの
Shota Imai | The University of Tokyo
21
25. HAPPO(Heterogeneous-Agent Proximal Policy Optimization)
n MAPPOはアルゴリズムの性質上,全てのエージェントが同じパラメータを共有する
Homogeneousな設定でしか使⽤できない
- この設定はParameter Sharingと呼ばれるMARLにおける代表的な⼯夫
n ⾏動空間が違うエージェントで構成されるMARLのタスクでもMAPPOのようなやり⽅で
学習するため,HAPPOを提案
n 新たにAdvantage Decompositionという概念と,それをベースにしたsequential policy
updateをPPOに取り⼊れた
n かなり理論的なことも議論している論⽂(今回は割愛)
※実際にはHATRPOの導⼊がメインの論⽂だが,TRPOを簡単にしたHAPPOの⽅が⼀般的
Shota Imai | The University of Tokyo
25
27. Multi-Agent Advantage Decomposition
n 𝑖%:'をエージェントの順列とすると以下が成り⽴つ
n 各エージェントが正のアドバンテージを持つ⾏動aを選択し,続くエージェントも先の
エージェントの⾏動を考慮した上で正のアドバンテージを持つ⾏動を選択・・・と繰り
返すと,全体の共同アドバンテージ𝐴$
(":$
は正の値になることが保証される
n この性質を利⽤して,各エージェントのPPOの更新を以下のように⾏う
Shota Imai | The University of Tokyo
27
30. MAT(Multi-Agent Transformer)
n HAPPOで提案されたAdvantage DecompositionとSequential Policy Updateをベースに,
MARLの⾏動⽣成・学習を系列モデリングとして定式化
- 論⽂タイトル: Multi-Agent Reinforcement Learning is A Sequence Modeling Problem
n 系列モデリングの最強⼿法であるTransformerを取り⼊れることで, MARLの様々なタ
スクで圧倒的な性能を発揮
n さらに,Transformerが得意とする事前学習についても検討を⾏い,MARLでエージェン
ト数が違うタスクへのFew/Zero-shot学習が成功することも証明
Shota Imai | The University of Tokyo
30
35. MAT / 事前学習の実験
n 複数環境で性能が出るようにMATで学習したエージェントが,エージェント数を変える
などした別タスクでも性能を発揮できるかどうか
【実験設定】
n SMAC:3m, 8m vs 9m, 10m vs 11m, 25m, 3s vs 3z, 2s3z, 3s5z, MMMで学習したモデル
をエージェント数が異なる5m vs 6m, 8m, 27m vs 30m, 2s vs 1sc, 1c3s5z, MMM2に適⽤
n MA Mujoco:全ての部位が揃ったHalfCheetahで学習したモデルを,⼀部の部位が動か
なくなったHalfCheetahに適⽤
n 事前学習のサンプル数は10M
Shota Imai | The University of Tokyo
35