Weitere ähnliche Inhalte
Mehr von Deep Learning JP (20)
Kürzlich hochgeladen (11)
[DL輪読会]Grandmaster level in StarCraft II using multi-agent reinforcement learning
- 1. 1
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
えるエル @learn_learning3
DL輪読会2019/12/13
Grandmaster level in StarCraft II using
multi-agent reinforcement learning
- 2. 22
書誌情報
筆者
• Oriol Vinyals(ML界隈的にはseq2seqとかWaveNetとかの人),その他
David Silverなどによる 総勢40名近くのDeepMindチーム
掲載
• Nature 575, 350–354 (2019)
- 19. 1919
AlphaStarの学習概要
1. 人間のプレイデータを用いた教師あり学習
• 971,000個のリプレイデータを仕様
• 入力に対して,NNの出力行動分布が人間のものに近くなるよう学習
AlphaZeroとかでは人間の教師データなしだったのに,AlphaGoの時代に逆戻り?
→StarCraft2は,行動空間が大きすぎるのと,誰がやっても必須な「常識」の型が存在するため
2. 教師あり学習したエージェント同士のマルチエージェントのリーグ戦で
自己対戦+強化学習
• エージェント同士で対戦して強化学習.過去のエージェントのパラメータは凍結しつつ,学習
によるパラメータ更新を行ったエージェントを生成し,過去と最新エージェントが混ざった環
境でマチング
• メインの学習エージェントの他に,Main ExploiterやLeague Exploiterと呼ばれる特殊なエー
ジェントが存在
• 自己対戦自体は,他のAlpha Zero系と同じだが,AlphaStarはゲーム理論の観点(たぶん)
から,戦略の多様性が増すような仕掛けになっている
- 22. 2222
強化学習/UPGO
既存の模倣学習アルゴリズムであるSelf Imitation Learningを改良
したアルゴリズム
おさらい:Self Imitation Learning
• 過去のエージェントの行動を保存し,学習中の価値推定値よりも,過去の経
験で得た収益の方が高かった場合,その行動を選択するように方策更新
• SILでは以下のようにロスを計算する
SILの方策ロス,価値のロス共に,
RよりVが大きい場合はR-Vの部
分が0となって ,(1)のロスによる
更新が行われない
- 24. 2424マルチエージェント学習の前提知識/推移的な
ゲームと非推移的なゲーム
推移的(transitive)ゲーム:プレイヤーA, B, Cがいた場合,AがBに勝利し,
BがCに勝利するなら,AはCにも勝利するという条件が満たされるゲーム
非推移的(non-transitive)ゲーム:プレイヤーA, B, Cがいた場合,AがB
に勝利し,BがCに勝利する場合でも,AがCに勝利するという条件が満た
されないゲーム.つまり循環があるゲーム(じゃんけんが代表的)
スタークラフトは,「基本的に」非推移的なゲームで,ある戦略AがBに勝ち,
BがCに勝つ場合でも,そのまま強さの序列がA>B>Cにはならない.従って,
ただ単に最新モデルvs直前のモデルの自己対戦を繰り返した場合,昔の
戦略に勝てなくなる可能性
→AlphaStarでは,自己対戦の時に工夫して,過去の複数戦略と自己対戦
- 27. 2727
PFPS (Prioritized Fictionius Self Play)
仰々しい名前だが,大したことは言っていない
循環を避けるため,原則AlphaStarのマルチエージェント学習では過去の全てのエー
ジェントと自己対戦させたいが,例えば明らかに勝率が高いエージェントなどと戦わ
せるのは無駄
→対戦相手のマッチング確率を勝率に合わせて選択
Aを学習対象のエージェント,Cを対戦相手候補全体の集合,Bを対戦相手の候補とした場合,Bとの対
戦確率を以下のように計算
ここで,fは勝率により,マッチング確率を調整する関数で,今回の場合は二種類存在
𝒇 𝒉𝒂𝒓𝒅 𝒙 = (𝟏 − 𝒙) 𝒑
:勝率が低い対戦相手とマッチングしやすくなる.例として,勝率が1なら,0となり
マッチングしない.0.1とかだと大きくなる.pはでマッチングのランダム度合いを調整
𝒇 𝒗𝒂𝒓(𝒙) = 𝒙(𝟏 − 𝒙):勝率が半分近い=実力が同じくらいの相手とマッチングしやすくなる.例として勝率
0.1や0.9だと,0.09に,勝率0.5だと0.25で大きくなる