08448380779 Call Girls In Civil Lines Women Seeking Men
[DL輪読会]MuZero:Mastering Atari, Go, chess and shogi by planning with a learned model
1. 1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
MuZero:Mastering Atari, Go, Chess and Shogi by
Planning with a Learned Model
今井 翔太(東京⼤学 松尾研究室)
Twitter:えるエル@ImAI_Eruel
DL輪読会2020/02/05
2. 書誌情報
n出典:Nature volume 588, pages604‒609(2020)
n著者: Julian Schrittwieser , Ioannis Antonoglou,Thomas Hubert,
David SilverらDeepMindのチーム(AlphaGo〜AlphaZero,AlphaStarの
主要著者らが多い)
n元々は2019年1⽉にarXivに投稿されていたが,2020年12⽉にNatureに
採択される
n同時に,DeepMindや筆頭著者のブログにおける解説記事も投稿される
- DeepMindのブログ記事:
https://deepmind.com/blog/article/muzero-mastering-go-chess-shogi-and-atari-without-rules
- 筆頭著者のブログ記事:
http://www.furidamu.org/blog/2020/12/22/muzero-intuition/
Shota Imai | The University of Tokyo
2
13. モンテカルロ⽊探索
(Monte Carlo Tree Search; MCTS)
n原始モンテカルロ⽊探索では,乱数シミュレーションを⾏うため,現実的
には相⼿がミスをしなければ勝ちに繋がらないような⼿も選択してしまう
可能性
nそこで,有⼒な⼿に探索を集中させ,良さそうな⼿についてはゲーム⽊を
展開して何⼿も先読みするという⼿を使うことが考えられる
→モンテカルロ⽊探索の成⽴
n⼀般的には2006年にレミ・クーロンが開発した囲碁AI「Crazy Stone」が
起源とされる
Shota Imai | The University of Tokyo
13
AlphaGoなどは,評価関数として強化
学習した深層ニューラルネットを使い,
MCTSによる探索を⾏なっている
29. 29
AlphaZeroとMuZeroの⽐較
n AlphaZero
- 使うネットワークは⼀つ
- ⽊探索に使うモデルはゲームの状態
を完全に再現しており,既知(ゲー
ムルールは⼈間がプログラム)
- Atariなどのゲームには適⽤不可
n MuZero
- 使うネットワークは3つ
- ⽊探索に使うモデルは学習によって
獲得され,ゲームの重要な部分のみ
をモデル化
- Atariなどにも適⽤可能
Shota Imai | The University of Tokyo