[DL輪読会]MuZero：Mastering Atari, Go, chess and shogi by planning with a learned model

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
MuZero：Mastering Atari, Go, Chess and Shogi by
Planning with a Learned Model
今井翔太（東京⼤学松尾研究室）
Twitter：えるエル@ImAI_Eruel
DL輪読会2020/02/05

書誌情報
n出典：Nature volume 588, pages604‒609(2020)
n著者： Julian Schrittwieser ， Ioannis Antonoglou，Thomas Hubert，
David SilverらDeepMindのチーム（AlphaGo〜AlphaZero，AlphaStarの
主要著者らが多い）
n元々は2019年1⽉にarXivに投稿されていたが，2020年12⽉にNatureに
採択される
n同時に，DeepMindや筆頭著者のブログにおける解説記事も投稿される
- DeepMindのブログ記事：
https://deepmind.com/blog/article/muzero-mastering-go-chess-shogi-and-atari-without-rules
- 筆頭著者のブログ記事：
http://www.furidamu.org/blog/2020/12/22/muzero-intuition/
Shota Imai | The University of Tokyo
2

余談1：著者のSchrittwieserについて
nAlphaGo〜AlphaZeroの論⽂にも著者として貢献しているDeepMindの
エンジニア
nどちらかというと，研究というよりエンジニアリング担当で，機械学習の
主要論⽂でファーストになるのはたぶん初
n相当な⽇本マニアで，Twitterのプロフに「⽇本語をしている」と書いて
ある他，ユーザー名が「Mononofu（もののふ）」
n「MuZero」の⼿法名の由来も⽇本語由来
3
Twitter：https://twitter.com/Mononofu
ブログ：http://www.furidamu.org/

余談2：MuZeroの名前の由来
nアルゴリズム的には，深層強化学習+MCTSベースのボードゲーム攻略な
ので，「Alpha」シリーズの正当継承者
nしかし，Alphaの称号はボードゲームから離れたAlphaStar，AlphaFoldに
譲り，謎の「Mu」Zeroに
nNatureの論⽂発表後，著者のSchrittwieserのブログで名前の由来が明か
される
→「夢（む，Mu）」，「無（む，Mu）」などの⽇本語由来だった！
4

論⽂概要
n⼈間は，実世界に対して，頭の中でシミュレーションのようなものを実⾏
し，未来の出来事を先読みして計画を⽴てながら⾏動している
nAlphaGo〜AlphaZeroでは，上記のようなシミュレーションベースの先読
みプランニングアルゴリズム（MCTS）と深層学習を組み合わせ，囲碁の
世界チャンピオンに勝利、囲碁，将棋，チェスの全てで圧倒的な性能
nしかし，このようなやり⽅は，環境に対する知識（モデルベース強化学習
のモデル）が既知でないと実⾏できず，視覚的に複雑な環境に対してこの
モデルを獲得するのは容易でない（実際，Atariのようなゲームでは，モ
デルフリーの⽅が強い）
nMuZeroでは，環境の中の重要な知識のみをモデル化し，MCTSと強化学
習を⾏うことで，ボードゲームやAtariに対するモデルが未知の状態から
AlphaZeroや既存のモデルフリーRL以上の性能に到達
5

⽬次
n基礎知識
- ボードゲームAIの基礎知識
- モデルベース強化学習
- AlphaZero，既存のボードゲームAI
n論⽂の内容
- アルゴリズム詳細
- 性能
n参考資料
6

基礎知識
Shota Imai | The University of Tokyo 7

MuZero解説の前に
MuZeroのベースとなっているゲーム⽊の概念，モデルベース強化学習，
Alphaシリーズのアルゴリズムについて簡単に解説
8

ボードゲームAIの基礎知識 / ゲーム⽊
n⼆⼈完全情報確定ゼロ和について，状態
（局⾯）をノード（節点），状態の遷移
をエッジ（枝）で繋いで展開して表現
n初期状態は根節点（root node），ゲーム
の終了する終端は葉(leaf)とよぶ
nゲーム⽊の葉では，先⼿プレイヤーの勝
利，敗北，引き分けに対してそれぞれ1, -
1, 0などとゲーム値（利得，強化学習では
報酬）を与える
- 先⼿プレイヤーはこれを最⼤化
→マックスプレイヤー
- 後⼿プレイヤーはこれを最⼩化
→ミニプレイヤー
nこのような先⼿後⼿プレイヤーからなる
展開型ゲームの⽊はミニマックスゲーム
⽊と呼ぶ
9

ボードゲームAIの基礎知識 / ゲーム⽊の探索
nミニマックスゲーム⽊でノードを全て展開すると，以下のような⼿順で葉
ノードから遡ることで互いに最善⾏動を取り続ける場合の展開を決定可能
- マックスプレイヤーの⼿番では⼦節点でスコアが最⼤のものを選択
- ミニプレイヤーの⼿番では⼦接点でスコアが最⼩のものを選択
- これを繰り返してroot nodeまで繋がっている遷移がゲームの解
→ミニマックス探索
n三⽬並べはノード数が1000程度なので，全展開して計算機パワーでミニ
マックス探索可
nしかし，囲碁，将棋等は理論上可能な状態数が桁違いすぎるため，現代の
計算機パワーでは不可能
10

ボードゲームAIの基礎知識 / 評価関数
n状態数が⼤きいゲームでは，ゲーム⽊を全展開して探索するのは不可能な
ため，ある程度の深さの展開で妥協する必要（加えて，現実のゲームでは
⼿番の計算の時間制限も）
n途中までの展開では，勝敗が確定しないため，何らかの⼿段で局⾯が勝ち
に近いかどうかを数値化して，勝利によるゲーム値の代わりとする
→評価関数を使い，局⾯のゲーム値を推定する
n基本的には評価関数によりゲームの状態がマックスプレイヤーにとってど
れだけ良さそうかを数値化
（例）マックスプレイヤーが⾶⾞を⼆つ保持している状態は評価値が⾼い
n歴史的には，この評価関数は⼈⼒で作成され，駒の配置や持っている駒の
強さを基準に数値を割り振っていた（後に機械学習でパラメータを⾃動決
定するように）
11

モンテカルロ法
n囲碁など，評価関数を作るのが難しい（ある局⾯から有利不利を判定する
のが極端に困難）なゲームでは，ミニマックス探索ベースで⾏動を求める
のは困難
→複数ある候補⼿のうち，具体的に良い打ち⼿の基準がなくともいい⼿を
⾒つけたい
nコンピュータの計算⼒に任せ，候補⼿を選択して終局まで適当に打つシ
ミュレーション（プレイアウト）を複数回繰り返せばどうか？
- ある⼿は勝率が低い（100回適当にシミュレーションしてみて20回しか勝てなかっ
た）
→その打ち⼿による遷移先があまりよくない
- 別の⼿は勝率が⾼い（100回適当にシミュレーションしてみて90回勝った）
→その打ち⼿による遷移先がよい
nつまり，なんとなくいろんな⼿を複数回シミュレーションしてみて，勝率
が⾼い⼿が⼀番良い打ち⼿として採⽤する⼿法
→モンテカルロ法，原始モンテカルロ⽊探索
12

モンテカルロ⽊探索
（Monte Carlo Tree Search; MCTS）
n原始モンテカルロ⽊探索では，乱数シミュレーションを⾏うため，現実的
には相⼿がミスをしなければ勝ちに繋がらないような⼿も選択してしまう
可能性
nそこで，有⼒な⼿に探索を集中させ，良さそうな⼿についてはゲーム⽊を
展開して何⼿も先読みするという⼿を使うことが考えられる
→モンテカルロ⽊探索の成⽴
n⼀般的には2006年にレミ・クーロンが開発した囲碁AI「Crazy Stone」が
起源とされる
13
AlphaGoなどは，評価関数として強化
学習した深層ニューラルネットを使い，
MCTSによる探索を⾏なっている

モデルフリー強化学習とモデルベース強化学習
環境モデルの有無で，強化学習⼿法は以下の⼆つに分類可能
n モデルフリー強化学習：環境モデルを持たず，環境から得たサンプルを使って⽅策学習
n モデルベース強化学習：環境から得た経験で環境モデル⾃体を学習，または最初から環
境に対するモデルを持ち，⽅策改善に利⽤
14
モデルフリー強化学習モデルベース強化学習
有名なアルゴリズム
Q学習，SARSA,
DQN，DDPG，R2D2等
有名なアルゴリズム
AlphaGo, AlphaZero,
Dyna,PILCO,MPC,R-max等
AlphaGoなど，⽊探索を⾏うボードゲームAiのアルゴリズムは，⼈間が
プログラムしたゲームの知識を使うため，モデルベース強化学習！

モデルベース強化学習の⼿法分類
nモデルベース強化学習の⼿法は，環境のモデルが既知かどうか，与えられ
たモデルをどのように使うかで⼿法が分類される
nモデルが事前に与えられているかどうか
- 与えられている：AlphaGo〜AlphaZeroなど
- 与えられていない：MBPO，SimPLe，MuZero, Dreamerなど多くの⼿法
nモデルをどう使うか
- 推論・対局時のプランニングに使⽤：AlphaGo〜AlphaZero, MuZero, MPCなど
- 学習時のシミュレータとして使⽤：Dyna, MBPO, SimPLeなど
- 最近は環境の状態をそのまま使⽤せず，有⽤な情報のみを圧縮した状態表現から学
習．推論を⾏う⼿法が主流（いわゆる世界モデル系の研究．MuZeroも近い）
nMuZeroは、モデルが事前に与えられず、学習によって獲得したモデルに
よって対局時にプランニングを⾏う⼿法
→最近のモデルベース強化学習の研究は環境モデルを学習する⼿法が主流
15

モデルベース強化学習の流れ
環境から経験を集める
n現在の状態𝑠!（または観測𝑜!）でエージェントが環境に対して実⾏した⾏
動𝑎!によって受け取る報酬𝑟!，次の状態𝑠!"#（𝑜!"#）などの経験を保存
(経験再⽣を想像するとわかりやすいが，集める経験の種類は場合による)
n最初に経験を集める段階では，ランダム⽅策でによって複数ステップの環
境探索を⾏うが，集めた経験を⽅策学習に使うことも
16

集めた経験から環境モデルを学習
n環境から集めた経験を使って，環境モデルを学習する
nどのような環境モデルが欲しいかによって学習の仕⽅は様々（1ステップ
の状態遷移モデル，複数ステップの系列⽣成，潜在表現の獲得など）
n最近の研究では，環境モデルはニューラルネットを使う場合がほとんど
17
環境モデル

モデルの利⽤ / モデルを使った⽅策学習
n 環境モデルに対する状態⾏動の⼊⼒，環境モデルからの出⼒を経験データとして集めて
⽅策を学習
n 環境モデルが⼗分に正確であれば，実環境でも機能する⽅策が学習可能
→⼀度，正確な環境モデルを獲得できれば，実環境と作⽤せずに⽅策学習が可能
n 最初に実環境から環境モデル学習⽤の経験は集める必要はあるが，こちらの⽅が実環境
とあまり作⽤せずに良い⽅策を学習可能（サンプル効率が良い）
18
実環境に対して学習した⽅策を実⾏
→環境モデルは学習に使うだけで，テスト時の環境での⾏動時には使わない

モデルの利⽤ / モデルを使ったプランニング
n実環境において⾏動・対局をしている場合に，現在の状態𝑠!においてどの
ような⾏動を実⾏すればよいか，環境モデルを使ってシミュレーションす
るなどしてプランニングを⾏う（いわゆる先読み）
nランダムに⽣成した⾏動の系列に報酬関数を適⽤して，最も累積報酬が⾼
い⾏動系列を選択，またはゲームの⽊を展開するシミュレーションの勝敗
結果から⾏動を選択するなど
19
• AlphaGo〜AlphaZeroは，環境モデルを⼈間が明⽰的
にプログラミングして，モンテカルロ⽊探索による
プランニングで⾏動を決定しているので，このやり
⽅に相当（モデル学習をスキップ）
• MuZeroは，モンテカルロ⽊探索によるプランニング
に使⽤する環境モデルの学習も含めて⾏う

最近のモデルベース強化学習の研究例
最近は，⾼次元の観測，POMDPを前提とした複雑な環境のモデル化，強化
学習のための良い状態表現を獲得する研究として世界モデルともよばれる
⼿法が出ている
代表的な⼿法
n MPC
n PILCO
n MBMF
n ME-TRPO
n World Models
n SLAC
n Dreamer
n SOLAR
20

DeepMindの「Alpha」シリーズの歴史とMuZero
nAlphaGo
- 初代Alpha
- 元祖MCTS+深層学種+⾃⼰対戦によるRL
のゲームAI
- 囲碁の世界チャンピオンに勝利
nAlphaGo Zero
- AlphaGoを改良
- ⼈間の棋譜なしでAlphaGo超え
nAlphaZero
- AlphaGo Zeroを改良
- 囲碁に加えて将棋チェスも可能
nMuZero
- Alphaではなくなったが，AlphaZero
の正当継承者
- ゲームルールの事前知識なしでAlphaZero超え+他ゲームに適⽤
21

AlphaZeroのアルゴリズム
nAlphaGoではモンテカルロ⽊探索をそのまま実⾏していたが，AlphaGo
Zero以降では，プレイアウトによる終局を⾏わない（なので厳密には本来
の意味のMCTSではない）
nつまり，強化学習によって得た深層ニューラルネットワークを使った盤⾯
の評価値+⽅策出⼒を使い，
①ゲーム⽊を選択してリーフノードまで降りる
②新たにノードを展開してリーフノードとする
③リーフノードにおける評価値を記録して，ルートノードまで結果を反映
以下繰り返し，最終的にルートノードで最も選択回数が多い⼿を実⾏
22
U(s, a) ∝P(s, a) /
(1 + N(s, a))
この部分のNN（CNN，
ResNet等）は，⾃⼰対戦で
得た棋譜から強化学習を⾏
なって得る

AlphaZeroの性能
nEloレーティングによる⽐較で，2017年当時最強だったチェス，将棋，囲
碁AI全てを上回る強さに
23

AlphaZeroは今でも最強なのか？
nAlphaZeroそのものはAIの⼤会などに出場することがなく，DeepMindの
オリジナル実装も公開されていないため，正確な⽐較は不可能
nAlphaGo〜AlphaZeroで確⽴された，MCTS+深層強化学習のやり⽅は，
特に評価関数の設計が困難な囲碁AIでは現在も最前線
nチェスでも，AlphaZeroのやり⽅はメジャー．将棋に関しては，MCTSを
使わない探索部や，評価関数の⼯夫等が異なるAIが⼤会（WCSC）で上位
（最近は深層学習ベース復興の流れもある）
n加えて，ボードゲームAIは単なるアルゴリズムの性質よりも，学習時，推
論時に使える計算資源の⼤きさが⾮常に重要（仮に無限の計算資源を使え
るなら単純なミニマックス法が最強）
n従って，AlphaZeroを無条件で最強とみなすのは妥当ではなく，それに
匹敵，あるいは超えているMuZeroについても同様
24

参考
主要なチェスAI
nStockfish
- 2013年以降，⼀貫して最上位のチェスAI
- 探索部は将棋AIの参考にもされる
nLeelaChessZero
- AlphaZeroを参考にして，MCTS，深層強化学習がベース
- Stockfishと並んで最強クラス
25

参考
主要な囲碁AI
n絶芸
- テンセントが開発した囲碁AI
- 現時点ではおそらく世界最強
nGolaxy
- 清華⼤学，中科院計算技術研究所が開発
- 絶芸に次いで⼤会等の実績がある
nDeepZenGo
- 加藤英樹⽒，ドワンゴ，⽇本棋院，松尾研究室によるプロジェクトで開発
- 井⼭裕太六冠に勝った他，絶芸にも⼀度勝っている
nELF OpenGo
- Facebookによる，AlphaZeroの再現実装
- Facebookの持つ計算資源が背景にある
nGLOBIS-AQZ
- ⼭⼝裕⽒，グロービス，トリプルアイズ，⼤橋拓⽂六段らが中⼼となって開発
- コードはオープンソース（https://github.com/ymgaq/AQ）
26

参考
主要な将棋AI
nPonanza
- ⼭本⼀成⽒によって開発された，初めて平⼿でプロ棋⼠，タイトル保持者（名⼈）に
勝った将棋AI
- 名⼈に勝った時点では深層学習は使⽤していない
nelmo
- 瀧澤誠⽒によって開発．第27回世界コンピュータ将棋選⼿権で優勝
- 評価関数等が公開されており広く利⽤&対振り⾶⾞のelmo囲いが有名
nやねうら王
- やねうらお（磯崎元洋）⽒によって開発．第２９回コンピュータ将棋選⼿権優勝
- 総合的に，国内では⼀番有名で強く，思考エンジンなど他の多くの将棋AIに影響
nGCT
- ⼭岡忠夫⽒&加納邦彦⽒によって開発．第⼀回電⻯戦優勝
- 深層学習を使うdlshogiがベース
n⽔匠
- 杉村達也⽒によって開発．世界コンピュータ将棋オンライン⼤会2020で優勝
- 最近は，藤井聡太2冠の打ち⼿の分析でも有名
27

MuZero
Shota Imai | The University of Tokyo 28

29
AlphaZeroとMuZeroの⽐較
n AlphaZero
- 使うネットワークは⼀つ
- ⽊探索に使うモデルはゲームの状態
を完全に再現しており，既知（ゲー
ムルールは⼈間がプログラム）
- Atariなどのゲームには適⽤不可
n MuZero
- 使うネットワークは3つ
- ⽊探索に使うモデルは学習によって
獲得され，ゲームの重要な部分のみ
をモデル化
- Atariなどにも適⽤可能

MuZeroの環境モデルに関するお気持ち
nシミュレーションによる計画（モンテカルロ⽊探索）に使うモデルは，必
要な情報さえ出⼒されるなら，実世界の正確な状態を反映する必要はない
nつまり，正確な囲碁や将棋などの正確盤⾯ではなく，抽象化された状態表
現を使ってシミュレーションをしても構わない
nシミュレーションに求められるモデルの条件は
- モデルに対して⾏動を複数回実⾏（シミュレーション）して環境から得る⾏動指標
となる何らかの値が，実世界において同じく複数回実⾏した⾏動の結果得る量と
（⼤体）⼀致すること
- つまり，抽象化された状態表現に対する各時間ステップの⾏動の結果や予測値が，
実世界の同じ時間ステップにおける報酬，⽅策，価値と⼀致していること
n（例）
曇っている時に傘をさすという計画を⽴てる場合，降るであろう⾬の⼀粒
⼀粒も含めた環境の様⼦を全て想像する必要はなく，傘をさせば濡れない
という結果を知っていればよい（by DeepMindのブログ）
30

MuZeroで使⽤するネットワーク
MuZeroは以下の3つのネットワーク（関数）から構成され，これらをまと
めてモデルとよんでいる
nRepresentationネットワーク
- 現在の実環境の観測（履歴）を，MCTS実⾏時のルートノードとなる隠れ状態に変換
するネットワーク
nDynamicsネットワーク
- 状態と⾏動を⼊⼒として，次の状態と報酬を返すネットワーク
- ⼀般的なモデルベース強化学習のダイナミクスモデル
nPredictionネットワーク
- 状態を⼊⼒として，⽅策pと価値（勝率）vを返すネットワーク
- AlphaZeroのMCTSで使っていたネットワークと同じ役割
31

MuZeroのアルゴリズム全体
1. 現時刻tで，実環境の過去の観測履歴を，Representationネットを使い，
ルートノードの状態𝑠$に変換して，MCTSによるシミュレーション開始
2. Kステップ分の深さまで，PredictionネットとDynamicsネットの出⼒か
ら得たスコアを使って，シミュレーションを繰り返す
3. シミュレーション終了後，ルートノードにおける候補⾏動の選択回数を
ベースに，実環境における⽅策𝜋!を計算，⾏動を実⾏
32

MuZeroにおける⽊探索
n ルートノードが，representationネットワークによって実環境の状態から変換された隠れ
状態であり，途中で報酬予測も⾏なっている（Atariのみ）を除けば，AlphaZeroと同じ
n つまり，各時間ステップのノードにおける⾏動𝑎!は以下のように，Predictionネットの出
⼒と中間予測報酬をベースに，スコアを最⼤化するものを選ぶ
33

MuZeroの実環境の⾏動
nこれも，AlphaZeroなどと同じく，MCTSのシミュレーション実⾏後，
ルートノード𝑠$で選択した⼿の回数を元に⽅策π!を計算し，⾏動を選択
34

MuZeroの学習
nMuZeroで学習するネットワークは，全部まとめたパラメータとして以下
のように表現される
n損失は，実環境と⽊探索するシミュレーション環境K時間ステップ分の報
酬，状態価値，⽅策に対して以下のように定義する
35
なお，学習に使うデータは，ボードゲームの場合はMuZeroモデル同⼠の⾃⼰対戦で得る

学習に使⽤する計算資源
nボードゲーム：16個のTPUv3を学習に，1000個のTPUv3をデータ⽣成の
⾃⼰対戦に使⽤
nAtariゲーム：8個のTPUv3を学習に，32個のTPUv3を⾃⼰対戦に使⽤
36

MuZeroの性能（全体）
nボードゲーム：EloレーティングでAlphaZero（オレンジ線）と対局した
場合のMuZeroの学習による強さの推移（⻘線）をプロット
nAtari：獲得報酬で，R2D2（オレンジ）を基準に，平均スコア（⻘の実
線）と中央値（破線）でMuZeroの学習による性能の推移をプロット
37
• ボードゲームでは，囲碁，将
棋ではAlphaZeroレベル（学
習時間を伸ばせば超えそう）
• Atariではほとんど最⾼性能

Atariにおける既存アルゴリズムとの⽐較
n中央値，平均値ともに，現存のAtariをベンチマークにした⼿法の中でも
最強
n全57ゲームで⼈間超えをできてないという点で後発のAgent57（ここには
載ってない）には劣るが，中央値，平均値の⽐較ならMuZeroの⽅が上
38

MuZeroの性能 / Atari全体
nほとんどのゲームでMuZeroが既存⼿法超え
nしかし，既存アルゴリズムが解けなかった
Montezumaʼs RevengeやPitfallは無理
39

将棋棋⼠の思考と関連して（ほぼ個⼈の感想）
n⼀般的な将棋棋⼠は頭の中に「脳内将棋盤」があり，その盤⾯で駒を動かしてみ
ることで戦略を組み⽴てるらしい
→AlphaGoなどのように，正確な将棋の盤⾯のモデルを使ってプランニングをして
いる
n藤井聡太2冠はこのような将棋の脳内盤⾯を持たず，将棋を別の脳内表現に置き
換えて打ち⼿を考えているとのこと
→MuZeroがやっているように，盤⾯を別の表現に変換してプランニングを⾏って
いるのに近そう（？）
n将棋の盤⾯（画像）をそのまま思い浮かべるよりは，記号やなんらかの潜在表現
に置き換えた⽅が⾼速に推論できる可能性は⾼そう
n現在のAI・深層学習の研究でも，状態表現の扱いが重要なので，なんとなくリン
クしている
【参考記事】
n なぜ藤井聡太はフィクションを超えたのか？【叡王戦24棋⼠⽩⿃⼠郎特別インタビュー vol.01】
n 藤井聡太史上最年少プロ棋⼠の覚悟
40

理解の役に⽴つ資料等 1/2
n強化学習全般
- 強化学習の基礎と深層強化学習（RLの講義で使った資料）
• https://www.slideshare.net/ShotaImai3/rlssdeepreinforcementlearning）
nモデルベース強化学習
- ICMLのチュートリアル資料：（https://docs.google.com/presentation/d/1f-
DIrIvh44-jmTIKdKcue0Hx2RqQSw52t4k8HEdn5-
c/edit#slide=id.g8962d2d86c_0_0）
nAlphaZero以降の，DeepMindが開発した「Alpha」系のAIについて
（ボードゲームとは話題がずれるので，興味がある⼈は）
- AlphaStar：輪読会の資料（https://www.slideshare.net/DeepLearningJP2016/dlgrandmaster-level-
in-starcraft-ii-using-multiagent-reinforcement-learning）
- AlphaFold：⽇経クロストレンドで書いた記事
• その1：https://xtrend.nikkei.com/atcl/contents/technology/00007/00024/
• その2：https://xtrend.nikkei.com/atcl/contents/technology/00007/00025/
41

理解の役に⽴つ資料等 2/2
n最近のボードゲームAIに関して
- やねうら王のサイト：https://yaneuraou.yaneu.com/
- ⼭岡忠夫⽒のブログ：https://tadaoyamaoka.hatenablog.com/
- コンピュータ将棋まとめサイト：https://www.qhapaq.org/shogi/
nその他（ほぼ宣伝）
- G検定公式テキスト（第2版 4⽉27⽇発売）
• 6章「深層強化学習」のゲームAIを執筆したので，この辺を広く学びたい⼈はぜひ
- 強化学習（原著『Reinforcement Learning, second edition』，R・Sutton著）
• 我々が翻訳中（たぶん今年発売？）の強化学習の聖典の第２版．強化学習の理論含め
て詳しく学びたい⼈向け
42

[DL輪読会]MuZero：Mastering Atari, Go, chess and shogi by planning with a learned model

Recommended

Recommended

More Related Content

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (20)

[DL輪読会]MuZero：Mastering Atari, Go, chess and shogi by planning with a learned model