SlideShare ist ein Scribd-Unternehmen logo
1 von 46
Downloaden Sie, um offline zu lesen
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
DeNA	Co.,	Ltd.	
システム	&	デザイン本部	
AI	システム部	AI	研究開発グループ	
甲野	佑
強化学習技術とゲーム	AI		
〜	今できる事と今後できて欲しい事	〜
甲野	佑	
所属	:	株式会社ディー・エヌ・エー	AI	システム部	AI	研究開発グループ	
出⾝	:	東京電機⼤学	(学部〜博⼠)	
研究	:	強化学習	+	神経⽣理・認知モデル	
〜2017年3⽉:	⼤学で強化学習の研究してきました	
2017年4⽉〜:	強化学習を応⽤したゲーム	AI	の研究開発をしています	
⾃⼰紹介
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
2
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
3
ゲーム	AI	の進化と強化学習の貢献の話	
あるいは	
強化学習の進化におけるゲーム	AI	の貢献の話
本⽇のテーマ
はじめに
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
4
2010	年代前半「囲碁で⼈間に	”機械”	が勝つのは10年先の話」	
2016	年	3	⽉	9	⽇	AlphaGo	(DeepMind)	がイ・セドル九段に勝利	
DeepMind	は「10	年」を早送りした	
ゲーム	AI	に「何が」起こったのか?	
本当に知的な「強いゲーム	AI」に近づいたのか?
⽬次
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
5
1.	はじめに	
2.	ゲームのプレイヤー	AI	の歴史	
3.	強化学習とは	
4.	強化学習	×	ゲーム	AI	のこれまでの進化	
5.	強化学習	×	ゲーム	AI	のこれからの挑戦	
6.	おわりに
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
6
2014年に何かが起きている
年 備考
バッグギャモン 1990
リバーシ 1997 6	番勝負で世界王者村上健⽒が敗れる
チェス	 1998 世界王者ガルリ・カスパロフ⽒が敗れる	
※	ほぼ完勝できるようになったのは	2006	
ATARI	(レトロビデオゲーム) 2014 ⼀部のゲームでプロプレーヤーを上回る
囲碁 2016 イ・セドル九段が破れる	
将棋 2017 佐藤天彦名⼈が敗れる
ポーカー 2017 数⼈のプロ相⼿に勝利
DotaⅡ	 2017 Open	AI	製	AI	がプロプレーヤーに勝利
StarCraftⅡ 継続中 DeepMind	が研究開発中
ゲームのプレイヤー	AI	の歴史
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
7
ゲームのプレイヤー	AI	における技術進化
評価関数ありゲーム⽊探索		
(e.g.	MinMax)
評価関数なしゲーム⽊探索	
	(e.g.	MCTS)
動物の学習理論	
+	
MDP	最適制御
⼈⼯	NN	
(パーセプトロン)
強化学習	
(e.g.	Q	学習)
深層学習	
(特に	CNN)
深層強化学習	
(e.g.	DQN,	A3C)
AlphaGo Dota	Ⅱ	AI
発展中 発展中
【ゲーム⽊探索】 【ニューラルネット】 【強化学習】
〜	2010年代	前半	ゲーム⽊=ゲーム展開の有向グラフの探索が主流
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
8
ゲームのプレイヤー	AI	における技術進化
評価関数ありゲーム⽊探索		
(e.g.	MinMax)
評価関数なしゲーム⽊探索	
	(e.g.	MCTS)
動物の学習理論	
+	
MDP	最適制御
⼈⼯	NN	
(パーセプトロン)
強化学習	
(e.g.	Q	学習)
深層学習	
(特に	CNN)
深層強化学習	
(e.g.	DQN,	A3C)
AlphaGo Dota	Ⅱ	AI
発展中 発展中
【ゲーム⽊探索】 【ニューラルネット】 【強化学習】
2010年代	後半	⾼度な強化学習技術の出現
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
9
ゲーム	AI	に進化をもたらした強化学習とは?
【疑問】
環境
観測	=	環境の変化・報酬
⾏動	=	報酬	兼	情報の収集
エージェント
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
10
を最⼤化させる
を獲得するのが⽬的
主体的に環境に働きかけ,獲得報酬を最大化する行動を学習
強化学習とは	-	教師あり学習との違い	-
環境
観測	=	環境の変化・報酬
⾏動	=	報酬	兼	情報の収集
エージェント
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
11
が⼤きく変わるのが厄介
を更新・変化すると
主体的に環境に働きかけ,獲得報酬を最大化する行動を学習
強化学習とは	-	教師あり学習との違い	-
強化学習とは	-	教師あり学習との違い	-
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
12
環境
観測	=	環境の変化・報酬
⾏動	=	報酬	兼	情報の収集
エージェント
未知関数
学習データ
⼊⼒ 出⼒
⼊⼒ 予測
ある現象・法則(環境)
教師あり学習器
【教師あり学習】 【強化学習】
モデル
教師あり学習の領分
観測
収集
誤差
模倣
-	学習データから未知関数を学習モデルに模倣させるのが教師あり学習	
-	環境 (⺟集団) から学習データの収集は教師あり学習の範疇外
強化学習とは	-	教師あり学習との違い	-
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
13
環境
観測	=	環境の変化・報酬
⾏動	=	報酬	兼	情報の収集
エージェント
未知関数⼊⼒ 出⼒
⼊⼒
ある現象・法則(環境)
教師あり学習器
-	環境の遷移	(=どんなデータが⼿に⼊るか)	はエージェント⾃⾝の選択次第	
-	エージェント⾃⾝によって収集される環境情報が偏る・急激に変わる
【教師あり学習】 【強化学習】
モデル
教師あり学習の領分
予測
学習データ
観測
収集
誤差
模倣
強化学習とは	-	スキナー箱	-
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
14
理屈は⽝に芸を覚えさせるのとほぼ同じ	(繰り返し)	
→	基本の理屈は単純
状態:ランプ点灯 行動:ボタン押下 報酬:エサ獲得
強化
基本的には鳩の条件付け実験	”スキナー箱”	そのもの
強化学習のゲーム	AI	の何に貢献した?	
+	
近年,強化学習の何が変わった?
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
15
【疑問】
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
16
ゲームプレイ	AI	における技術進化【再掲】
評価関数ありゲーム⽊探索		
(e.g.	MinMax)
評価関数なしゲーム⽊探索	
	(e.g.	MCTS)
動物の学習理論	
+	
MDP	最適制御
⼈⼯	NN	
(パーセプトロン)
強化学習	
(e.g.	Q	学習)
深層学習	
(特に	CNN)
深層強化学習	
(e.g.	DQN,	A3C)
AlphaGo Dota	Ⅱ	AI
発展中 発展中
【ゲーム⽊探索】 【ニューラルネット】 【強化学習】
〜	2010年代	前半の主流	→	ゲーム⽊	(ゲーム展開知識)	に依存
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
17
【問題】
従来⼿法はゲーム⽊	(=	完全なゲーム展開の知識)	が既知	
ゲーム⽊が未知でもゲーム画⾯から学習したい
レトロビデオゲーム	̶	ATARI	̶
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
18
視覚	(CNN)		+	(Experience	Replay	+)	強化学習	=	DQN	
ゲーム⽊	(全ゲーム展開)	が既知	→	未知でも画⾯から学習可能に
Mnih,	V.,et	al.:	Human-level	control	through	deep	reinforcement	learning.	Nature,	518:529–533,	2015.	
(h:ps://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf)
DQN	-	要素技術の集合体	-
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
19
-	CNN	との結合によりゲーム画⾯から学習可能に	
 →	強化学習は	”視覚”	を獲得
画⾯認識	
(CNN)
⾏動価値評価	
(強化学習)
ゲーム画⾯	
(環境)
⾏動
-	勝敗	(報酬)	から学習する強化学習はゲーム	AI	と相性良
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
20
蓄積
ゲーム画⾯	
(環境)
⾏動 経験の記憶
夢

(経験再⽣)
-	ランダムに	“記憶	(夢)”	を再⽣して学習	
 →	ニューラルネットと強化学習の相性の悪さを緩和	
  -	相性の悪さ	=	i.i.d	の制約,可塑性と安定性のジレンマ	
DQN	-	要素技術の集合体	-
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
21
【問題】
“視覚”	=	画⾯外のことを扱えない	
(画⾯の切り替わりに弱い)	
≒	画⾯や⾏動の時系列・履歴を扱えない	
     →	ブロック崩し等	=	俯瞰課題は得意	
     →	3D迷路等	=	⼀⼈称視点課題は不可
⼀⼈称視点ゲーム	̶	3D迷路・FPS	̶
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
22
基底核	(Actor-Critic)	+	系列記憶	+	並列処理	=	A3C	+	LSTM	
→	ゲーム画⾯の切り替わり・⼀⼈称視点に強く
DeepMind.	Asynchronous	Methods	for	Deep	Reinforcement	Learning:	Labyrinth.	(2015,	June	14)	[Video	file]		
Retrieved	from	h:ps://www.youtube.com/watch?v=nMR5mjCFZCw	(screenshot)
→	Asynchronous	Advantage	Actor-Critic	(A3C)	とは	(中略)	
 -	並列化で	LSTM	=	短〜中期的な	”記憶	(系列)”	が使⽤可能
深層強化学習の進化	-	時系列	-
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
23
×	並列数分
↓	系列的な記憶
→【問題】記憶を含めても⾒えていない事は学習できない
画⾯の切り替わりを吸収LSTM
ゲーム画⾯	
(環境)
⾏動
経験の記憶
蓄積しない
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
24
環境エージェント
⾒えないものは学習できない
【問題】
制限された観測
誰が環境を変える?	
・エージェント⾃⾝	
・環境そのもの	
 -	法則	
 -	⾃分以外の何か	
 			-	何かは⼀種類?
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
25
環境エージェント
誰が環境を変える?	
・エージェント⾃⾝	
・環境そのもの	
 -	法則	
 -	⾃分以外の何か	
 			-	何かは⼀種類?
⾒えないものは学習できない
【問題】
制限された観測
他の何か種類数	×
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
26
【問題】
強化学習	AI	は対戦ゲームが苦⼿	
→	⾃分以外のエージェントが存在	&	戦略が⼀種ではない
⼆⼈対戦ゲーム	̶	囲碁	̶
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
27
過去の⾃⾝と⾃⼰対戦	(強化学習)	+	先読み	(ゲーム⽊探索)	=	AlphaGo	
→	様々な戦略に対応する	AI
AlphaGo	の⾏動価値
Silver,	D.,	et	al.:	Mastering	the	Game	of	Go	with	Deep	Neural	Networks	and	Tree	Search,	(1),	1–37.	2016.
深層強化学習の進化	-	⾃⼰対戦と仮想敵の構築	-
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
28
環境	=	様々な戦術
平均戦術
学習	
エージェント
対戦・学習
戦術G
戦術A
戦術B
戦術D
戦術C
戦術E
戦術F
なぜできたのか?【その1】	
 →	戦略が⼀種でなくても多様な戦略を平均化	(ゲーム理論)	
  -	膨⼤な『過去の⾃分』とのランダムな『⾃⼰対戦』	
   -	学習段階の違いでバリエーションを担保 
深層強化学習の進化	-	⾃⼰対戦と仮想敵の構築	-
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
29
なぜできたのか?【その1】	
 →	戦略が⼀種でなくても多様な戦略を平均化	(ゲーム理論)	
  -	膨⼤な『過去の⾃分』とのランダムな『⾃⼰対戦』	
過去の⾃⾝の戦術
仮想敵
学習	
エージェント
対戦・学習
過去G
過去A
過去B
過去D
過去C
過去E
過去F
⾃⾝を保存
ランダム	
選択
なぜできたのか?【その2】	
 -	平均化敵戦略に対してどこに打つのが「良い」かを数値化	
 -	教師あり,強化学習で学習した評価関数を先読みに利⽤	
→	発展系	AlphaGo	Zero	(⼈間の知識の除外)	
 -	(AlphaGo	上の)	⼈間の知識は⾼品質なサンプリングデータ	
 -	⾼⽔準な環境探索アルゴリズムの動的形成で代替え	
  -	ゲーム⽊が既知であるからこそできる⼿法	
 -	【疑問】ゲーム⽊の知識を除外した場合は?
深層強化学習の進化	-	⾃⼰対戦と仮想敵の構築	-
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
30
ゲーム⽊探索	(先読み) 深層学習	(評価関数の形成)
AlphaGo
Silver,	D.,	et	al.:	Mastering	the	Game	of	Go	with	Deep	Neural	Networks	and	Tree	Search,	(1),	1–37.	2016.
-	発展系	AlphaGo	Zero	(⼈間の知識の除外)	
 →	⼈間の知識	=	⾼品質な勝敗データ	
 →	⾼品質な環境探索アルゴリズムで置換	
  -	ゲーム⽊が既知であるからこそできる⼿法
深層強化学習の進化	-	⾃⼰対戦と仮想敵の構築	-
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
31
ゲーム⽊探索	(先読み) 深層学習	(評価関数の形成)
AlphaGo
プロの棋譜
⾼品質探索	
アルゴリズム
動的形成
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
32
ゲームプレイ	AI	における技術進化【再掲】
評価関数ありゲーム⽊探索		
(e.g.	MinMax)
評価関数なしゲーム⽊探索	
	(e.g.	MCTS)
動物の学習理論	
+	
MDP	最適制御
⼈⼯	NN	
(パーセプトロン)
強化学習	
(e.g.	Q	学習)
深層学習	
(特に	CNN)
深層強化学習	
(e.g.	DQN,	A3C)
AlphaGo Dota	Ⅱ	AI
発展中 発展中
【ゲーム⽊探索】 【ニューラルネット】 【強化学習】
結局,ゲーム⽊	(全ゲーム展開の知識)	が必要に
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
33
【疑問】
ゲーム⽊	(=	全ゲーム展開構造)	が得られない場合に	
複雑な課題は不可能?
複雑な課題	̶	e.g.	DOTA2	̶
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
34
OpenAI.	Learned	Bot	Behaviors	(2017,	August	11)	[Video	file]		
Retrieved	from	h:ps://www.youtube.com/watch?v=wpa5wyutpGc	(screenshot)
ゲーム⽊なしの	
単純なタスク	→	複雑なタスクへの移⾏
深層強化学習の進化	-	学習過程の再現・汎化	-
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
35
(Dota	Ⅱ	に限らず・・・)	
→	複数のタスクを同時に⾏う	
 -	マルチタスクによって共通する重要な汎化⾏動の発⾒	
Teh,	Y.	W.,	et.al.:	Distral :	Robust	MulAtask	Reinforcement	Learning.	NIPS.	2017.
深層強化学習の進化	-	学習過程の再現・汎化	-
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
36
(Dota	Ⅱ	に限らず・・・)	
→	好奇⼼の付加	
 -	知らない状況を好む事で環境の探索を促進	
Bellemare,	M.	G.,	et	al.:	Unifying	Count-Based	ExploraAon	and	Intrinsic	MoAvaAon,	NIPS.	2016.	
Ostrovski,	G.,	et	al.:	Count-Based	ExploraAon	with	Neural	Density	Models.	NIPS.	2017.
深層強化学習の進化	-	学習過程の再現・汎化	-
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
37
(Dota	Ⅱ	に限らず・・・)	
→	複数モジュールで補助	
→	簡単なタスクから徐々にタスクを複雑化	
 -	イルカに複雑な芸を覚えさせるように	
Jaderberg,	M.,	at	al.:	Reinforcement	learning	with	unsupervised	auxiliary	tasks.		
In	Internagonal	Conference	on	Learning	Representagons.	2017.
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
38
では次の課題は?
【疑問】
今後の挑戦	̶	StarCraft	Ⅱ	̶
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
39
膨⼤な⾏動の組み合わせ・膨⼤な状態パターン	(画⾯内・外)	
→	⻑期戦略・知識の構造化	(強化学習の本質的な課題)
DeepMind.	StarCrah	II	DeepMind	feature	layer	API.	(2016,	November	04)	[Video	file]		
Retrieved	from	h:ps://www.youtube.com/watch?v=5iZlrBqDYPM	(screenshot)
深層強化学習の課題
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
40
【問題】学習に時間がかかる	
【問題】理論上未解決課題が多い	
  不完全知覚,	マルチエージェント,	⾮定常環境への適応	...	etc		
 -	新しい成果に『理論』は昔から存在していた	
 -	多くは莫⼤な計算リソースでクリアしている	
  →	理論的にクリアできない課題はできない	
→	他の技術との融合	or	理論の発展
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
41
-	推論,脳内シミュレート	
 →	エージェント内部に外部環境のシミュレータを構築	
  -	“熟慮”	の獲得
これからの強化学習ゲーム	AI	に必要なもの
Weber,	T.,		et.al.:	ImaginaAon-Augmented	Agents	for	Deep	Reinforcement	Learning.	NIPS.	2017.
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
42
-	⽬的意識,⾏動の抽象化		
 →	プランニング,サブゴール形成	(内部構造の階層化)	
  -	“熟慮”	の低コスト化	=	探索効率化・学習時間削減
これからの強化学習ゲーム	AI	に必要なもの
Vezhnevets,	A.	S.,	et.	al.:	FeUdal	Networks	for	Hierarchical	Reinforcement	Learning.	2017.	arXiv.	h:p://arxiv.org/abs/1703.01161		
	Vezhnevets,	A.,	et	al.:	Strategic	aNenAve	writer	for	learning	macro-acAons.	In	Advances	in	Neural	Informagon	Processing	Systems,	pp.	3486–3494	2016.
おわりに
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
43
  古典	
   ゲーム構造	(ゲーム⽊)	が既知なら探索可能	
  これまで	
   強化学習が	”視覚”	と	“記憶”	を獲得しゲーム	AI	へ応⽤	
                    +	莫⼤な計算リソース	
  これから	
   より⻑期戦略を⾃⾝でシミュレートする賢さ	(“熟慮”)	
   ⽬的意識を持った課題の分解・構造化による汎化	
                  or	更に莫⼤な計算リソース
おわりに
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
44
【冒頭の問い】	
本当に知的な「強いゲーム	AI」に近づいたのか?	
→	もちろんまだまだ
おわりに
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
45
	次世代のAI	の⾃律的な成⻑技術	(≒	強化学習)	の	
理論的拡張はまだ始まったばかり	
AI	が安全に失敗できるゲーム	AI	での探求が	
汎⽤的な	AI	技術を⽣む	”ゆりかご”	になるかも
引⽤⽂献	
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
46
[Reinforcement Learning: Sutton, 1998] Sutton, R. S. and Barto, A. G. Reinforcement Learning: An Introduction. MIT Press, Cambridge, 1998.
[MCTS (UCT): Kocsis, 2006] Kocsis, L., and C. Szepesvari, C., Bandit based Monte-Carlo Planning, in Euro. Conf. Mach. Learn. Berlin,
Germany: Springer, 282–293. 2006.
[DQN: Mnih, 2015] V. Mnih, K. Kavukcuoglu, D. Silver, A. Rusu, J. Veness, M. Bellemare, A. Graves, M. Riedmiller. A. Fidjeland, G.
Ostrovski, S. Petersen, C. Beattie, A. Sadik, I. Antonoglou, H. King, D. Kumaran, D. Wierstra, S. Legg, and D. Hassabis. Human-level control
through deep reinforcement learning. Nature 518 (7540): 529--533 (2015) http://dx.doi.org/10.1038/nature14236, (https://
storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf).
[A3C: Mnih, 2016] Mnih, V., Mirza, M., Graves, A., Harley, T., Lillicrap, T. P., & Silver, D. Asynchronous Methods for Deep Reinforcement
Learning. ICML, 2016.
[AlphaGo, Silver, 2016] Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., Den, G. Van, Hassabis, D. Mastering the Game of Go with
Deep Neural Networks and Tree Search, (1), 1–37. 2016. (https://storage.googleapis.com/deepmind-media/alphago/AlphaGoNaturePaper.pdf)
[AlphaGo Zero: Silver, 2017] Silver, D., Schrittwieser, J., Simonyan, K., Antonoglou, I., Huang, A., Hubert, T., Hassabis, D., et al.: Mastering
the Game of Go without Human Knowledge. 2017.
[Dota Ⅱ AI] https://blog.openai.com/dota-2/ and, https://blog.openai.com/more-on-dota-2/
[StarCraft Ⅱ Challenge: Vinyals, 2017] Vinyals, O., Vezhnevets, A. S., & Silver, D., et.al.: StarCraft II : A New Challenge for Reinforcement
Learning. 2017. https://arxiv.org/pdf/1708.04782.pdf
[UNREAL: Jaderberg, 2017] Jaderberg, M., Mnih, V., Czarnecki, W.M., Schaul, T., Leibo, J.Z., Silver, D., and Kavukcuoglu, K. Reinforcement
learning with unsupervised auxiliary tasks. In International Conference on Learning Representations. 2017.
[Distral: Teh, 2017] Teh, Y. W., Bapst, V., Czarnecki, W. M., Quan, J., Kirkpatrick, J., Hadsell, R. Pascanu, R., et.al.: Distral : Robust Multitask
Reinforcement Learning. NIPS. 2017.
[Pseudo-Counts: Bellemare, 2016] Bellemare, M. G., Schaul, T., Saxton, D., and Ostrovski, G. Unifying Count-Based Exploration and Intrinsic
Motivation, NIPS. 2016.
[PixelCNN pseudo-counts: Ostrovski, 2017] Ostrovski, G., Bellemare, M. G., Oord, V. D. O., Munon, R. Count-Based Exploration with Neural
Density Models. NIPS. 2017.
[I2A: Weber, 2017] Weber, T., Racanière, S., Reichert, D. P., Buesing, L., et.al.: Imagination-Augmented Agents for Deep Reinforcement
Learning. NIPS. 2017. arXiv. https://arxiv.org/pdf/1707.06203.pdf
[STRAW: Vezhnevets, 2017] Vezhnevets, A., Mnih, V., Osindero, S., Graves, A., Vinyals, O., Agapiou, J., et al.: Strategic attentive writer for
learning macro-actions. In: Advances in Neural Information Processing Systems, pp. 3486–3494 2016.[FuN: Vezhnevets, 2017] Vezhnevets, A.
S., Osindero, S., Schaul, T., Heess, N., Jaderberg, M., Silver, D., and Kavukcuoglu, K. FeUdal Networks for Hierarchical Reinforcement
Learning. 2017. (http://arxiv.org/abs/1703.01161)

Weitere ähnliche Inhalte

Was ist angesagt?

強化学習入門
強化学習入門強化学習入門
強化学習入門
Shunta Saito
 

Was ist angesagt? (20)

Deep Counterfactual Regret Minimization
Deep Counterfactual Regret MinimizationDeep Counterfactual Regret Minimization
Deep Counterfactual Regret Minimization
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
 
TensorFlowで逆強化学習
TensorFlowで逆強化学習TensorFlowで逆強化学習
TensorFlowで逆強化学習
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
 
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
 
強化学習入門
強化学習入門強化学習入門
強化学習入門
 
深層強化学習と実装例
深層強化学習と実装例深層強化学習と実装例
深層強化学習と実装例
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
強化学習その3
強化学習その3強化学習その3
強化学習その3
 
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
 
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series
 
Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018
 
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
 
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
 
ニューラルチューリングマシン入門
ニューラルチューリングマシン入門ニューラルチューリングマシン入門
ニューラルチューリングマシン入門
 

Ähnlich wie 強化学習技術とゲーム AI 〜 今できる事と今後できて欲しい事 〜

DeNA の新しいネイティブ開発(パズル戦隊デナレンジャー)
DeNA の新しいネイティブ開発(パズル戦隊デナレンジャー)DeNA の新しいネイティブ開発(パズル戦隊デナレンジャー)
DeNA の新しいネイティブ開発(パズル戦隊デナレンジャー)
dena_study
 
海外Ta事情から日本のta像について考えてみる
海外Ta事情から日本のta像について考えてみる海外Ta事情から日本のta像について考えてみる
海外Ta事情から日本のta像について考えてみる
fumoto kazuhiro
 

Ähnlich wie 強化学習技術とゲーム AI 〜 今できる事と今後できて欲しい事 〜 (20)

その後のDeNAのネイティブアプリ開発 #denatechcon
その後のDeNAのネイティブアプリ開発 #denatechconその後のDeNAのネイティブアプリ開発 #denatechcon
その後のDeNAのネイティブアプリ開発 #denatechcon
 
DeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechconDeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechcon
 
DeNAtechcon_DeNAのセキュリティの取り組みと、スマートフォンセキュリティ(same-origin policy)
DeNAtechcon_DeNAのセキュリティの取り組みと、スマートフォンセキュリティ(same-origin policy)DeNAtechcon_DeNAのセキュリティの取り組みと、スマートフォンセキュリティ(same-origin policy)
DeNAtechcon_DeNAのセキュリティの取り組みと、スマートフォンセキュリティ(same-origin policy)
 
Braindots-開発秘話- Cocos2d-x3.5 開発事例 -
Braindots-開発秘話- Cocos2d-x3.5 開発事例 -Braindots-開発秘話- Cocos2d-x3.5 開発事例 -
Braindots-開発秘話- Cocos2d-x3.5 開発事例 -
 
Regional Scrum Gathering Tokyo 2023 Keiji Kikuchi Remote Mobbing
Regional Scrum Gathering Tokyo 2023 Keiji Kikuchi Remote MobbingRegional Scrum Gathering Tokyo 2023 Keiji Kikuchi Remote Mobbing
Regional Scrum Gathering Tokyo 2023 Keiji Kikuchi Remote Mobbing
 
FINAL FANTASY
 Record Keeper 演出データについて
FINAL FANTASY
 Record Keeper 演出データについてFINAL FANTASY
 Record Keeper 演出データについて
FINAL FANTASY
 Record Keeper 演出データについて
 
リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介
 
ゲーム体験を支える強化学習の実応用について
ゲーム体験を支える強化学習の実応用についてゲーム体験を支える強化学習の実応用について
ゲーム体験を支える強化学習の実応用について
 
HoloLens参考書読書会 vol9
HoloLens参考書読書会 vol9HoloLens参考書読書会 vol9
HoloLens参考書読書会 vol9
 
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
 
【TECH×GAME COLLEGE#28】形から入ったドメイン駆動設計によるゲーム開発の光と闇
【TECH×GAME COLLEGE#28】形から入ったドメイン駆動設計によるゲーム開発の光と闇【TECH×GAME COLLEGE#28】形から入ったドメイン駆動設計によるゲーム開発の光と闇
【TECH×GAME COLLEGE#28】形から入ったドメイン駆動設計によるゲーム開発の光と闇
 
『逆転オセロニア 』における、機械学習モデルを用いたデッキのアーキタイプ抽出とゲーム運用への活用
『逆転オセロニア 』における、機械学習モデルを用いたデッキのアーキタイプ抽出とゲーム運用への活用『逆転オセロニア 』における、機械学習モデルを用いたデッキのアーキタイプ抽出とゲーム運用への活用
『逆転オセロニア 』における、機械学習モデルを用いたデッキのアーキタイプ抽出とゲーム運用への活用
 
ICLR読み会 奥村純 20170617
ICLR読み会 奥村純 20170617ICLR読み会 奥村純 20170617
ICLR読み会 奥村純 20170617
 
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方
 
DeNA の新しいネイティブ開発(パズル戦隊デナレンジャー)
DeNA の新しいネイティブ開発(パズル戦隊デナレンジャー)DeNA の新しいネイティブ開発(パズル戦隊デナレンジャー)
DeNA の新しいネイティブ開発(パズル戦隊デナレンジャー)
 
改めて注目される2D アニメーションツール SpriteStudio ~国産2Dツールが(舶来ゲームエンジンの力を借りながら)世界へ~
改めて注目される2D アニメーションツール SpriteStudio ~国産2Dツールが(舶来ゲームエンジンの力を借りながら)世界へ~改めて注目される2D アニメーションツール SpriteStudio ~国産2Dツールが(舶来ゲームエンジンの力を借りながら)世界へ~
改めて注目される2D アニメーションツール SpriteStudio ~国産2Dツールが(舶来ゲームエンジンの力を借りながら)世界へ~
 
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
 
20131031 首都大学東京 cloud_computing講演会 講演資料(野上)
20131031 首都大学東京 cloud_computing講演会 講演資料(野上)20131031 首都大学東京 cloud_computing講演会 講演資料(野上)
20131031 首都大学東京 cloud_computing講演会 講演資料(野上)
 
海外Ta事情から日本のta像について考えてみる
海外Ta事情から日本のta像について考えてみる海外Ta事情から日本のta像について考えてみる
海外Ta事情から日本のta像について考えてみる
 
営業現場で困らないためのディープラーニング
営業現場で困らないためのディープラーニング営業現場で困らないためのディープラーニング
営業現場で困らないためのディープラーニング
 

強化学習技術とゲーム AI 〜 今できる事と今後できて欲しい事 〜

  • 1. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. DeNA Co., Ltd. システム & デザイン本部 AI システム部 AI 研究開発グループ 甲野 佑 強化学習技術とゲーム AI 〜 今できる事と今後できて欲しい事 〜
  • 3. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 3 ゲーム AI の進化と強化学習の貢献の話 あるいは 強化学習の進化におけるゲーム AI の貢献の話 本⽇のテーマ
  • 4. はじめに Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 4 2010 年代前半「囲碁で⼈間に ”機械” が勝つのは10年先の話」 2016 年 3 ⽉ 9 ⽇ AlphaGo (DeepMind) がイ・セドル九段に勝利 DeepMind は「10 年」を早送りした ゲーム AI に「何が」起こったのか? 本当に知的な「強いゲーム AI」に近づいたのか?
  • 5. ⽬次 Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 5 1. はじめに 2. ゲームのプレイヤー AI の歴史 3. 強化学習とは 4. 強化学習 × ゲーム AI のこれまでの進化 5. 強化学習 × ゲーム AI のこれからの挑戦 6. おわりに
  • 6. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 6 2014年に何かが起きている 年 備考 バッグギャモン 1990 リバーシ 1997 6 番勝負で世界王者村上健⽒が敗れる チェス 1998 世界王者ガルリ・カスパロフ⽒が敗れる ※ ほぼ完勝できるようになったのは 2006 ATARI (レトロビデオゲーム) 2014 ⼀部のゲームでプロプレーヤーを上回る 囲碁 2016 イ・セドル九段が破れる 将棋 2017 佐藤天彦名⼈が敗れる ポーカー 2017 数⼈のプロ相⼿に勝利 DotaⅡ 2017 Open AI 製 AI がプロプレーヤーに勝利 StarCraftⅡ 継続中 DeepMind が研究開発中 ゲームのプレイヤー AI の歴史
  • 7. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 7 ゲームのプレイヤー AI における技術進化 評価関数ありゲーム⽊探索 (e.g. MinMax) 評価関数なしゲーム⽊探索 (e.g. MCTS) 動物の学習理論 + MDP 最適制御 ⼈⼯ NN (パーセプトロン) 強化学習 (e.g. Q 学習) 深層学習 (特に CNN) 深層強化学習 (e.g. DQN, A3C) AlphaGo Dota Ⅱ AI 発展中 発展中 【ゲーム⽊探索】 【ニューラルネット】 【強化学習】 〜 2010年代 前半 ゲーム⽊=ゲーム展開の有向グラフの探索が主流
  • 8. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 8 ゲームのプレイヤー AI における技術進化 評価関数ありゲーム⽊探索 (e.g. MinMax) 評価関数なしゲーム⽊探索 (e.g. MCTS) 動物の学習理論 + MDP 最適制御 ⼈⼯ NN (パーセプトロン) 強化学習 (e.g. Q 学習) 深層学習 (特に CNN) 深層強化学習 (e.g. DQN, A3C) AlphaGo Dota Ⅱ AI 発展中 発展中 【ゲーム⽊探索】 【ニューラルネット】 【強化学習】 2010年代 後半 ⾼度な強化学習技術の出現
  • 9. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 9 ゲーム AI に進化をもたらした強化学習とは? 【疑問】
  • 10. 環境 観測 = 環境の変化・報酬 ⾏動 = 報酬 兼 情報の収集 エージェント Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 10 を最⼤化させる を獲得するのが⽬的 主体的に環境に働きかけ,獲得報酬を最大化する行動を学習 強化学習とは - 教師あり学習との違い -
  • 11. 環境 観測 = 環境の変化・報酬 ⾏動 = 報酬 兼 情報の収集 エージェント Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 11 が⼤きく変わるのが厄介 を更新・変化すると 主体的に環境に働きかけ,獲得報酬を最大化する行動を学習 強化学習とは - 教師あり学習との違い -
  • 12. 強化学習とは - 教師あり学習との違い - Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 12 環境 観測 = 環境の変化・報酬 ⾏動 = 報酬 兼 情報の収集 エージェント 未知関数 学習データ ⼊⼒ 出⼒ ⼊⼒ 予測 ある現象・法則(環境) 教師あり学習器 【教師あり学習】 【強化学習】 モデル 教師あり学習の領分 観測 収集 誤差 模倣 - 学習データから未知関数を学習モデルに模倣させるのが教師あり学習 - 環境 (⺟集団) から学習データの収集は教師あり学習の範疇外
  • 13. 強化学習とは - 教師あり学習との違い - Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 13 環境 観測 = 環境の変化・報酬 ⾏動 = 報酬 兼 情報の収集 エージェント 未知関数⼊⼒ 出⼒ ⼊⼒ ある現象・法則(環境) 教師あり学習器 - 環境の遷移 (=どんなデータが⼿に⼊るか) はエージェント⾃⾝の選択次第 - エージェント⾃⾝によって収集される環境情報が偏る・急激に変わる 【教師あり学習】 【強化学習】 モデル 教師あり学習の領分 予測 学習データ 観測 収集 誤差 模倣
  • 14. 強化学習とは - スキナー箱 - Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 14 理屈は⽝に芸を覚えさせるのとほぼ同じ (繰り返し) → 基本の理屈は単純 状態:ランプ点灯 行動:ボタン押下 報酬:エサ獲得 強化 基本的には鳩の条件付け実験 ”スキナー箱” そのもの
  • 16. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 16 ゲームプレイ AI における技術進化【再掲】 評価関数ありゲーム⽊探索 (e.g. MinMax) 評価関数なしゲーム⽊探索 (e.g. MCTS) 動物の学習理論 + MDP 最適制御 ⼈⼯ NN (パーセプトロン) 強化学習 (e.g. Q 学習) 深層学習 (特に CNN) 深層強化学習 (e.g. DQN, A3C) AlphaGo Dota Ⅱ AI 発展中 発展中 【ゲーム⽊探索】 【ニューラルネット】 【強化学習】 〜 2010年代 前半の主流 → ゲーム⽊ (ゲーム展開知識) に依存
  • 17. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 17 【問題】 従来⼿法はゲーム⽊ (= 完全なゲーム展開の知識) が既知 ゲーム⽊が未知でもゲーム画⾯から学習したい
  • 18. レトロビデオゲーム ̶ ATARI ̶ Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 18 視覚 (CNN) + (Experience Replay +) 強化学習 = DQN ゲーム⽊ (全ゲーム展開) が既知 → 未知でも画⾯から学習可能に Mnih, V.,et al.: Human-level control through deep reinforcement learning. Nature, 518:529–533, 2015. (h:ps://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf)
  • 19. DQN - 要素技術の集合体 - Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 19 - CNN との結合によりゲーム画⾯から学習可能に  → 強化学習は ”視覚” を獲得 画⾯認識 (CNN) ⾏動価値評価 (強化学習) ゲーム画⾯ (環境) ⾏動 - 勝敗 (報酬) から学習する強化学習はゲーム AI と相性良
  • 20. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 20 蓄積 ゲーム画⾯ (環境) ⾏動 経験の記憶 夢
 (経験再⽣) - ランダムに “記憶 (夢)” を再⽣して学習  → ニューラルネットと強化学習の相性の悪さを緩和   - 相性の悪さ = i.i.d の制約,可塑性と安定性のジレンマ DQN - 要素技術の集合体 -
  • 21. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 21 【問題】 “視覚” = 画⾯外のことを扱えない (画⾯の切り替わりに弱い) ≒ 画⾯や⾏動の時系列・履歴を扱えない      → ブロック崩し等 = 俯瞰課題は得意      → 3D迷路等 = ⼀⼈称視点課題は不可
  • 22. ⼀⼈称視点ゲーム ̶ 3D迷路・FPS ̶ Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 22 基底核 (Actor-Critic) + 系列記憶 + 並列処理 = A3C + LSTM → ゲーム画⾯の切り替わり・⼀⼈称視点に強く DeepMind. Asynchronous Methods for Deep Reinforcement Learning: Labyrinth. (2015, June 14) [Video file] Retrieved from h:ps://www.youtube.com/watch?v=nMR5mjCFZCw (screenshot)
  • 23. → Asynchronous Advantage Actor-Critic (A3C) とは (中略)  - 並列化で LSTM = 短〜中期的な ”記憶 (系列)” が使⽤可能 深層強化学習の進化 - 時系列 - Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 23 × 並列数分 ↓ 系列的な記憶 →【問題】記憶を含めても⾒えていない事は学習できない 画⾯の切り替わりを吸収LSTM ゲーム画⾯ (環境) ⾏動 経験の記憶 蓄積しない
  • 24. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 24 環境エージェント ⾒えないものは学習できない 【問題】 制限された観測 誰が環境を変える? ・エージェント⾃⾝ ・環境そのもの  - 法則  - ⾃分以外の何か   - 何かは⼀種類?
  • 25. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 25 環境エージェント 誰が環境を変える? ・エージェント⾃⾝ ・環境そのもの  - 法則  - ⾃分以外の何か   - 何かは⼀種類? ⾒えないものは学習できない 【問題】 制限された観測 他の何か種類数 ×
  • 26. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 26 【問題】 強化学習 AI は対戦ゲームが苦⼿ → ⾃分以外のエージェントが存在 & 戦略が⼀種ではない
  • 27. ⼆⼈対戦ゲーム ̶ 囲碁 ̶ Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 27 過去の⾃⾝と⾃⼰対戦 (強化学習) + 先読み (ゲーム⽊探索) = AlphaGo → 様々な戦略に対応する AI AlphaGo の⾏動価値 Silver, D., et al.: Mastering the Game of Go with Deep Neural Networks and Tree Search, (1), 1–37. 2016.
  • 28. 深層強化学習の進化 - ⾃⼰対戦と仮想敵の構築 - Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 28 環境 = 様々な戦術 平均戦術 学習 エージェント 対戦・学習 戦術G 戦術A 戦術B 戦術D 戦術C 戦術E 戦術F なぜできたのか?【その1】  → 戦略が⼀種でなくても多様な戦略を平均化 (ゲーム理論)   - 膨⼤な『過去の⾃分』とのランダムな『⾃⼰対戦』    - 学習段階の違いでバリエーションを担保 
  • 29. 深層強化学習の進化 - ⾃⼰対戦と仮想敵の構築 - Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 29 なぜできたのか?【その1】  → 戦略が⼀種でなくても多様な戦略を平均化 (ゲーム理論)   - 膨⼤な『過去の⾃分』とのランダムな『⾃⼰対戦』 過去の⾃⾝の戦術 仮想敵 学習 エージェント 対戦・学習 過去G 過去A 過去B 過去D 過去C 過去E 過去F ⾃⾝を保存 ランダム 選択
  • 30. なぜできたのか?【その2】  - 平均化敵戦略に対してどこに打つのが「良い」かを数値化  - 教師あり,強化学習で学習した評価関数を先読みに利⽤ → 発展系 AlphaGo Zero (⼈間の知識の除外)  - (AlphaGo 上の) ⼈間の知識は⾼品質なサンプリングデータ  - ⾼⽔準な環境探索アルゴリズムの動的形成で代替え   - ゲーム⽊が既知であるからこそできる⼿法  - 【疑問】ゲーム⽊の知識を除外した場合は? 深層強化学習の進化 - ⾃⼰対戦と仮想敵の構築 - Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 30 ゲーム⽊探索 (先読み) 深層学習 (評価関数の形成) AlphaGo Silver, D., et al.: Mastering the Game of Go with Deep Neural Networks and Tree Search, (1), 1–37. 2016.
  • 32. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 32 ゲームプレイ AI における技術進化【再掲】 評価関数ありゲーム⽊探索 (e.g. MinMax) 評価関数なしゲーム⽊探索 (e.g. MCTS) 動物の学習理論 + MDP 最適制御 ⼈⼯ NN (パーセプトロン) 強化学習 (e.g. Q 学習) 深層学習 (特に CNN) 深層強化学習 (e.g. DQN, A3C) AlphaGo Dota Ⅱ AI 発展中 発展中 【ゲーム⽊探索】 【ニューラルネット】 【強化学習】 結局,ゲーム⽊ (全ゲーム展開の知識) が必要に
  • 33. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 33 【疑問】 ゲーム⽊ (= 全ゲーム展開構造) が得られない場合に 複雑な課題は不可能?
  • 34. 複雑な課題 ̶ e.g. DOTA2 ̶ Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 34 OpenAI. Learned Bot Behaviors (2017, August 11) [Video file] Retrieved from h:ps://www.youtube.com/watch?v=wpa5wyutpGc (screenshot) ゲーム⽊なしの 単純なタスク → 複雑なタスクへの移⾏
  • 35. 深層強化学習の進化 - 学習過程の再現・汎化 - Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 35 (Dota Ⅱ に限らず・・・) → 複数のタスクを同時に⾏う  - マルチタスクによって共通する重要な汎化⾏動の発⾒ Teh, Y. W., et.al.: Distral : Robust MulAtask Reinforcement Learning. NIPS. 2017.
  • 36. 深層強化学習の進化 - 学習過程の再現・汎化 - Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 36 (Dota Ⅱ に限らず・・・) → 好奇⼼の付加  - 知らない状況を好む事で環境の探索を促進 Bellemare, M. G., et al.: Unifying Count-Based ExploraAon and Intrinsic MoAvaAon, NIPS. 2016. Ostrovski, G., et al.: Count-Based ExploraAon with Neural Density Models. NIPS. 2017.
  • 37. 深層強化学習の進化 - 学習過程の再現・汎化 - Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 37 (Dota Ⅱ に限らず・・・) → 複数モジュールで補助 → 簡単なタスクから徐々にタスクを複雑化  - イルカに複雑な芸を覚えさせるように Jaderberg, M., at al.: Reinforcement learning with unsupervised auxiliary tasks. In Internagonal Conference on Learning Representagons. 2017.
  • 38. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 38 では次の課題は? 【疑問】
  • 39. 今後の挑戦 ̶ StarCraft Ⅱ ̶ Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 39 膨⼤な⾏動の組み合わせ・膨⼤な状態パターン (画⾯内・外) → ⻑期戦略・知識の構造化 (強化学習の本質的な課題) DeepMind. StarCrah II DeepMind feature layer API. (2016, November 04) [Video file] Retrieved from h:ps://www.youtube.com/watch?v=5iZlrBqDYPM (screenshot)
  • 40. 深層強化学習の課題 Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 40 【問題】学習に時間がかかる 【問題】理論上未解決課題が多い   不完全知覚, マルチエージェント, ⾮定常環境への適応 ... etc  - 新しい成果に『理論』は昔から存在していた  - 多くは莫⼤な計算リソースでクリアしている   → 理論的にクリアできない課題はできない → 他の技術との融合 or 理論の発展
  • 41. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 41 - 推論,脳内シミュレート  → エージェント内部に外部環境のシミュレータを構築   - “熟慮” の獲得 これからの強化学習ゲーム AI に必要なもの Weber, T., et.al.: ImaginaAon-Augmented Agents for Deep Reinforcement Learning. NIPS. 2017.
  • 42. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 42 - ⽬的意識,⾏動の抽象化  → プランニング,サブゴール形成 (内部構造の階層化)   - “熟慮” の低コスト化 = 探索効率化・学習時間削減 これからの強化学習ゲーム AI に必要なもの Vezhnevets, A. S., et. al.: FeUdal Networks for Hierarchical Reinforcement Learning. 2017. arXiv. h:p://arxiv.org/abs/1703.01161 Vezhnevets, A., et al.: Strategic aNenAve writer for learning macro-acAons. In Advances in Neural Informagon Processing Systems, pp. 3486–3494 2016.
  • 43. おわりに Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 43   古典    ゲーム構造 (ゲーム⽊) が既知なら探索可能   これまで    強化学習が ”視覚” と “記憶” を獲得しゲーム AI へ応⽤                     + 莫⼤な計算リソース   これから    より⻑期戦略を⾃⾝でシミュレートする賢さ (“熟慮”)    ⽬的意識を持った課題の分解・構造化による汎化                   or 更に莫⼤な計算リソース
  • 44. おわりに Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 44 【冒頭の問い】 本当に知的な「強いゲーム AI」に近づいたのか? → もちろんまだまだ
  • 45. おわりに Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 45 次世代のAI の⾃律的な成⻑技術 (≒ 強化学習) の 理論的拡張はまだ始まったばかり AI が安全に失敗できるゲーム AI での探求が 汎⽤的な AI 技術を⽣む ”ゆりかご” になるかも
  • 46. 引⽤⽂献 Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 46 [Reinforcement Learning: Sutton, 1998] Sutton, R. S. and Barto, A. G. Reinforcement Learning: An Introduction. MIT Press, Cambridge, 1998. [MCTS (UCT): Kocsis, 2006] Kocsis, L., and C. Szepesvari, C., Bandit based Monte-Carlo Planning, in Euro. Conf. Mach. Learn. Berlin, Germany: Springer, 282–293. 2006. [DQN: Mnih, 2015] V. Mnih, K. Kavukcuoglu, D. Silver, A. Rusu, J. Veness, M. Bellemare, A. Graves, M. Riedmiller. A. Fidjeland, G. Ostrovski, S. Petersen, C. Beattie, A. Sadik, I. Antonoglou, H. King, D. Kumaran, D. Wierstra, S. Legg, and D. Hassabis. Human-level control through deep reinforcement learning. Nature 518 (7540): 529--533 (2015) http://dx.doi.org/10.1038/nature14236, (https:// storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf). [A3C: Mnih, 2016] Mnih, V., Mirza, M., Graves, A., Harley, T., Lillicrap, T. P., & Silver, D. Asynchronous Methods for Deep Reinforcement Learning. ICML, 2016. [AlphaGo, Silver, 2016] Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., Den, G. Van, Hassabis, D. Mastering the Game of Go with Deep Neural Networks and Tree Search, (1), 1–37. 2016. (https://storage.googleapis.com/deepmind-media/alphago/AlphaGoNaturePaper.pdf) [AlphaGo Zero: Silver, 2017] Silver, D., Schrittwieser, J., Simonyan, K., Antonoglou, I., Huang, A., Hubert, T., Hassabis, D., et al.: Mastering the Game of Go without Human Knowledge. 2017. [Dota Ⅱ AI] https://blog.openai.com/dota-2/ and, https://blog.openai.com/more-on-dota-2/ [StarCraft Ⅱ Challenge: Vinyals, 2017] Vinyals, O., Vezhnevets, A. S., & Silver, D., et.al.: StarCraft II : A New Challenge for Reinforcement Learning. 2017. https://arxiv.org/pdf/1708.04782.pdf [UNREAL: Jaderberg, 2017] Jaderberg, M., Mnih, V., Czarnecki, W.M., Schaul, T., Leibo, J.Z., Silver, D., and Kavukcuoglu, K. Reinforcement learning with unsupervised auxiliary tasks. In International Conference on Learning Representations. 2017. [Distral: Teh, 2017] Teh, Y. W., Bapst, V., Czarnecki, W. M., Quan, J., Kirkpatrick, J., Hadsell, R. Pascanu, R., et.al.: Distral : Robust Multitask Reinforcement Learning. NIPS. 2017. [Pseudo-Counts: Bellemare, 2016] Bellemare, M. G., Schaul, T., Saxton, D., and Ostrovski, G. Unifying Count-Based Exploration and Intrinsic Motivation, NIPS. 2016. [PixelCNN pseudo-counts: Ostrovski, 2017] Ostrovski, G., Bellemare, M. G., Oord, V. D. O., Munon, R. Count-Based Exploration with Neural Density Models. NIPS. 2017. [I2A: Weber, 2017] Weber, T., Racanière, S., Reichert, D. P., Buesing, L., et.al.: Imagination-Augmented Agents for Deep Reinforcement Learning. NIPS. 2017. arXiv. https://arxiv.org/pdf/1707.06203.pdf [STRAW: Vezhnevets, 2017] Vezhnevets, A., Mnih, V., Osindero, S., Graves, A., Vinyals, O., Agapiou, J., et al.: Strategic attentive writer for learning macro-actions. In: Advances in Neural Information Processing Systems, pp. 3486–3494 2016.[FuN: Vezhnevets, 2017] Vezhnevets, A. S., Osindero, S., Schaul, T., Heess, N., Jaderberg, M., Silver, D., and Kavukcuoglu, K. FeUdal Networks for Hierarchical Reinforcement Learning. 2017. (http://arxiv.org/abs/1703.01161)