ゲーム体験を支える強化学習の実応用について

Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
ゲーム体験を支える強化学習の実応用について
SHIBUYA Synapse #2
November 23, 2017
Jun Ernesto Okumura
Yu Kono
Ikki Tanaka
AI System Dept.
DeNA Co., Ltd.

Copyright © DeNA Co.,Ltd. All Rights Reserved.
自己紹介
名前
奥村エルネスト純（@pacocat）
経歴（2017/11時点）
宇宙物理学 Ph.D
→ DeNA入社（2014年）
→ データアナリスト＠分析部（〜2016年）
- ゲームデータ分析、ゲームパラメータデザイン
→ 機械学習エンジニア＠AIシステム部（2017年〜）
- 強化学習・深層学習を使ったゲームAI研究開発
2
強化学習を使った実ビジネスの応用事例を作っていきたい
モチベーション

AIシステム部のご紹介
■ DeNA全社のサービスを対象としたAI研究開発組織
⁃ 各事業部のメンバー・データアナリストと連携しながら事業に貢献
■ 画像 / 自然言語処理・音声認識 / 強化学習・最適化
＋他社IP利用の
タイトル多数
ロボネコヤマト®はヤマトホールディングス株式会社の登録商標です
3

強化学習とゲームAI
■ 強化学習：環境に適応して自律的に学習する枠組み
OpenAI Universe (accessed 2017-11-16)
https://blog.openai.com/universe/
状態・報酬の観測
意思決定
行動選択
環境との
相互作用
ゲームシミュレータゲーム画面・ステータスAPI 学習環境
ゲーム領域は強化学習技術が適用しやすい
シミュレータ環境（箱庭）が用意でき、多くの試行錯誤を繰り返せる 4

強化学習チームのゲームAI研究開発の取り組み事例
■ 「FINAL FANTASY Record Keeper」におけるステージ設計支援の検証
■ 「逆転オセロニア」におけるバランス調整・対戦AIの検証（本講演）
強化学習を利用した自律型GameAIの取り組み ~高速自動プレイによるステージ設計支援~
https://www.slideshare.net/dena_tech/gameai-denatechcon
［CEDEC 2016］果たしてAIはRPGをクリアできるのか？AIによるテストプレイでゲームのクオリティを高める技術とは
http://www.4gamer.net/games/265/G026574/20160901121/
5

本日の話の流れ
課題の背景1
- 「逆転オセロニア」のご紹介
- AIで解決したいゲーム運用課題
「逆転オセロニア」のAI開発について2
- AI開発のロードマップ
- 学習アーキテクチャのご紹介
- 現在できていること
3 今後に向けて
- ゲームAI開発プロジェクトで難しい点
- AI活用を見越してやっておいた方がいいこと
6

課題の背景1
7

■ オセロ×TCGをコアゲームに据えたアプリゲーム
⁃ オセロがベースだからルールが「誰でもわかる」
⁃ 後半に「逆転」が巻き起こるゲームシステム
■ 2016年2月サービスイン後、成長を続けている※
■ 2017年10月 1500万ダウンロード突破
■ ゲーム外環境も盛り上がりをみせている（YouTube、リアルイベント）
「逆転オセロニア」について
8
※ “一周年で爆発した「逆転オセロニア」における、ゲーム分析の貢献事例
〜開発・運営の意思決定を全力でサポートする、DeNAのゲーム分析体制〜”
藤江清隆 & 奥村純, CEDEC2017
http://cedil.cesa.or.jp/cedil_sessions/view/1729

解決したい課題背景① キャラクタースキルの設計
■ 対戦の遊びを豊かにするために、継続的に新キャラを追加している
⁃ 新キャラ追加頻度：週2,3程度、新スキル追加頻度：2,3ヶ月に1回程度
■ パラメータ調整に失敗すると起こること
⁃ ゲームバランスの毀損、デッキの硬直化、対戦UXの単調化、…
キャラクタースキルのバランス調整を、
「ミスなく」「効率的に」行いたい
9

現在の運用：ユーザーログを使ったスキル設計
■ 既存キャラスキルの発動確率と発動実績を分析して、
スキル設計フローに定量的なレビューを導入している
⁃ 新キャラのスキル発動確率と効果分布を推定、適切なパラメータに調整
キャラクター（スキル発動確率順）
ス
キ
ル
ダ
メ
ー
ジ
実
績
（
箱
ひ
げ
図
）
ス
キ
ル
発
動
確
率
（
青
実
線
）
“ログ分析で支えるゲームパラメータ設計”, 奥村純, DeNA TechCon2017
https://www.slideshare.net/dena_tech/denatechcon-72603558 10

現在の運用：ユーザーログを使ったスキル設計
■ 既存キャラスキルの発動確率と発動実績を分析して、
スキル設計フローに定量的なレビューを導入している
⁃ 新キャラのスキル発動確率と効果分布を推定、適切なパラメータに調整
キャラクター（スキル発動確率順）
ス
キ
ル
ダ
メ
ー
ジ
実
績
（
箱
ひ
げ
図
）
11
強すぎる
キャラクター
弱すぎる
キャラクター
“ログ分析で支えるゲームパラメータ設計”, 奥村純, DeNA TechCon2017
https://www.slideshare.net/dena_tech/denatechcon-72603558
ス
キ
ル
発
動
確
率
（
青
実
線
）

解決したい課題
1. 既存フローでは新しいスキルの評価を正しくできない
⁃ ログがないためどのように運用されるかリリース前に分からない
2. キャラクターの性能をテストするのにかかる工数が大きい
⁃ 1体ずつデッキタイプに応じた運用や効用の推定を行う必要がある
3. どこまでチューニングを続けても見落としリスクがある
⁃ ゲームが複雑になる中で検証していく要素が爆発的に増えていく
12

実現できたら嬉しいこと
1. リリース前の新しいスキルでも検証ができること
⁃ 強化学習による自律的なキャラクター運用の学習
2. 大量の検証によって性能を評価できること
⁃ シミュレータを使った大量の自己対戦の実現
3. レアな壊れケースも効率的に検知できること
⁃ 人間のようなリテラシーで合理的に探索する方法の実現
人間のようにプレイし、新環境にも柔軟に対応する、強いAIの実現※
※ 人間のようなプレイ：（ここでは大まかに）非合理的で違和感のある打ち方をしないプレイ
※ 強い：（あるデッキに対して）勝率が高い
13

AIが実現できた場合のユースケース
■ キャラの運用を自律的に学んだAIによるQA支援
⁃ シミュレーションによるキャラの性能評価（≒壊れ値検知）
⁃ 効率的なバグ検知の可能性
■ 「人間のように打ち、強い」対戦AIのコンテンツ化
⁃ 初心者の戦略学習支援（指導碁的コンテンツ）
⁃ AIとの対戦コンテンツ
14

課題の背景1
15

オセロニアAIの研究開発ロードマップ
対応キャラ数
強さ
ルールベースAI
（既存NPC）
ランダムAI
48キャラ
（固定3デッキ）
①教師あり学習
そもそも学習が出来るのか検証
数100キャラ
（定番デッキ）
②表現学習
キャラを拡張できるか検証
トップユーザー
相当
全キャラ~1600体
（新スキル含む）
③強化学習
自律的に強くなるか検証
④先読み機能+チューニング
現実的にどこまで強く出来るか検証
ミドルユーザー
相当
16

オセロニアAIの研究開発概要
■ 戦略の表現力を獲得させるためニューラルネットワークとして実装
⁃ 「AlphaGoを参考にした3モジュール」+「表現学習」によって構成
1. 教師あり学習（SLエージェント※）
⁃ 大量の棋譜ログを活用し、人間が実際に打つような指し手を学習
2. 強化学習（RLエージェント※）
⁃ SLエージェントのネットワークを転写して自己対戦によって自律的に学習
⁃ 定期的に仮想の対戦相手ネットワークを更新して徐々に強化
3. 先読み機能（MCTS; Monte Calro Tree Search）
⁃ RLエージェントの推論サポート、学習時の馴れ合い防止
4. 表現学習
⁃ キャラクター運用の分散表現を学習することでキャラ拡張に対応
⁃ 特徴量を減らすことにより学習を効率化＆棋譜を有効的に活用
※ SL: Supervised Learning, RL: Reinforcement Learning 17

1. 教師あり学習（SLエージェント）
■ 棋譜を使って上位ユーザーの平均戦略を学習
⁃ 空間情報は畳み込みニューラルネットワーク（CNN）で処理
⁃ 行動が動的に変わるため、深層Q学習（DQN）のアーキテクチャを改良
ステータス
手駒
デッキ情報
行動可能手
盤面情報
状態行動価値
（選択確率）
非
空
間
情
報
空
間
情
報
CNN
・・・・・・
・・
・・
全結合層
全結合層
教師あり学習時は
ユーザーの選択/非選択を
教師信号として利用
全結合層
18

2. 強化学習（RLエージェント）
■ SLエージェントが学習したネットワーク（上位ユーザーの平均戦略）を
ベースにして、自己対戦による学習を行う
■ 今後、検証していきたいアルゴリズム
⁃ アーキテクチャ：Dueling Net, A3C, PGQ, PCL, FuNs, …
⁃ 状態探索効率化：pseudo-count, PixcelCNN pseudo-count, …
⁃ その他：Prioritized Experience Replay, Inverse RL, …
① ネットワークを転写
SLネットワーク RLネットワーク
② 自己対戦による学習
強さ
自分相手
（過去の自分）
RL RL
RL
RL
RL
19

3. 先読み機能（MCTS; Monte Carlo Tree Search）
■ 現在取りうる行動をそれぞれ試行して算出した行動価値を元に、
次の最適行動を決定する探索的アプローチ
■ 多くの試行を必要とし、シミュレータ速度がボトルネックとなるため、
効率的な探索が必要（e.g. UCT, PUCT, …）
探索ターン
（ルートノード）
自ターン
①ある局面から、取りうる行動を試行
敵ターン
自ターン
バトル終了
…
②行動選択後は、敵ターン含め
バトル終了までプレイアウトを行う
③終了時の状態を行動選択の評価値とし、
これを繰り返すことで統計量を算出する
20

4. 表現学習
■ 背景
⁃ 各キャラを区別すると入力情報が膨大になってまう
⁃ 似たような運用方法のキャラは同じように学習したい
■ AI訓練時にキャラ情報を低次元に埋め込む学習器を用意
⁃ 「角に置きたい」「フィニッシャーとして使いたい」といったキャラの
運用方法を低次元のベクトルとして表現することが可能になった
1 0 0 0 … 0 0 0
0 1 0 0 … 0 0 0
~1,600次元（キャラID数分）
…
0.68 -0.12 1.73 0.02 0.98
数次元
…
-0.32 0.07 0.56 0.03 0.11
埋め込み前埋め込み後
キャラを表現するのに、
キャラ数に応じたベクトルが必要
キャラをより低次元で表現可能
似たような使い方のキャラは似たようなベクトルに
21

現在できていること（教師あり学習）
■ 固定デッキ（神・魔・竜）で教師あり学習を検証
⁃ 48キャラ、3デッキ
■ 既存NPC（ルールベースAI）に対して高い勝率が出せている
⁃ 固定デッキであればミドルユーザーレベルの立ち回りは可能
竜デッキ
魔デッキ
神デッキ
50.9% → 98.0%
49.0% → 90.0%
48.5% → 91.1%
既存NPC同士の勝率※1 教師学習済AIと既存NPCの勝率※2
※1: 定義上、期待値は50%。1,000バトルによる検証結果。
※2: 1,000バトルによる検証結果。 22

現在できていること（表現学習）
■ 表現学習によって、キャラやデッキタイプを拡張性しても学習可能に
⁃ 17デッキ（275キャラ）の同デッキ対戦で平均80%程度の勝率※
⁃ 学習が難しいデッキに対しても一定の勝率が出るようチューニング中
神(試)
竜(試)
魔(試)
竜3(定)
竜2(定)
竜1(定)
魔1(定)
魔2(定)
魔3(定)
神3(定)
神2(定)
神1(定)
混2(定)
混3(定)
混1(定)
全2(定)
全1(定)
神(試)
竜(試)
魔(試)
竜3(定)
竜2(定)
竜1(定)
魔1(定)
魔2(定)
魔3(定)
神3(定)
神2(定)
神1(定)
混2(定)
混3(定)
混1(定)
全2(定)
全1(定)
勝率(%)
AI
既存NPC（ルールベースAI） 23
※学習環境の勝率（実際のデッキ相性を表現するものではありません）

特殊ダメージ
竜
マス変換
罠毒カウンター
アンデッド
召喚
回復
オーバー
ロード
吸収
2枚
以上
2枚
以上
表現学習で得られる表現の例
24
キャラ表現を3次元に縮減してプロットした例※
（戦略に応じた表現が得られていることが分かる）
※AIの学習過程の図でゲーム戦略の完全な表現を保証するものではありません

現在できていること（強化学習、先読み機能）
■ 強化学習
⁃ 簡単なon-policy, off-policyアルゴリズムの検証が完了
⁃ 学習による勝率の上昇を確認、現在チューニング中
■ 先読み機能（MCTS）
⁃ 初期の実装検証が完了
⁃ 高速化を目指して様々な探索アルゴリズムを実験中
今後は研究開発を継続してフィージビリティを確認
実用に耐えるエージェントができ次第サービスインを検討
25

課題の背景1
26

アプリゲームで強化学習を応用する難しさ
1. 環境の構築が大変
⁃ Atari 2600などのベンチマークタスクは強化学習で扱いやすい学習環境
（ALE, OpenAI gym, …）が存在するが、これを0から作る必要がある
⁃ 状態表現はドメイン特有なものになるため特徴量エンジニアリングが複雑
• 経過ターン数, 盤面のスキル情報（毒, 時限スキル, …）, 召喚駒…
2. シミュレータ速度がボトルネックになる
⁃ 多くの試行をするために応答をどれだけ高速化できるかが鍵
3. 実利用に際してアーキテクチャの検討・発明が必要
⁃ AIモデルをクライアント/サーバのどちらに持たせるか
⁃ 最新のゲーム環境に追従したシミュレータの更新方法
⁃ 大量のリクエストを捌くための推論やメモリ管理の効率化
27

AI活用を見越してやっておいたほうがいいこと
1. AIの学習を念頭に置いたログの設計
⁃ ユーザー行動分析のためのログとは別に、
AIが学習するためのログを事前に定義・実装しておく必要がある
2. シミュレータ開発
⁃ バトルロジックのみを切り離しやすいような設計
⁃ 高速化を念頭に入れた最適化
3. 最新技術に追従する体制作り
⁃ 強化学習・深層学習領域の技術アップデートは非常に早く、
最新アルゴリズムをキャッチアップして実装できるようなチームが必要
4. 現場とのコミュニケーション
⁃ 現場だけでは「AIで何ができるか」が分からないこともある
⁃ 課題を適切に定義したり企画を提案したりするサービス理解と、
現場との密なコミュニケーションが必要
28

アプリゲームで強化学習を応用する嬉しさ
■ ゲーム環境という「箱庭」で研究開発ができる
⁃ Atariや囲碁といったゲームとは異なる、より複雑なゲーム環境で、
様々なアルゴリズムを検証できる
⁃ 論文通りの実装をしても上手くいかないことが多く、試行錯誤を通じて
実課題への適用に関する知見が集約されている
■ 強化学習におけるビジネスケースを示せる
⁃ 強化学習はビジネスアプリケーションが比較的困難な領域
⁃ 比較的に適用しやすいゲーム事業で0→1のケースを生み出し続けたい
29

ご清聴ありがとうございました

ゲーム体験を支える強化学習の実応用について

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to ゲーム体験を支える強化学習の実応用について

Similar to ゲーム体験を支える強化学習の実応用について (20)

More from Jun Okumura

More from Jun Okumura (8)

Recently uploaded

Recently uploaded (8)

ゲーム体験を支える強化学習の実応用について

Editor's Notes