深層学習の将棋Aiへの浸透について

深層学習の
将棋AIへの浸透について
芝世弐（白ビール・二番絞り・電竜戦副理事長）
第二回電竜戦TSECおよびAI電竜戦プロジェクトNPO法人化記念講演（自称）

本日のテーマ
 AI分野で注目の技術である深層学習が将棋において普及する過程
 偶然私が取り組んだ2017年以降＋温故知新
 古典書籍や専門書などでは情報収集が大変時間がかかる概要部分をものすごく
大雑把にお話しします
 技術よりトレンド・雰囲気・全体像
 視聴者のレベル差もあると思いますので質問・コメント等はリアルタイムに受
け付け，可能な限り対応します
 関西人の平均的な「行けたら行く」よりは期待してください

二人零和有限確定完全情報ゲーム
 二人
 プレイヤー数
 零和（ゼロサム）
 対戦者の利得の総和が０である
 有限
 局面状態数が有限数である（駒数および升数が有限数のため組み合わせも有限）
 確定
 さいころやルーレットのような確率的な遷移過程ではない
 完全情報
 互いのプレイヤーに与えられていない情報がない。情報の均衡
将棋・囲碁・オセロ・チェス・連珠など多くの二人テーブルゲームが含まれる

ゲーム木
選択により枝を進み
新たな局面を生む
初期局面
７６歩
８４歩
６８銀２６歩
３４歩
２６歩１６歩
２６歩
３４歩
２５歩７６歩
８４歩
２５歩７６歩
５６歩
この図は全ての手を示していないため完全ではない

探索の種類
 Min-Max法
 具体的な計算手法にアルファベータ法など
 評価値が間違っていなければ探索範囲内では必ず最善手となるが，探索前に評価値を決
定する必要がある
 手が進んだ先の局面から探索をはじめる
 モンテカルロ探索
 発展形にモンテカルロ木探索など
 評価しづらい局面であっても探索は可能（原理的には勝敗判定のみで動作する）
 現局面から探索をはじめる
 二人零和有限確定完全情報ゲームに限らない

モンテカルロ法
 乱数による近似値計算
 モンテカルロ（世界的に有名なモナコ公国のカジノ所在地）
 例えば右図で
 ０～１の乱数を二つ生成し，xおよびyとする
 図にプロットし原点からの距離が１未満かどうか判定する
 多くの点を打ち，全プロットに対して円内のプロットの比を求める
 プロット数が増えるにつれてπ/4に近い値が得られる
 よって円周率の近似値が求まる
 近似式等が不要だが非常に荒い

モンテカルロ探索
初期局面
７６歩２６歩５６歩
完全な乱数
勝ち
勝ち
負け
勝ち負け負け
勝率の良い手を選ぶ

モンテカルロ木探索
有望そうな選択枝のみを展開し
有望そうな局面から乱数で勝率を求める
初期局面
７６歩
８４歩
６８銀２６歩
３４歩
２６歩
３４歩
２５歩
８４歩
５６歩

モンテカルロ木探索（Monte Carlo tree search）
 基本原理は古いが，Rémi Coulomにより2006年命名・実証された
 囲碁AI Crazy Stone
 精度の低いモンテカルロ探索をベースに桁違いのパフォーマンスで有望な手を発見可能
 大きなブレイクスルー！！
 以後，大きな発展のベースに

PV-MCTS
 モンテカルロ木探索の考え方をベースに枝選択に深層学習（ディープラーニン
グ）モデルを適用
 勝率判定部も深層学習モデルを適用
 局面情報から枝選択および勝率を同時に求める深層学習モデル
 枝選択：Policy
 勝率：Value
 DeepMind社のAlphaGoシリーズで有名に

ここまで，まとめ
 探索法はおおきく二種類
Min-Max法
モンテカルロ木探索（MCTS）
 それぞれで要求される局面評価は異なる

各局面で必ず欲しい情報（今日の肝）
Min-Max法
評価値（数字ひとつ）
モンテカルロ木探索
良さそうな指し手
できれば上位候補いくつか

将棋のデータ構造
 駒の種類：王飛角金銀桂香歩で８種類
 うち６種は成り駒へ変化可能 → 盤上では１４種類
 盤面：９×９
 持ち駒：先手か後手，玉を除く駒で７種類
 手番：先手か後手
 有限数ですね

将棋局面のプログラム内部でのデータ表現
 ９×９の二次元配列に駒を配置するタイプ
 ８１マス×１４種類ｘ２手番（＋別途駒台）
 ２８色の画像的
 ４０枚の駒の状態
 ８１マス＋駒台
 手番
 成・不成
 ４０ｘ１５４８状態（定義に依る）
14

古典モデル１（状態点）
 駒の状態に点数
 ８８の玉に10点
 ５７のと金に100点
 駒台の飛車に500点
 など

古典モデル２（相対二駒）
 駒の状態の組み合わせに点数
 玉と金が隣り合っている組み合わせに15点
 敵玉の２升手前の銀に30点
 など

古典モデル２．５（相対二駒＋）
 直射してないが香車の効き筋に馬
 玉のコビンに桂馬の効き
 持ち歩が三枚
 など

古典モデル３（絶対二駒）
 ８８玉と７８金が隣り合っている組み合わ
せに20点
 敵２２玉に対して２４の銀に35点
 など
 1548 x 1548の固定ループで計算可能

古典モデル４（絶対三駒）
 ８８玉７８銀６９金の組み合わせに45点
 ２２敵玉２４銀２８飛車に35点
 など
 2006年Bonanzaから
 2017年elmoおよび2018年Hefeweizenまで

NNUE（Efficiently updatable neural network）
 2018年たぬきチームの那須さんが導入
 古典的絶対二駒状態量を入力
 ４層ニューラルネットワーク
 CPUによる高速演算への工夫
 通称：鵺（ぬえ）

2019年の世界コンピュータ将棋選手権
優勝：やねうら王
準優勝：Krsitallweizen
三位：狸王
全てNNUE

2020年の世界コンピュータ将棋オンライン
優勝：水匠
準優勝：Hefeweizen-2020
三位：elmo
全てNNUE

2020年の第一回電竜戦
優勝：GCT
準優勝：Grampus
三位：Qhapaq Overfit Adventure
GCTはdlshogiベースのPV-MCTS
Grampus， QhapaqはNNUE
手前味噌ですが弊作二番絞りはPV-MCTSで予選3位

2021年の世界コンピュータ将棋選手権
優勝：elmo
準優勝：PAL
三位：Ryfamate （初参加）
ElmoはNNUE，PALはPV-MCTS
Ryfamateは両者のハイブリッド（合議）

PV-MCTSの時代が来ている？
 必ずしも勝ちとならなくても，ものすごく影響があります。
 今まで勝っていたAIが中盤で劣勢になる！！？
 ガチンコでも優勝争える。（ハードウェアのコストは大）
 技術的には難しい？
 今までと異なるだけでプログラムソース自体は随分減ります
 必要となるのは今風の深層学習技術

では，本題局面評価にもどります。
 古典モデル～NNUEは駒の状態量から評価値（数字ひとつ）でした。
 PV-MCTSに要求されるものは，良さそうな指し手のリストです。
 これは古典AIでは非常に難しいものでしたが，2013年以降の画像認識
技術などから発展した深層学習モデルを流用することで可能になりま
した。（DeepMind社のAlphaZeroなど）

利き情報の入ったdlshogiモデルの入力
 入力特徴量として14種の駒x先後（計14層）
 持ち駒（各１レイヤー，ただし歩は8枚まで，計28層）
 各駒の利き情報（駒種と同数のレイヤー,14層）
 利き数の合計レイヤー（１，２，３）
 ( 14+28+14+3 ) x 2 = 118 層
27

肝となるResNet（Residual Network）
 2015年の画像認識コンペ優勝モデルの改良版
 現在も画像解析分野で幅広く用いられている

ニューラルネットワーク出力
 指し手確率
 全ての指し手に対して期待確率を示す
 局面評価値
 現局面の期待勝率を示す
 現在機械学習で多くのチームが絶賛強化中です。
 凄くないですか？

凄くないですか？と言えば
2018年世界選手権デビュー組
 初参加優勝の私
 初参加準優勝の山口さん
 囲碁でAQ（世界戦準優勝），将棋でPAL ：NHK杯中継
 dlshogiの山岡さん
 将棋のPV-MCTSパイオニア，自著出版等
 Crazy ShogiのRemiさん
 囲碁界のレジェンド
 今も将棋の深層学習で上位を争っているメンバーです。

じゃ，現在のニューラルネットワーク
モデルの精度ってどんなもんなの？
 二番絞り（40ブロック）：PV-MCTS
 1秒間に11局面程度の局面評価（普通のPCで1スレッド）
 2016年世界選手権準優勝・技巧2：Min-Max法
 1秒間に70万局面程度の局面評価（普通のPCで1スレッド）
 ネット上の対局サーバfloodgate上でほぼ互角です！！！
 もちろん人間が太刀打ちできるレベルではありません。
 レート3275 vs 3300

さらに削った極端な実験
 一手につき局面評価1局面
 つまり，ニューラルネットの第一候補をそのまま指す
 三手詰めすらできないことも
 一手につき局面評価3局面
 手を進めた局面など3つの局面を評価し探索で最善手を指す
 意外に普通に戦える
 floodgateレーティング 2286
 有段者クラスあるのでは？（コンピュータ将棋関係者談）

現状の将棋の深層学習モデルは既に人間
を超えているかも？
 わずかな探索数でもそこそこの強さ
 大局観は段位者？プロ級？

さらにコンピュータの性能向上
 高速演算可能なハードウェアを用いれば最強クラス
 秒20万局面の評価（クラウド上のA100インスタンス）
 AIブームでハードウェア性能は年々うなぎのぼり
 5年で数十倍
 10年前の地球シミュレータ級が今個人で使える
 学習も対戦も桁違いの強化が期待される
 お金持ち圧倒的優位の時代が再び

おわりに
 将棋AIでPV-MCTSモデルが主流になる日も近いかもしれない
 NNUE系も追いつかれただけで追い抜かれてはいない？
 明日はどっちだ

深層学習の将棋Aiへの浸透について

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (8)

深層学習の将棋Aiへの浸透について