Suche senden
Hochladen
深層学習の将棋Aiへの浸透について
•
Als PPTX, PDF herunterladen
•
1 gefällt mir
•
1,178 views
B
bleu48
Folgen
第二回電竜戦TSEC記念講演
Weniger lesen
Mehr lesen
Technologie
Melden
Teilen
Melden
Teilen
1 von 35
Jetzt herunterladen
Empfohlen
Ponanzaにおける強化学習とディープラーニングの応用
Ponanzaにおける強化学習とディープラーニングの応用
HEROZ-JAPAN
ゼロから始める転移学習
ゼロから始める転移学習
Yahoo!デベロッパーネットワーク
継続的なモデルモニタリングを実現するKubernetes Operator
継続的なモデルモニタリングを実現するKubernetes Operator
Yahoo!デベロッパーネットワーク
Transformer メタサーベイ
Transformer メタサーベイ
cvpaper. challenge
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
Yahoo!デベロッパーネットワーク
ChatGPTは思ったほど賢くない
ChatGPTは思ったほど賢くない
Carnot Inc.
分散学習のあれこれ~データパラレルからモデルパラレルまで~
分散学習のあれこれ~データパラレルからモデルパラレルまで~
Hideki Tsunashima
Empfohlen
Ponanzaにおける強化学習とディープラーニングの応用
Ponanzaにおける強化学習とディープラーニングの応用
HEROZ-JAPAN
ゼロから始める転移学習
ゼロから始める転移学習
Yahoo!デベロッパーネットワーク
継続的なモデルモニタリングを実現するKubernetes Operator
継続的なモデルモニタリングを実現するKubernetes Operator
Yahoo!デベロッパーネットワーク
Transformer メタサーベイ
Transformer メタサーベイ
cvpaper. challenge
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
Yahoo!デベロッパーネットワーク
ChatGPTは思ったほど賢くない
ChatGPTは思ったほど賢くない
Carnot Inc.
分散学習のあれこれ~データパラレルからモデルパラレルまで~
分散学習のあれこれ~データパラレルからモデルパラレルまで~
Hideki Tsunashima
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
tmtm otm
機械学習で泣かないためのコード設計
機械学習で泣かないためのコード設計
Takahiro Kubo
GAN(と強化学習との関係)
GAN(と強化学習との関係)
Masahiro Suzuki
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
Yamato OKAMOTO
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII
差分プライバシーとは何か? (定義 & 解釈編)
差分プライバシーとは何か? (定義 & 解釈編)
Kentaro Minami
試して、比べて、使ってみる時系列における異常検知。
試して、比べて、使ってみる時系列における異常検知。
浩 陳
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで
Shunji Umetani
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術
Preferred Networks
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Yamato OKAMOTO
トランザクションの設計と進化
トランザクションの設計と進化
Kumazaki Hiroki
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
AGIRobots
基礎線形代数講座
基礎線形代数講座
SEGADevTech
ChatGPT 人間のフィードバックから強化学習した対話AI
ChatGPT 人間のフィードバックから強化学習した対話AI
Shota Imai
Data-Centric AIの紹介
Data-Centric AIの紹介
Kazuyuki Miyazawa
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
NTT DATA Technology & Innovation
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践
智之 村上
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
Weitere ähnliche Inhalte
Was ist angesagt?
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
tmtm otm
機械学習で泣かないためのコード設計
機械学習で泣かないためのコード設計
Takahiro Kubo
GAN(と強化学習との関係)
GAN(と強化学習との関係)
Masahiro Suzuki
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
Yamato OKAMOTO
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII
差分プライバシーとは何か? (定義 & 解釈編)
差分プライバシーとは何か? (定義 & 解釈編)
Kentaro Minami
試して、比べて、使ってみる時系列における異常検知。
試して、比べて、使ってみる時系列における異常検知。
浩 陳
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで
Shunji Umetani
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術
Preferred Networks
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Yamato OKAMOTO
トランザクションの設計と進化
トランザクションの設計と進化
Kumazaki Hiroki
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
AGIRobots
基礎線形代数講座
基礎線形代数講座
SEGADevTech
ChatGPT 人間のフィードバックから強化学習した対話AI
ChatGPT 人間のフィードバックから強化学習した対話AI
Shota Imai
Data-Centric AIの紹介
Data-Centric AIの紹介
Kazuyuki Miyazawa
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
NTT DATA Technology & Innovation
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践
智之 村上
Was ist angesagt?
(20)
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
機械学習で泣かないためのコード設計
機械学習で泣かないためのコード設計
GAN(と強化学習との関係)
GAN(と強化学習との関係)
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
差分プライバシーとは何か? (定義 & 解釈編)
差分プライバシーとは何か? (定義 & 解釈編)
試して、比べて、使ってみる時系列における異常検知。
試して、比べて、使ってみる時系列における異常検知。
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで
全力解説!Transformer
全力解説!Transformer
20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
トランザクションの設計と進化
トランザクションの設計と進化
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
基礎線形代数講座
基礎線形代数講座
ChatGPT 人間のフィードバックから強化学習した対話AI
ChatGPT 人間のフィードバックから強化学習した対話AI
Data-Centric AIの紹介
Data-Centric AIの紹介
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践
Kürzlich hochgeladen
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
Kürzlich hochgeladen
(8)
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
深層学習の将棋Aiへの浸透について
1.
深層学習の 将棋AIへの浸透について 芝 世弐(白ビール・二番絞り・電竜戦副理事長) 第二回電竜戦TSECおよびAI電竜戦プロジェクトNPO法人化記念講演(自称)
2.
本日のテーマ AI分野で注目の技術である深層学習が将棋において普及する過程 偶然私が取り組んだ2017年以降+温故知新
古典書籍や専門書などでは情報収集が大変時間がかかる概要部分をものすごく 大雑把にお話しします 技術よりトレンド・雰囲気・全体像 視聴者のレベル差もあると思いますので質問・コメント等はリアルタイムに受 け付け,可能な限り対応します 関西人の平均的な「行けたら行く」よりは期待してください
3.
二人零和有限確定完全情報ゲーム 二人 プレイヤー数
零和(ゼロサム) 対戦者の利得の総和が0である 有限 局面状態数が有限数である(駒数および升数が有限数のため組み合わせも有限) 確定 さいころやルーレットのような確率的な遷移過程ではない 完全情報 互いのプレイヤーに与えられていない情報がない。情報の均衡 将棋・囲碁・オセロ・チェス・連珠など多くの二人テーブルゲームが含まれる
4.
ゲーム木 選択により枝を進み 新たな局面を生む 初期局面 76歩 84歩 68銀 26歩 34歩 26歩 16歩 26歩 34歩 25歩
76歩 84歩 25歩 76歩 56歩 この図は全ての手を示していないため完全ではない
5.
探索の種類 Min-Max法 具体的な計算手法にアルファベータ法など
評価値が間違っていなければ探索範囲内では必ず最善手となるが,探索前に評価値を決 定する必要がある 手が進んだ先の局面から探索をはじめる モンテカルロ探索 発展形にモンテカルロ木探索など 評価しづらい局面であっても探索は可能(原理的には勝敗判定のみで動作する) 現局面から探索をはじめる 二人零和有限確定完全情報ゲームに限らない
6.
モンテカルロ法 乱数による近似値計算 モンテカルロ(世界的に有名なモナコ公国のカジノ所在地)
例えば右図で 0~1の乱数を二つ生成し,xおよびyとする 図にプロットし原点からの距離が1未満かどうか判定する 多くの点を打ち,全プロットに対して円内のプロットの比を求める プロット数が増えるにつれてπ/4に近い値が得られる よって円周率の近似値が求まる 近似式等が不要だが非常に荒い
7.
モンテカルロ探索 初期局面 76歩 26歩 56歩 完全な乱数 勝ち 勝ち 負け 勝ち
負け 負け 勝率の良い手を選ぶ
8.
モンテカルロ木探索 有望そうな選択枝のみを展開し 有望そうな局面から乱数で勝率を求める 初期局面 76歩 84歩 68銀 26歩 34歩 26歩 34歩 25歩 84歩 56歩
9.
モンテカルロ木探索(Monte Carlo tree
search) 基本原理は古いが,Rémi Coulomにより2006年命名・実証された 囲碁AI Crazy Stone 精度の低いモンテカルロ探索をベースに桁違いのパフォーマンスで有望な手を発見可能 大きなブレイクスルー!! 以後,大きな発展のベースに
10.
PV-MCTS モンテカルロ木探索の考え方をベースに枝選択に深層学習(ディープラーニン グ)モデルを適用 勝率判定部も深層学習モデルを適用
局面情報から枝選択および勝率を同時に求める深層学習モデル 枝選択:Policy 勝率:Value DeepMind社のAlphaGoシリーズで有名に
11.
ここまで,まとめ 探索法はおおきく二種類 Min-Max法 モンテカルロ木探索(MCTS) それぞれで要求される局面評価は異なる
12.
各局面で必ず欲しい情報(今日の肝) Min-Max法 評価値(数字ひとつ) モンテカルロ木探索 良さそうな指し手 できれば上位候補いくつか
13.
将棋のデータ構造 駒の種類:王飛角金銀桂香歩で8種類 うち6種は成り駒へ変化可能
→ 盤上では14種類 盤面:9×9 持ち駒:先手か後手,玉を除く駒で7種類 手番:先手か後手 有限数ですね
14.
将棋局面のプログラム内部でのデータ表現 9×9の二次元配列に駒を配置するタイプ 81マス×14種類x2手番(+別途駒台)
28色の画像的 40枚の駒の状態 81マス+駒台 手番 成・不成 40x1548状態(定義に依る) 14
15.
古典モデル1(状態点) 駒の状態に点数 88の玉に10点
57のと金に100点 駒台の飛車に500点 など
16.
古典モデル2(相対二駒) 駒の状態の組み合わせに点数 玉と金が隣り合っている組み合わせに15点
敵玉の2升手前の銀に30点 など
17.
古典モデル2.5(相対二駒+) 駒の状態の組み合わせに点数 直射してないが香車の効き筋に馬
玉のコビンに桂馬の効き 持ち歩が三枚 など
18.
古典モデル3(絶対二駒) 駒の状態の組み合わせに点数 88玉と78金が隣り合っている組み合わ せに20点
敵22玉に対して24の銀に35点 など 1548 x 1548の固定ループで計算可能
19.
古典モデル4(絶対三駒) 駒の状態の組み合わせに点数 88玉78銀69金の組み合わせに45点
22敵玉24銀28飛車に35点 など 2006年Bonanzaから 2017年elmoおよび2018年Hefeweizenまで
20.
NNUE(Efficiently updatable neural
network) 2018年たぬきチームの那須さんが導入 古典的絶対二駒状態量を入力 4層ニューラルネットワーク CPUによる高速演算への工夫 通称:鵺(ぬえ)
21.
2019年の世界コンピュータ将棋選手権 優勝:やねうら王 準優勝:Krsitallweizen 三位:狸王 全てNNUE
22.
2020年の世界コンピュータ将棋オンライン 優勝:水匠 準優勝:Hefeweizen-2020 三位:elmo 全てNNUE
23.
2020年の第一回電竜戦 優勝:GCT 準優勝:Grampus 三位:Qhapaq Overfit Adventure GCTはdlshogiベースのPV-MCTS Grampus,
QhapaqはNNUE 手前味噌ですが弊作二番絞りはPV-MCTSで予選3位
24.
2021年の世界コンピュータ将棋選手権 優勝:elmo 準優勝:PAL 三位:Ryfamate (初参加) ElmoはNNUE,PALはPV-MCTS Ryfamateは両者のハイブリッド(合議)
25.
PV-MCTSの時代が来ている? 必ずしも勝ちとならなくても,ものすごく影響があります。 今まで勝っていたAIが中盤で劣勢になる!!?
ガチンコでも優勝争える。(ハードウェアのコストは大) 技術的には難しい? 今までと異なるだけでプログラムソース自体は随分減ります 必要となるのは今風の深層学習技術
26.
では,本題局面評価にもどります。 古典モデル~NNUEは駒の状態量から評価値(数字ひとつ)でした。 PV-MCTSに要求されるものは,良さそうな指し手のリストです。
これは古典AIでは非常に難しいものでしたが,2013年以降の画像認識 技術などから発展した深層学習モデルを流用することで可能になりま した。(DeepMind社のAlphaZeroなど)
27.
利き情報の入ったdlshogiモデルの入力 入力特徴量として14種の駒x先後(計14層) 持ち駒(各1レイヤー,ただし歩は8枚まで,計28層)
各駒の利き情報(駒種と同数のレイヤー,14層) 利き数の合計レイヤー(1,2,3) ( 14+28+14+3 ) x 2 = 118 層 27
28.
肝となるResNet(Residual Network) 2015年の画像認識コンペ優勝モデルの改良版
現在も画像解析分野で幅広く用いられている
29.
ニューラルネットワーク出力 指し手確率 全ての指し手に対して期待確率を示す
局面評価値 現局面の期待勝率を示す 現在機械学習で多くのチームが絶賛強化中です。 凄くないですか?
30.
凄くないですか?と言えば 2018年世界選手権デビュー組 初参加優勝の私 初参加準優勝の山口さん
囲碁でAQ(世界戦準優勝),将棋でPAL :NHK杯中継 dlshogiの山岡さん 将棋のPV-MCTSパイオニア,自著出版等 Crazy ShogiのRemiさん 囲碁界のレジェンド 今も将棋の深層学習で上位を争っているメンバーです。
31.
じゃ,現在のニューラルネットワーク モデルの精度ってどんなもんなの? 二番絞り(40ブロック):PV-MCTS 1秒間に11局面程度の局面評価(普通のPCで1スレッド)
2016年世界選手権準優勝・技巧2:Min-Max法 1秒間に70万局面程度の局面評価(普通のPCで1スレッド) ネット上の対局サーバfloodgate上でほぼ互角です!!! もちろん人間が太刀打ちできるレベルではありません。 レート3275 vs 3300
32.
さらに削った極端な実験 一手につき局面評価1局面 つまり,ニューラルネットの第一候補をそのまま指す
三手詰めすらできないことも 一手につき局面評価3局面 手を進めた局面など3つの局面を評価し探索で最善手を指す 意外に普通に戦える floodgateレーティング 2286 有段者クラスあるのでは?(コンピュータ将棋関係者談)
33.
現状の将棋の深層学習モデルは既に人間 を超えているかも? わずかな探索数でもそこそこの強さ 大局観は段位者?プロ級?
34.
さらにコンピュータの性能向上 高速演算可能なハードウェアを用いれば最強クラス 秒20万局面の評価(クラウド上のA100インスタンス)
AIブームでハードウェア性能は年々うなぎのぼり 5年で数十倍 10年前の地球シミュレータ級が今個人で使える 学習も対戦も桁違いの強化が期待される お金持ち圧倒的優位の時代が再び
35.
おわりに 将棋AIでPV-MCTSモデルが主流になる日も近いかもしれない NNUE系も追いつかれただけで追い抜かれてはいない?
明日はどっちだ
Jetzt herunterladen