Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

部分観測モンテカルロ計画法を用いたガイスターAI

1.438 Aufrufe

Veröffentlicht am

POMCPを用いたガイスターAIの実装

Veröffentlicht in: Bildung
  • Als Erste(r) kommentieren

部分観測モンテカルロ計画法を用いたガイスターAI

  1. 1. 部分観測モンテカルロ計画法 を用いたガイスターAI 2017-11-10 サイボウズ・ラボ 西尾泰和
  2. 2. このスライドの目的 2017年11月のGPWでのガイスターAI大会に 提出したAIの中身を簡単に解説することで、 不完全情報要素の推測が重要な状況での AIの作り方に関する研究を促進する。 2 http://www2.matsue-ct.ac.jp/home/hashimoto/geister/
  3. 3. 部分観測マルコフ決定過程 ガイスターは状態のすべてが観測されない 「部分観測マルコフ決定過程」(POMDP)である。 その中でも、状態遷移確率が 明示的に与えられない厄介な問題である。 3
  4. 4. 部分観測モンテカルロ計画法 そういう状況で使えるのが部分観測モンテカルロ 計画法。 これは状態遷移確率の代わりに、繰り返し実行で きるブラックボックスシミュレータを与え、それ に対するモンテカルロで確率を陽に与えることな く問題を解く。 4 https://papers.nips.cc/paper/4031-monte-carlo-planning-in-large-pomdps
  5. 5. 部分観測モンテカルロ計画法 パーティクルフィルタ(aka 逐次モンテカルロ) とモンテカルロ木探索の組み合わせである。 5
  6. 6. パーティクルフィルタ部分 観測できない状態を適当な分布(信念)からサンプ リングして決める。 その状態からシミュレータで相手手番を一手進め どんな手を打つか観察する。 シミュレータの出した手が、現実の手と一致する 物だけを残す。これが新しい信念。相手の手を観 察するたびに信念が更新される。 6
  7. 7. モンテカルロ木探索部分 信念状態からのサンプリングで状態が定まる。 その状態から適当なRollout Policyに従って手を選 び対戦することでどの手の勝率が高いかの情報を 集める。これを木の形で溜めていく。 ある程度情報の集まっている局面についてはTree Policyで手を選択する。(有名なのはUCB1) 7
  8. 8. 現状 今回のコンテスト参加プログラムはGithubで 公開しているが、ローカルの実験用のリポジトリ とサーバ接続用クライアントのリポジトリを 締め切り間際にくっつけて無理やりつじつまを合 わせたコードなので、これをベースにするのはお すすめしない。 またParticle Reinvigorationを実装していないので 「思い込みの激しい性格」になっている。 8

×