SlideShare a Scribd company logo
Suche senden
Hochladen
【論文読み会】On the Expressivity of Markov Reward
Melden
Teilen
ARISE analytics
ARISE analytics
Folgen
•
0 gefällt mir
•
583 views
1
von
20
【論文読み会】On the Expressivity of Markov Reward
•
0 gefällt mir
•
583 views
Melden
Teilen
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Daten & Analysen
社内で行った「NeurIPS読み会」でまとめた資料です。
Mehr lesen
ARISE analytics
ARISE analytics
Folgen
Recomendados
Exp int toc von
Exp int toc
Swapnil Dhavan
557 views
•
6 Folien
デブサミ2013【15-C-8】セキュリティ要求仕様モデルプランで日本は変わるか?(百瀬昌幸氏) von
デブサミ2013【15-C-8】セキュリティ要求仕様モデルプランで日本は変わるか?(百瀬昌幸氏)
Developers Summit
2.6K views
•
27 Folien
20100624 サービス説明資料 public von
20100624 サービス説明資料 public
Members_corp
2.6K views
•
49 Folien
Spring Fest 2017 「エンタープライズで利用するSpring Boot」#jsug #sf_h1 von
Spring Fest 2017 「エンタープライズで利用するSpring Boot」#jsug #sf_h1
Takeshi Hirosue
15.1K views
•
64 Folien
RICOH THETA x IoT デベロッパーズ コンテスト 第2回クラウドAPIセミナー von
RICOH THETA x IoT デベロッパーズ コンテスト 第2回クラウドAPIセミナー
contest-theta360
1.7K views
•
67 Folien
Shinise maker minade_agile_2021_scrum_festo_saka von
Shinise maker minade_agile_2021_scrum_festo_saka
Kei Nakahara
769 views
•
100 Folien
Más contenido relacionado
Similar a 【論文読み会】On the Expressivity of Markov Reward
Coldfusionを活かすシステム企画をリーンスタートアップに学ぶ von
Coldfusionを活かすシステム企画をリーンスタートアップに学ぶ
masashi takehara
1.8K views
•
65 Folien
次世代マーケティング戦略インフォセミナー発表原稿20120607 von
次世代マーケティング戦略インフォセミナー発表原稿20120607
MROC Japan
1.2K views
•
82 Folien
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方 von
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方
Hisahiko Shiraishi
3.1K views
•
45 Folien
強化学習の実適用に向けた課題と工夫 von
強化学習の実適用に向けた課題と工夫
Masahiro Yasumoto
726 views
•
60 Folien
物体検出コンペティションOpen Imagesに挑む von
物体検出コンペティションOpen Imagesに挑む
Hiroto Honda
2.4K views
•
38 Folien
会社紹介資料 von
会社紹介資料
GPTech
191 views
•
36 Folien
Similar a 【論文読み会】On the Expressivity of Markov Reward
(20)
Coldfusionを活かすシステム企画をリーンスタートアップに学ぶ von masashi takehara
Coldfusionを活かすシステム企画をリーンスタートアップに学ぶ
masashi takehara
•
1.8K views
次世代マーケティング戦略インフォセミナー発表原稿20120607 von MROC Japan
次世代マーケティング戦略インフォセミナー発表原稿20120607
MROC Japan
•
1.2K views
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方 von Hisahiko Shiraishi
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方
Hisahiko Shiraishi
•
3.1K views
強化学習の実適用に向けた課題と工夫 von Masahiro Yasumoto
強化学習の実適用に向けた課題と工夫
Masahiro Yasumoto
•
726 views
物体検出コンペティションOpen Imagesに挑む von Hiroto Honda
物体検出コンペティションOpen Imagesに挑む
Hiroto Honda
•
2.4K views
会社紹介資料 von GPTech
会社紹介資料
GPTech
•
191 views
株式会社リブセンス会社説明資料(転職エージェント企業様向け) von Taku Unno
株式会社リブセンス会社説明資料(転職エージェント企業様向け)
Taku Unno
•
408 views
【15-E-7】セキュアな環境でDevOpsを実現する厳選ツール von Developers Summit
【15-E-7】セキュアな環境でDevOpsを実現する厳選ツール
Developers Summit
•
1.8K views
『Mobageの大規模データマイニング活用と 意思決定』- #IBIS 2012 -ビジネスと機械学習の接点- von Koichi Hamada
『Mobageの大規模データマイニング活用と 意思決定』- #IBIS 2012 -ビジネスと機械学習の接点-
Koichi Hamada
•
7.9K views
継続カイゼン! トライ&エラーから学んだ コミュニケーションと環境づくり von TORUINOKO1
継続カイゼン! トライ&エラーから学んだ コミュニケーションと環境づくり
TORUINOKO1
•
147 views
日本ベンチャーにとってのシリコンバレーでのチャレンジと成功へのヒント von ブレークスルーパートナーズ 赤羽雄二
日本ベンチャーにとってのシリコンバレーでのチャレンジと成功へのヒント
ブレークスルーパートナーズ 赤羽雄二
•
5K views
リーンスタートアップ時代の事業計画とサービス開発、資金調達のあり方 von ブレークスルーパートナーズ 赤羽雄二
リーンスタートアップ時代の事業計画とサービス開発、資金調達のあり方
ブレークスルーパートナーズ 赤羽雄二
•
14.2K views
20210616 Microsoft MeshはAzure Remote Renderingの夢を見るか von Shingo Mori
20210616 Microsoft MeshはAzure Remote Renderingの夢を見るか
Shingo Mori
•
659 views
「納品のない受託開発」にみるソフトウェア受託開発の未来 von Yoshihito Kuranuki
「納品のない受託開発」にみるソフトウェア受託開発の未来
Yoshihito Kuranuki
•
3.1K views
Epics - オープンソース開発にインセンティブ革命を.pdf von Epics DAO
Epics - オープンソース開発にインセンティブ革命を.pdf
Epics DAO
•
11 views
【IMJ】デジタルマーケティング基盤を駆使して『利益を産むサイト』adobe.com(I・CON2014) von IMJ Corporation
【IMJ】デジタルマーケティング基盤を駆使して『利益を産むサイト』adobe.com(I・CON2014)
IMJ Corporation
•
3.3K views
Scrum"再"入門 von You&I
Scrum"再"入門
You&I
•
2K views
Springのプログラムモデルと動く仕様~テスト編~ von terahide
Springのプログラムモデルと動く仕様~テスト編~
terahide
•
2.6K views
CIが分からないPE(SETエンジニア)1年生がVRT(ビジュアルリグレッションテスト)をハードル低くCIを運用した von ssuser0be501
CIが分からないPE(SETエンジニア)1年生がVRT(ビジュアルリグレッションテスト)をハードル低くCIを運用した
ssuser0be501
•
1.8K views
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル von Recruit Technologies
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
Recruit Technologies
•
30K views
Más de ARISE analytics
【論文レベルで理解しよう!】 欠測値処理編 von
【論文レベルで理解しよう!】 欠測値処理編
ARISE analytics
83 views
•
19 Folien
【論文レベルで理解しよう!】 大規模言語モデル(LLM)編 von
【論文レベルで理解しよう!】 大規模言語モデル(LLM)編
ARISE analytics
112 views
•
20 Folien
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho... von
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
ARISE analytics
183 views
•
32 Folien
Hierarchical Metadata-Aware Document Categorization under Weak Supervision (... von
Hierarchical Metadata-Aware Document Categorization under Weak Supervision (...
ARISE analytics
122 views
•
24 Folien
教師なしGNNによるIoTデバイスの異常通信検知の検討 von
教師なしGNNによるIoTデバイスの異常通信検知の検討
ARISE analytics
1K views
•
21 Folien
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri... von
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
ARISE analytics
574 views
•
18 Folien
Más de ARISE analytics
(18)
【論文レベルで理解しよう!】 欠測値処理編 von ARISE analytics
【論文レベルで理解しよう!】 欠測値処理編
ARISE analytics
•
83 views
【論文レベルで理解しよう!】 大規模言語モデル(LLM)編 von ARISE analytics
【論文レベルで理解しよう!】 大規模言語モデル(LLM)編
ARISE analytics
•
112 views
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho... von ARISE analytics
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
ARISE analytics
•
183 views
Hierarchical Metadata-Aware Document Categorization under Weak Supervision (... von ARISE analytics
Hierarchical Metadata-Aware Document Categorization under Weak Supervision (...
ARISE analytics
•
122 views
教師なしGNNによるIoTデバイスの異常通信検知の検討 von ARISE analytics
教師なしGNNによるIoTデバイスの異常通信検知の検討
ARISE analytics
•
1K views
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri... von ARISE analytics
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
ARISE analytics
•
574 views
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D... von ARISE analytics
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
ARISE analytics
•
464 views
【論文読み会】Autoregressive Diffusion Models.pptx von ARISE analytics
【論文読み会】Autoregressive Diffusion Models.pptx
ARISE analytics
•
5.3K views
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx von ARISE analytics
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
ARISE analytics
•
552 views
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx von ARISE analytics
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
ARISE analytics
•
494 views
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice von ARISE analytics
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
ARISE analytics
•
698 views
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3) von ARISE analytics
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
ARISE analytics
•
2.7K views
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive... von ARISE analytics
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
ARISE analytics
•
698 views
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds von ARISE analytics
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
ARISE analytics
•
699 views
Counterfaual Machine Learning(CFML)のサーベイ von ARISE analytics
Counterfaual Machine Learning(CFML)のサーベイ
ARISE analytics
•
29.7K views
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features von ARISE analytics
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
ARISE analytics
•
7.8K views
【論文読み会】Self-Attention Generative Adversarial Networks von ARISE analytics
【論文読み会】Self-Attention Generative Adversarial Networks
ARISE analytics
•
5.3K views
【論文読み会】Universal Language Model Fine-tuning for Text Classification von ARISE analytics
【論文読み会】Universal Language Model Fine-tuning for Text Classification
ARISE analytics
•
1.9K views
【論文読み会】On the Expressivity of Markov Reward
1.
[公開情報] On the Expressivity
of Markov Reward Marketing Solution Division 岩野 夏樹 2022/03/10
2.
[公開情報] 論文の情報 DeepMindの論文。どのような状態でMarkov Rewardが機能するかを明確に・注意深 く調査した点が評価された。また、今後の解析の基礎ともなりそう。 DeepMindのプレスページもわかりやすい 1 左は https://david-abel.github.io/papers/neurips2021_oteomr.pdf
より引用。 右は On the Expressivity of Markov Reward (deepmind.com) (以下プレスページ)より引用。
3.
[公開情報] 強化学習について 強化学習は、環境との相互作用を通じて累積報酬の最大化を目指すフレームワークであ る。 Agentが変更不能であるものはすべて環境 化学プラントの例 Action:瞬間瞬間における目標温度や目標撹拌速度 Reward:生成された物質の量 商品の搬入ロボットの例 Action:モーターの回転速度 Reward:配置できた際に+1,常時軽微なマイナス報酬 オフィス内の空き容器回収ロボットの例 Action:充電に戻るか、回収を継続するか、誰かが持ってくるのを待機 するかの高次判断、回収の場合はモーターの動作 Reward:回収出来たらプラス、バッテリー切れなら大きなマイナス action probability 𝜋𝑡 𝑠,
𝑎 2 右の例は 3.1 The Agent-Environment Interface (incompleteideas.net) より引用 Agent Environ ment Action 𝑎𝑡 Reward 𝑟𝑡 State 𝑠𝑡 𝑟𝑡+1 𝑠𝑡+1
4.
[公開情報] 論文について Reward Hypothesisについての体系的な解析を行い、エージェントの行動に対する制 約を加えることができるかどうかを調査した。 ...我々が目標や目的と言っているものはすべて、受け取ったスカラー信号の 累積和の期待値(Reward)の最大化であると考えるのが妥当である。 SUTTON (2004),
LITTMAN (2017) task solution 3 画像は論文より引用
5.
[公開情報] タスクとは何を指すのか 目標や目的として設定される、課題の解き方をタスクとする。 TaskQ: 課題の解き方をAliceがどう考えているか? ExpressionQ: Bobにどのように解いてほしいかを伝えられるか? Reward Hypothesis: タスクTと環境Eが与えられたときに、環境Eの中でタスク Tを解くことのできる報酬関数が存在する どのようなタスクを今回は設定するか? 4 画像は論文より引用。環境Eとしては報酬関数を含まないMarkov Decision
Process (Controlled Markov Process, E ≔ 𝒮, 𝒜, 𝑇, 𝛾, 𝑠0 )を考える。
6.
[公開情報] “タスク”とは行動の優先順位のこと ※𝑉𝜋 𝑠 :方策𝜋の下で状態𝑠から遷移して得られる行動の利得、
G 𝜏, 𝑠 :状態𝑠から開始するNステップの経路𝜏の累積割引利得 画像はプレスページより引用 ある行動がほかの行動より優れているかどうかを表現する際に3種類のタスクを考える。 5
7.
[公開情報] 状態とマルコフ性 過去の情報を保持した状態を考えることができれば、過去の経路に無関係に現在の状態 から将来の行動を決定できる。未来の状態が現在の状態にのみ依存することをマルコフ性 と呼ぶ。 ︙ 盤面 A 盤面 B 盤面 C ︙ チェス盤は未来の状態を考慮するために必要な過去の情報を要約して保持しているといえる Pr 𝑠𝑡+1 =
𝑠′ 𝑠𝑡, 𝑠𝑡−1, … , 𝑠0 = Pr 𝑠𝑡+1 = 𝑠′ |𝑠𝑡 6 盤面はYour Generated Chess Diagram (chessvideos.tv)で生成
8.
[公開情報] マルコフ報酬関数(Markov Reward Function) 現在と1ステップ未来の情報を利用して報酬を決定する報酬関数がマルコフ報酬関数。 𝑟𝑡
= 𝑅(𝑠) or 𝑟𝑡 = 𝑅(𝑠, 𝑎) or 𝑟𝑡 = 𝑅 (𝑠, 𝑎, 𝑠′) 𝐺𝑡 = 𝑘=0 ∞ 𝛾𝑘𝑟𝑡+𝑘 , 0 ≤ 𝛾 ≤ 1 そして報酬関数は状態、状態ー行動、状態ー行動ー状態を入力として報酬を計算する 行動の結果得られる利得(Return)はそれ以後の行動によって得られる報酬に割引率𝛾を乗じたものの総和 RLではこのReturnを最大化することを目的に各状態における行動を学習していく Pr 𝑠𝑡+1 = 𝑠′ , 𝑟𝑡+1 = 𝑟 𝑠𝑡, 𝑎𝑡, 𝑟𝑡, 𝑠𝑡−1, … , 𝑟1, 𝑠0, 𝑎0 = Pr 𝑠𝑡+1 = 𝑠′ , 𝑟𝑡+1 = 𝑟|𝑠𝑡, 𝑎𝑡 今回の問題設定では報酬と次の状態は過去の1ステップのみに依存するとする 7
9.
[公開情報] Reward Hypothesis: SOAP, PO,
TOからなるタスクTと環境Eが与えられたときに、環境E の中でタスクTを解くことのできるマルコフ報酬関数が存在する “タスク”とは何か Rewardは欲しい行動・結果を表現できるが、そもそもタスクとは何を指すのか? TaskQ: タスクの解き方をAliceがどう考えているか? ExpressionQ: Bobにどのように解いてほしいかを伝えられるか? Reward Hypothesis: タスクTと環境Eが与えられたときに、環境Eの中でタスクTを 解くことのできるマルコフ報酬関数が存在する タスクとはSOAP, PO, TOのこと 8
10.
[公開情報] “タスク”とは何か Rewardは欲しい行動・結果を表現できるが、そもそもタスクとは何を指すのか? TaskQ: タスクの解き方をAliceがどう考えているか? ExpressionQ: Bobにどのように解いてほしいかを伝えられるか? Reward Hypothesis: タスクTと環境Eが与えられたときに、環境Eの中でタスクTを 解くことのできるマルコフ報酬関数が存在する タスクとはSOAP, PO,
TOのこと Reward Hypothesis: SOAP, PO, TOからなるタスクTと環境Eが与えられたときに、環境E の中でタスクTを解くことのできるマルコフ報酬関数が存在する 9
11.
[公開情報] タスクの表現限界 表現することのできないSOAPのタスクが存在する。 SOAP=“常に同じ方向に移動せよ” 𝑠𝑡を(𝑥, 𝑦)のペアとすると、 Π𝐺 =
𝜋→, 𝜋←, … と定義することで実現できるが、 マルコフ報酬関数は履歴を参照できないので、これを表現できない 𝑅(𝑠, 𝑎, 𝑠′) 10 発表動画 On the Expressivity of Markov Reward (nips.cc) より引用
12.
[公開情報] タスクの表現限界 もっと簡単な例でも表現できないタスクが存在することがわかる。 S0 𝑆1 𝑎1 𝑎1 𝑎2 𝑎2 →Π𝐺 =
𝜋21, 𝜋12 となるような報酬を決めると、 𝑆0, 𝑎1, 𝑆1 , 𝑆0, 𝑎2, 𝑆1 , 𝑆1, 𝑎1, 𝑆0 , 𝑆1, 𝑎2, 𝑆0 のすべての遷移が最適になるので、𝜋11や𝜋22も最適になってしまう 11
13.
[公開情報] タスクをマルコフ報酬関数で表現することができるかの探索 マルコフ報酬関数で表すことのできないタスクがあることが分かったが、表すことができる場合、 その関数を探すアルゴリズムを考える。 SOAPs POs TOs 一部のみ表現可能 報酬関数デザイン問題(定義) 環境EとタスクTが与えられたときに、タスクTが環境Eで達成されるような報酬関数Rを出力できるか 「報酬関数デザイン問題はどのような環境E、タスクTにおいても多項式時間で解くことができる」 ⇔
「そのような報酬関数が存在するかどうかを多項式時間で解くことができる」 12
14.
[公開情報] 判定アルゴリズム (タスクTと環境Eに対して)多項式時間で解くことのできるアルゴリズムを開発した。 条件を満たす方策とちょうど1行動だけ異なる方策𝜋𝑓を考える 定常状態における状態の訪問期待値を求める 等式制約を追加 不等式制約を追加 線形計画問題を解く(多項式時間) 解けたらその報酬関数を返す、解けなければ報酬関数なし (⊥)を返す 13 論文より引用
15.
[公開情報] 実験1 環境の中でSOAPをランダムにサンプリングして、実現可能かどうかの割合を調べた。 不等式制約 等式制約 デフォルトは上図(4状態) サンプリング回数200回 幅は95%信頼区間 ほぼすべての課題で実現可能な割合が1を下回っており、 シンプルな課題設定の中でさえ、マルコフ報酬関数による表現が難しいことが分かった 14 論文より引用
16.
[公開情報] 実験2 出力された報酬関数によって意図した状態ー行動ペアの学習(Q学習)が進んでいるか どうかをチェックした。 (左)白黒二つのSOAPのタスクを設定した (右)タスクを実現するような報酬関数を出力し、その報酬関数での学習結果がタスクを満たすように学習が進んだかどうか → 出力した報酬関数によって学習が進んでおり、制約のない方策と比べて意図した行動方針を学習できている 15 論文より引用
17.
[公開情報] 結論 • マルコフ報酬関数の表現可能性を三種類のタスクで調査した • マルコフ報酬関数では表現できないタスクと環境の組み合わせが存在することを確認した •
タスクがマルコフ報酬関数で表現可能かどうかを判断し、表現可能であればその報酬関数を出力するアルゴ リズムを構築した • 理論を実証するような実験を行い、正しいことを裏付けた • 一方で、以下の制限がかかっており現実のタスクとは異なる • 有限状態のCMPではない • デザイナーは環境を正確に知らない • 報酬は過去の履歴を参照する関数である • エージェントがどのように状態を表現するかをアリスは知らない • 単純なx, yのような座標のみであらわされない 16
18.
[公開情報] Best Partner for
innovation, Best Creator for the future.
19.
[公開情報] References • DeepMindのプレスページ https://deepmind.com/research/publications/2021/On-the-Expressivity-of-Markov-Reward • 論文(OpenReview) https://openreview.net/forum?id=9DlCh34E1bN •
動画(NeurIPS) https://nips.cc/virtual/2021/poster/28669#details • Announcing the NeurIPS 2021 Award Recipients https://blog.neurips.cc/2021/11/30/announcing-the-neurips-2021-award-recipients/ • 3. The Reinforcement Learning Problem http://www.incompleteideas.net/book/ebook/node27.html • 強化学習とは?(What is Reinforcement Learning?) http://sysplan.nams.kyushu-u.ac.jp/gen/edu/RL_intro.html 18
20.
[公開情報] チェス画像のライセンス表記 19 Copyright © Chessvideos.TV 1.
Redistributions of source code must retain the above copyright notice, this list of conditions and the following disclaimer. 2. Redistributions in binary form must reproduce the above copyright notice, this list of conditions and the following disclaimer in the documentation and/or other materials provided with the distribution. 3. Neither the name of The author nor the names of its contributors may be used to endorse or promote products derived from this software without specific prior written permission. THIS SOFTWARE IS PROVIDED BY THE AUTHOR AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE AUTHOR AND CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
Hinweis der Redaktion
それぞれの時刻でSからAのマッピングを学習する エージェントは時刻tにおける状態を受け取り、その状態に対応した行動aを行う。その1時刻後に報酬rと次の状態sを受け取り、また行動を行う エージェントの目的は長期における累積報酬を最大化することにある 時刻はタイムステップやステージであってもいいし、 actionはモーターの回転数の信号などの低次のものでも、東大に行くために今日の朝ジャムパンを買うのような高次のものでもいい (例示) このAgentは累積報酬の最大化を目指すようになるため、報酬関数を適切に設定することが大事になる。この際に報酬関数は本当に達成したい物事を達成したときに報酬を与えるべきで、どのように達成したか、例えばチェスをプレイする際に盤面の真ん中を制圧したら+などのことをすると、本当に達成したいことを放置しながらSubゴールを達成してしまう
それぞれの時刻でSからAのマッピングを学習する エージェントは時刻tにおける状態を受け取り、その状態に対応した行動aを行う。その1時刻後に報酬rと次の状態sを受け取り、また行動を行う エージェントの目的は長期における累積報酬を最大化することにある 時刻はタイムステップやステージであってもいいし、 actionはモーターの回転数の信号などの低次のものでも、東大に行くために今日の朝ジャムパンを買うのような高次のものでもいい (例示) このAgentは累積報酬の最大化を目指すようになるため、報酬関数を適切に設定することが大事になる。この際に報酬関数は本当に達成したい物事を達成したときに報酬を与えるべきで、どのように達成したか、例えばチェスをプレイする際に盤面の真ん中を制圧したら+などのことをすると、本当に達成したいことを放置しながらSubゴールを達成してしまう
Rewardを計算することが十分にタスクを表現できるということが言えているという仮説があるので、これを体系的に調査することから始めている