SlideShare ist ein Scribd-Unternehmen logo
1 von 20
[公開情報]
On the Expressivity of
Markov Reward
Marketing Solution Division
岩野 夏樹
2022/03/10
[公開情報]
論文の情報
DeepMindの論文。どのような状態でMarkov Rewardが機能するかを明確に・注意深
く調査した点が評価された。また、今後の解析の基礎ともなりそう。
DeepMindのプレスページもわかりやすい
1
左は https://david-abel.github.io/papers/neurips2021_oteomr.pdf より引用。
右は On the Expressivity of Markov Reward (deepmind.com) (以下プレスページ)より引用。
[公開情報]
強化学習について
強化学習は、環境との相互作用を通じて累積報酬の最大化を目指すフレームワークであ
る。
Agentが変更不能であるものはすべて環境
化学プラントの例
Action:瞬間瞬間における目標温度や目標撹拌速度
Reward:生成された物質の量
商品の搬入ロボットの例
Action:モーターの回転速度
Reward:配置できた際に+1,常時軽微なマイナス報酬
オフィス内の空き容器回収ロボットの例
Action:充電に戻るか、回収を継続するか、誰かが持ってくるのを待機
するかの高次判断、回収の場合はモーターの動作
Reward:回収出来たらプラス、バッテリー切れなら大きなマイナス
action probability
𝜋𝑡 𝑠, 𝑎
2
右の例は 3.1 The Agent-Environment Interface (incompleteideas.net) より引用
Agent
Environ
ment
Action
𝑎𝑡
Reward
𝑟𝑡
State
𝑠𝑡
𝑟𝑡+1
𝑠𝑡+1
[公開情報]
論文について
Reward Hypothesisについての体系的な解析を行い、エージェントの行動に対する制
約を加えることができるかどうかを調査した。
...我々が目標や目的と言っているものはすべて、受け取ったスカラー信号の
累積和の期待値(Reward)の最大化であると考えるのが妥当である。
SUTTON (2004), LITTMAN (2017)
task solution
3
画像は論文より引用
[公開情報]
タスクとは何を指すのか
目標や目的として設定される、課題の解き方をタスクとする。
TaskQ:
課題の解き方をAliceがどう考えているか?
ExpressionQ:
Bobにどのように解いてほしいかを伝えられるか?
Reward Hypothesis:
タスクTと環境Eが与えられたときに、環境Eの中でタスク
Tを解くことのできる報酬関数が存在する
どのようなタスクを今回は設定するか?
4
画像は論文より引用。環境Eとしては報酬関数を含まないMarkov Decision Process
(Controlled Markov Process, E ≔ 𝒮, 𝒜, 𝑇, 𝛾, 𝑠0 )を考える。
[公開情報]
“タスク”とは行動の優先順位のこと
※𝑉𝜋 𝑠 :方策𝜋の下で状態𝑠から遷移して得られる行動の利得、 G 𝜏, 𝑠 :状態𝑠から開始するNステップの経路𝜏の累積割引利得
画像はプレスページより引用
ある行動がほかの行動より優れているかどうかを表現する際に3種類のタスクを考える。
5
[公開情報]
状態とマルコフ性
過去の情報を保持した状態を考えることができれば、過去の経路に無関係に現在の状態
から将来の行動を決定できる。未来の状態が現在の状態にのみ依存することをマルコフ性
と呼ぶ。
︙
盤面
A
盤面
B
盤面
C
︙
チェス盤は未来の状態を考慮するために必要な過去の情報を要約して保持しているといえる
Pr 𝑠𝑡+1 = 𝑠′
𝑠𝑡, 𝑠𝑡−1, … , 𝑠0 = Pr 𝑠𝑡+1 = 𝑠′
|𝑠𝑡
6
盤面はYour Generated Chess Diagram (chessvideos.tv)で生成
[公開情報]
マルコフ報酬関数(Markov Reward Function)
現在と1ステップ未来の情報を利用して報酬を決定する報酬関数がマルコフ報酬関数。
𝑟𝑡 = 𝑅(𝑠)
or 𝑟𝑡 = 𝑅(𝑠, 𝑎)
or 𝑟𝑡 = 𝑅 (𝑠, 𝑎, 𝑠′)
𝐺𝑡 =
𝑘=0
∞
𝛾𝑘𝑟𝑡+𝑘 , 0 ≤ 𝛾 ≤ 1
そして報酬関数は状態、状態ー行動、状態ー行動ー状態を入力として報酬を計算する
行動の結果得られる利得(Return)はそれ以後の行動によって得られる報酬に割引率𝛾を乗じたものの総和
RLではこのReturnを最大化することを目的に各状態における行動を学習していく
Pr 𝑠𝑡+1 = 𝑠′
, 𝑟𝑡+1 = 𝑟 𝑠𝑡, 𝑎𝑡, 𝑟𝑡, 𝑠𝑡−1, … , 𝑟1, 𝑠0, 𝑎0 = Pr 𝑠𝑡+1 = 𝑠′
, 𝑟𝑡+1 = 𝑟|𝑠𝑡, 𝑎𝑡
今回の問題設定では報酬と次の状態は過去の1ステップのみに依存するとする
7
[公開情報]
Reward Hypothesis:
SOAP, PO, TOからなるタスクTと環境Eが与えられたときに、環境E
の中でタスクTを解くことのできるマルコフ報酬関数が存在する
“タスク”とは何か
Rewardは欲しい行動・結果を表現できるが、そもそもタスクとは何を指すのか?
TaskQ:
タスクの解き方をAliceがどう考えているか?
ExpressionQ:
Bobにどのように解いてほしいかを伝えられるか?
Reward Hypothesis:
タスクTと環境Eが与えられたときに、環境Eの中でタスクTを
解くことのできるマルコフ報酬関数が存在する
タスクとはSOAP, PO, TOのこと
8
[公開情報]
“タスク”とは何か
Rewardは欲しい行動・結果を表現できるが、そもそもタスクとは何を指すのか?
TaskQ:
タスクの解き方をAliceがどう考えているか?
ExpressionQ:
Bobにどのように解いてほしいかを伝えられるか?
Reward Hypothesis:
タスクTと環境Eが与えられたときに、環境Eの中でタスクTを
解くことのできるマルコフ報酬関数が存在する
タスクとはSOAP, PO, TOのこと
Reward Hypothesis:
SOAP, PO, TOからなるタスクTと環境Eが与えられたときに、環境E
の中でタスクTを解くことのできるマルコフ報酬関数が存在する
9
[公開情報]
タスクの表現限界
表現することのできないSOAPのタスクが存在する。
SOAP=“常に同じ方向に移動せよ”
𝑠𝑡を(𝑥, 𝑦)のペアとすると、
Π𝐺 = 𝜋→, 𝜋←, … と定義することで実現できるが、
マルコフ報酬関数は履歴を参照できないので、これを表現できない
𝑅(𝑠, 𝑎, 𝑠′)
10
発表動画 On the Expressivity of Markov Reward (nips.cc) より引用
[公開情報]
タスクの表現限界
もっと簡単な例でも表現できないタスクが存在することがわかる。
S0 𝑆1
𝑎1
𝑎1
𝑎2
𝑎2
→Π𝐺 = 𝜋21, 𝜋12 となるような報酬を決めると、 𝑆0, 𝑎1, 𝑆1 , 𝑆0, 𝑎2, 𝑆1 , 𝑆1, 𝑎1, 𝑆0 , 𝑆1, 𝑎2, 𝑆0
のすべての遷移が最適になるので、𝜋11や𝜋22も最適になってしまう
11
[公開情報]
タスクをマルコフ報酬関数で表現することができるかの探索
マルコフ報酬関数で表すことのできないタスクがあることが分かったが、表すことができる場合、
その関数を探すアルゴリズムを考える。
SOAPs POs TOs
一部のみ表現可能
報酬関数デザイン問題(定義)
環境EとタスクTが与えられたときに、タスクTが環境Eで達成されるような報酬関数Rを出力できるか
「報酬関数デザイン問題はどのような環境E、タスクTにおいても多項式時間で解くことができる」
⇔ 「そのような報酬関数が存在するかどうかを多項式時間で解くことができる」
12
[公開情報]
判定アルゴリズム
(タスクTと環境Eに対して)多項式時間で解くことのできるアルゴリズムを開発した。
条件を満たす方策とちょうど1行動だけ異なる方策𝜋𝑓を考える
定常状態における状態の訪問期待値を求める
等式制約を追加
不等式制約を追加
線形計画問題を解く(多項式時間)
解けたらその報酬関数を返す、解けなければ報酬関数なし
(⊥)を返す
13
論文より引用
[公開情報]
実験1
環境の中でSOAPをランダムにサンプリングして、実現可能かどうかの割合を調べた。
不等式制約
等式制約
デフォルトは上図(4状態)
サンプリング回数200回
幅は95%信頼区間
ほぼすべての課題で実現可能な割合が1を下回っており、
シンプルな課題設定の中でさえ、マルコフ報酬関数による表現が難しいことが分かった
14
論文より引用
[公開情報]
実験2
出力された報酬関数によって意図した状態ー行動ペアの学習(Q学習)が進んでいるか
どうかをチェックした。
(左)白黒二つのSOAPのタスクを設定した
(右)タスクを実現するような報酬関数を出力し、その報酬関数での学習結果がタスクを満たすように学習が進んだかどうか
→ 出力した報酬関数によって学習が進んでおり、制約のない方策と比べて意図した行動方針を学習できている
15
論文より引用
[公開情報]
結論
• マルコフ報酬関数の表現可能性を三種類のタスクで調査した
• マルコフ報酬関数では表現できないタスクと環境の組み合わせが存在することを確認した
• タスクがマルコフ報酬関数で表現可能かどうかを判断し、表現可能であればその報酬関数を出力するアルゴ
リズムを構築した
• 理論を実証するような実験を行い、正しいことを裏付けた
• 一方で、以下の制限がかかっており現実のタスクとは異なる
• 有限状態のCMPではない
• デザイナーは環境を正確に知らない
• 報酬は過去の履歴を参照する関数である
• エージェントがどのように状態を表現するかをアリスは知らない
• 単純なx, yのような座標のみであらわされない
16
[公開情報]
Best Partner for innovation, Best Creator for the future.
[公開情報]
References
• DeepMindのプレスページ
https://deepmind.com/research/publications/2021/On-the-Expressivity-of-Markov-Reward
• 論文(OpenReview)
https://openreview.net/forum?id=9DlCh34E1bN
• 動画(NeurIPS)
https://nips.cc/virtual/2021/poster/28669#details
• Announcing the NeurIPS 2021 Award Recipients
https://blog.neurips.cc/2021/11/30/announcing-the-neurips-2021-award-recipients/
• 3. The Reinforcement Learning Problem
http://www.incompleteideas.net/book/ebook/node27.html
• 強化学習とは?(What is Reinforcement Learning?)
http://sysplan.nams.kyushu-u.ac.jp/gen/edu/RL_intro.html
18
[公開情報]
チェス画像のライセンス表記
19
Copyright © Chessvideos.TV
1. Redistributions of source code must retain the above copyright notice, this list of conditions and the following disclaimer.
2. Redistributions in binary form must reproduce the above copyright notice, this list of conditions and the following disclaimer in the documentation and/or
other materials provided with the distribution.
3. Neither the name of The author nor the names of its contributors may be used to endorse or promote products derived from this software without specific
prior written permission.
THIS SOFTWARE IS PROVIDED BY THE AUTHOR AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED
TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE AUTHOR AND
CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED
AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY
WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.

Weitere ähnliche Inhalte

Ähnlich wie 【論文読み会】On the Expressivity of Markov Reward

次世代マーケティング戦略インフォセミナー発表原稿20120607
次世代マーケティング戦略インフォセミナー発表原稿20120607次世代マーケティング戦略インフォセミナー発表原稿20120607
次世代マーケティング戦略インフォセミナー発表原稿20120607
MROC Japan
 
強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫
Masahiro Yasumoto
 
日本ベンチャーにとってのシリコンバレーでのチャレンジと成功へのヒント
日本ベンチャーにとってのシリコンバレーでのチャレンジと成功へのヒント日本ベンチャーにとってのシリコンバレーでのチャレンジと成功へのヒント
日本ベンチャーにとってのシリコンバレーでのチャレンジと成功へのヒント
ブレークスルーパートナーズ 赤羽雄二
 

Ähnlich wie 【論文読み会】On the Expressivity of Markov Reward (20)

次世代マーケティング戦略インフォセミナー発表原稿20120607
次世代マーケティング戦略インフォセミナー発表原稿20120607次世代マーケティング戦略インフォセミナー発表原稿20120607
次世代マーケティング戦略インフォセミナー発表原稿20120607
 
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方
 
強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫
 
物体検出コンペティションOpen Imagesに挑む
物体検出コンペティションOpen Imagesに挑む物体検出コンペティションOpen Imagesに挑む
物体検出コンペティションOpen Imagesに挑む
 
株式会社リブセンス会社説明資料(転職エージェント企業様向け)
株式会社リブセンス会社説明資料(転職エージェント企業様向け)株式会社リブセンス会社説明資料(転職エージェント企業様向け)
株式会社リブセンス会社説明資料(転職エージェント企業様向け)
 
【15-E-7】セキュアな環境でDevOpsを実現する厳選ツール
【15-E-7】セキュアな環境でDevOpsを実現する厳選ツール【15-E-7】セキュアな環境でDevOpsを実現する厳選ツール
【15-E-7】セキュアな環境でDevOpsを実現する厳選ツール
 
『Mobageの大規模データマイニング活用と 意思決定』- #IBIS 2012 -ビジネスと機械学習の接点-
『Mobageの大規模データマイニング活用と 意思決定』- #IBIS 2012 -ビジネスと機械学習の接点- 『Mobageの大規模データマイニング活用と 意思決定』- #IBIS 2012 -ビジネスと機械学習の接点-
『Mobageの大規模データマイニング活用と 意思決定』- #IBIS 2012 -ビジネスと機械学習の接点-
 
継続カイゼン! トライ&エラーから学んだ コミュニケーションと環境づくり
継続カイゼン! トライ&エラーから学んだ コミュニケーションと環境づくり継続カイゼン! トライ&エラーから学んだ コミュニケーションと環境づくり
継続カイゼン! トライ&エラーから学んだ コミュニケーションと環境づくり
 
日本ベンチャーにとってのシリコンバレーでのチャレンジと成功へのヒント
日本ベンチャーにとってのシリコンバレーでのチャレンジと成功へのヒント日本ベンチャーにとってのシリコンバレーでのチャレンジと成功へのヒント
日本ベンチャーにとってのシリコンバレーでのチャレンジと成功へのヒント
 
リーンスタートアップ時代の事業計画とサービス開発、資金調達のあり方
リーンスタートアップ時代の事業計画とサービス開発、資金調達のあり方リーンスタートアップ時代の事業計画とサービス開発、資金調達のあり方
リーンスタートアップ時代の事業計画とサービス開発、資金調達のあり方
 
GPTech_25卒向け紹介資料
GPTech_25卒向け紹介資料GPTech_25卒向け紹介資料
GPTech_25卒向け紹介資料
 
20210616 Microsoft MeshはAzure Remote Renderingの夢を見るか
20210616 Microsoft MeshはAzure Remote Renderingの夢を見るか20210616 Microsoft MeshはAzure Remote Renderingの夢を見るか
20210616 Microsoft MeshはAzure Remote Renderingの夢を見るか
 
「納品のない受託開発」にみるソフトウェア受託開発の未来
「納品のない受託開発」にみるソフトウェア受託開発の未来「納品のない受託開発」にみるソフトウェア受託開発の未来
「納品のない受託開発」にみるソフトウェア受託開発の未来
 
Epics - オープンソース開発にインセンティブ革命を.pdf
Epics - オープンソース開発にインセンティブ革命を.pdfEpics - オープンソース開発にインセンティブ革命を.pdf
Epics - オープンソース開発にインセンティブ革命を.pdf
 
【IMJ】デジタルマーケティング基盤を駆使して『利益を産むサイト』adobe.com(I・CON2014)
【IMJ】デジタルマーケティング基盤を駆使して『利益を産むサイト』adobe.com(I・CON2014)【IMJ】デジタルマーケティング基盤を駆使して『利益を産むサイト』adobe.com(I・CON2014)
【IMJ】デジタルマーケティング基盤を駆使して『利益を産むサイト』adobe.com(I・CON2014)
 
Scrum"再"入門
Scrum"再"入門Scrum"再"入門
Scrum"再"入門
 
Springのプログラムモデルと動く仕様~テスト編~
Springのプログラムモデルと動く仕様~テスト編~Springのプログラムモデルと動く仕様~テスト編~
Springのプログラムモデルと動く仕様~テスト編~
 
CIが分からない PE(SETエンジニア)1年生が VRT(ビジュアルリグレッションテスト)をハードル低くCIを運用した
CIが分からないPE(SETエンジニア)1年生がVRT(ビジュアルリグレッションテスト)をハードル低くCIを運用したCIが分からないPE(SETエンジニア)1年生がVRT(ビジュアルリグレッションテスト)をハードル低くCIを運用した
CIが分からない PE(SETエンジニア)1年生が VRT(ビジュアルリグレッションテスト)をハードル低くCIを運用した
 
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルリクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
 
アジャイル基礎再考
アジャイル基礎再考アジャイル基礎再考
アジャイル基礎再考
 

Mehr von ARISE analytics

Mehr von ARISE analytics (20)

【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
 
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
 
めんどうな環境構築とはおさらば!Dockerの概要と使い方
めんどうな環境構築とはおさらば!Dockerの概要と使い方めんどうな環境構築とはおさらば!Dockerの概要と使い方
めんどうな環境構築とはおさらば!Dockerの概要と使い方
 
【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​
 
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
 
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
 
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
 
教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討
 
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
 
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
 
【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx
 
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
 
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
 
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
 
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
 
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
 
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
 
Counterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイCounterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイ
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 
【論文読み会】Self-Attention Generative Adversarial Networks
【論文読み会】Self-Attention Generative  Adversarial Networks【論文読み会】Self-Attention Generative  Adversarial Networks
【論文読み会】Self-Attention Generative Adversarial Networks
 

【論文読み会】On the Expressivity of Markov Reward

Hinweis der Redaktion

  1. それぞれの時刻でSからAのマッピングを学習する エージェントは時刻tにおける状態を受け取り、その状態に対応した行動aを行う。その1時刻後に報酬rと次の状態sを受け取り、また行動を行う エージェントの目的は長期における累積報酬を最大化することにある 時刻はタイムステップやステージであってもいいし、 actionはモーターの回転数の信号などの低次のものでも、東大に行くために今日の朝ジャムパンを買うのような高次のものでもいい (例示) このAgentは累積報酬の最大化を目指すようになるため、報酬関数を適切に設定することが大事になる。この際に報酬関数は本当に達成したい物事を達成したときに報酬を与えるべきで、どのように達成したか、例えばチェスをプレイする際に盤面の真ん中を制圧したら+などのことをすると、本当に達成したいことを放置しながらSubゴールを達成してしまう
  2. それぞれの時刻でSからAのマッピングを学習する エージェントは時刻tにおける状態を受け取り、その状態に対応した行動aを行う。その1時刻後に報酬rと次の状態sを受け取り、また行動を行う エージェントの目的は長期における累積報酬を最大化することにある 時刻はタイムステップやステージであってもいいし、 actionはモーターの回転数の信号などの低次のものでも、東大に行くために今日の朝ジャムパンを買うのような高次のものでもいい (例示) このAgentは累積報酬の最大化を目指すようになるため、報酬関数を適切に設定することが大事になる。この際に報酬関数は本当に達成したい物事を達成したときに報酬を与えるべきで、どのように達成したか、例えばチェスをプレイする際に盤面の真ん中を制圧したら+などのことをすると、本当に達成したいことを放置しながらSubゴールを達成してしまう
  3. Rewardを計算することが十分にタスクを表現できるということが言えているという仮説があるので、これを体系的に調査することから始めている