【論文読み会】On the Expressivity of Markov Reward

ARISE analytics
ARISE analyticsARISE analytics
[公開情報]
On the Expressivity of
Markov Reward
Marketing Solution Division
岩野 夏樹
2022/03/10
[公開情報]
論文の情報
DeepMindの論文。どのような状態でMarkov Rewardが機能するかを明確に・注意深
く調査した点が評価された。また、今後の解析の基礎ともなりそう。
DeepMindのプレスページもわかりやすい
1
左は https://david-abel.github.io/papers/neurips2021_oteomr.pdf より引用。
右は On the Expressivity of Markov Reward (deepmind.com) (以下プレスページ)より引用。
[公開情報]
強化学習について
強化学習は、環境との相互作用を通じて累積報酬の最大化を目指すフレームワークであ
る。
Agentが変更不能であるものはすべて環境
化学プラントの例
Action:瞬間瞬間における目標温度や目標撹拌速度
Reward:生成された物質の量
商品の搬入ロボットの例
Action:モーターの回転速度
Reward:配置できた際に+1,常時軽微なマイナス報酬
オフィス内の空き容器回収ロボットの例
Action:充電に戻るか、回収を継続するか、誰かが持ってくるのを待機
するかの高次判断、回収の場合はモーターの動作
Reward:回収出来たらプラス、バッテリー切れなら大きなマイナス
action probability
𝜋𝑡 𝑠, 𝑎
2
右の例は 3.1 The Agent-Environment Interface (incompleteideas.net) より引用
Agent
Environ
ment
Action
𝑎𝑡
Reward
𝑟𝑡
State
𝑠𝑡
𝑟𝑡+1
𝑠𝑡+1
[公開情報]
論文について
Reward Hypothesisについての体系的な解析を行い、エージェントの行動に対する制
約を加えることができるかどうかを調査した。
...我々が目標や目的と言っているものはすべて、受け取ったスカラー信号の
累積和の期待値(Reward)の最大化であると考えるのが妥当である。
SUTTON (2004), LITTMAN (2017)
task solution
3
画像は論文より引用
[公開情報]
タスクとは何を指すのか
目標や目的として設定される、課題の解き方をタスクとする。
TaskQ:
課題の解き方をAliceがどう考えているか?
ExpressionQ:
Bobにどのように解いてほしいかを伝えられるか?
Reward Hypothesis:
タスクTと環境Eが与えられたときに、環境Eの中でタスク
Tを解くことのできる報酬関数が存在する
どのようなタスクを今回は設定するか?
4
画像は論文より引用。環境Eとしては報酬関数を含まないMarkov Decision Process
(Controlled Markov Process, E ≔ 𝒮, 𝒜, 𝑇, 𝛾, 𝑠0 )を考える。
[公開情報]
“タスク”とは行動の優先順位のこと
※𝑉𝜋 𝑠 :方策𝜋の下で状態𝑠から遷移して得られる行動の利得、 G 𝜏, 𝑠 :状態𝑠から開始するNステップの経路𝜏の累積割引利得
画像はプレスページより引用
ある行動がほかの行動より優れているかどうかを表現する際に3種類のタスクを考える。
5
[公開情報]
状態とマルコフ性
過去の情報を保持した状態を考えることができれば、過去の経路に無関係に現在の状態
から将来の行動を決定できる。未来の状態が現在の状態にのみ依存することをマルコフ性
と呼ぶ。
︙
盤面
A
盤面
B
盤面
C
︙
チェス盤は未来の状態を考慮するために必要な過去の情報を要約して保持しているといえる
Pr 𝑠𝑡+1 = 𝑠′
𝑠𝑡, 𝑠𝑡−1, … , 𝑠0 = Pr 𝑠𝑡+1 = 𝑠′
|𝑠𝑡
6
盤面はYour Generated Chess Diagram (chessvideos.tv)で生成
[公開情報]
マルコフ報酬関数(Markov Reward Function)
現在と1ステップ未来の情報を利用して報酬を決定する報酬関数がマルコフ報酬関数。
𝑟𝑡 = 𝑅(𝑠)
or 𝑟𝑡 = 𝑅(𝑠, 𝑎)
or 𝑟𝑡 = 𝑅 (𝑠, 𝑎, 𝑠′)
𝐺𝑡 =
𝑘=0
∞
𝛾𝑘𝑟𝑡+𝑘 , 0 ≤ 𝛾 ≤ 1
そして報酬関数は状態、状態ー行動、状態ー行動ー状態を入力として報酬を計算する
行動の結果得られる利得(Return)はそれ以後の行動によって得られる報酬に割引率𝛾を乗じたものの総和
RLではこのReturnを最大化することを目的に各状態における行動を学習していく
Pr 𝑠𝑡+1 = 𝑠′
, 𝑟𝑡+1 = 𝑟 𝑠𝑡, 𝑎𝑡, 𝑟𝑡, 𝑠𝑡−1, … , 𝑟1, 𝑠0, 𝑎0 = Pr 𝑠𝑡+1 = 𝑠′
, 𝑟𝑡+1 = 𝑟|𝑠𝑡, 𝑎𝑡
今回の問題設定では報酬と次の状態は過去の1ステップのみに依存するとする
7
[公開情報]
Reward Hypothesis:
SOAP, PO, TOからなるタスクTと環境Eが与えられたときに、環境E
の中でタスクTを解くことのできるマルコフ報酬関数が存在する
“タスク”とは何か
Rewardは欲しい行動・結果を表現できるが、そもそもタスクとは何を指すのか?
TaskQ:
タスクの解き方をAliceがどう考えているか?
ExpressionQ:
Bobにどのように解いてほしいかを伝えられるか?
Reward Hypothesis:
タスクTと環境Eが与えられたときに、環境Eの中でタスクTを
解くことのできるマルコフ報酬関数が存在する
タスクとはSOAP, PO, TOのこと
8
[公開情報]
“タスク”とは何か
Rewardは欲しい行動・結果を表現できるが、そもそもタスクとは何を指すのか?
TaskQ:
タスクの解き方をAliceがどう考えているか?
ExpressionQ:
Bobにどのように解いてほしいかを伝えられるか?
Reward Hypothesis:
タスクTと環境Eが与えられたときに、環境Eの中でタスクTを
解くことのできるマルコフ報酬関数が存在する
タスクとはSOAP, PO, TOのこと
Reward Hypothesis:
SOAP, PO, TOからなるタスクTと環境Eが与えられたときに、環境E
の中でタスクTを解くことのできるマルコフ報酬関数が存在する
9
[公開情報]
タスクの表現限界
表現することのできないSOAPのタスクが存在する。
SOAP=“常に同じ方向に移動せよ”
𝑠𝑡を(𝑥, 𝑦)のペアとすると、
Π𝐺 = 𝜋→, 𝜋←, … と定義することで実現できるが、
マルコフ報酬関数は履歴を参照できないので、これを表現できない
𝑅(𝑠, 𝑎, 𝑠′)
10
発表動画 On the Expressivity of Markov Reward (nips.cc) より引用
[公開情報]
タスクの表現限界
もっと簡単な例でも表現できないタスクが存在することがわかる。
S0 𝑆1
𝑎1
𝑎1
𝑎2
𝑎2
→Π𝐺 = 𝜋21, 𝜋12 となるような報酬を決めると、 𝑆0, 𝑎1, 𝑆1 , 𝑆0, 𝑎2, 𝑆1 , 𝑆1, 𝑎1, 𝑆0 , 𝑆1, 𝑎2, 𝑆0
のすべての遷移が最適になるので、𝜋11や𝜋22も最適になってしまう
11
[公開情報]
タスクをマルコフ報酬関数で表現することができるかの探索
マルコフ報酬関数で表すことのできないタスクがあることが分かったが、表すことができる場合、
その関数を探すアルゴリズムを考える。
SOAPs POs TOs
一部のみ表現可能
報酬関数デザイン問題(定義)
環境EとタスクTが与えられたときに、タスクTが環境Eで達成されるような報酬関数Rを出力できるか
「報酬関数デザイン問題はどのような環境E、タスクTにおいても多項式時間で解くことができる」
⇔ 「そのような報酬関数が存在するかどうかを多項式時間で解くことができる」
12
[公開情報]
判定アルゴリズム
(タスクTと環境Eに対して)多項式時間で解くことのできるアルゴリズムを開発した。
条件を満たす方策とちょうど1行動だけ異なる方策𝜋𝑓を考える
定常状態における状態の訪問期待値を求める
等式制約を追加
不等式制約を追加
線形計画問題を解く(多項式時間)
解けたらその報酬関数を返す、解けなければ報酬関数なし
(⊥)を返す
13
論文より引用
[公開情報]
実験1
環境の中でSOAPをランダムにサンプリングして、実現可能かどうかの割合を調べた。
不等式制約
等式制約
デフォルトは上図(4状態)
サンプリング回数200回
幅は95%信頼区間
ほぼすべての課題で実現可能な割合が1を下回っており、
シンプルな課題設定の中でさえ、マルコフ報酬関数による表現が難しいことが分かった
14
論文より引用
[公開情報]
実験2
出力された報酬関数によって意図した状態ー行動ペアの学習(Q学習)が進んでいるか
どうかをチェックした。
(左)白黒二つのSOAPのタスクを設定した
(右)タスクを実現するような報酬関数を出力し、その報酬関数での学習結果がタスクを満たすように学習が進んだかどうか
→ 出力した報酬関数によって学習が進んでおり、制約のない方策と比べて意図した行動方針を学習できている
15
論文より引用
[公開情報]
結論
• マルコフ報酬関数の表現可能性を三種類のタスクで調査した
• マルコフ報酬関数では表現できないタスクと環境の組み合わせが存在することを確認した
• タスクがマルコフ報酬関数で表現可能かどうかを判断し、表現可能であればその報酬関数を出力するアルゴ
リズムを構築した
• 理論を実証するような実験を行い、正しいことを裏付けた
• 一方で、以下の制限がかかっており現実のタスクとは異なる
• 有限状態のCMPではない
• デザイナーは環境を正確に知らない
• 報酬は過去の履歴を参照する関数である
• エージェントがどのように状態を表現するかをアリスは知らない
• 単純なx, yのような座標のみであらわされない
16
[公開情報]
Best Partner for innovation, Best Creator for the future.
[公開情報]
References
• DeepMindのプレスページ
https://deepmind.com/research/publications/2021/On-the-Expressivity-of-Markov-Reward
• 論文(OpenReview)
https://openreview.net/forum?id=9DlCh34E1bN
• 動画(NeurIPS)
https://nips.cc/virtual/2021/poster/28669#details
• Announcing the NeurIPS 2021 Award Recipients
https://blog.neurips.cc/2021/11/30/announcing-the-neurips-2021-award-recipients/
• 3. The Reinforcement Learning Problem
http://www.incompleteideas.net/book/ebook/node27.html
• 強化学習とは?(What is Reinforcement Learning?)
http://sysplan.nams.kyushu-u.ac.jp/gen/edu/RL_intro.html
18
[公開情報]
チェス画像のライセンス表記
19
Copyright © Chessvideos.TV
1. Redistributions of source code must retain the above copyright notice, this list of conditions and the following disclaimer.
2. Redistributions in binary form must reproduce the above copyright notice, this list of conditions and the following disclaimer in the documentation and/or
other materials provided with the distribution.
3. Neither the name of The author nor the names of its contributors may be used to endorse or promote products derived from this software without specific
prior written permission.
THIS SOFTWARE IS PROVIDED BY THE AUTHOR AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED
TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE AUTHOR AND
CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED
AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY
WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
1 von 20

Recomendados

Exp int toc von
Exp int tocExp int toc
Exp int tocSwapnil Dhavan
557 views6 Folien
デブサミ2013【15-C-8】セキュリティ要求仕様モデルプランで日本は変わるか?(百瀬昌幸氏) von
デブサミ2013【15-C-8】セキュリティ要求仕様モデルプランで日本は変わるか?(百瀬昌幸氏)デブサミ2013【15-C-8】セキュリティ要求仕様モデルプランで日本は変わるか?(百瀬昌幸氏)
デブサミ2013【15-C-8】セキュリティ要求仕様モデルプランで日本は変わるか?(百瀬昌幸氏)Developers Summit
2.6K views27 Folien
20100624 サービス説明資料 public von
20100624 サービス説明資料 public20100624 サービス説明資料 public
20100624 サービス説明資料 publicMembers_corp
2.6K views49 Folien
Spring Fest 2017 「エンタープライズで利用するSpring Boot」#jsug #sf_h1 von
Spring Fest 2017 「エンタープライズで利用するSpring Boot」#jsug #sf_h1Spring Fest 2017 「エンタープライズで利用するSpring Boot」#jsug #sf_h1
Spring Fest 2017 「エンタープライズで利用するSpring Boot」#jsug #sf_h1Takeshi Hirosue
15.1K views64 Folien
RICOH THETA x IoT デベロッパーズ コンテスト 第2回クラウドAPIセミナー von
RICOH THETA x IoT デベロッパーズ コンテスト 第2回クラウドAPIセミナーRICOH THETA x IoT デベロッパーズ コンテスト 第2回クラウドAPIセミナー
RICOH THETA x IoT デベロッパーズ コンテスト 第2回クラウドAPIセミナーcontest-theta360
1.7K views67 Folien
Shinise maker minade_agile_2021_scrum_festo_saka von
Shinise maker minade_agile_2021_scrum_festo_sakaShinise maker minade_agile_2021_scrum_festo_saka
Shinise maker minade_agile_2021_scrum_festo_sakaKei Nakahara
769 views100 Folien

Más contenido relacionado

Similar a 【論文読み会】On the Expressivity of Markov Reward

Coldfusionを活かすシステム企画をリーンスタートアップに学ぶ von
Coldfusionを活かすシステム企画をリーンスタートアップに学ぶColdfusionを活かすシステム企画をリーンスタートアップに学ぶ
Coldfusionを活かすシステム企画をリーンスタートアップに学ぶmasashi takehara
1.8K views65 Folien
次世代マーケティング戦略インフォセミナー発表原稿20120607 von
次世代マーケティング戦略インフォセミナー発表原稿20120607次世代マーケティング戦略インフォセミナー発表原稿20120607
次世代マーケティング戦略インフォセミナー発表原稿20120607MROC Japan
1.2K views82 Folien
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方 von
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方Hisahiko Shiraishi
3.1K views45 Folien
強化学習の実適用に向けた課題と工夫 von
強化学習の実適用に向けた課題と工夫強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫Masahiro Yasumoto
726 views60 Folien
物体検出コンペティションOpen Imagesに挑む von
物体検出コンペティションOpen Imagesに挑む物体検出コンペティションOpen Imagesに挑む
物体検出コンペティションOpen Imagesに挑むHiroto Honda
2.4K views38 Folien
会社紹介資料 von
会社紹介資料会社紹介資料
会社紹介資料GPTech
191 views36 Folien

Similar a 【論文読み会】On the Expressivity of Markov Reward(20)

Coldfusionを活かすシステム企画をリーンスタートアップに学ぶ von masashi takehara
Coldfusionを活かすシステム企画をリーンスタートアップに学ぶColdfusionを活かすシステム企画をリーンスタートアップに学ぶ
Coldfusionを活かすシステム企画をリーンスタートアップに学ぶ
masashi takehara1.8K views
次世代マーケティング戦略インフォセミナー発表原稿20120607 von MROC Japan
次世代マーケティング戦略インフォセミナー発表原稿20120607次世代マーケティング戦略インフォセミナー発表原稿20120607
次世代マーケティング戦略インフォセミナー発表原稿20120607
MROC Japan1.2K views
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方 von Hisahiko Shiraishi
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方
ゲーム事業×データ分析 ドリコムにおける組織と仕事の組み立て方
Hisahiko Shiraishi3.1K views
強化学習の実適用に向けた課題と工夫 von Masahiro Yasumoto
強化学習の実適用に向けた課題と工夫強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫
Masahiro Yasumoto726 views
物体検出コンペティションOpen Imagesに挑む von Hiroto Honda
物体検出コンペティションOpen Imagesに挑む物体検出コンペティションOpen Imagesに挑む
物体検出コンペティションOpen Imagesに挑む
Hiroto Honda2.4K views
会社紹介資料 von GPTech
会社紹介資料会社紹介資料
会社紹介資料
GPTech191 views
株式会社リブセンス会社説明資料(転職エージェント企業様向け) von Taku Unno
株式会社リブセンス会社説明資料(転職エージェント企業様向け)株式会社リブセンス会社説明資料(転職エージェント企業様向け)
株式会社リブセンス会社説明資料(転職エージェント企業様向け)
Taku Unno408 views
【15-E-7】セキュアな環境でDevOpsを実現する厳選ツール von Developers Summit
【15-E-7】セキュアな環境でDevOpsを実現する厳選ツール【15-E-7】セキュアな環境でDevOpsを実現する厳選ツール
【15-E-7】セキュアな環境でDevOpsを実現する厳選ツール
Developers Summit1.8K views
『Mobageの大規模データマイニング活用と 意思決定』- #IBIS 2012 -ビジネスと機械学習の接点- von Koichi Hamada
『Mobageの大規模データマイニング活用と 意思決定』- #IBIS 2012 -ビジネスと機械学習の接点- 『Mobageの大規模データマイニング活用と 意思決定』- #IBIS 2012 -ビジネスと機械学習の接点-
『Mobageの大規模データマイニング活用と 意思決定』- #IBIS 2012 -ビジネスと機械学習の接点-
Koichi Hamada7.9K views
継続カイゼン! トライ&エラーから学んだ コミュニケーションと環境づくり von TORUINOKO1
継続カイゼン! トライ&エラーから学んだ コミュニケーションと環境づくり継続カイゼン! トライ&エラーから学んだ コミュニケーションと環境づくり
継続カイゼン! トライ&エラーから学んだ コミュニケーションと環境づくり
TORUINOKO1147 views
20210616 Microsoft MeshはAzure Remote Renderingの夢を見るか von Shingo Mori
20210616 Microsoft MeshはAzure Remote Renderingの夢を見るか20210616 Microsoft MeshはAzure Remote Renderingの夢を見るか
20210616 Microsoft MeshはAzure Remote Renderingの夢を見るか
Shingo Mori659 views
「納品のない受託開発」にみるソフトウェア受託開発の未来 von Yoshihito Kuranuki
「納品のない受託開発」にみるソフトウェア受託開発の未来「納品のない受託開発」にみるソフトウェア受託開発の未来
「納品のない受託開発」にみるソフトウェア受託開発の未来
Yoshihito Kuranuki3.1K views
Epics - オープンソース開発にインセンティブ革命を.pdf von Epics DAO
Epics - オープンソース開発にインセンティブ革命を.pdfEpics - オープンソース開発にインセンティブ革命を.pdf
Epics - オープンソース開発にインセンティブ革命を.pdf
Epics DAO11 views
【IMJ】デジタルマーケティング基盤を駆使して『利益を産むサイト』adobe.com(I・CON2014) von IMJ Corporation
【IMJ】デジタルマーケティング基盤を駆使して『利益を産むサイト』adobe.com(I・CON2014)【IMJ】デジタルマーケティング基盤を駆使して『利益を産むサイト』adobe.com(I・CON2014)
【IMJ】デジタルマーケティング基盤を駆使して『利益を産むサイト』adobe.com(I・CON2014)
IMJ Corporation3.3K views
Springのプログラムモデルと動く仕様~テスト編~ von terahide
Springのプログラムモデルと動く仕様~テスト編~Springのプログラムモデルと動く仕様~テスト編~
Springのプログラムモデルと動く仕様~テスト編~
terahide2.6K views
CIが分からない PE(SETエンジニア)1年生が VRT(ビジュアルリグレッションテスト)をハードル低くCIを運用した von ssuser0be501
CIが分からないPE(SETエンジニア)1年生がVRT(ビジュアルリグレッションテスト)をハードル低くCIを運用したCIが分からないPE(SETエンジニア)1年生がVRT(ビジュアルリグレッションテスト)をハードル低くCIを運用した
CIが分からない PE(SETエンジニア)1年生が VRT(ビジュアルリグレッションテスト)をハードル低くCIを運用した
ssuser0be5011.8K views
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル von Recruit Technologies
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルリクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル

Más de ARISE analytics

【論文レベルで理解しよう!】​ 欠測値処理編​ von
【論文レベルで理解しよう!】​ 欠測値処理編​【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​ARISE analytics
83 views19 Folien
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​ von
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​ARISE analytics
112 views20 Folien
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho... von
【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...ARISE analytics
183 views32 Folien
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (... von
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...ARISE analytics
122 views24 Folien
教師なしGNNによるIoTデバイスの異常通信検知の検討 von
教師なしGNNによるIoTデバイスの異常通信検知の検討教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討ARISE analytics
1K views21 Folien
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri... von
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...ARISE analytics
574 views18 Folien

Más de ARISE analytics(18)

【論文レベルで理解しよう!】​ 欠測値処理編​ von ARISE analytics
【論文レベルで理解しよう!】​ 欠測値処理編​【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​
ARISE analytics83 views
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​ von ARISE analytics
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
ARISE analytics112 views
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho... von ARISE analytics
【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
ARISE analytics183 views
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (... von ARISE analytics
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
ARISE analytics122 views
教師なしGNNによるIoTデバイスの異常通信検知の検討 von ARISE analytics
教師なしGNNによるIoTデバイスの異常通信検知の検討教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討
ARISE analytics1K views
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri... von ARISE analytics
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
ARISE analytics574 views
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D... von ARISE analytics
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
ARISE analytics464 views
【論文読み会】Autoregressive Diffusion Models.pptx von ARISE analytics
【論文読み会】Autoregressive Diffusion Models.pptx【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx
ARISE analytics5.3K views
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx von ARISE analytics
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
ARISE analytics552 views
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx von ARISE analytics
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
ARISE analytics494 views
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice von ARISE analytics
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
ARISE analytics698 views
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3) von ARISE analytics
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
ARISE analytics2.7K views
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive... von ARISE analytics
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
ARISE analytics698 views
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds von ARISE analytics
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
ARISE analytics699 views
Counterfaual Machine Learning(CFML)のサーベイ von ARISE analytics
Counterfaual Machine Learning(CFML)のサーベイCounterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイ
ARISE analytics29.7K views
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features von ARISE analytics
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
ARISE analytics7.8K views
【論文読み会】Self-Attention Generative Adversarial Networks von ARISE analytics
【論文読み会】Self-Attention Generative  Adversarial Networks【論文読み会】Self-Attention Generative  Adversarial Networks
【論文読み会】Self-Attention Generative Adversarial Networks
ARISE analytics5.3K views
【論文読み会】Universal Language Model Fine-tuning for Text Classification von ARISE analytics
【論文読み会】Universal Language Model Fine-tuning for Text Classification【論文読み会】Universal Language Model Fine-tuning for Text Classification
【論文読み会】Universal Language Model Fine-tuning for Text Classification
ARISE analytics1.9K views

【論文読み会】On the Expressivity of Markov Reward

Hinweis der Redaktion

  1. それぞれの時刻でSからAのマッピングを学習する エージェントは時刻tにおける状態を受け取り、その状態に対応した行動aを行う。その1時刻後に報酬rと次の状態sを受け取り、また行動を行う エージェントの目的は長期における累積報酬を最大化することにある 時刻はタイムステップやステージであってもいいし、 actionはモーターの回転数の信号などの低次のものでも、東大に行くために今日の朝ジャムパンを買うのような高次のものでもいい (例示) このAgentは累積報酬の最大化を目指すようになるため、報酬関数を適切に設定することが大事になる。この際に報酬関数は本当に達成したい物事を達成したときに報酬を与えるべきで、どのように達成したか、例えばチェスをプレイする際に盤面の真ん中を制圧したら+などのことをすると、本当に達成したいことを放置しながらSubゴールを達成してしまう
  2. それぞれの時刻でSからAのマッピングを学習する エージェントは時刻tにおける状態を受け取り、その状態に対応した行動aを行う。その1時刻後に報酬rと次の状態sを受け取り、また行動を行う エージェントの目的は長期における累積報酬を最大化することにある 時刻はタイムステップやステージであってもいいし、 actionはモーターの回転数の信号などの低次のものでも、東大に行くために今日の朝ジャムパンを買うのような高次のものでもいい (例示) このAgentは累積報酬の最大化を目指すようになるため、報酬関数を適切に設定することが大事になる。この際に報酬関数は本当に達成したい物事を達成したときに報酬を与えるべきで、どのように達成したか、例えばチェスをプレイする際に盤面の真ん中を制圧したら+などのことをすると、本当に達成したいことを放置しながらSubゴールを達成してしまう
  3. Rewardを計算することが十分にタスクを表現できるということが言えているという仮説があるので、これを体系的に調査することから始めている