【論文読み会】On the Expressivity of Markov Reward

[公開情報]
On the Expressivity of
Markov Reward
Marketing Solution Division
岩野夏樹
2022/03/10

[公開情報]
論文の情報
DeepMindの論文。どのような状態でMarkov Rewardが機能するかを明確に・注意深
く調査した点が評価された。また、今後の解析の基礎ともなりそう。
DeepMindのプレスページもわかりやすい
1
左は https://david-abel.github.io/papers/neurips2021_oteomr.pdf より引用。
右は On the Expressivity of Markov Reward (deepmind.com) (以下プレスページ)より引用。

[公開情報]
強化学習について
強化学習は、環境との相互作用を通じて累積報酬の最大化を目指すフレームワークであ
る。
Agentが変更不能であるものはすべて環境
化学プラントの例
Action：瞬間瞬間における目標温度や目標撹拌速度
Reward：生成された物質の量
商品の搬入ロボットの例
Action：モーターの回転速度
Reward：配置できた際に＋１，常時軽微なマイナス報酬
オフィス内の空き容器回収ロボットの例
Action：充電に戻るか、回収を継続するか、誰かが持ってくるのを待機
するかの高次判断、回収の場合はモーターの動作
Reward：回収出来たらプラス、バッテリー切れなら大きなマイナス
action probability
𝜋𝑡 𝑠, 𝑎
2
右の例は 3.1 The Agent-Environment Interface (incompleteideas.net) より引用
Agent
Environ
ment
Action
𝑎𝑡
Reward
𝑟𝑡
State
𝑠𝑡
𝑟𝑡+1
𝑠𝑡+1

[公開情報]
論文について
Reward Hypothesisについての体系的な解析を行い、エージェントの行動に対する制
約を加えることができるかどうかを調査した。
...我々が目標や目的と言っているものはすべて、受け取ったスカラー信号の
累積和の期待値（Reward）の最大化であると考えるのが妥当である。
SUTTON (2004), LITTMAN (2017)
task solution
3
画像は論文より引用

[公開情報]
タスクとは何を指すのか
目標や目的として設定される、課題の解き方をタスクとする。
TaskQ:
課題の解き方をAliceがどう考えているか？
ExpressionQ:
Bobにどのように解いてほしいかを伝えられるか？
Reward Hypothesis：
タスクTと環境Eが与えられたときに、環境Eの中でタスク
Tを解くことのできる報酬関数が存在する
どのようなタスクを今回は設定するか？
4
画像は論文より引用。環境Eとしては報酬関数を含まないMarkov Decision Process
（Controlled Markov Process, E ≔ 𝒮, 𝒜, 𝑇, 𝛾, 𝑠0 ）を考える。

[公開情報]
“タスク”とは行動の優先順位のこと
※𝑉𝜋 𝑠 ：方策𝜋の下で状態𝑠から遷移して得られる行動の利得、 G 𝜏, 𝑠 :状態𝑠から開始するNステップの経路𝜏の累積割引利得
画像はプレスページより引用
ある行動がほかの行動より優れているかどうかを表現する際に3種類のタスクを考える。
5

[公開情報]
状態とマルコフ性
過去の情報を保持した状態を考えることができれば、過去の経路に無関係に現在の状態
から将来の行動を決定できる。未来の状態が現在の状態にのみ依存することをマルコフ性
と呼ぶ。
︙
盤面
A
盤面
B
盤面
C
︙
チェス盤は未来の状態を考慮するために必要な過去の情報を要約して保持しているといえる
Pr 𝑠𝑡+1 = 𝑠′
𝑠𝑡, 𝑠𝑡−1, … , 𝑠0 = Pr 𝑠𝑡+1 = 𝑠′
|𝑠𝑡
6
盤面はYour Generated Chess Diagram (chessvideos.tv)で生成

[公開情報]
マルコフ報酬関数（Markov Reward Function）
現在と1ステップ未来の情報を利用して報酬を決定する報酬関数がマルコフ報酬関数。
𝑟𝑡 = 𝑅(𝑠)
or 𝑟𝑡 = 𝑅(𝑠, 𝑎)
or 𝑟𝑡 = 𝑅 (𝑠, 𝑎, 𝑠′)
𝐺𝑡 =
𝑘=0
∞
𝛾𝑘𝑟𝑡+𝑘 , 0 ≤ 𝛾 ≤ 1
そして報酬関数は状態、状態ー行動、状態ー行動ー状態を入力として報酬を計算する
行動の結果得られる利得（Return）はそれ以後の行動によって得られる報酬に割引率𝛾を乗じたものの総和
RLではこのReturnを最大化することを目的に各状態における行動を学習していく
Pr 𝑠𝑡+1 = 𝑠′
, 𝑟𝑡+1 = 𝑟 𝑠𝑡, 𝑎𝑡, 𝑟𝑡, 𝑠𝑡−1, … , 𝑟1, 𝑠0, 𝑎0 = Pr 𝑠𝑡+1 = 𝑠′
, 𝑟𝑡+1 = 𝑟|𝑠𝑡, 𝑎𝑡
今回の問題設定では報酬と次の状態は過去の1ステップのみに依存するとする
7

[公開情報]
SOAP, PO, TOからなるタスクTと環境Eが与えられたときに、環境E
の中でタスクTを解くことのできるマルコフ報酬関数が存在する
“タスク”とは何か
Rewardは欲しい行動・結果を表現できるが、そもそもタスクとは何を指すのか？
TaskQ:
タスクの解き方をAliceがどう考えているか？
ExpressionQ:
タスクTと環境Eが与えられたときに、環境Eの中でタスクTを
解くことのできるマルコフ報酬関数が存在する
タスクとはSOAP, PO, TOのこと
8

[公開情報]
“タスク”とは何か
Rewardは欲しい行動・結果を表現できるが、そもそもタスクとは何を指すのか？
TaskQ:
タスクの解き方をAliceがどう考えているか？
ExpressionQ:
タスクTと環境Eが与えられたときに、環境Eの中でタスクTを
解くことのできるマルコフ報酬関数が存在する
タスクとはSOAP, PO, TOのこと
SOAP, PO, TOからなるタスクTと環境Eが与えられたときに、環境E
の中でタスクTを解くことのできるマルコフ報酬関数が存在する
9

[公開情報]
タスクの表現限界
表現することのできないSOAPのタスクが存在する。
SOAP＝“常に同じ方向に移動せよ”
𝑠𝑡を(𝑥, 𝑦)のペアとすると、
Π𝐺 = 𝜋→, 𝜋←, … と定義することで実現できるが、
マルコフ報酬関数は履歴を参照できないので、これを表現できない
𝑅(𝑠, 𝑎, 𝑠′)
10
発表動画 On the Expressivity of Markov Reward (nips.cc) より引用

[公開情報]
タスクの表現限界
もっと簡単な例でも表現できないタスクが存在することがわかる。
S0 𝑆1
𝑎1
𝑎1
𝑎2
𝑎2
→Π𝐺 = 𝜋21, 𝜋12 となるような報酬を決めると、 𝑆0, 𝑎1, 𝑆1 , 𝑆0, 𝑎2, 𝑆1 , 𝑆1, 𝑎1, 𝑆0 , 𝑆1, 𝑎2, 𝑆0
のすべての遷移が最適になるので、𝜋11や𝜋22も最適になってしまう
11

[公開情報]
タスクをマルコフ報酬関数で表現することができるかの探索
マルコフ報酬関数で表すことのできないタスクがあることが分かったが、表すことができる場合、
その関数を探すアルゴリズムを考える。
SOAPs POs TOs
一部のみ表現可能
報酬関数デザイン問題（定義）
環境EとタスクTが与えられたときに、タスクTが環境Eで達成されるような報酬関数Rを出力できるか
「報酬関数デザイン問題はどのような環境E、タスクTにおいても多項式時間で解くことができる」
⇔ 「そのような報酬関数が存在するかどうかを多項式時間で解くことができる」
12

[公開情報]
判定アルゴリズム
（タスクTと環境Eに対して）多項式時間で解くことのできるアルゴリズムを開発した。
条件を満たす方策とちょうど1行動だけ異なる方策𝜋𝑓を考える
定常状態における状態の訪問期待値を求める
等式制約を追加
不等式制約を追加
線形計画問題を解く（多項式時間）
解けたらその報酬関数を返す、解けなければ報酬関数なし
（⊥）を返す
13
論文より引用

[公開情報]
実験1
環境の中でSOAPをランダムにサンプリングして、実現可能かどうかの割合を調べた。
不等式制約
等式制約
デフォルトは上図（4状態）
サンプリング回数200回
幅は95％信頼区間
ほぼすべての課題で実現可能な割合が1を下回っており、
シンプルな課題設定の中でさえ、マルコフ報酬関数による表現が難しいことが分かった
14
論文より引用

[公開情報]
実験2
出力された報酬関数によって意図した状態ー行動ペアの学習（Q学習）が進んでいるか
どうかをチェックした。
（左）白黒二つのSOAPのタスクを設定した
（右）タスクを実現するような報酬関数を出力し、その報酬関数での学習結果がタスクを満たすように学習が進んだかどうか
→ 出力した報酬関数によって学習が進んでおり、制約のない方策と比べて意図した行動方針を学習できている
15
論文より引用

[公開情報]
結論
• マルコフ報酬関数の表現可能性を三種類のタスクで調査した
• マルコフ報酬関数では表現できないタスクと環境の組み合わせが存在することを確認した
• タスクがマルコフ報酬関数で表現可能かどうかを判断し、表現可能であればその報酬関数を出力するアルゴ
リズムを構築した
• 理論を実証するような実験を行い、正しいことを裏付けた
• 一方で、以下の制限がかかっており現実のタスクとは異なる
• 有限状態のCMPではない
• デザイナーは環境を正確に知らない
• 報酬は過去の履歴を参照する関数である
• エージェントがどのように状態を表現するかをアリスは知らない
• 単純なx, yのような座標のみであらわされない
16

[公開情報]
Best Partner for innovation, Best Creator for the future.

[公開情報]
References
• DeepMindのプレスページ
https://deepmind.com/research/publications/2021/On-the-Expressivity-of-Markov-Reward
• 論文（OpenReview）
https://openreview.net/forum?id=9DlCh34E1bN
• 動画（NeurIPS）
https://nips.cc/virtual/2021/poster/28669#details
• Announcing the NeurIPS 2021 Award Recipients
https://blog.neurips.cc/2021/11/30/announcing-the-neurips-2021-award-recipients/
• 3. The Reinforcement Learning Problem
http://www.incompleteideas.net/book/ebook/node27.html
• 強化学習とは？(What is Reinforcement Learning?)
http://sysplan.nams.kyushu-u.ac.jp/gen/edu/RL_intro.html
18

[公開情報]
チェス画像のライセンス表記
19
Copyright © Chessvideos.TV
1. Redistributions of source code must retain the above copyright notice, this list of conditions and the following disclaimer.
2. Redistributions in binary form must reproduce the above copyright notice, this list of conditions and the following disclaimer in the documentation and/or
other materials provided with the distribution.
3. Neither the name of The author nor the names of its contributors may be used to endorse or promote products derived from this software without specific
prior written permission.
THIS SOFTWARE IS PROVIDED BY THE AUTHOR AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED
TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE AUTHOR AND
CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED
AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY
WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.

【論文読み会】On the Expressivity of Markov Reward

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie 【論文読み会】On the Expressivity of Markov Reward

Ähnlich wie 【論文読み会】On the Expressivity of Markov Reward (20)

Mehr von ARISE analytics

Mehr von ARISE analytics (20)

【論文読み会】On the Expressivity of Markov Reward

Hinweis der Redaktion