Weitere ähnliche Inhalte
Ähnlich wie 【論文読み会】On the Expressivity of Markov Reward (20)
Mehr von ARISE analytics (20)
【論文読み会】On the Expressivity of Markov Reward
- 8. [公開情報]
マルコフ報酬関数(Markov Reward Function)
現在と1ステップ未来の情報を利用して報酬を決定する報酬関数がマルコフ報酬関数。
𝑟𝑡 = 𝑅(𝑠)
or 𝑟𝑡 = 𝑅(𝑠, 𝑎)
or 𝑟𝑡 = 𝑅 (𝑠, 𝑎, 𝑠′)
𝐺𝑡 =
𝑘=0
∞
𝛾𝑘𝑟𝑡+𝑘 , 0 ≤ 𝛾 ≤ 1
そして報酬関数は状態、状態ー行動、状態ー行動ー状態を入力として報酬を計算する
行動の結果得られる利得(Return)はそれ以後の行動によって得られる報酬に割引率𝛾を乗じたものの総和
RLではこのReturnを最大化することを目的に各状態における行動を学習していく
Pr 𝑠𝑡+1 = 𝑠′
, 𝑟𝑡+1 = 𝑟 𝑠𝑡, 𝑎𝑡, 𝑟𝑡, 𝑠𝑡−1, … , 𝑟1, 𝑠0, 𝑎0 = Pr 𝑠𝑡+1 = 𝑠′
, 𝑟𝑡+1 = 𝑟|𝑠𝑡, 𝑎𝑡
今回の問題設定では報酬と次の状態は過去の1ステップのみに依存するとする
7
- 9. [公開情報]
Reward Hypothesis:
SOAP, PO, TOからなるタスクTと環境Eが与えられたときに、環境E
の中でタスクTを解くことのできるマルコフ報酬関数が存在する
“タスク”とは何か
Rewardは欲しい行動・結果を表現できるが、そもそもタスクとは何を指すのか?
TaskQ:
タスクの解き方をAliceがどう考えているか?
ExpressionQ:
Bobにどのように解いてほしいかを伝えられるか?
Reward Hypothesis:
タスクTと環境Eが与えられたときに、環境Eの中でタスクTを
解くことのできるマルコフ報酬関数が存在する
タスクとはSOAP, PO, TOのこと
8
- 12. [公開情報]
タスクの表現限界
もっと簡単な例でも表現できないタスクが存在することがわかる。
S0 𝑆1
𝑎1
𝑎1
𝑎2
𝑎2
→Π𝐺 = 𝜋21, 𝜋12 となるような報酬を決めると、 𝑆0, 𝑎1, 𝑆1 , 𝑆0, 𝑎2, 𝑆1 , 𝑆1, 𝑎1, 𝑆0 , 𝑆1, 𝑎2, 𝑆0
のすべての遷移が最適になるので、𝜋11や𝜋22も最適になってしまう
11
- 20. [公開情報]
チェス画像のライセンス表記
19
Copyright © Chessvideos.TV
1. Redistributions of source code must retain the above copyright notice, this list of conditions and the following disclaimer.
2. Redistributions in binary form must reproduce the above copyright notice, this list of conditions and the following disclaimer in the documentation and/or
other materials provided with the distribution.
3. Neither the name of The author nor the names of its contributors may be used to endorse or promote products derived from this software without specific
prior written permission.
THIS SOFTWARE IS PROVIDED BY THE AUTHOR AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED
TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE AUTHOR AND
CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED
AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY
WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
Hinweis der Redaktion
- それぞれの時刻でSからAのマッピングを学習する
エージェントは時刻tにおける状態を受け取り、その状態に対応した行動aを行う。その1時刻後に報酬rと次の状態sを受け取り、また行動を行う
エージェントの目的は長期における累積報酬を最大化することにある
時刻はタイムステップやステージであってもいいし、
actionはモーターの回転数の信号などの低次のものでも、東大に行くために今日の朝ジャムパンを買うのような高次のものでもいい
(例示)
このAgentは累積報酬の最大化を目指すようになるため、報酬関数を適切に設定することが大事になる。この際に報酬関数は本当に達成したい物事を達成したときに報酬を与えるべきで、どのように達成したか、例えばチェスをプレイする際に盤面の真ん中を制圧したら+などのことをすると、本当に達成したいことを放置しながらSubゴールを達成してしまう
- それぞれの時刻でSからAのマッピングを学習する
エージェントは時刻tにおける状態を受け取り、その状態に対応した行動aを行う。その1時刻後に報酬rと次の状態sを受け取り、また行動を行う
エージェントの目的は長期における累積報酬を最大化することにある
時刻はタイムステップやステージであってもいいし、
actionはモーターの回転数の信号などの低次のものでも、東大に行くために今日の朝ジャムパンを買うのような高次のものでもいい
(例示)
このAgentは累積報酬の最大化を目指すようになるため、報酬関数を適切に設定することが大事になる。この際に報酬関数は本当に達成したい物事を達成したときに報酬を与えるべきで、どのように達成したか、例えばチェスをプレイする際に盤面の真ん中を制圧したら+などのことをすると、本当に達成したいことを放置しながらSubゴールを達成してしまう
- Rewardを計算することが十分にタスクを表現できるということが言えているという仮説があるので、これを体系的に調査することから始めている