SlideShare ist ein Scribd-Unternehmen logo
1 von 36
高橋研Model Based RL勉強会
第一回
- PILCO -
2019/04/27
高橋研究室
Mendy Sekiguchi
Twitter : https://twitter.com/ShunichiSekigu1
Github : https://github.com/Shunichi09
Qiita : https://qiita.com/MENDY
本日の流れ
• 勉強会の目的とルール,日程の確認
• PILCO
• Goal
– 勉強会の事務連絡の共有
– PILCOのメインアイディアの理解
• Vanilla Policy gradientとの違いモデルがあることのメリット
2019/4/27 2
目的
• 「最適制御」×「強化学習」という分野の
最先端の研究を理解
– Model based RLの大枠の理解
– Model based RLの代表手法の理解
• GPS, PILCO, iLQR, IOC, …
– その他の手法の理解
• TRPO
2019/4/27 3
日程
• 4/27, 5/6, 5/11, 5/27, 6/5, 6/28..
– Google driveのカレンダー参照
• 基本的には7月までぐらい
(継続の可能性あり)
2019/4/27 4
PILCOの概要
• Probabilistic Inference for Learning Control
– 元URL : https://www.doc.ic.ac.uk/~mpd37/publications/pami_final_w_appendix.pdf
– 博士論文: https://pdfs.semanticscholar.org/edab/384ff0d582807b7b819bcc79eff8cda8a0ef.pdf
• 一言でいうと…
– 確率的なモデルを用いた
モデルベース強化学習法の提案
2019/4/27 5
ガウス過程(近似)
のモデルと方策評価
解析的な方策勾配を使用
すべて(評価関数+モデル+状態)
を確率的に取り扱う解析的な方策勾配
[1]
[1] http://rail.eecs.berkeley.edu/deeprlcourse/
背景
• Model free な強化学習
– 大量のサンプルが必要
• 課題解決のために
– 逆強化学習
expertなdemonstrationが必要
– Task specificな知識でpre-shapedな方策を準備
いつも入手できない
– Model based な強化学習
正確なモデルが必要とされる
2019/4/27 6
不正確なモデルでやりませんか??
従来研究
• モデルの不確定要素にアプローチしている研究
– 確率的適応制御(Stochastic Adaptive control)
– Dual Control
 Parametricな環境モデルを使用するため,汎用性なし
2019/4/27 7
Nonparametricなモデルを使用しませんか?
従来研究
• Nonparametricな環境モデルを使用したもの
– 価値関数を推定ために利用
 方策を直接的に算出できない(Sergeyの講義参考)
 行動空間が離散
2019/4/27 8
方策勾配を算出して,連続空間で直接更新しませんか?
※PILCOはエピソードがあるもののみに適用可能です
前置き
• かなり数式がたくさんでてきます...重いです
• 理論的な論文なのでそこはご了承ください
• 数式を追いすぎるのではなく,
エッセンスベースで行きます
• 止めたくなったらすぐ止めてください!!
• 眠くなったら休憩をはさみます
2019/4/27 9
手法概要
2019/4/27 10
ガウス過程(近似)
のモデルと方策評価
解析的な方策勾配を使用
STEP 1
STEP 2
STEP 3
方策実行
[1]
[1] http://rail.eecs.berkeley.edu/deeprlcourse/
STEP1 : モデル
• モデルは非線形+ノイズを仮定
• 状態差分をガウス過程で学習
よって次の状態は,
2019/4/27 11
※状態差分にすると基本的には時間による
積分値がのらないので(マルコフ過程)
 1 ,t t tf   x x u  ~ 0,N  
GP
   1 1 1 1| , | ,t t t t t tp N   x x u x μ Σ
 
 
1
1
t t f
t f
x E t
Var t
 

  
  
 fE t :期待値(ガウス過程の)
:分散(ガウス過程の) fVar t
,
TT T
t t t
   x x u
 t ty  
ここは1変量
※入力する は決まっている(分散0)tx
Eq. (1)
Eq. (5)
Eq. (4)
補足:ガウス過程について
• ガウス過程は共分散をデータに合うようにアレンジ
2019/4/27 12
ガウス過程回帰を行った例
ここに注目
 ,N K0 カーネル
[1]
[1] http://tensorflow.classcat.com/2018/10/30/tf-probability-tutorials-gp-regression/
補足:ガウス過程について
• カーネル関数(緑字を学習(EMアルゴリズム))
• ガウス過程による予測分布[1]
2019/4/27 13
     2 211
, exp
2
T
p q p q p pqf qk x x x x x x   
     
 
     
12
*f f tE t m 

   x k K I y
   
12
** * *fVar t k 

   k K I k
GP
,
TT T
t t tx x u   
 t ty  
[1] ガウス過程と機械学習
なお,ターゲットyは1次元!!多次元の場合は別々で学習(fがたくさんできる)
 ,iij jk xK x
 * , tk Xk x
 ** ,t tk k x x
赤字はトレーニングデータ
 1,... nX x x
青字は入力データ
Eq. (3)
STEP2 : 評価関数
2019/4/27 14
   
0
t
T
x t
t
J E c


    x  0 0 0~ ,Nx μ Σ
方策を とすると,
評価関数を求めるためには,      1 2 3| , | , | ...p     x x x が必要
,
TT T
t t t
   x x u
STEP2-1 : その時刻tでの を求める tp x
<方針>
STEP2-2 : とガウス過程による を使って tp x
 1tp x を求める
 tp 
Eq. (2)
STEP 2-1 : を算出
2019/4/27 15
 ,t t u x という状態の関数であれば,
は,ガウス分布に近似   ,t t tp px x u
   | ,t t t tp Nx x μ Σ
 tp x
の場合,分かりやすくガウス分布になります ,t t t   u x Ax b
なお,
   1 1 1 1| ,t t t tp N   x x μ Σ
   | ,t t u up N uu μ Σ
u t μ Aμ b
T
u t A AΣ Σ
なので,そのまま代入して,
 , ,
T
t t t
t t T
t t t
p N
   
         
μ A
x u
Aμ b A A A
Σ Σ
Σ Σ
補足:STEP 2-1 : を算出
2019/4/27 16
 tp x
少し制約を入れる作業を行ってます
変わらずガウス分布に近似できる!
(Appendixを参照,期待値と分散が出てる)
[1]
[1] https://pdfs.semanticscholar.org/edab/384ff0d582807b7b819bcc79eff8cda8a0ef.pdf
STEP 2-2 : を算出
2019/4/27 17
 1tp x
      |t t t t tp p f p dfd   x x x x
ガウス過程から算出
さっき求めた
まず を求める tp 
これは計算できない...(ガウス過程の入力が確率分布になる)
これもガウス分布 で近似しましょう2ページ後へ   | ,t tp N     μ Σ
 tp  が分かれば は求まる   1 1 1 1| ,t t t tp N   x x μ Σ
  1f t t t tE      x μ μ μ
 
   
1
cov , cov ,
f t t t
t t t t t
Var 

  
     
x
x x
Σ
Σ Σ
それぞれただの公式です(期待値/分散の和)
Eq. (8)
[1]
[1] https://www.doc.ic.ac.uk/~mpd37/publications/pami_final_w_appendix.pdf
ごちゃごちゃしてきたので一回整理します
• 分かったもの
– 時刻tでの GPの入力に使う
• 分かってないもの
– GPを使った に関するもの
2019/4/27 18
   ,t t tp px x u
   | ,t tp N     μ Σ
   , ,cov , ,cov ,t t t t   μ x xΣ
      |t t t t tp p f p dfd   x x x x
を求めていきます
ガウス分布で近似
STEP 2-2 : を算出 - 前置き -
• ガウス分布で近似
 それっぽい平均 と分散 を算出したい
2019/4/27 19
 1tp x
      |t t t t tp p f p dfd   x x x x
μ Σ
<前置き>
ここから ターゲットの各次元を表す という添え字が出てきますが
ターゲットの各次元は異なるGPになっています.そのため分離できます
a
[1]
[1] https://pdfs.semanticscholar.org/edab/384ff0d582807b7b819bcc79eff8cda8a0ef.pdf
STEP 2-2 : を算出 - 編 -
2019/4/27 20
 1tp x
       | | ,t a t a a
a
f a t t f t f t t t t tE E f E m m N d
           x xμ x x x x x μ xΣ
ここはガウス分布
<平均 >μ
“ガウス分布にのっとった入力( )をGPにそのまま入れたとしてその期待値を取る”
Moment Matchingの場合
Linearの場合
“入力( )の平均をGPに入れてその期待値を取る”
   a
a
f a t f tE f m    μ μ μ
tx
tx
さっき求めたGP過程の
出力そのまま
,
TT T
t t t
   x x u
Eq. (17)
Eq. (33)
, μ Σ
 tp x
後は力ずくで計算可能!
STEP 2-2 : を算出 - 編 -
2019/4/27 21
 1tp x
<分散 >
Moment Matchingの場合
Σ
“ガウス分布にのっとった入力( )をGPにそのまま入れたとしての分散を算出”tx
“全分散の公式(条件付き分散・期待値)を使う”かなりトリッキーです
, μ Σ
D D
R 
 Σ
ターゲットの数
   
22 2
,|t t
a
aa f a t f aE Var E 
         x xx μ
   2
,, | ,t t
a b
ab f a b t f a bE Cov E  
        x xx μ μ
        
2 2
| |Var X E Var X Y E E X Y E X           
https://www.youtube.com/watch?v=mHonq7Gjjqg
https://su-butsu-kikaigakusyuu.hatenablog.com/entry/2018/07/14/171645
全分散の公式
Eq. (21-22)
後は力ずくで計算可能!
STEP 2-2 : を算出 - 編 -
2019/4/27 22
 1tp x
<分散 >
Linearの場合
Σ
“平均の変化分,分散も変化したと仮定して,その変化分倍する”
, μ Σ
D D
R 
 Σ
ターゲットの数 T
t
t


 



V V
μ
V
μ
Σ Σ Σ
変化分
モデルのノイズ
Eq. (34-35)
STEP 2-2 : を算出 - 編 -
2019/4/27 23
 1tp x    cov , ,cov ,t t t t x x
  ,cov , t
T T
t t f t t tE 
     xx x μ μ
Moment Matchingの場合
 cov ,t tx :ガウス過程への入力 と出力 の共分散
GP
,
TT T
t t tx x u   
 t ty  
分散の定義式そのまま
   , |t t
a a a
f t t t f t t t f t t tE E E m p d            x xx x x x x x x
さっき求めたガウス過程
さっき求めた
tx t
既知
 ~ ,t tN μ Σ
後は力ずくで計算可能!
Eq. (28-29)
STEP 2までのまとめ
• 分かったもの
• 知りたいもの
2019/4/27 24
   ,t t tp px x u
   | ,t tp N     μ Σ
   1 1 1 1| ,t t t tp N   x x μ Σ
   
0
t
T
x t
t
J E c


    x  0 0 0~ ,Nx μ Σ
[1]
[1] https://pdfs.semanticscholar.org/edab/384ff0d582807b7b819bcc79eff8cda8a0ef.pdf
Break
Recap - Policy Gradient -
2019/4/27 26
       ~
logJ E c

    
      θ
       ~
0
t
T
x t
t
J E c E c

  
 

        x  0 0, ,... ,T Tx u x u 
方策勾配定理(sergey授業第五回)
       ~
0 0
log |
T T
t t t
t t
J E c

    

 
   
     
   
 θ u x x
       0 1
0
| | ,
T
t t t t t
t
p p    

 x u x x x u
サンプルを取る!!
     , , ,
1 0 0
1
log |
N T T
i t i t i t
i t t
J c
N

  
  
   
     
   
  θ u x x
非常に厄介
パラメータ
に関係なし
STEP 3 : 方策勾配を算出
2019/4/27 27
   
1
t
T
t
t
E cdJ
d d


   
x xθ
θ θ
この式をパラメータ で微分するには?θ
Policy gradientとは異なり
全力で微分しにいく
(モデルがあるため解析的にすべて求まるので,
サンプル取らなくていい)
非常に厄介
例:方策を決定するパラメータ
 * *  x Ax b
とりあえず,時刻 についての微分を算出
 t tE c
d
  x x
θ
t
STEP 3 : 方策勾配を算出
2019/4/27 28
     t tt t t
t
t
t
t t
E d d
d d
E c c E c
d
        
 
   
x x xμ
θ
x x
μθ θ
x
Σ
Σ
   | ,t t t tp Nx x μ Σ なので...
   
 
 tt tt
t
t dE cE c dp
dd dp
     x x xx x
xθ θ
時刻 でのコスト関数は
その時の確率分布に依存
t
評価関数次第で算出可能(後で)
,t td d
d d
μ
θ θ
Σ
これは一時刻前 に依存する??1t 
 tdp
d
x
θ
Eq. (12)
Eq. (12)
STEP 3 : 方策勾配を算出
2019/4/27 29
   
 
   1
1
tt t t
t
p dd p
p d
p p
d


 
 
 
x
θ
x x x
x θ θ
依存しているのは明らか
   1 1 1 1| ,t t t tp N   x x μ Σ
さらに...
なので
,t td d
d d
μ
θ θ
Σ
Eq. (13)
[1]
[1] https://pdfs.semanticscholar.org/edab/384ff0d582807b7b819bcc79eff8cda8a0ef.pdf
STEP3 : 方策勾配を算出
2019/4/27 30
1 1
1 1
t t t t
t
tt
t
dd
d
d
d d
 
 
 
 
 



μ μ μ
μ θ θθ
μ
θ
μ Σ
Σ
1 1
1 1
t t t t t
t
t
t
d
d
d d
dd
 
 
   
   
   
μ
μ θ θ θθ
Σ Σ Σ
Σ
Σ Σ
   
 
   1
1
tt t t
t
p dd p
p d
p p
d


 
 
 
x
θ
x x x
x θ θ
,t td d
d d
μ
θ θ
Σ
力ずくで計算可能!
(論文のAppendix参照)
一時刻前に算出したもの
不明
も同様です
Eq. (15)
STEP 3 : 方策勾配を算出
2019/4/27 31
t

μ
θ
 
 1
1
t u u
t u
t
u
p
p
  

    
  
     


u μμ μ μ
u θ θθ θ μ
μ Σ
Σ
1tt   μμ μ
1つ前の分布はその際の入力で微分しても0になる
(未来の入力は過去に影響しない)
Eq. (16)
STEP 3 : 方策勾配を算出
• 具体的な評価関数(Saturating cost)
2019/4/27 32
   
,t tt t
t t
E c E c       
 
x xx x
μ Σ
     E c c p d    x x x x x
     11
1 exp
2
T
target targetT p d 
     
 
 x x x x x x
0~1の範囲内に収まるので...値が大きくなりすぎない!
後は力ずくで計算可能!
Eq. (45)
STEP 3 : 方策勾配を算出 評価関数のメリット
2019/4/27 33
左図:ある状態の平均がtargetから離れてる場合
Peakな状態の分布よりも,wideな分布が優先
(評価関数の値が大きくならないので)
モデルが不明なところを探索(exploration)
(分散が大きくなるように方策を更新可能)
右図:ある状態の平均がtargetに近い場合,
wideな状態の分布よりも,peakな分布が優先
(評価関数の値が小さくなるので)
その付近を利用(exploitation)
(分散が小さくなるように方策を更新可能)
[1]
[1] https://www.doc.ic.ac.uk/~mpd37/publications/pami_final_w_appendix.pdf
実機検証[1]
2019/4/27 34
[1] http://mlg.eng.cam.ac.uk/pilco/
Appendix
全微分
• 他変数の微小区間
• 合成関数の全微分
2019/4/27 36
dz z dx z dy
dt x dt y dt
 
 
 
    ,z f x t y t
 ,f x y
とすると
dz z dx z dy z
dt x dt y dt t
  
  
  
    , ,z f x t y t t とすると
f f
df dx dy
x y
 
 
 
https://eman-physics.net/analytic/total_dif.html

Weitere ähnliche Inhalte

Was ist angesagt?

強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験克海 納谷
 
金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデルKei Nakagawa
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANsDeep Learning JP
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from PixelsDeep Learning JP
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用Ryo Iwaki
 
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot LearningDeep Learning JP
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)Masahiro Suzuki
 
初めてのグラフカット
初めてのグラフカット初めてのグラフカット
初めてのグラフカットTsubasa Hirakawa
 
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process ModelsDeep Learning JP
 
[DL輪読会]Recent Advances in Autoencoder-Based Representation Learning
[DL輪読会]Recent Advances in Autoencoder-Based Representation Learning[DL輪読会]Recent Advances in Autoencoder-Based Representation Learning
[DL輪読会]Recent Advances in Autoencoder-Based Representation LearningDeep Learning JP
 
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展Deep Learning JP
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent ImaginationDeep Learning JP
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究についてMasahiro Suzuki
 
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learningDeep Learning JP
 
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-Deep Learning JP
 
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理Taiji Suzuki
 
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling ProblemDeep Learning JP
 

Was ist angesagt? (20)

強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
 
金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
初めてのグラフカット
初めてのグラフカット初めてのグラフカット
初めてのグラフカット
 
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
 
[DL輪読会]Recent Advances in Autoencoder-Based Representation Learning
[DL輪読会]Recent Advances in Autoencoder-Based Representation Learning[DL輪読会]Recent Advances in Autoencoder-Based Representation Learning
[DL輪読会]Recent Advances in Autoencoder-Based Representation Learning
 
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
 
HiPPO/S4解説
HiPPO/S4解説HiPPO/S4解説
HiPPO/S4解説
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
 
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
 
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
 
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
 

Ähnlich wie PILCO - 第一回高橋研究室モデルベース強化学習勉強会

充足可能性問題のいろいろ
充足可能性問題のいろいろ充足可能性問題のいろいろ
充足可能性問題のいろいろHiroshi Yamashita
 
X tapp lecture_20140226
X tapp lecture_20140226X tapp lecture_20140226
X tapp lecture_20140226xTAPP
 
第5章 時系列データのモデリング, 補助情報を考慮したモデリング
第5章 時系列データのモデリング, 補助情報を考慮したモデリング第5章 時系列データのモデリング, 補助情報を考慮したモデリング
第5章 時系列データのモデリング, 補助情報を考慮したモデリングksmzn
 
クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定Hiroshi Nakagawa
 
逐次モンテカルロ法の基礎
逐次モンテカルロ法の基礎逐次モンテカルロ法の基礎
逐次モンテカルロ法の基礎ShoutoYonekura
 
Iugonet 20120810-nipr-sato
Iugonet 20120810-nipr-satoIugonet 20120810-nipr-sato
Iugonet 20120810-nipr-satoIugo Net
 
Eureka agora tech talk 20170829
Eureka agora tech talk 20170829Eureka agora tech talk 20170829
Eureka agora tech talk 20170829Shinnosuke Ohkubo
 
kagamicomput201810
kagamicomput201810kagamicomput201810
kagamicomput201810swkagami
 
appengine ja night #4 Transaction Puzzlers
appengine ja night #4 Transaction Puzzlersappengine ja night #4 Transaction Puzzlers
appengine ja night #4 Transaction PuzzlersSuguru ARAKAWA
 
El text.tokuron a(2019).yoshii190704
El text.tokuron a(2019).yoshii190704El text.tokuron a(2019).yoshii190704
El text.tokuron a(2019).yoshii190704RCCSRENKEI
 
El text.tokuron a(2019).watanabe190613
El text.tokuron a(2019).watanabe190613El text.tokuron a(2019).watanabe190613
El text.tokuron a(2019).watanabe190613RCCSRENKEI
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Seiya Tokui
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Satoshi Kato
 
20170422 数学カフェ Part1
20170422 数学カフェ Part120170422 数学カフェ Part1
20170422 数学カフェ Part1Kenta Oono
 
2015年度先端GPGPUシミュレーション工学特論 第7回 総和計算(Atomic演算)
2015年度先端GPGPUシミュレーション工学特論 第7回 総和計算(Atomic演算)2015年度先端GPGPUシミュレーション工学特論 第7回 総和計算(Atomic演算)
2015年度先端GPGPUシミュレーション工学特論 第7回 総和計算(Atomic演算)智啓 出川
 
Quantum Support Vector Machine
Quantum Support Vector MachineQuantum Support Vector Machine
Quantum Support Vector MachineYuma Nakamura
 
スパースモデリングによる多次元信号・画像復元
スパースモデリングによる多次元信号・画像復元スパースモデリングによる多次元信号・画像復元
スパースモデリングによる多次元信号・画像復元Shogo Muramatsu
 

Ähnlich wie PILCO - 第一回高橋研究室モデルベース強化学習勉強会 (20)

充足可能性問題のいろいろ
充足可能性問題のいろいろ充足可能性問題のいろいろ
充足可能性問題のいろいろ
 
X tapp lecture_20140226
X tapp lecture_20140226X tapp lecture_20140226
X tapp lecture_20140226
 
第5章 時系列データのモデリング, 補助情報を考慮したモデリング
第5章 時系列データのモデリング, 補助情報を考慮したモデリング第5章 時系列データのモデリング, 補助情報を考慮したモデリング
第5章 時系列データのモデリング, 補助情報を考慮したモデリング
 
クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定
 
逐次モンテカルロ法の基礎
逐次モンテカルロ法の基礎逐次モンテカルロ法の基礎
逐次モンテカルロ法の基礎
 
Iugonet 20120810-nipr-sato
Iugonet 20120810-nipr-satoIugonet 20120810-nipr-sato
Iugonet 20120810-nipr-sato
 
Eureka agora tech talk 20170829
Eureka agora tech talk 20170829Eureka agora tech talk 20170829
Eureka agora tech talk 20170829
 
kagamicomput201810
kagamicomput201810kagamicomput201810
kagamicomput201810
 
wq-2. 待ち行列
wq-2. 待ち行列wq-2. 待ち行列
wq-2. 待ち行列
 
appengine ja night #4 Transaction Puzzlers
appengine ja night #4 Transaction Puzzlersappengine ja night #4 Transaction Puzzlers
appengine ja night #4 Transaction Puzzlers
 
El text.tokuron a(2019).yoshii190704
El text.tokuron a(2019).yoshii190704El text.tokuron a(2019).yoshii190704
El text.tokuron a(2019).yoshii190704
 
El text.tokuron a(2019).watanabe190613
El text.tokuron a(2019).watanabe190613El text.tokuron a(2019).watanabe190613
El text.tokuron a(2019).watanabe190613
 
More modern gpu
More modern gpuMore modern gpu
More modern gpu
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
 
Coqチュートリアル
CoqチュートリアルCoqチュートリアル
Coqチュートリアル
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
 
20170422 数学カフェ Part1
20170422 数学カフェ Part120170422 数学カフェ Part1
20170422 数学カフェ Part1
 
2015年度先端GPGPUシミュレーション工学特論 第7回 総和計算(Atomic演算)
2015年度先端GPGPUシミュレーション工学特論 第7回 総和計算(Atomic演算)2015年度先端GPGPUシミュレーション工学特論 第7回 総和計算(Atomic演算)
2015年度先端GPGPUシミュレーション工学特論 第7回 総和計算(Atomic演算)
 
Quantum Support Vector Machine
Quantum Support Vector MachineQuantum Support Vector Machine
Quantum Support Vector Machine
 
スパースモデリングによる多次元信号・画像復元
スパースモデリングによる多次元信号・画像復元スパースモデリングによる多次元信号・画像復元
スパースモデリングによる多次元信号・画像復元
 

PILCO - 第一回高橋研究室モデルベース強化学習勉強会

  • 1. 高橋研Model Based RL勉強会 第一回 - PILCO - 2019/04/27 高橋研究室 Mendy Sekiguchi Twitter : https://twitter.com/ShunichiSekigu1 Github : https://github.com/Shunichi09 Qiita : https://qiita.com/MENDY
  • 2. 本日の流れ • 勉強会の目的とルール,日程の確認 • PILCO • Goal – 勉強会の事務連絡の共有 – PILCOのメインアイディアの理解 • Vanilla Policy gradientとの違いモデルがあることのメリット 2019/4/27 2
  • 3. 目的 • 「最適制御」×「強化学習」という分野の 最先端の研究を理解 – Model based RLの大枠の理解 – Model based RLの代表手法の理解 • GPS, PILCO, iLQR, IOC, … – その他の手法の理解 • TRPO 2019/4/27 3
  • 4. 日程 • 4/27, 5/6, 5/11, 5/27, 6/5, 6/28.. – Google driveのカレンダー参照 • 基本的には7月までぐらい (継続の可能性あり) 2019/4/27 4
  • 5. PILCOの概要 • Probabilistic Inference for Learning Control – 元URL : https://www.doc.ic.ac.uk/~mpd37/publications/pami_final_w_appendix.pdf – 博士論文: https://pdfs.semanticscholar.org/edab/384ff0d582807b7b819bcc79eff8cda8a0ef.pdf • 一言でいうと… – 確率的なモデルを用いた モデルベース強化学習法の提案 2019/4/27 5 ガウス過程(近似) のモデルと方策評価 解析的な方策勾配を使用 すべて(評価関数+モデル+状態) を確率的に取り扱う解析的な方策勾配 [1] [1] http://rail.eecs.berkeley.edu/deeprlcourse/
  • 6. 背景 • Model free な強化学習 – 大量のサンプルが必要 • 課題解決のために – 逆強化学習 expertなdemonstrationが必要 – Task specificな知識でpre-shapedな方策を準備 いつも入手できない – Model based な強化学習 正確なモデルが必要とされる 2019/4/27 6 不正確なモデルでやりませんか??
  • 7. 従来研究 • モデルの不確定要素にアプローチしている研究 – 確率的適応制御(Stochastic Adaptive control) – Dual Control  Parametricな環境モデルを使用するため,汎用性なし 2019/4/27 7 Nonparametricなモデルを使用しませんか?
  • 8. 従来研究 • Nonparametricな環境モデルを使用したもの – 価値関数を推定ために利用  方策を直接的に算出できない(Sergeyの講義参考)  行動空間が離散 2019/4/27 8 方策勾配を算出して,連続空間で直接更新しませんか? ※PILCOはエピソードがあるもののみに適用可能です
  • 9. 前置き • かなり数式がたくさんでてきます...重いです • 理論的な論文なのでそこはご了承ください • 数式を追いすぎるのではなく, エッセンスベースで行きます • 止めたくなったらすぐ止めてください!! • 眠くなったら休憩をはさみます 2019/4/27 9
  • 11. STEP1 : モデル • モデルは非線形+ノイズを仮定 • 状態差分をガウス過程で学習 よって次の状態は, 2019/4/27 11 ※状態差分にすると基本的には時間による 積分値がのらないので(マルコフ過程)  1 ,t t tf   x x u  ~ 0,N   GP    1 1 1 1| , | ,t t t t t tp N   x x u x μ Σ     1 1 t t f t f x E t Var t           fE t :期待値(ガウス過程の) :分散(ガウス過程の) fVar t , TT T t t t    x x u  t ty   ここは1変量 ※入力する は決まっている(分散0)tx Eq. (1) Eq. (5) Eq. (4)
  • 13. 補足:ガウス過程について • カーネル関数(緑字を学習(EMアルゴリズム)) • ガウス過程による予測分布[1] 2019/4/27 13      2 211 , exp 2 T p q p q p pqf qk x x x x x x                  12 *f f tE t m      x k K I y     12 ** * *fVar t k      k K I k GP , TT T t t tx x u     t ty   [1] ガウス過程と機械学習 なお,ターゲットyは1次元!!多次元の場合は別々で学習(fがたくさんできる)  ,iij jk xK x  * , tk Xk x  ** ,t tk k x x 赤字はトレーニングデータ  1,... nX x x 青字は入力データ Eq. (3)
  • 14. STEP2 : 評価関数 2019/4/27 14     0 t T x t t J E c       x  0 0 0~ ,Nx μ Σ 方策を とすると, 評価関数を求めるためには,      1 2 3| , | , | ...p     x x x が必要 , TT T t t t    x x u STEP2-1 : その時刻tでの を求める tp x <方針> STEP2-2 : とガウス過程による を使って tp x  1tp x を求める  tp  Eq. (2)
  • 15. STEP 2-1 : を算出 2019/4/27 15  ,t t u x という状態の関数であれば, は,ガウス分布に近似   ,t t tp px x u    | ,t t t tp Nx x μ Σ  tp x の場合,分かりやすくガウス分布になります ,t t t   u x Ax b なお,    1 1 1 1| ,t t t tp N   x x μ Σ    | ,t t u up N uu μ Σ u t μ Aμ b T u t A AΣ Σ なので,そのまま代入して,  , , T t t t t t T t t t p N               μ A x u Aμ b A A A Σ Σ Σ Σ
  • 16. 補足:STEP 2-1 : を算出 2019/4/27 16  tp x 少し制約を入れる作業を行ってます 変わらずガウス分布に近似できる! (Appendixを参照,期待値と分散が出てる) [1] [1] https://pdfs.semanticscholar.org/edab/384ff0d582807b7b819bcc79eff8cda8a0ef.pdf
  • 17. STEP 2-2 : を算出 2019/4/27 17  1tp x       |t t t t tp p f p dfd   x x x x ガウス過程から算出 さっき求めた まず を求める tp  これは計算できない...(ガウス過程の入力が確率分布になる) これもガウス分布 で近似しましょう2ページ後へ   | ,t tp N     μ Σ  tp  が分かれば は求まる   1 1 1 1| ,t t t tp N   x x μ Σ   1f t t t tE      x μ μ μ       1 cov , cov , f t t t t t t t t Var            x x x Σ Σ Σ それぞれただの公式です(期待値/分散の和) Eq. (8) [1] [1] https://www.doc.ic.ac.uk/~mpd37/publications/pami_final_w_appendix.pdf
  • 18. ごちゃごちゃしてきたので一回整理します • 分かったもの – 時刻tでの GPの入力に使う • 分かってないもの – GPを使った に関するもの 2019/4/27 18    ,t t tp px x u    | ,t tp N     μ Σ    , ,cov , ,cov ,t t t t   μ x xΣ       |t t t t tp p f p dfd   x x x x を求めていきます ガウス分布で近似
  • 19. STEP 2-2 : を算出 - 前置き - • ガウス分布で近似  それっぽい平均 と分散 を算出したい 2019/4/27 19  1tp x       |t t t t tp p f p dfd   x x x x μ Σ <前置き> ここから ターゲットの各次元を表す という添え字が出てきますが ターゲットの各次元は異なるGPになっています.そのため分離できます a [1] [1] https://pdfs.semanticscholar.org/edab/384ff0d582807b7b819bcc79eff8cda8a0ef.pdf
  • 20. STEP 2-2 : を算出 - 編 - 2019/4/27 20  1tp x        | | ,t a t a a a f a t t f t f t t t t tE E f E m m N d            x xμ x x x x x μ xΣ ここはガウス分布 <平均 >μ “ガウス分布にのっとった入力( )をGPにそのまま入れたとしてその期待値を取る” Moment Matchingの場合 Linearの場合 “入力( )の平均をGPに入れてその期待値を取る”    a a f a t f tE f m    μ μ μ tx tx さっき求めたGP過程の 出力そのまま , TT T t t t    x x u Eq. (17) Eq. (33) , μ Σ  tp x 後は力ずくで計算可能!
  • 21. STEP 2-2 : を算出 - 編 - 2019/4/27 21  1tp x <分散 > Moment Matchingの場合 Σ “ガウス分布にのっとった入力( )をGPにそのまま入れたとしての分散を算出”tx “全分散の公式(条件付き分散・期待値)を使う”かなりトリッキーです , μ Σ D D R   Σ ターゲットの数     22 2 ,|t t a aa f a t f aE Var E           x xx μ    2 ,, | ,t t a b ab f a b t f a bE Cov E           x xx μ μ          2 2 | |Var X E Var X Y E E X Y E X            https://www.youtube.com/watch?v=mHonq7Gjjqg https://su-butsu-kikaigakusyuu.hatenablog.com/entry/2018/07/14/171645 全分散の公式 Eq. (21-22) 後は力ずくで計算可能!
  • 22. STEP 2-2 : を算出 - 編 - 2019/4/27 22  1tp x <分散 > Linearの場合 Σ “平均の変化分,分散も変化したと仮定して,その変化分倍する” , μ Σ D D R   Σ ターゲットの数 T t t        V V μ V μ Σ Σ Σ 変化分 モデルのノイズ Eq. (34-35)
  • 23. STEP 2-2 : を算出 - 編 - 2019/4/27 23  1tp x    cov , ,cov ,t t t t x x   ,cov , t T T t t f t t tE       xx x μ μ Moment Matchingの場合  cov ,t tx :ガウス過程への入力 と出力 の共分散 GP , TT T t t tx x u     t ty   分散の定義式そのまま    , |t t a a a f t t t f t t t f t t tE E E m p d            x xx x x x x x x さっき求めたガウス過程 さっき求めた tx t 既知  ~ ,t tN μ Σ 後は力ずくで計算可能! Eq. (28-29)
  • 24. STEP 2までのまとめ • 分かったもの • 知りたいもの 2019/4/27 24    ,t t tp px x u    | ,t tp N     μ Σ    1 1 1 1| ,t t t tp N   x x μ Σ     0 t T x t t J E c       x  0 0 0~ ,Nx μ Σ [1] [1] https://pdfs.semanticscholar.org/edab/384ff0d582807b7b819bcc79eff8cda8a0ef.pdf
  • 25. Break
  • 26. Recap - Policy Gradient - 2019/4/27 26        ~ logJ E c             θ        ~ 0 t T x t t J E c E c                x  0 0, ,... ,T Tx u x u  方策勾配定理(sergey授業第五回)        ~ 0 0 log | T T t t t t t J E c                         θ u x x        0 1 0 | | , T t t t t t t p p       x u x x x u サンプルを取る!!      , , , 1 0 0 1 log | N T T i t i t i t i t t J c N                        θ u x x 非常に厄介 パラメータ に関係なし
  • 27. STEP 3 : 方策勾配を算出 2019/4/27 27     1 t T t t E cdJ d d       x xθ θ θ この式をパラメータ で微分するには?θ Policy gradientとは異なり 全力で微分しにいく (モデルがあるため解析的にすべて求まるので, サンプル取らなくていい) 非常に厄介 例:方策を決定するパラメータ  * *  x Ax b とりあえず,時刻 についての微分を算出  t tE c d   x x θ t
  • 28. STEP 3 : 方策勾配を算出 2019/4/27 28      t tt t t t t t t t E d d d d E c c E c d                x x xμ θ x x μθ θ x Σ Σ    | ,t t t tp Nx x μ Σ なので...        tt tt t t dE cE c dp dd dp      x x xx x xθ θ 時刻 でのコスト関数は その時の確率分布に依存 t 評価関数次第で算出可能(後で) ,t td d d d μ θ θ Σ これは一時刻前 に依存する??1t   tdp d x θ Eq. (12) Eq. (12)
  • 29. STEP 3 : 方策勾配を算出 2019/4/27 29          1 1 tt t t t p dd p p d p p d         x θ x x x x θ θ 依存しているのは明らか    1 1 1 1| ,t t t tp N   x x μ Σ さらに... なので ,t td d d d μ θ θ Σ Eq. (13) [1] [1] https://pdfs.semanticscholar.org/edab/384ff0d582807b7b819bcc79eff8cda8a0ef.pdf
  • 30. STEP3 : 方策勾配を算出 2019/4/27 30 1 1 1 1 t t t t t tt t dd d d d d              μ μ μ μ θ θθ μ θ μ Σ Σ 1 1 1 1 t t t t t t t t d d d d dd                 μ μ θ θ θθ Σ Σ Σ Σ Σ Σ          1 1 tt t t t p dd p p d p p d         x θ x x x x θ θ ,t td d d d μ θ θ Σ 力ずくで計算可能! (論文のAppendix参照) 一時刻前に算出したもの 不明 も同様です Eq. (15)
  • 31. STEP 3 : 方策勾配を算出 2019/4/27 31 t  μ θ    1 1 t u u t u t u p p                     u μμ μ μ u θ θθ θ μ μ Σ Σ 1tt   μμ μ 1つ前の分布はその際の入力で微分しても0になる (未来の入力は過去に影響しない) Eq. (16)
  • 32. STEP 3 : 方策勾配を算出 • 具体的な評価関数(Saturating cost) 2019/4/27 32     ,t tt t t t E c E c          x xx x μ Σ      E c c p d    x x x x x      11 1 exp 2 T target targetT p d           x x x x x x 0~1の範囲内に収まるので...値が大きくなりすぎない! 後は力ずくで計算可能! Eq. (45)
  • 33. STEP 3 : 方策勾配を算出 評価関数のメリット 2019/4/27 33 左図:ある状態の平均がtargetから離れてる場合 Peakな状態の分布よりも,wideな分布が優先 (評価関数の値が大きくならないので) モデルが不明なところを探索(exploration) (分散が大きくなるように方策を更新可能) 右図:ある状態の平均がtargetに近い場合, wideな状態の分布よりも,peakな分布が優先 (評価関数の値が小さくなるので) その付近を利用(exploitation) (分散が小さくなるように方策を更新可能) [1] [1] https://www.doc.ic.ac.uk/~mpd37/publications/pami_final_w_appendix.pdf
  • 36. 全微分 • 他変数の微小区間 • 合成関数の全微分 2019/4/27 36 dz z dx z dy dt x dt y dt           ,z f x t y t  ,f x y とすると dz z dx z dy z dt x dt y dt t              , ,z f x t y t t とすると f f df dx dy x y       https://eman-physics.net/analytic/total_dif.html