11. STEP1 : モデル
• モデルは非線形+ノイズを仮定
• 状態差分をガウス過程で学習
よって次の状態は,
2019/4/27 11
※状態差分にすると基本的には時間による
積分値がのらないので(マルコフ過程)
1 ,t t tf x x u ~ 0,N
GP
1 1 1 1| , | ,t t t t t tp N x x u x μ Σ
1
1
t t f
t f
x E t
Var t
fE t :期待値(ガウス過程の)
:分散(ガウス過程の) fVar t
,
TT T
t t t
x x u
t ty
ここは1変量
※入力する は決まっている(分散0)tx
Eq. (1)
Eq. (5)
Eq. (4)
13. 補足:ガウス過程について
• カーネル関数(緑字を学習(EMアルゴリズム))
• ガウス過程による予測分布[1]
2019/4/27 13
2 211
, exp
2
T
p q p q p pqf qk x x x x x x
12
*f f tE t m
x k K I y
12
** * *fVar t k
k K I k
GP
,
TT T
t t tx x u
t ty
[1] ガウス過程と機械学習
なお,ターゲットyは1次元!!多次元の場合は別々で学習(fがたくさんできる)
,iij jk xK x
* , tk Xk x
** ,t tk k x x
赤字はトレーニングデータ
1,... nX x x
青字は入力データ
Eq. (3)
14. STEP2 : 評価関数
2019/4/27 14
0
t
T
x t
t
J E c
x 0 0 0~ ,Nx μ Σ
方策を とすると,
評価関数を求めるためには, 1 2 3| , | , | ...p x x x が必要
,
TT T
t t t
x x u
STEP2-1 : その時刻tでの を求める tp x
<方針>
STEP2-2 : とガウス過程による を使って tp x
1tp x を求める
tp
Eq. (2)
15. STEP 2-1 : を算出
2019/4/27 15
,t t u x という状態の関数であれば,
は,ガウス分布に近似 ,t t tp px x u
| ,t t t tp Nx x μ Σ
tp x
の場合,分かりやすくガウス分布になります ,t t t u x Ax b
なお,
1 1 1 1| ,t t t tp N x x μ Σ
| ,t t u up N uu μ Σ
u t μ Aμ b
T
u t A AΣ Σ
なので,そのまま代入して,
, ,
T
t t t
t t T
t t t
p N
μ A
x u
Aμ b A A A
Σ Σ
Σ Σ
17. STEP 2-2 : を算出
2019/4/27 17
1tp x
|t t t t tp p f p dfd x x x x
ガウス過程から算出
さっき求めた
まず を求める tp
これは計算できない...(ガウス過程の入力が確率分布になる)
これもガウス分布 で近似しましょう2ページ後へ | ,t tp N μ Σ
tp が分かれば は求まる 1 1 1 1| ,t t t tp N x x μ Σ
1f t t t tE x μ μ μ
1
cov , cov ,
f t t t
t t t t t
Var
x
x x
Σ
Σ Σ
それぞれただの公式です(期待値/分散の和)
Eq. (8)
[1]
[1] https://www.doc.ic.ac.uk/~mpd37/publications/pami_final_w_appendix.pdf
18. ごちゃごちゃしてきたので一回整理します
• 分かったもの
– 時刻tでの GPの入力に使う
• 分かってないもの
– GPを使った に関するもの
2019/4/27 18
,t t tp px x u
| ,t tp N μ Σ
, ,cov , ,cov ,t t t t μ x xΣ
|t t t t tp p f p dfd x x x x
を求めていきます
ガウス分布で近似
19. STEP 2-2 : を算出 - 前置き -
• ガウス分布で近似
それっぽい平均 と分散 を算出したい
2019/4/27 19
1tp x
|t t t t tp p f p dfd x x x x
μ Σ
<前置き>
ここから ターゲットの各次元を表す という添え字が出てきますが
ターゲットの各次元は異なるGPになっています.そのため分離できます
a
[1]
[1] https://pdfs.semanticscholar.org/edab/384ff0d582807b7b819bcc79eff8cda8a0ef.pdf
20. STEP 2-2 : を算出 - 編 -
2019/4/27 20
1tp x
| | ,t a t a a
a
f a t t f t f t t t t tE E f E m m N d
x xμ x x x x x μ xΣ
ここはガウス分布
<平均 >μ
“ガウス分布にのっとった入力( )をGPにそのまま入れたとしてその期待値を取る”
Moment Matchingの場合
Linearの場合
“入力( )の平均をGPに入れてその期待値を取る”
a
a
f a t f tE f m μ μ μ
tx
tx
さっき求めたGP過程の
出力そのまま
,
TT T
t t t
x x u
Eq. (17)
Eq. (33)
, μ Σ
tp x
後は力ずくで計算可能!
21. STEP 2-2 : を算出 - 編 -
2019/4/27 21
1tp x
<分散 >
Moment Matchingの場合
Σ
“ガウス分布にのっとった入力( )をGPにそのまま入れたとしての分散を算出”tx
“全分散の公式(条件付き分散・期待値)を使う”かなりトリッキーです
, μ Σ
D D
R
Σ
ターゲットの数
22 2
,|t t
a
aa f a t f aE Var E
x xx μ
2
,, | ,t t
a b
ab f a b t f a bE Cov E
x xx μ μ
2 2
| |Var X E Var X Y E E X Y E X
https://www.youtube.com/watch?v=mHonq7Gjjqg
https://su-butsu-kikaigakusyuu.hatenablog.com/entry/2018/07/14/171645
全分散の公式
Eq. (21-22)
後は力ずくで計算可能!
22. STEP 2-2 : を算出 - 編 -
2019/4/27 22
1tp x
<分散 >
Linearの場合
Σ
“平均の変化分,分散も変化したと仮定して,その変化分倍する”
, μ Σ
D D
R
Σ
ターゲットの数 T
t
t
V V
μ
V
μ
Σ Σ Σ
変化分
モデルのノイズ
Eq. (34-35)
23. STEP 2-2 : を算出 - 編 -
2019/4/27 23
1tp x cov , ,cov ,t t t t x x
,cov , t
T T
t t f t t tE
xx x μ μ
Moment Matchingの場合
cov ,t tx :ガウス過程への入力 と出力 の共分散
GP
,
TT T
t t tx x u
t ty
分散の定義式そのまま
, |t t
a a a
f t t t f t t t f t t tE E E m p d x xx x x x x x x
さっき求めたガウス過程
さっき求めた
tx t
既知
~ ,t tN μ Σ
後は力ずくで計算可能!
Eq. (28-29)
24. STEP 2までのまとめ
• 分かったもの
• 知りたいもの
2019/4/27 24
,t t tp px x u
| ,t tp N μ Σ
1 1 1 1| ,t t t tp N x x μ Σ
0
t
T
x t
t
J E c
x 0 0 0~ ,Nx μ Σ
[1]
[1] https://pdfs.semanticscholar.org/edab/384ff0d582807b7b819bcc79eff8cda8a0ef.pdf
26. Recap - Policy Gradient -
2019/4/27 26
~
logJ E c
θ
~
0
t
T
x t
t
J E c E c
x 0 0, ,... ,T Tx u x u
方策勾配定理(sergey授業第五回)
~
0 0
log |
T T
t t t
t t
J E c
θ u x x
0 1
0
| | ,
T
t t t t t
t
p p
x u x x x u
サンプルを取る!!
, , ,
1 0 0
1
log |
N T T
i t i t i t
i t t
J c
N
θ u x x
非常に厄介
パラメータ
に関係なし
27. STEP 3 : 方策勾配を算出
2019/4/27 27
1
t
T
t
t
E cdJ
d d
x xθ
θ θ
この式をパラメータ で微分するには?θ
Policy gradientとは異なり
全力で微分しにいく
(モデルがあるため解析的にすべて求まるので,
サンプル取らなくていい)
非常に厄介
例:方策を決定するパラメータ
* * x Ax b
とりあえず,時刻 についての微分を算出
t tE c
d
x x
θ
t
28. STEP 3 : 方策勾配を算出
2019/4/27 28
t tt t t
t
t
t
t t
E d d
d d
E c c E c
d
x x xμ
θ
x x
μθ θ
x
Σ
Σ
| ,t t t tp Nx x μ Σ なので...
tt tt
t
t dE cE c dp
dd dp
x x xx x
xθ θ
時刻 でのコスト関数は
その時の確率分布に依存
t
評価関数次第で算出可能(後で)
,t td d
d d
μ
θ θ
Σ
これは一時刻前 に依存する??1t
tdp
d
x
θ
Eq. (12)
Eq. (12)
29. STEP 3 : 方策勾配を算出
2019/4/27 29
1
1
tt t t
t
p dd p
p d
p p
d
x
θ
x x x
x θ θ
依存しているのは明らか
1 1 1 1| ,t t t tp N x x μ Σ
さらに...
なので
,t td d
d d
μ
θ θ
Σ
Eq. (13)
[1]
[1] https://pdfs.semanticscholar.org/edab/384ff0d582807b7b819bcc79eff8cda8a0ef.pdf
30. STEP3 : 方策勾配を算出
2019/4/27 30
1 1
1 1
t t t t
t
tt
t
dd
d
d
d d
μ μ μ
μ θ θθ
μ
θ
μ Σ
Σ
1 1
1 1
t t t t t
t
t
t
d
d
d d
dd
μ
μ θ θ θθ
Σ Σ Σ
Σ
Σ Σ
1
1
tt t t
t
p dd p
p d
p p
d
x
θ
x x x
x θ θ
,t td d
d d
μ
θ θ
Σ
力ずくで計算可能!
(論文のAppendix参照)
一時刻前に算出したもの
不明
も同様です
Eq. (15)
31. STEP 3 : 方策勾配を算出
2019/4/27 31
t
μ
θ
1
1
t u u
t u
t
u
p
p
u μμ μ μ
u θ θθ θ μ
μ Σ
Σ
1tt μμ μ
1つ前の分布はその際の入力で微分しても0になる
(未来の入力は過去に影響しない)
Eq. (16)
32. STEP 3 : 方策勾配を算出
• 具体的な評価関数(Saturating cost)
2019/4/27 32
,t tt t
t t
E c E c
x xx x
μ Σ
E c c p d x x x x x
11
1 exp
2
T
target targetT p d
x x x x x x
0~1の範囲内に収まるので...値が大きくなりすぎない!
後は力ずくで計算可能!
Eq. (45)
36. 全微分
• 他変数の微小区間
• 合成関数の全微分
2019/4/27 36
dz z dx z dy
dt x dt y dt
,z f x t y t
,f x y
とすると
dz z dx z dy z
dt x dt y dt t
, ,z f x t y t t とすると
f f
df dx dy
x y
https://eman-physics.net/analytic/total_dif.html