SlideShare a Scribd company logo
1 of 28
Download to read offline
パターン認識と機械学習
13章 系列データ
GitHub @emonosuke
• 隠れマルコフモデル(HMM)
• HMM の最尤推定
• EM アルゴリズム
• Forward-backward アルゴリズム
• Viterbi アルゴリズム
• 線形動的システム(LDS)
• LDS の推論
• カルマンフィルタ
• カルマンスムージング
⽬次 2
• 1次マルコフ連鎖
• 𝑝 𝒙$, … , 𝒙' = 𝑝 𝒙$ 𝑝 𝒙) 𝒙$)𝑝 𝒙+ 𝒙)) …
• 𝑚次マルコフ連鎖
• 𝑝 𝒙$, … , 𝒙' = 𝑝 𝒙$ 𝑝 𝒙) 𝒙$)𝑝 𝒙+ 𝒙), 𝒙$) …
𝑝 𝒙' 𝒙'-. … , 𝒙'-$)
マルコフ連鎖 3
→ 均⼀と仮定して 𝒙' の 𝐾 個の状態に対して 𝐾0 𝐾 − 1 個のパラメータ
𝒙$ 𝒙) 𝒙2 𝒙3𝒙+
Ex. 𝑚 = 2
観測
潜在変数 𝒛$, … , 𝒛6 の導⼊により、パラメータ数を制限しつつ豊か
な表現⼒を持つことができる
隠れマルコフモデル(HMM) 4
𝒛$ 𝒛) 𝒛6𝒛6-$
𝒙$ 𝒙) 𝒙6-$ 𝒙6
……
潜在変数
(離散)
観測変数
(離散or連続)
同時分布は、
p 𝒙$, … , 𝒙6, 𝒛$, … , 𝒛6 = 𝑝 𝒛$ 8
'9)
6
𝑝 𝒛' 𝒛'-$ 8
'9$
6
𝑝 𝒙' 𝒛')
初期確率 遷移確率 出⼒確率
隠れマルコフモデル(HMM) 5
• 潜在変数 𝒛' について 1 of 𝐾 符号化
𝒛' = 𝑧'$, … , 𝑧'= 𝑧'> = 1, 𝑧'? = 0 𝑗 ≠ 𝑘
遷移確率 𝑝 𝒛' 𝒛'-$, 𝑨 = 8
>9$
=
8
?9$
=
𝐴?>
FGHI,JFGK
初期確率 𝑝 𝒛$ 𝝅 = 8
>9$
=
𝜋>
FIK
• 𝐴?> = 𝑝 𝑧'> = 1 𝑧'-$,? = 1 , 𝜋> = 𝑝 𝑧$> = 1 によって、
𝑝 𝒙' 𝒛', 𝝓 = 8
>9$
=
𝑝(𝒙'|𝝓>)FGK
𝜃 = {𝝅, 𝑨, 𝝓}をモデルのパラメータ集合とする
• 出⼒確率
→ 𝐾 𝐾 − 1 個のパラメータ
HMM の最尤推定 6
観測変数(データ) 𝑿 = {𝒙$, … , 𝒙6}が観測された場合に
パラメータ𝜽 = {𝝅, 𝑨, 𝝓} をEM アルゴリズムにより決定する
尤度関数: 𝑝 𝑿 𝜽) = X
𝒁
𝑝 𝑿, 𝒁 𝜽) 𝒁: 潜在変数
• 𝑞 𝒁 を潜在変数に関する分布として以下の分解
ln 𝑝 𝑿 𝜽) = ℒ 𝑞, 𝜽 + 𝐾𝐿(𝑞 ∥ 𝑝)
ℒ 𝑞, 𝜽 = X
𝒁
𝑞 𝒁 ln
𝑝 𝑿, 𝒁 𝜽
𝑞 𝒁
𝐾𝐿(𝑞| 𝑝 = − X
𝒁
𝑞 𝒁 ln
𝑝 𝒁 𝑿, 𝜽
𝑞 𝒁
変分下限 KL ダイバージェンス
HMM の最尤推定 7
• E Step では
𝜽abcを固定 → ℒ 𝑞, 𝜽abc の最⼤化
⇔ 𝐾𝐿(𝑞| 𝑝 = 0 ⇔ 𝑞 𝒁 = 𝑃 𝒁 𝑿, 𝜽abc)
• M Step では
𝑞 𝒁 を固定 → ℒ 𝑞, 𝜽abc を最⼤にする 𝜽'fgの算出
ℒ 𝑞, 𝜽 = ∑i 𝑝 𝒁 𝑿, 𝜽abc) ln 𝑝(𝑿, 𝒁 𝜽 − ∑ 𝒁 𝑝 𝒁 𝑿, 𝜽abc) ln 𝑝(𝒁 𝑿, 𝜽abc
Const(𝜽に⾮依存)完全データ対数尤度の期待値
→ 𝑄 𝜽, 𝜽abc とおいて最⼤化
EM アルゴリズム: E Step 8
Q 𝜽, 𝜽abc = X
𝒁
𝑝 𝒁 𝑿, 𝜽abc) ln 𝑝 𝑿, 𝒁 𝜽)
= Ε[ln 𝑝 𝑿, 𝒁 𝜽)]
= X
>9$
=
Ε 𝑧$> ln 𝜋> + X
'9)
6
X
?9$
=
X
>9$
=
Ε 𝑧'-$,? 𝑧'> ln 𝐴?> + X
'9$
6
X
>9$
=
Ε 𝑧'> ln 𝑝 𝒙' 𝝓>)
𝛾 𝑧'> = Ε 𝑧'> = X
𝒛G
𝑝 𝒛' 𝑿, 𝜽abc)𝑧'>
𝜉 𝑧'-$,?, 𝑧'> = Ε 𝑧'-$,? 𝑧'> 𝑧'-$,? 𝑧'> = X
𝒛GHI,𝒛G
𝑝 𝒛'-$, 𝒛' 𝑿, 𝜽abc)𝑧'-$,> 𝑧'>
→ 𝛾 𝑧'> , 𝜉 𝑧'-$,?, 𝑧'> の計算(効率的な⽅法は後述)
𝜽abcを固定して事後分布 𝑝 𝒁 𝑿, 𝜽abc) を求める
EM アルゴリズム: M Step 9
Q 𝜽, 𝜽abc
= X
>9$
=
𝛾 𝑧$> ln 𝜋> + X
'9)
6
X
?9$
=
X
>9$
=
𝜉 𝑧'-$,?, 𝑧'> ln 𝐴?> + X
'9$
6
X
>9$
=
𝛾 𝑧'> ln 𝑝 𝒙' 𝝓>)
𝛾 𝑧'> , 𝜉 𝑧'-$,?, 𝑧'> を固定して 𝜽'fg を求める
𝜋> =
q FIK
∑JrI
s
q FIJ
𝐴?> =
∑Grt
u
v FGHI,J,FGK
∑wrI
s ∑Grt
u v FGHI,J,FGw
Q 𝜽, 𝜽abc
に関する最⼤化
EM アルゴリズム: M Step 10
Q 𝜽, 𝜽abc = Ε[ln 𝑝 𝑿, 𝒁 𝜽)]
= X
>9$
=
𝛾 𝑧$> ln 𝜋> + X
'9)
6
X
?9$
=
X
>9$
=
𝜉 𝑧'-$,?, 𝑧'> ln 𝐴?> + X
'9$
6
X
>9$
=
𝛾 𝑧'> ln 𝑝 𝒙' 𝝓>)
𝝓> が成分ごと独⽴.
𝑝 𝒙 𝝓>) = 𝒩 𝒙 𝝁>, 𝜮>) とすると,
𝝁> =
∑'9$
6
𝛾(𝑧'>)𝒙'
∑'9$
6
𝛾(𝑧'>)
𝜮> =
∑'9$
6
𝛾 𝑧'> (𝒙' − 𝝁>)(𝒙' − 𝝁>)|
∑'9$
6 𝛾(𝑧'>)
cf. 混合ガウス分布のM Step
Ε ln 𝑝 𝑿, 𝒁 𝝁, 𝜮, 𝝅 ] =
∑'9$
6 ∑>9$
=
𝛾 𝑧'> {ln 𝜋> + ln 𝒩 𝒙' 𝝁>, 𝜮>)}
の最⼤化
Forward-backward アルゴリズム 11
E Step で 𝛾 𝑧'> , 𝜉 𝑧'-$,?, 𝑧'> を求める
𝛾 𝑧'> = Ε 𝑧'> = X
FG
𝑝 𝒛' 𝑿, 𝜽abc)𝑧'>
𝑝 𝒛' 𝒙$, … , 𝒙6) の各 𝐾 要素がΕ 𝑧'> に対応している (E Step では 𝜽abc は固定より省略した)
𝑝 𝒛' 𝒙$, … , 𝒙6) =
𝑝 𝒛' 𝑝 𝒙$, … , 𝒙6 𝒛'
𝑝 𝒙$, … , 𝒙6
=
𝑝 𝒙$, … , 𝒙', 𝒛' 𝑝(𝒙'}$, … , 𝒙6|𝒛')
𝑝(𝒙$, … , 𝒙6)
=
𝛼(𝒛')𝛽(𝒛')
𝑝(𝑿)
𝛼 𝒛' = 𝑝 𝒙$, … , 𝒙', 𝒛'
𝛽 𝒛' = 𝑝 𝒙'}$, … , 𝒙6 𝒛'
Forward-backward アルゴリズム 12
𝜉 𝒛'-$,?, 𝒛'> = Ε 𝒛'-$,?, 𝒛'> = X
FG
𝑝 𝒛'-$, 𝒛' 𝑿, 𝜽abc)𝑧'>
𝑝 𝒛'-$, 𝒛' 𝒙$, … , 𝒙6) の各𝐾 × 𝐾 要素が Ε 𝑧'-$,?, 𝑧'> に対応している
E Step で 𝛾 𝑧'> , 𝜉 𝑧'-$,?, 𝑧'> を求める
𝛼 𝒛' = 𝑝 𝒙$, … , 𝒙', 𝒛'
𝛽 𝒛' = 𝑝 𝒙'}$, … , 𝒙6 𝒛'
𝑝 𝒛'-$, 𝒛' 𝒙$, … , 𝒙6) =
𝑝 𝒛'-$, 𝒛' 𝑝 𝒙$, … , 𝒙6 𝒛'-$, 𝒛'
𝑝 𝒙$, … , 𝒙6
=
𝑝 𝒙$, … , 𝒙'-$|𝒛'-$ 𝑝 𝒙' 𝒛' 𝑝 𝒙'}$, … , 𝒙6 𝒛' 𝑝 𝒛' 𝒛'-$ 𝑝(𝒛'-$)
𝑝(𝒙$, … , 𝒙6)
=
𝛼(𝒛'-$)𝑝 𝒙' 𝒛' 𝑝(𝒛'|𝒛'-$)𝛽(𝒛')
𝑝(𝑿)
Forward-backward アルゴリズム 13
𝛼(𝒛')は前向き, 𝛽(𝒛')は後向きに再帰的に計算できる
• 𝛼 𝒛$ = 𝑝 𝒙$, 𝒛$ = 𝑝 𝒛$ 𝑝 𝒙$|𝒛$
• 𝛽 𝒛6 = 1
• 𝛼 𝒛' = 𝑝 𝒙$, … , 𝒙', 𝒛'
= ⋯
= 𝑝 𝒙' 𝒛' X
𝒛GHI
𝛼 𝒛'-$ 𝑝(𝒛'|𝒛'-$)
• 𝛽 𝒛' = 𝑝 𝒙'}$, … , 𝒙6|𝒛'
= ⋯
= X
𝒛G‚I
𝛽 𝒛'}$ 𝑝 𝒙'}$ 𝒛'}$ 𝑝(𝒛'}$|𝒛')
スケーリング係数 14
𝛼 𝒛' , 𝛽(𝒛')の実際の計算には問題がある
𝛼 𝒛' = 𝑝 𝒙' 𝒛' X
𝒛GHI
𝛼 𝒛'-$ 𝑝 𝒛' 𝒛'-$
→ 𝑝 𝒙' 𝒛' , 𝑝 𝒛' 𝒛'-$ が⼩さいと𝛼 𝒛' は前向き計算とともに急速
にゼロに近づいてしまう
ƒ𝛼 𝒛' = 𝑝 𝒛' 𝒙$, … , 𝒙' =
𝛼(𝒛')
𝑝(𝒙$, … , 𝒙')
を導⼊
→どの𝑛に対しても𝐾個の変数上の確率分布であり問題ない
スケーリング係数 15
スケーリング係数: 𝑐' = 𝑝(𝒙'|𝒙$, … , 𝒙'-$)を導⼊する
𝛼 𝒛' = 𝑝 𝒛' 𝒙$, … , 𝒙' 𝑝 𝒙$, … , 𝒙' = 8
.9$
'
𝑐. ƒ𝛼 𝒛'
𝛼 𝒛' の再帰式は
𝑐' ƒ𝛼 𝒛' = 𝑝 𝒙' 𝒛' ∑ 𝒛GHI
ƒ𝛼 𝒛'-$ 𝑝 𝒛' 𝒛'-$
𝛽 𝒛' に関してもスケーリングを考える
†𝛽 𝒛' =
𝑝(𝒙'}$, … , 𝒙6|𝒛')
𝑝(𝒙'}$, … , 𝒙6|𝒙$, … , 𝒙')
𝑐'}$
†𝛽 𝒛' = ∑ 𝒛G‚I
†𝛽 𝒛'}$ 𝑝 𝒙'}$ 𝒛'}$ 𝑝(𝒛'}$|𝒛')
← 条件付き確率の”⽐”
Viterbi アルゴリズム 16
観測系列に対し, 隠れ状態の最も確からしい系列を求める
ex. ⾳声認識
観測系列:
⾳響特徴量
隠れ状態系列:
⾳素
Viterbi アルゴリズム 17
𝜔 𝒛' とおく
→ 𝜔 𝒛' の再帰式が得られる
Viterbi アルゴリズム 18
1. 以下の再帰式により前向き計算
このとき、最⼤値をとる𝒛'を記録しておく
𝑛 − 1 𝑛 𝑛 + 1
𝑘 = 1
𝑘 = 2
𝑘 = 3
Viterbi アルゴリズム 19
𝑁 − 2 𝑁 − 1 𝑁
……
……
……
𝑘 = 1
𝑘 = 2
𝑘 = 3
とすると、
2. バックトラックにより最も確からしい系列(経路)を得る
線形動的システム(LDS) 20
𝒛$ 𝒛) 𝒛6𝒛6-$
𝒙$ 𝒙) 𝒙6-$ 𝒙6
……
潜在変数
(連続)
観測変数
(離散or連続)
𝑿, 𝒁 は親ノードの状態の線形関数を平均とするガウス分布に従うとする
𝑝 𝒛'|𝒛'-$ = 𝒩 𝑨𝒛'-$, 𝜞
𝑝 𝒙'|𝒛' = 𝒩 𝒙'|𝑪𝒛', 𝜮
𝑝 𝒛$ = 𝒩(𝒛$|𝝁Œ, 𝑷Œ)
遷移確率
出⼒確率
初期確率
LDS の応⽤例: 物体のトラッキング 21
X 物体の観測値(ノイズを含む)
Z 物体の真の位置
𝝁, 𝑽 推定された事後分布の平均と共分散(95%信頼区間)
カルマンフィルタ
10 12 14 16 18 20 22
4
6
8
10
12
14
observed
truth
8 10 12 14 16 18 20 22 24
4
6
8
10
12
14
16
observed
filtered
(物体は左から右へ移動)
『Machine Learning: A Probabilistic Perspective』より
観測値 𝒙$, … , 𝒙' を与えて 𝒛'の事後周辺分布
𝑝(𝒛'| 𝒙$, … , 𝒙') = 𝒩(𝒛'|𝝁', 𝑽') を求める
LDSの推論: カルマンフィルタ 22
ƒ𝛼 𝒛' = 𝑝 𝒛' 𝒙$, … , 𝒙'
𝛼 𝒛' の再帰式は
𝑐' ƒ𝛼 𝒛' = 𝑝 𝒙' 𝒛' ∑ 𝒛GHI
ƒ𝛼 𝒛'-$ 𝑝 𝒛' 𝒛'-$
HMM
LDS では ƒ𝛼 𝒛' = 𝑝 𝒛' 𝒙$, … , 𝒙' = 𝒩 𝒛' 𝝁', 𝑽'
𝑐' ƒ𝛼 𝒛' = 𝑝 𝒙' 𝒛' ∫ ƒ𝛼 𝒛'-$ 𝑝 𝒛' 𝒛'-$ 𝑑𝒛'-$
→オンライン予測
LDSの推論: カルマンフィルタ 23
𝑐' ƒ𝛼 𝒛' = 𝑝 𝒙' 𝒛' ‘ ƒ𝛼 𝒛'-$ 𝑝 𝒛' 𝒛'-$ 𝑑𝒛'-$
𝑐' 𝒩 𝒛' 𝝁', 𝑽' = 𝒩 𝒙'|𝑪𝒛', 𝜮 ∫ 𝒩 𝑨𝒛'-$, 𝜞 𝒩 𝒛'-$ 𝝁'-$, 𝑽'-$ 𝑑𝒛'-$
= 𝒩 𝒙'|𝑪𝒛', 𝜮 𝒩 𝒛' 𝑨𝝁'-$, 𝑨𝑽'-$ 𝑨| + 𝜞
𝝁' = 𝑨𝜇'-$ + 𝑲'(𝒙' − 𝑪𝑨𝜇'-$)
𝑽' = (𝑰 − 𝑲' 𝑪)𝑷'-$
𝑐' = 𝒩(𝒙'|𝑪𝑨𝜇'-$, 𝑪𝑷'-$ 𝑪|
+ 𝜮)
𝑷'-$ = 𝑨𝑽'-$ 𝑨| + 𝚪
𝑲' = 𝑷'-$ 𝑪|
(𝑪𝑷'-$ 𝑪|
+ 𝜮)-$
(2.115)ガウス分布の周辺分布と条件付き分布
𝑝 𝒙 = 𝒩 𝒙 𝝁, 𝜦
𝑝 𝒚 𝒙 = 𝒩 𝒙 𝑨𝒙 + 𝒃, 𝑳
𝑝 𝒚 = 𝒩 𝒙 𝑨𝝁 + 𝒃, 𝑳 + 𝐀𝜦𝐀 𝐓
𝑝 𝒙|𝒚 = 𝒩 𝒙 𝑨𝝁 + 𝒃, 𝑳
カルマンスムーザ 24
観測値 𝒙$, … , 𝒙6 を与えて 𝒛'の事後周辺分布
𝑝(𝒛'| 𝒙$, … , 𝒙6) = 𝒩(𝒛'|œ𝝁', •𝑽') を求める
→ 過去の観測だけでなく未来の観測も含めることでパラメータを再推定
𝑝 𝒛' 𝒙$, … , 𝒙6 =
ž 𝒙I,…,𝒙G,𝒛G ž(𝒙G‚I,…,𝒙u|𝒛G)
ž(𝒙I,…,𝒙u)
= ƒ𝛼 𝒛'
†𝛽 𝒛' = 𝒩(𝒛'|œ𝝁', •𝑽')
𝑐'}$
†𝛽 𝒛' = ‘ †𝛽 𝒛'}$ 𝑝 𝒙'}$ 𝒛'}$ 𝑝 𝒛'}$ 𝒛' 𝑑𝒛'}$
ƒ𝛼 𝒛' はカルマンフィルタで求めてある
†𝛽 𝒛' についてはHMM の †𝛽 𝒛' の再帰式から
カルマンスムーザ 25
𝑐'}$ ƒ𝛼 𝒛'
†𝛽 𝒛'
= ƒ𝛼 𝒛' ‘ †𝛽 𝒛'}$ 𝑝 𝒙'}$ 𝒛'}$ 𝑝 𝒛'}$ 𝒛' 𝑑𝒛'}$
œ𝝁' = 𝝁' + 𝑱'(œ𝝁'}$ − 𝑨𝝁')
•𝑽' = 𝑽' + 𝑱'(•𝑽'}$ − 𝑷') 𝑱'
|
𝑷' = 𝑨𝑽' 𝑨| + 𝚪
𝑱' = 𝑽' 𝑨|
(𝑷')-$
ƒ𝛼 𝒛' , †𝛽 𝒛' は LDS のパラメータ 𝜽 = {𝑨, 𝜞, 𝑪, 𝜮, 𝝁 𝟎, 𝑷 𝟎}の推定時、
E Step での Forward-backward アルゴリズムで⽤いる
例: カルマンフィルタとカルマンスムーザ 26
8 10 12 14 16 18 20 22 24
4
6
8
10
12
14
16
observed
filtered
10 15 20 25
4
6
8
10
12
14
observed
smoothed
10 12 14 16 18 20 22
4
6
8
10
12
14
observed
truth
カルマンフィルタのみ
カルマンフィルタ
+
カルマンスムーザ
『Machine Learning: A Probabilistic Perspective』より
物体の観測値(ノイズを含む)
物体の真の位置
推定された事後分布の平均
事後分布の共分散(95%信頼区間)
LDS では Viterbi アルゴリズムのようなものは考える必要なし
→ 個別の時刻で最も確からしい潜在変数の値を選べばよい
LDS の最も確からしい系列 27
𝑿 = 𝒙$, … , 𝒙6 , 𝒁 = {𝒛$, … , 𝒛6}
𝑝 𝒁 𝑿 はガウス分布で, 𝝁 = {𝝁$, … , 𝝁6}とするとガウス分布は平均で最⼤.
𝒁.¡¢ = {𝝁$, … , 𝝁6}
また, 𝑝 𝒁 𝑿 の周辺分布 𝑝 𝒛' 𝑿 は平均𝝁'のガウス分布に従う.
(2.98) 𝑝(𝒙¡, 𝒙£) = 𝒩 𝒙 𝝁, 𝚺
𝝁 = 𝝁¡, 𝝁£ , 𝜮 =
𝜮¡¡ 𝜮¡£
𝜮£¡ 𝜮££
𝑝 𝒙¡ = ‘ 𝑝(𝒙¡, 𝒙£) 𝑑𝒙£ = 𝒩 𝒙 𝝁¡, 𝜮¡¡
(𝑿は観測に固定)
• 隠れマルコフモデル(HMM)
• 潜在変数は離散
• パラメータ推定: EM + Forward-backward
• Viterbi アルゴリズム: 観測変数系列に対し最も確からしい潜在変数系列
まとめ 28
• 線形動的システム(LDS)
• 潜在変数は連続. 観測変数, 潜在変数ともにガウス分布に従う
• LDS の推論: 潜在変数の分布を予測する
• カルマンフィルタ(Forward): オンライン予測
• カルマンスムーザ(Backward): 全ての観測からパラメータ再推定(オフライン)
• Viterbi アルゴリズムは必要なし: 個々に最も確からしい潜在変数を選べばよい

More Related Content

What's hot

[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process ModelsDeep Learning JP
 
制限ボルツマンマシン入門
制限ボルツマンマシン入門制限ボルツマンマシン入門
制限ボルツマンマシン入門佑馬 斎藤
 
PRML輪読#8
PRML輪読#8PRML輪読#8
PRML輪読#8matsuolab
 
PRML輪読#7
PRML輪読#7PRML輪読#7
PRML輪読#7matsuolab
 
Stanの便利な事後処理関数
Stanの便利な事後処理関数Stanの便利な事後処理関数
Stanの便利な事後処理関数daiki hojo
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説弘毅 露崎
 
PRML輪読#3
PRML輪読#3PRML輪読#3
PRML輪読#3matsuolab
 
MCMCと正規分布の推測
MCMCと正規分布の推測MCMCと正規分布の推測
MCMCと正規分布の推測Gen Fujita
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門Miyoshi Yuya
 
混合ガウスモデルとEMアルゴリスム
混合ガウスモデルとEMアルゴリスム混合ガウスモデルとEMアルゴリスム
混合ガウスモデルとEMアルゴリスム貴之 八木
 
PRML輪読#10
PRML輪読#10PRML輪読#10
PRML輪読#10matsuolab
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシンShinya Shimizu
 
8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論sleepy_yoshi
 
Stanコードの書き方 中級編
Stanコードの書き方 中級編Stanコードの書き方 中級編
Stanコードの書き方 中級編Hiroshi Shimizu
 
PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2matsuolab
 
MCMCでマルチレベルモデル
MCMCでマルチレベルモデルMCMCでマルチレベルモデル
MCMCでマルチレベルモデルHiroshi Shimizu
 

What's hot (20)

[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
 
制限ボルツマンマシン入門
制限ボルツマンマシン入門制限ボルツマンマシン入門
制限ボルツマンマシン入門
 
PRML輪読#8
PRML輪読#8PRML輪読#8
PRML輪読#8
 
階層ベイズとWAIC
階層ベイズとWAIC階層ベイズとWAIC
階層ベイズとWAIC
 
PRML輪読#7
PRML輪読#7PRML輪読#7
PRML輪読#7
 
Prml14 5
Prml14 5Prml14 5
Prml14 5
 
Stanの便利な事後処理関数
Stanの便利な事後処理関数Stanの便利な事後処理関数
Stanの便利な事後処理関数
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
 
PRML輪読#3
PRML輪読#3PRML輪読#3
PRML輪読#3
 
MCMCと正規分布の推測
MCMCと正規分布の推測MCMCと正規分布の推測
MCMCと正規分布の推測
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門
 
混合ガウスモデルとEMアルゴリスム
混合ガウスモデルとEMアルゴリスム混合ガウスモデルとEMアルゴリスム
混合ガウスモデルとEMアルゴリスム
 
PRML輪読#10
PRML輪読#10PRML輪読#10
PRML輪読#10
 
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM) 一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン
 
8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論
 
Stanコードの書き方 中級編
Stanコードの書き方 中級編Stanコードの書き方 中級編
Stanコードの書き方 中級編
 
PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2
 
PRML11章
PRML11章PRML11章
PRML11章
 
MCMCでマルチレベルモデル
MCMCでマルチレベルモデルMCMCでマルチレベルモデル
MCMCでマルチレベルモデル
 

Similar to パターン認識と機械学習 13章 系列データ

退化拡散項をもつ放物・放物型Keller--Segel系の解の有限時刻爆発について
退化拡散項をもつ放物・放物型Keller--Segel系の解の有限時刻爆発について退化拡散項をもつ放物・放物型Keller--Segel系の解の有限時刻爆発について
退化拡散項をもつ放物・放物型Keller--Segel系の解の有限時刻爆発についてTakahiro Hashira
 
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングPrml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングtakutori
 
わかりやすいパターン認識 4章
わかりやすいパターン認識 4章わかりやすいパターン認識 4章
わかりやすいパターン認識 4章Motokawa Tetsuya
 
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法Kenichi Hironaka
 
表現論 ゼミ資料
表現論 ゼミ資料表現論 ゼミ資料
表現論 ゼミ資料HanpenRobot
 
Fourier analysis on symmetric group
Fourier analysis on symmetric groupFourier analysis on symmetric group
Fourier analysis on symmetric groupHanpenRobot
 
PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1sleepy_yoshi
 
楕円曲線入門 トーラスと楕円曲線のつながり
楕円曲線入門トーラスと楕円曲線のつながり楕円曲線入門トーラスと楕円曲線のつながり
楕円曲線入門 トーラスと楕円曲線のつながりMITSUNARI Shigeo
 
機械学習モデルの列挙
機械学習モデルの列挙機械学習モデルの列挙
機械学習モデルの列挙Satoshi Hara
 
Blow up in a degenerate keller--segel system
Blow up in a degenerate keller--segel systemBlow up in a degenerate keller--segel system
Blow up in a degenerate keller--segel systemTakahiro Hashira
 
強束縛模型における多体電子状態の第2量子化表現
強束縛模型における多体電子状態の第2量子化表現強束縛模型における多体電子状態の第2量子化表現
強束縛模型における多体電子状態の第2量子化表現Kazu Ghalamkari
 
これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法kenyanonaka
 
場の量子論
場の量子論場の量子論
場の量子論M M
 
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門ryosuke-kojima
 
退化型Keller--Segel系の解の有限時刻爆発について
退化型Keller--Segel系の解の有限時刻爆発について退化型Keller--Segel系の解の有限時刻爆発について
退化型Keller--Segel系の解の有限時刻爆発についてTakahiro Hashira
 
暗認本読書会13 advanced
暗認本読書会13 advanced暗認本読書会13 advanced
暗認本読書会13 advancedMITSUNARI Shigeo
 
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へZansa
 
オンライン学習 : Online learning
オンライン学習 : Online learningオンライン学習 : Online learning
オンライン学習 : Online learningDaiki Tanaka
 
Computing for Isogeny Kernel Problem by Groebner Basis
Computing for Isogeny Kernel Problem by Groebner BasisComputing for Isogeny Kernel Problem by Groebner Basis
Computing for Isogeny Kernel Problem by Groebner BasisYasu Math
 
行列計算アルゴリズム
行列計算アルゴリズム行列計算アルゴリズム
行列計算アルゴリズムTakuo Tachibana
 

Similar to パターン認識と機械学習 13章 系列データ (20)

退化拡散項をもつ放物・放物型Keller--Segel系の解の有限時刻爆発について
退化拡散項をもつ放物・放物型Keller--Segel系の解の有限時刻爆発について退化拡散項をもつ放物・放物型Keller--Segel系の解の有限時刻爆発について
退化拡散項をもつ放物・放物型Keller--Segel系の解の有限時刻爆発について
 
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングPrml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティング
 
わかりやすいパターン認識 4章
わかりやすいパターン認識 4章わかりやすいパターン認識 4章
わかりやすいパターン認識 4章
 
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
 
表現論 ゼミ資料
表現論 ゼミ資料表現論 ゼミ資料
表現論 ゼミ資料
 
Fourier analysis on symmetric group
Fourier analysis on symmetric groupFourier analysis on symmetric group
Fourier analysis on symmetric group
 
PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1
 
楕円曲線入門 トーラスと楕円曲線のつながり
楕円曲線入門トーラスと楕円曲線のつながり楕円曲線入門トーラスと楕円曲線のつながり
楕円曲線入門 トーラスと楕円曲線のつながり
 
機械学習モデルの列挙
機械学習モデルの列挙機械学習モデルの列挙
機械学習モデルの列挙
 
Blow up in a degenerate keller--segel system
Blow up in a degenerate keller--segel systemBlow up in a degenerate keller--segel system
Blow up in a degenerate keller--segel system
 
強束縛模型における多体電子状態の第2量子化表現
強束縛模型における多体電子状態の第2量子化表現強束縛模型における多体電子状態の第2量子化表現
強束縛模型における多体電子状態の第2量子化表現
 
これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法
 
場の量子論
場の量子論場の量子論
場の量子論
 
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門
 
退化型Keller--Segel系の解の有限時刻爆発について
退化型Keller--Segel系の解の有限時刻爆発について退化型Keller--Segel系の解の有限時刻爆発について
退化型Keller--Segel系の解の有限時刻爆発について
 
暗認本読書会13 advanced
暗認本読書会13 advanced暗認本読書会13 advanced
暗認本読書会13 advanced
 
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
 
オンライン学習 : Online learning
オンライン学習 : Online learningオンライン学習 : Online learning
オンライン学習 : Online learning
 
Computing for Isogeny Kernel Problem by Groebner Basis
Computing for Isogeny Kernel Problem by Groebner BasisComputing for Isogeny Kernel Problem by Groebner Basis
Computing for Isogeny Kernel Problem by Groebner Basis
 
行列計算アルゴリズム
行列計算アルゴリズム行列計算アルゴリズム
行列計算アルゴリズム
 

パターン認識と機械学習 13章 系列データ

  • 2. • 隠れマルコフモデル(HMM) • HMM の最尤推定 • EM アルゴリズム • Forward-backward アルゴリズム • Viterbi アルゴリズム • 線形動的システム(LDS) • LDS の推論 • カルマンフィルタ • カルマンスムージング ⽬次 2
  • 3. • 1次マルコフ連鎖 • 𝑝 𝒙$, … , 𝒙' = 𝑝 𝒙$ 𝑝 𝒙) 𝒙$)𝑝 𝒙+ 𝒙)) … • 𝑚次マルコフ連鎖 • 𝑝 𝒙$, … , 𝒙' = 𝑝 𝒙$ 𝑝 𝒙) 𝒙$)𝑝 𝒙+ 𝒙), 𝒙$) … 𝑝 𝒙' 𝒙'-. … , 𝒙'-$) マルコフ連鎖 3 → 均⼀と仮定して 𝒙' の 𝐾 個の状態に対して 𝐾0 𝐾 − 1 個のパラメータ 𝒙$ 𝒙) 𝒙2 𝒙3𝒙+ Ex. 𝑚 = 2 観測
  • 4. 潜在変数 𝒛$, … , 𝒛6 の導⼊により、パラメータ数を制限しつつ豊か な表現⼒を持つことができる 隠れマルコフモデル(HMM) 4 𝒛$ 𝒛) 𝒛6𝒛6-$ 𝒙$ 𝒙) 𝒙6-$ 𝒙6 …… 潜在変数 (離散) 観測変数 (離散or連続) 同時分布は、 p 𝒙$, … , 𝒙6, 𝒛$, … , 𝒛6 = 𝑝 𝒛$ 8 '9) 6 𝑝 𝒛' 𝒛'-$ 8 '9$ 6 𝑝 𝒙' 𝒛') 初期確率 遷移確率 出⼒確率
  • 5. 隠れマルコフモデル(HMM) 5 • 潜在変数 𝒛' について 1 of 𝐾 符号化 𝒛' = 𝑧'$, … , 𝑧'= 𝑧'> = 1, 𝑧'? = 0 𝑗 ≠ 𝑘 遷移確率 𝑝 𝒛' 𝒛'-$, 𝑨 = 8 >9$ = 8 ?9$ = 𝐴?> FGHI,JFGK 初期確率 𝑝 𝒛$ 𝝅 = 8 >9$ = 𝜋> FIK • 𝐴?> = 𝑝 𝑧'> = 1 𝑧'-$,? = 1 , 𝜋> = 𝑝 𝑧$> = 1 によって、 𝑝 𝒙' 𝒛', 𝝓 = 8 >9$ = 𝑝(𝒙'|𝝓>)FGK 𝜃 = {𝝅, 𝑨, 𝝓}をモデルのパラメータ集合とする • 出⼒確率 → 𝐾 𝐾 − 1 個のパラメータ
  • 6. HMM の最尤推定 6 観測変数(データ) 𝑿 = {𝒙$, … , 𝒙6}が観測された場合に パラメータ𝜽 = {𝝅, 𝑨, 𝝓} をEM アルゴリズムにより決定する 尤度関数: 𝑝 𝑿 𝜽) = X 𝒁 𝑝 𝑿, 𝒁 𝜽) 𝒁: 潜在変数 • 𝑞 𝒁 を潜在変数に関する分布として以下の分解 ln 𝑝 𝑿 𝜽) = ℒ 𝑞, 𝜽 + 𝐾𝐿(𝑞 ∥ 𝑝) ℒ 𝑞, 𝜽 = X 𝒁 𝑞 𝒁 ln 𝑝 𝑿, 𝒁 𝜽 𝑞 𝒁 𝐾𝐿(𝑞| 𝑝 = − X 𝒁 𝑞 𝒁 ln 𝑝 𝒁 𝑿, 𝜽 𝑞 𝒁 変分下限 KL ダイバージェンス
  • 7. HMM の最尤推定 7 • E Step では 𝜽abcを固定 → ℒ 𝑞, 𝜽abc の最⼤化 ⇔ 𝐾𝐿(𝑞| 𝑝 = 0 ⇔ 𝑞 𝒁 = 𝑃 𝒁 𝑿, 𝜽abc) • M Step では 𝑞 𝒁 を固定 → ℒ 𝑞, 𝜽abc を最⼤にする 𝜽'fgの算出 ℒ 𝑞, 𝜽 = ∑i 𝑝 𝒁 𝑿, 𝜽abc) ln 𝑝(𝑿, 𝒁 𝜽 − ∑ 𝒁 𝑝 𝒁 𝑿, 𝜽abc) ln 𝑝(𝒁 𝑿, 𝜽abc Const(𝜽に⾮依存)完全データ対数尤度の期待値 → 𝑄 𝜽, 𝜽abc とおいて最⼤化
  • 8. EM アルゴリズム: E Step 8 Q 𝜽, 𝜽abc = X 𝒁 𝑝 𝒁 𝑿, 𝜽abc) ln 𝑝 𝑿, 𝒁 𝜽) = Ε[ln 𝑝 𝑿, 𝒁 𝜽)] = X >9$ = Ε 𝑧$> ln 𝜋> + X '9) 6 X ?9$ = X >9$ = Ε 𝑧'-$,? 𝑧'> ln 𝐴?> + X '9$ 6 X >9$ = Ε 𝑧'> ln 𝑝 𝒙' 𝝓>) 𝛾 𝑧'> = Ε 𝑧'> = X 𝒛G 𝑝 𝒛' 𝑿, 𝜽abc)𝑧'> 𝜉 𝑧'-$,?, 𝑧'> = Ε 𝑧'-$,? 𝑧'> 𝑧'-$,? 𝑧'> = X 𝒛GHI,𝒛G 𝑝 𝒛'-$, 𝒛' 𝑿, 𝜽abc)𝑧'-$,> 𝑧'> → 𝛾 𝑧'> , 𝜉 𝑧'-$,?, 𝑧'> の計算(効率的な⽅法は後述) 𝜽abcを固定して事後分布 𝑝 𝒁 𝑿, 𝜽abc) を求める
  • 9. EM アルゴリズム: M Step 9 Q 𝜽, 𝜽abc = X >9$ = 𝛾 𝑧$> ln 𝜋> + X '9) 6 X ?9$ = X >9$ = 𝜉 𝑧'-$,?, 𝑧'> ln 𝐴?> + X '9$ 6 X >9$ = 𝛾 𝑧'> ln 𝑝 𝒙' 𝝓>) 𝛾 𝑧'> , 𝜉 𝑧'-$,?, 𝑧'> を固定して 𝜽'fg を求める 𝜋> = q FIK ∑JrI s q FIJ 𝐴?> = ∑Grt u v FGHI,J,FGK ∑wrI s ∑Grt u v FGHI,J,FGw Q 𝜽, 𝜽abc に関する最⼤化
  • 10. EM アルゴリズム: M Step 10 Q 𝜽, 𝜽abc = Ε[ln 𝑝 𝑿, 𝒁 𝜽)] = X >9$ = 𝛾 𝑧$> ln 𝜋> + X '9) 6 X ?9$ = X >9$ = 𝜉 𝑧'-$,?, 𝑧'> ln 𝐴?> + X '9$ 6 X >9$ = 𝛾 𝑧'> ln 𝑝 𝒙' 𝝓>) 𝝓> が成分ごと独⽴. 𝑝 𝒙 𝝓>) = 𝒩 𝒙 𝝁>, 𝜮>) とすると, 𝝁> = ∑'9$ 6 𝛾(𝑧'>)𝒙' ∑'9$ 6 𝛾(𝑧'>) 𝜮> = ∑'9$ 6 𝛾 𝑧'> (𝒙' − 𝝁>)(𝒙' − 𝝁>)| ∑'9$ 6 𝛾(𝑧'>) cf. 混合ガウス分布のM Step Ε ln 𝑝 𝑿, 𝒁 𝝁, 𝜮, 𝝅 ] = ∑'9$ 6 ∑>9$ = 𝛾 𝑧'> {ln 𝜋> + ln 𝒩 𝒙' 𝝁>, 𝜮>)} の最⼤化
  • 11. Forward-backward アルゴリズム 11 E Step で 𝛾 𝑧'> , 𝜉 𝑧'-$,?, 𝑧'> を求める 𝛾 𝑧'> = Ε 𝑧'> = X FG 𝑝 𝒛' 𝑿, 𝜽abc)𝑧'> 𝑝 𝒛' 𝒙$, … , 𝒙6) の各 𝐾 要素がΕ 𝑧'> に対応している (E Step では 𝜽abc は固定より省略した) 𝑝 𝒛' 𝒙$, … , 𝒙6) = 𝑝 𝒛' 𝑝 𝒙$, … , 𝒙6 𝒛' 𝑝 𝒙$, … , 𝒙6 = 𝑝 𝒙$, … , 𝒙', 𝒛' 𝑝(𝒙'}$, … , 𝒙6|𝒛') 𝑝(𝒙$, … , 𝒙6) = 𝛼(𝒛')𝛽(𝒛') 𝑝(𝑿) 𝛼 𝒛' = 𝑝 𝒙$, … , 𝒙', 𝒛' 𝛽 𝒛' = 𝑝 𝒙'}$, … , 𝒙6 𝒛'
  • 12. Forward-backward アルゴリズム 12 𝜉 𝒛'-$,?, 𝒛'> = Ε 𝒛'-$,?, 𝒛'> = X FG 𝑝 𝒛'-$, 𝒛' 𝑿, 𝜽abc)𝑧'> 𝑝 𝒛'-$, 𝒛' 𝒙$, … , 𝒙6) の各𝐾 × 𝐾 要素が Ε 𝑧'-$,?, 𝑧'> に対応している E Step で 𝛾 𝑧'> , 𝜉 𝑧'-$,?, 𝑧'> を求める 𝛼 𝒛' = 𝑝 𝒙$, … , 𝒙', 𝒛' 𝛽 𝒛' = 𝑝 𝒙'}$, … , 𝒙6 𝒛' 𝑝 𝒛'-$, 𝒛' 𝒙$, … , 𝒙6) = 𝑝 𝒛'-$, 𝒛' 𝑝 𝒙$, … , 𝒙6 𝒛'-$, 𝒛' 𝑝 𝒙$, … , 𝒙6 = 𝑝 𝒙$, … , 𝒙'-$|𝒛'-$ 𝑝 𝒙' 𝒛' 𝑝 𝒙'}$, … , 𝒙6 𝒛' 𝑝 𝒛' 𝒛'-$ 𝑝(𝒛'-$) 𝑝(𝒙$, … , 𝒙6) = 𝛼(𝒛'-$)𝑝 𝒙' 𝒛' 𝑝(𝒛'|𝒛'-$)𝛽(𝒛') 𝑝(𝑿)
  • 13. Forward-backward アルゴリズム 13 𝛼(𝒛')は前向き, 𝛽(𝒛')は後向きに再帰的に計算できる • 𝛼 𝒛$ = 𝑝 𝒙$, 𝒛$ = 𝑝 𝒛$ 𝑝 𝒙$|𝒛$ • 𝛽 𝒛6 = 1 • 𝛼 𝒛' = 𝑝 𝒙$, … , 𝒙', 𝒛' = ⋯ = 𝑝 𝒙' 𝒛' X 𝒛GHI 𝛼 𝒛'-$ 𝑝(𝒛'|𝒛'-$) • 𝛽 𝒛' = 𝑝 𝒙'}$, … , 𝒙6|𝒛' = ⋯ = X 𝒛G‚I 𝛽 𝒛'}$ 𝑝 𝒙'}$ 𝒛'}$ 𝑝(𝒛'}$|𝒛')
  • 14. スケーリング係数 14 𝛼 𝒛' , 𝛽(𝒛')の実際の計算には問題がある 𝛼 𝒛' = 𝑝 𝒙' 𝒛' X 𝒛GHI 𝛼 𝒛'-$ 𝑝 𝒛' 𝒛'-$ → 𝑝 𝒙' 𝒛' , 𝑝 𝒛' 𝒛'-$ が⼩さいと𝛼 𝒛' は前向き計算とともに急速 にゼロに近づいてしまう ƒ𝛼 𝒛' = 𝑝 𝒛' 𝒙$, … , 𝒙' = 𝛼(𝒛') 𝑝(𝒙$, … , 𝒙') を導⼊ →どの𝑛に対しても𝐾個の変数上の確率分布であり問題ない
  • 15. スケーリング係数 15 スケーリング係数: 𝑐' = 𝑝(𝒙'|𝒙$, … , 𝒙'-$)を導⼊する 𝛼 𝒛' = 𝑝 𝒛' 𝒙$, … , 𝒙' 𝑝 𝒙$, … , 𝒙' = 8 .9$ ' 𝑐. ƒ𝛼 𝒛' 𝛼 𝒛' の再帰式は 𝑐' ƒ𝛼 𝒛' = 𝑝 𝒙' 𝒛' ∑ 𝒛GHI ƒ𝛼 𝒛'-$ 𝑝 𝒛' 𝒛'-$ 𝛽 𝒛' に関してもスケーリングを考える †𝛽 𝒛' = 𝑝(𝒙'}$, … , 𝒙6|𝒛') 𝑝(𝒙'}$, … , 𝒙6|𝒙$, … , 𝒙') 𝑐'}$ †𝛽 𝒛' = ∑ 𝒛G‚I †𝛽 𝒛'}$ 𝑝 𝒙'}$ 𝒛'}$ 𝑝(𝒛'}$|𝒛') ← 条件付き確率の”⽐”
  • 16. Viterbi アルゴリズム 16 観測系列に対し, 隠れ状態の最も確からしい系列を求める ex. ⾳声認識 観測系列: ⾳響特徴量 隠れ状態系列: ⾳素
  • 17. Viterbi アルゴリズム 17 𝜔 𝒛' とおく → 𝜔 𝒛' の再帰式が得られる
  • 18. Viterbi アルゴリズム 18 1. 以下の再帰式により前向き計算 このとき、最⼤値をとる𝒛'を記録しておく 𝑛 − 1 𝑛 𝑛 + 1 𝑘 = 1 𝑘 = 2 𝑘 = 3
  • 19. Viterbi アルゴリズム 19 𝑁 − 2 𝑁 − 1 𝑁 …… …… …… 𝑘 = 1 𝑘 = 2 𝑘 = 3 とすると、 2. バックトラックにより最も確からしい系列(経路)を得る
  • 20. 線形動的システム(LDS) 20 𝒛$ 𝒛) 𝒛6𝒛6-$ 𝒙$ 𝒙) 𝒙6-$ 𝒙6 …… 潜在変数 (連続) 観測変数 (離散or連続) 𝑿, 𝒁 は親ノードの状態の線形関数を平均とするガウス分布に従うとする 𝑝 𝒛'|𝒛'-$ = 𝒩 𝑨𝒛'-$, 𝜞 𝑝 𝒙'|𝒛' = 𝒩 𝒙'|𝑪𝒛', 𝜮 𝑝 𝒛$ = 𝒩(𝒛$|𝝁Œ, 𝑷Œ) 遷移確率 出⼒確率 初期確率
  • 21. LDS の応⽤例: 物体のトラッキング 21 X 物体の観測値(ノイズを含む) Z 物体の真の位置 𝝁, 𝑽 推定された事後分布の平均と共分散(95%信頼区間) カルマンフィルタ 10 12 14 16 18 20 22 4 6 8 10 12 14 observed truth 8 10 12 14 16 18 20 22 24 4 6 8 10 12 14 16 observed filtered (物体は左から右へ移動) 『Machine Learning: A Probabilistic Perspective』より
  • 22. 観測値 𝒙$, … , 𝒙' を与えて 𝒛'の事後周辺分布 𝑝(𝒛'| 𝒙$, … , 𝒙') = 𝒩(𝒛'|𝝁', 𝑽') を求める LDSの推論: カルマンフィルタ 22 ƒ𝛼 𝒛' = 𝑝 𝒛' 𝒙$, … , 𝒙' 𝛼 𝒛' の再帰式は 𝑐' ƒ𝛼 𝒛' = 𝑝 𝒙' 𝒛' ∑ 𝒛GHI ƒ𝛼 𝒛'-$ 𝑝 𝒛' 𝒛'-$ HMM LDS では ƒ𝛼 𝒛' = 𝑝 𝒛' 𝒙$, … , 𝒙' = 𝒩 𝒛' 𝝁', 𝑽' 𝑐' ƒ𝛼 𝒛' = 𝑝 𝒙' 𝒛' ∫ ƒ𝛼 𝒛'-$ 𝑝 𝒛' 𝒛'-$ 𝑑𝒛'-$ →オンライン予測
  • 23. LDSの推論: カルマンフィルタ 23 𝑐' ƒ𝛼 𝒛' = 𝑝 𝒙' 𝒛' ‘ ƒ𝛼 𝒛'-$ 𝑝 𝒛' 𝒛'-$ 𝑑𝒛'-$ 𝑐' 𝒩 𝒛' 𝝁', 𝑽' = 𝒩 𝒙'|𝑪𝒛', 𝜮 ∫ 𝒩 𝑨𝒛'-$, 𝜞 𝒩 𝒛'-$ 𝝁'-$, 𝑽'-$ 𝑑𝒛'-$ = 𝒩 𝒙'|𝑪𝒛', 𝜮 𝒩 𝒛' 𝑨𝝁'-$, 𝑨𝑽'-$ 𝑨| + 𝜞 𝝁' = 𝑨𝜇'-$ + 𝑲'(𝒙' − 𝑪𝑨𝜇'-$) 𝑽' = (𝑰 − 𝑲' 𝑪)𝑷'-$ 𝑐' = 𝒩(𝒙'|𝑪𝑨𝜇'-$, 𝑪𝑷'-$ 𝑪| + 𝜮) 𝑷'-$ = 𝑨𝑽'-$ 𝑨| + 𝚪 𝑲' = 𝑷'-$ 𝑪| (𝑪𝑷'-$ 𝑪| + 𝜮)-$ (2.115)ガウス分布の周辺分布と条件付き分布 𝑝 𝒙 = 𝒩 𝒙 𝝁, 𝜦 𝑝 𝒚 𝒙 = 𝒩 𝒙 𝑨𝒙 + 𝒃, 𝑳 𝑝 𝒚 = 𝒩 𝒙 𝑨𝝁 + 𝒃, 𝑳 + 𝐀𝜦𝐀 𝐓 𝑝 𝒙|𝒚 = 𝒩 𝒙 𝑨𝝁 + 𝒃, 𝑳
  • 24. カルマンスムーザ 24 観測値 𝒙$, … , 𝒙6 を与えて 𝒛'の事後周辺分布 𝑝(𝒛'| 𝒙$, … , 𝒙6) = 𝒩(𝒛'|œ𝝁', •𝑽') を求める → 過去の観測だけでなく未来の観測も含めることでパラメータを再推定 𝑝 𝒛' 𝒙$, … , 𝒙6 = ž 𝒙I,…,𝒙G,𝒛G ž(𝒙G‚I,…,𝒙u|𝒛G) ž(𝒙I,…,𝒙u) = ƒ𝛼 𝒛' †𝛽 𝒛' = 𝒩(𝒛'|œ𝝁', •𝑽') 𝑐'}$ †𝛽 𝒛' = ‘ †𝛽 𝒛'}$ 𝑝 𝒙'}$ 𝒛'}$ 𝑝 𝒛'}$ 𝒛' 𝑑𝒛'}$ ƒ𝛼 𝒛' はカルマンフィルタで求めてある †𝛽 𝒛' についてはHMM の †𝛽 𝒛' の再帰式から
  • 25. カルマンスムーザ 25 𝑐'}$ ƒ𝛼 𝒛' †𝛽 𝒛' = ƒ𝛼 𝒛' ‘ †𝛽 𝒛'}$ 𝑝 𝒙'}$ 𝒛'}$ 𝑝 𝒛'}$ 𝒛' 𝑑𝒛'}$ œ𝝁' = 𝝁' + 𝑱'(œ𝝁'}$ − 𝑨𝝁') •𝑽' = 𝑽' + 𝑱'(•𝑽'}$ − 𝑷') 𝑱' | 𝑷' = 𝑨𝑽' 𝑨| + 𝚪 𝑱' = 𝑽' 𝑨| (𝑷')-$ ƒ𝛼 𝒛' , †𝛽 𝒛' は LDS のパラメータ 𝜽 = {𝑨, 𝜞, 𝑪, 𝜮, 𝝁 𝟎, 𝑷 𝟎}の推定時、 E Step での Forward-backward アルゴリズムで⽤いる
  • 26. 例: カルマンフィルタとカルマンスムーザ 26 8 10 12 14 16 18 20 22 24 4 6 8 10 12 14 16 observed filtered 10 15 20 25 4 6 8 10 12 14 observed smoothed 10 12 14 16 18 20 22 4 6 8 10 12 14 observed truth カルマンフィルタのみ カルマンフィルタ + カルマンスムーザ 『Machine Learning: A Probabilistic Perspective』より 物体の観測値(ノイズを含む) 物体の真の位置 推定された事後分布の平均 事後分布の共分散(95%信頼区間)
  • 27. LDS では Viterbi アルゴリズムのようなものは考える必要なし → 個別の時刻で最も確からしい潜在変数の値を選べばよい LDS の最も確からしい系列 27 𝑿 = 𝒙$, … , 𝒙6 , 𝒁 = {𝒛$, … , 𝒛6} 𝑝 𝒁 𝑿 はガウス分布で, 𝝁 = {𝝁$, … , 𝝁6}とするとガウス分布は平均で最⼤. 𝒁.¡¢ = {𝝁$, … , 𝝁6} また, 𝑝 𝒁 𝑿 の周辺分布 𝑝 𝒛' 𝑿 は平均𝝁'のガウス分布に従う. (2.98) 𝑝(𝒙¡, 𝒙£) = 𝒩 𝒙 𝝁, 𝚺 𝝁 = 𝝁¡, 𝝁£ , 𝜮 = 𝜮¡¡ 𝜮¡£ 𝜮£¡ 𝜮££ 𝑝 𝒙¡ = ‘ 𝑝(𝒙¡, 𝒙£) 𝑑𝒙£ = 𝒩 𝒙 𝝁¡, 𝜮¡¡ (𝑿は観測に固定)
  • 28. • 隠れマルコフモデル(HMM) • 潜在変数は離散 • パラメータ推定: EM + Forward-backward • Viterbi アルゴリズム: 観測変数系列に対し最も確からしい潜在変数系列 まとめ 28 • 線形動的システム(LDS) • 潜在変数は連続. 観測変数, 潜在変数ともにガウス分布に従う • LDS の推論: 潜在変数の分布を予測する • カルマンフィルタ(Forward): オンライン予測 • カルマンスムーザ(Backward): 全ての観測からパラメータ再推定(オフライン) • Viterbi アルゴリズムは必要なし: 個々に最も確からしい潜在変数を選べばよい