More Related Content
Similar to PRML第9章「混合モデルとEM」 (20)
PRML第9章「混合モデルとEM」
- 7. K-means法に対するEMアルゴリズム
• 目的関数:「歪み尺度」
• 𝐽 = 𝑛=1
𝑁
𝑘=1
𝐾
𝑟𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘
2
• 𝑟𝑛𝑘:𝑛番目のデータ点がクラスタ𝑘に属するか 0,1
• 𝐱 𝑛:データ点の座標
• 𝝁 𝑘:クラスタのプロトタイプ(中心)
• Eステップの目的
• 𝑟𝑛𝑘について𝐽を最小化(𝝁 𝑘は固定)
• Mステップの目的
• 𝝁 𝑘について𝐽を最小化(𝑟𝑛𝑘は固定)
2016/9/12 パターン認識と機械学習 輪読 7
例:3番目のデータ点がクラスタ2に属する場合
𝑟31, 𝑟32 = 0,1
- 8. Eステップ
• 𝐽 = 𝑛=1
𝑁
𝑘=1
𝐾
𝑟𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘
2
• Eステップの目的:𝑟𝑛𝑘について𝐽を最小化
• 例:クラスター2つの場合
• 𝐽 = 𝑛=1
𝑁
𝑟𝑛1 𝐱 𝑛 − 𝝁1
2 + 𝑟𝑛2 𝐱 𝑛 − 𝝁2
2
• 𝐱 𝑛 − 𝝁 𝑘 が最小となる𝑘に対して𝑟𝑛𝑘 = 1とすればよい
大 小0 1
2016/9/12 パターン認識と機械学習 輪読 8
- 9. Mステップ
• 𝐽 = 𝑛=1
𝑁
𝑘=1
𝐾
𝑟𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘
2
• Mステップの目的:𝝁 𝑘について𝐽を最小化
• 𝐽の𝝁 𝑘に関する変微分を0とおき、最小化
• 2 𝑛=1
𝑁
𝑟𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘 = 0
• ∴ 𝝁 𝑘 = 𝑛 𝑟 𝑛𝑘 𝐱 𝑛
𝑛 𝑟 𝑛𝑘
• クラスターに属するデータ点の座標の平均
2016/9/12 パターン認識と機械学習 輪読 9
- 11. 画像圧縮への利用
r
g
b
r
g
b
2016/9/12 パターン認識と機械学習 輪読 11
圧縮前 圧縮後
1ピクセルがとりうる色 256 3
= 224 𝐾
1ピクセルが必要とする情報量(ビット) log2 224
= 24 log2 𝐾
代表ベクトルの保持に必要な情報量(ビット) 𝐾 log2 28 3
= 24𝐾
Nピクセルの画像全体で必要な情報量(ビット) 24𝑁 𝑁 log2 𝐾 + 24𝐾
𝑵 = 𝟏𝟎𝟎𝟎𝟎, 𝑲 = 𝟐𝟓𝟔としたときの情報量(ビット) 𝟐𝟒𝟎𝟎𝟎𝟎 𝟖𝟎𝟎𝟎𝟎 + 𝟔𝟏𝟒𝟒 = 𝟖𝟔𝟏𝟒𝟒
- 15. 混合ガウス分布 確率変数とパラメータ
• 𝐱 = 𝑥1, 𝑥2 :観測変数
• データ点から観測できる
• 𝐳 = 𝑧1, 𝑧2, 𝑧3 :潜在変数
• 𝑧 𝑘は 0,1 の2値変数
• 𝑘番目の的を狙うとき、 𝑧 𝑘 = 1
• 𝑘番目の的を狙う確率:𝑝 𝑧 𝑘 = 1 = 𝜋 𝑘
• データ点からは観測できない
• 的に関する情報
• 的の中心座標𝝁 𝑘、ばらつき𝚺 𝑘
𝑥1
𝑥2
𝑧1 𝑧2 𝑧3
2016/9/12 パターン認識と機械学習 輪読 15
𝑥2 観測可能
観測不可能
- 16. 混合ガウス分布 確率分布
• 潜在変数𝐳の確率分布
• 𝑝 𝐳 = 𝑘=1
𝐾
𝜋 𝑘
𝑧 𝑘
• 狙いをつけた下での𝐱の条件付分布
• 𝑝 𝐱|𝑧 𝑘 = 1 = 𝒩 𝐱|𝝁 𝑘, 𝚺 𝑘
• 𝑝 𝐱|𝐳 = 𝑘=1
𝐾
𝒩 𝐱|𝝁 𝑘, 𝚺 𝑘
𝑧 𝑘
• 同時分布は𝑝 𝐳 𝑝 𝐱|𝐳 なので、𝐱の周辺分布は
• 𝑝 𝐱 = 𝐳 𝑝 𝐳 𝑝 𝐱|𝐳 = 𝑘=1
𝐾
𝜋 𝑘 𝒩 𝐱|𝝁 𝑘, 𝚺 𝑘
𝑥1
𝑥2
𝑧1 𝑧2 𝑧3
2016/9/12 パターン認識と機械学習 輪読 16
𝑝 𝑧 𝑘 = 1 = 𝜋 𝑘
- 17. 混合ガウス分布 負担率
2016/9/12 パターン認識と機械学習 輪読 17
𝑥1
𝑥2
𝑧1 𝑧2 𝑧3
• あるデータ点は、どの的を狙うことにより
生成されたのか? →「負担率」
• 𝐱が与えられた下での𝐳の条件付確率
• 𝛾 𝑧 𝑘 ≡ 𝑝 𝑧 𝑘 = 1|𝐱 =
𝑝 𝑧 𝑘=1 𝑝 𝐱|𝑧 𝑘=1
𝑗=1
𝐾 𝑝 𝑧 𝑗=1 𝑝 𝐱|𝑧 𝑗=1
=
𝜋 𝑘 𝒩 𝑥|𝜇 𝑘, Σ 𝑘
𝑗=1
𝐾 𝜋 𝑗 𝒩 𝑥|𝜇 𝑗,Σ 𝑗
• 混合要素𝑘が𝐱の観測を説明する度合い
- 19. 最尤推定
𝐱 𝑇
= 𝑥1, … , 𝑥 𝐷 , 𝐳 𝑇
= 𝑧1, … , 𝑧 𝐾
2016/9/12 パターン認識と機械学習 輪読 19
𝐗 =
𝑥11 ⋯ 𝑥 𝐷
⋮ ⋱ ⋮
𝑥 𝑁1 ⋯ 𝑥 𝑁𝐷
𝐙 =
𝑧11 ⋯ 𝑧 𝐷
⋮ ⋱ ⋮
𝑧 𝑁1 ⋯ 𝑧 𝑁𝐷
データ集合
• 尤度関数
• 𝑝 𝐗|𝝅, 𝝁, 𝚺 = 𝑛=1
𝑁
𝑝 𝐱 𝑛|𝝅, 𝝁, 𝚺
= 𝑛=1
𝑁
𝑘=1
𝐾
𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘
• 対数尤度関数
• ln 𝑝 𝐗|𝝅, 𝝁, 𝚺 = 𝑛=1
𝑁
ln 𝑘=1
𝐾
𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘
• データ集合として考え、最尤推定を行う
- 20. 混合ガウス分布の最尤推定における問題
• 各混合要素の共分散行列を 𝚺 𝑘 = 𝜎 𝑘
2
𝐈 とする
• ある𝑛について𝝁 𝑗 = 𝐱 𝑛と仮定
• つまり混合要素の平均(中心)とデータ点が一致
• データ点は次の形で尤度関数に寄与
• 𝒩 𝐱 𝑛|𝐱 𝑘, 𝜎𝑗
2
𝐈 =
1
2𝜋 𝐷/2 ∙
1
𝜎𝑗
𝐷
• 𝜎𝑗 → 0の極限をとると発散
• ガウス分布のパラメータに制限
2016/9/12 パターン認識と機械学習 輪読 20
【ガウス分布の一般形】
𝒩 𝐱|𝝁, 𝚺
=
1
2𝜋 𝐷/2
∙
1
𝚺 1 2
exp −
1
2
𝐱 − 𝝁 𝑇 𝚺−1 𝐱 − 𝝁
- 22. 𝝁 𝑘, 𝚺 𝑘に対する尤度関数の最大化
• 対数尤度を𝝁 𝑘について微分して0とおく
• 0 = 𝑛=1
𝑁 𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘,𝚺 𝑘
𝑗 𝜋 𝑗 𝒩 𝐱 𝑛|𝝁 𝑗,𝚺 𝑗
Σ 𝑘
−1
𝐱 𝑛 − 𝝁 𝑘
• 整理して
• 𝝁 𝑘 =
1
𝑁 𝑘
𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘 𝐱 𝑛
• ただし、
• 𝑁𝑘 = 𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘
• 𝚺 𝑘についても同様に
• 𝚺 𝑘 =
1
𝑁 𝑘
𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘 𝐱 𝑛 − 𝝁 𝑘
T
2016/9/12 パターン認識と機械学習 輪読 22
負担率𝛾 𝑧 𝑛𝑘
k番目の的が狙われた回数
データ点の重み(=負担率)つき平均
各データ点が的(ガウス要素の中心)
からどのくらい離れているか
ln 𝑝 𝐗|𝝅, 𝝁, 𝚺
=
𝑛=1
𝑁
ln
𝑘=1
𝐾
𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘
- 23. 𝜋 𝑘に関する尤度関数の最大化(1)
• 𝑘=1
𝐾
𝜋 𝑘 = 1という制約条件の下で、ラグランジュの未定乗数法を用いる
• 次の量を𝜋 𝑘で微分して0とおく
• ln 𝑝 𝐗|𝝅, 𝝁, 𝚺 + 𝜆 𝑘=1
𝐾
𝜋 𝑘 − 1
• 次の式が得られる
• 0 = 𝑛=1
𝑁 𝒩 𝐱 𝑛|𝝁 𝑘,𝚺 𝑘
𝑗 𝜋 𝑗 𝒩 𝐱 𝑛|𝝁 𝑗,𝚺 𝑗
+ 𝜆
2016/9/12 パターン認識と機械学習 輪読 23
次スライド
- 24. 𝜋 𝑘に関する尤度関数の最大化(2)
• 両辺に𝜋 𝑘をかけて
• 0 = 𝑛=1
𝑁 𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘,𝚺 𝑘
𝑗 𝜋 𝑗 𝒩 𝐱 𝑛|𝝁 𝑗,𝚺 𝑗
+ 𝜆𝜋 𝑘 ⋯ ∗
• 𝑘について和をとる
• 0 = 𝑘=1
𝐾
𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘 + 𝜆 𝑘=1
𝐾
𝜋 𝑘
2016/9/12 パターン認識と機械学習 輪読 24
負担率𝛾 𝑧 𝑛𝑘
𝑘=1
𝐾
𝛾 𝑧 𝑛𝑘 = 1 𝑘=1
𝐾
𝜋 𝑘 = 1
• 0 = 𝑁 + 𝜆 ∴ 𝜆 = −𝑁
• ∗ より、
• 0 = 𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘 − 𝑁𝜋 𝑘 ∴ 𝜋 𝑘 =
𝑁 𝑘
𝑁
• よって𝜋 𝑘は、的𝑘の負担率の合計を正規化したもの
𝑁𝑘 =
𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘
- 25. 𝝁 𝑘, 𝚺 𝑘, 𝜋 𝑘の最尤解
• 𝝁 𝑘 =
1
𝑁 𝑘
𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘 𝐱 𝑛
• データ点の重み(=負担率)つき平均
• 𝚺 𝑘 =
1
𝑁 𝑘
𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘 𝐱 𝑛 − 𝝁 𝑘
T
• 各データ点がガウス要素の中心からどのくらい離れているか
• 𝜋 𝑘 =
𝑁 𝑘
𝑁
• その要素の負担率の合計を正規化したもの
2016/9/12 パターン認識と機械学習 輪読 25
- 30. EMアルゴリズムの一般化
2016/9/12 パターン認識と機械学習 輪読 30
目的:尤度関数𝒑 𝐗|𝜽 の最大化
• 𝑝 𝐗|𝜽 = 𝐙 𝑝 𝐗, 𝐙|𝜽
• 𝑝 𝐗, 𝐙|𝜽 を求めるには𝐙の観測が必要
• →不可能
• 𝑝 𝐗, 𝐙|𝜽 を求めることはできないので、
条件付期待値𝔼 𝐙|𝐗 ln 𝑝 𝐗, 𝐙|𝜽 を求める
目的:条件付期待値𝔼 𝐙|𝐗 𝒍𝒏 𝒑 𝐗, 𝐙|𝜽 の最大化
- 32. 完全データ対数尤度の期待値を導出
• 完全データ尤度
• 𝑝 𝐗, 𝐙|𝝁, 𝚺, 𝝅 = 𝑝 𝐗|𝐙, 𝝁, 𝚺, 𝝅 𝑝 𝐙|𝝁, 𝚺, 𝝅
= 𝑛=1
𝑁
𝑝 𝐱 𝑛|𝐳 𝑛 𝑝 𝐳 𝑛
= 𝑛=1
𝑁
𝑘=1
𝐾
𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘
𝑧 𝑛𝑘
• 完全データ対数尤度を求める
• ln 𝑝 𝐗, 𝐙|𝝁, 𝚺, 𝝅 = ln 𝑛=1
𝑁
𝑘=1
𝐾
𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘
𝑧 𝑛𝑘
= 𝑛=1
𝑁
𝑘=1
𝐾
𝑧 𝑛𝑘 ln 𝜋 𝑘 + ln 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘
• 𝑧 𝑛𝑘は観測できないので、期待値を用いると
• 𝔼 𝐙|𝐗 ln 𝑝 𝐗, 𝐙|𝝁, 𝚺, 𝝅 = 𝑛=1
𝑁
𝑘=1
𝐾
𝔼 𝐙 𝑧 𝑛𝑘 ln 𝜋 𝑘 + ln 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘
• 𝔼 𝐙|𝐗 𝑧 𝑛𝑘 を求める
2016/9/12 パターン認識と機械学習 輪読 32
𝑝 𝐳 =
𝑘=1
𝐾
𝜋 𝑘
𝑧 𝑘
𝑝 𝐱|𝐳 =
𝑘=1
𝐾
𝒩 𝐱|𝝁 𝑘, 𝚺 𝑘
𝑧 𝑘
- 33. 𝑧 𝑛𝑘の期待値の導出
• 事後分布𝑝 𝐳 𝑛|𝐱 𝑛, 𝝁, 𝚺, 𝝅 に関する期待値
• 𝔼 𝐙|𝐗 𝑧 𝑛𝑘 = 𝐳 𝑛
𝑧 𝑛𝑘 𝑝 𝐳 𝑛|𝐱 𝑛, 𝝁, 𝚺, 𝝅
=
𝐳 𝑛 𝑧 𝑛𝑘 𝑘′=1
𝐾
𝜋 𝑘′ 𝒩 𝐱 𝑛|𝝁 𝑘′,𝚺 𝑘′
𝑧
𝑛𝑘′
𝐳 𝑛 𝑗=1
𝐾 𝜋 𝑗 𝒩 𝐱 𝑛|𝝁 𝑗,𝚺 𝑗
𝑧 𝑛𝑗
=
𝐳 𝑛 𝑧 𝑛𝑘 𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘,𝚺 𝑘
𝐳 𝑛 𝜋 𝑗 𝒩 𝐱 𝑛|𝝁 𝑗,𝚺 𝑗
=
𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘,𝚺 𝑘
𝑗=1
𝐾 𝜋 𝑗 𝒩 𝐱 𝑛|𝝁 𝑗,𝚺 𝑗
≡ 𝛾 𝑧 𝑛𝑘
2016/9/12 パターン認識と機械学習 輪読 33
𝐳 𝑛 = 𝑧 𝑛1, 𝑧 𝑛2, … , 𝑧 𝑛𝑘, … , 𝑧 𝑛𝐾
𝐳 𝑛 = 𝑧 𝑛1, 𝑧 𝑛2, … , 𝑧 𝑛𝑗, … , 𝑧 𝑛𝐾
1
1
𝐳 𝑛
の意味:
𝐳 𝑛のすべてのとりうる値、つまり
1,0, … , 0, … , 0
0,1, … , 0, … , 0
0,0, … , 1, … , 0
0,0, … , 0, … , 1
に対して和をとる
𝐾
- 36. K-meansとの関連(3)
• 𝐱 − 𝝁 𝑗
2
が最小になる𝑗を𝑗∗とおく。
• 𝑟 𝑛𝑗∗ = 1、𝑘 ≠ 𝑗∗に対して𝑟𝑛𝑘 = 0
• lim
𝜖→∞
𝛾 𝑧 𝑛𝑗∗ = lim
𝜖→∞
𝜋 𝑗∗ exp − 𝐱−𝝁 𝑗∗
2
2𝜖
𝜋1 exp − 𝐱−𝝁1
2 2𝜖 +⋯+𝜋 𝑗∗ exp − 𝐱−𝝁 𝑗∗
2
2𝜖 +⋯+𝜋 𝐾 exp − 𝐱−𝝁 𝐾
2 2𝜖
= 1 = 𝑟 𝑛𝑗∗
• lim
𝜖→∞
𝛾 𝑧 𝑛𝑘 = lim
𝜖→∞
𝜋 𝑘 exp − 𝐱−𝝁 𝑘
2 2𝜖
𝜋1 exp − 𝐱−𝝁1
2 2𝜖 +⋯+𝜋 𝑗∗ exp − 𝐱−𝝁 𝑗∗
2
2𝜖 +⋯+𝜋 𝐾 exp − 𝐱−𝝁 𝐾
2 2𝜖
= 0 = 𝑟𝑛𝑘
• 𝝐 → ∞の極限をとると、𝜸 𝒛 𝒏𝒌 と𝒓 𝒏𝒌が一致する
2016/9/12 パターン認識と機械学習 輪読 36
- 37. K-meansとの関連(4)
• Mステップにおける𝝁 𝑘の値
• 𝝁 𝑘 = 𝑛 𝑟 𝑛𝑘 𝐱 𝑛
𝑛 𝑟 𝑛𝑘
• 対数尤度の期待値
• 𝔼 ln 𝐗, 𝐙|𝝁, 𝚺, 𝝅 → −
1
2 𝑛=1
𝑁
𝑘=1
𝐾
𝑟𝑛𝑘 𝐱 − 𝝁 𝑘
2 + const.
• 対数尤度の期待値の最大化は、歪み尺度の最小化と同等
• 𝐽 = 𝑛=1
𝑁
𝑘=1
𝐾
𝑟𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘
2
2016/9/12 パターン認識と機械学習 輪読 37
𝝁 𝑘 =
𝑛 𝛾 𝑧 𝑛𝑘 𝐱 𝑛
𝑛 𝛾 𝑧 𝑛𝑘
- 38. 混合ベルヌーイ分布
• 手書き文字の分類などに利用可能
• 方針
• ピクセル数が𝐷の手書き数字を、
𝐷個の2値変数を要素にもつベクトル𝐱 = 𝑥1, 𝑥2, … , 𝑥 𝐷 とする
• 観測変数: 𝐱
• 潜在変数: 𝐳 = 𝑧1, 𝑧2, … , 𝑧 𝐾
• 書き手が文字𝑘を書こうとしたとき、𝑧 𝑘 = 1となる。𝑧𝑙≠𝑘 = 0
• パラメータを調整し対数尤度関数を最大化
• 新しい手書き文字𝐱′を実際に分類
• 𝑝 𝑧1 = 1|𝐱′ , 𝑝 𝑧2 = 1|𝐱′ , … , 𝑝 𝑧 𝐾 = 1|𝐱′ を比較し、
最大となる𝑘に分類
2016/9/12 パターン認識と機械学習 輪読 38
ここまで
- 39. 尤度関数の導出
• 潜在変数の事前分布(=どの文字を書くか)
• 𝑝 𝐳|𝝅 = 𝑘=1
𝐾
𝜋 𝑘
𝑧 𝑘
• 観測変数の条件付確率(=書く文字を決めた上での、手書き文字の分布)
• 𝑝 𝐱|𝐳, 𝝁 = 𝑘=1
𝐾
𝑝 𝐱|𝝁 𝑘
𝑧 𝑘
• 同時分布(尤度関数)の導出
• 𝑝 𝐱, 𝐳|𝝁, 𝝅 = 𝑝 𝐱|𝐳, 𝝁 𝑝 𝐳|𝝅
= 𝑘=1
𝐾
𝜋 𝑘 𝑝 𝐱|𝝁 𝑘
𝑧 𝑘
= 𝑘=1
𝐾
𝜋 𝑘 𝑑=1
𝐷
𝜇 𝑘𝑑
𝑥 𝑑
1 − 𝜇 𝑘𝑑
1−𝑥 𝑑
𝑧 𝑘
2016/9/12 パターン認識と機械学習 輪読 39
𝑝 𝑧 𝑘 = 1|𝜋 𝑘 = 𝜋 𝑘
𝑝 𝑥 𝑑 = 1|𝝁 𝑘 = 𝜇 𝑘𝑑
𝑝 𝑥 𝑑 = 0|𝝁 𝑘 = 1 − 𝜇 𝑘𝑑
↓
𝑝 𝐱|𝝁 𝑘 = 𝑑=1
𝐷
𝜇 𝑘𝑑
𝑥 𝑑
1 − 𝜇 𝑘𝑑
1−𝑥 𝑑
- 41. 対数尤度関数の期待値
• データ集合𝐗 = 𝐱 𝑛 , 𝐙 = 𝐳 𝑛 に対する尤度関数
• 𝑝 𝐗, 𝐙|𝝁, 𝝅 = 𝑛=1
𝑁
𝑘=1
𝐾
𝜋 𝑘 𝑑=1
𝐷
𝜇 𝑘𝑑
𝑥 𝑑
1 − 𝜇 𝑘𝑑
1−𝑥 𝑑
𝑧 𝑘
• 対数尤度関数の導出
• ln 𝑝 𝐗, 𝐙|𝝁, 𝝅 =
𝑛=1
𝑁
𝑘=1
𝐾
𝑧 𝑛𝑘 ln 𝜋 𝑘 + 𝑑=1
𝐷
𝑥 𝑛𝑑 ln 𝜇 𝑘𝑑 + 1 − 𝑥 𝑛𝑑 ln 1 − 𝜇 𝑘𝑑
• 対数尤度関数の期待値の導出
• 𝔼 𝐙|𝐗 ln 𝑝 𝐗, 𝐙|𝝁, 𝝅 =
𝑛=1
𝑁
𝑘=1
𝐾
𝔼 𝑧 𝑛𝑘 ln 𝜋 𝑘 + 𝑑=1
𝐷
𝑥 𝑛𝑑 ln 𝜇 𝑘𝑑 + 1 − 𝑥 𝑛𝑑 ln 1 − 𝜇 𝑘𝑑
2016/9/12 パターン認識と機械学習 輪読 41
- 42. 𝑧 𝑛𝑘の期待値の導出
• ベイズの定理を用いて負担率を計算(混合ガウス分布のものと同様)
𝔼 𝑧 𝑛𝑘 = 𝐳 𝑛
𝑝 𝐳 𝑛|𝐱 𝑛, 𝝁
= 𝐳 𝑛
𝑧 𝑛𝑘
𝑝 𝐱 𝑛,𝐳 𝑛|𝝁
𝑝 𝐱 𝑛 |𝝁
=
𝐳 𝑛 𝑧 𝑛𝑘 𝑝 𝐱 𝑛,𝐳 𝑛|𝝁
𝐳 𝑛 𝑝 𝐱 𝑛,𝐳 𝑛|𝝁
=
𝐳 𝑛 𝑧 𝑛𝑘 𝑘′ 𝜋 𝑘′ 𝑝 𝐱 𝑛 |𝝁 𝑘′
𝑧
𝑛𝑘′
𝐳 𝑛 𝑗 𝜋 𝑗 𝑝 𝐱 𝑛 |𝝁 𝑗
𝑧 𝑛𝑗
2016/9/12 パターン認識と機械学習 輪読 42
=
𝜋 𝑘 𝑝 𝐱 𝑛 |𝝁 𝑘
𝑗=1
𝐾 𝜋 𝑗 𝑝 𝐱 𝑛 |𝝁 𝑗
=
𝑝 𝑧 𝑛𝑘=1|𝝁 𝑘 𝑝 𝐱 𝑛 |𝑧 𝑛𝑘=1,𝝁 𝑘
𝑗=1
𝐾 𝑝 𝑧 𝑛𝑗=1|𝝁 𝑘 𝑝 𝐱 𝑛 |𝑧 𝑛𝑗=1,𝝁 𝑗
=
𝑝 𝑧 𝑛𝑘=1|𝝁 𝑘 𝑝 𝐱 𝑛 |𝑧 𝑘=1,𝝁 𝑘
𝑧 𝑛𝑗=1 𝑝 𝐱 𝑛,𝑧 𝑛𝑗=1|𝝁
=
𝑝 𝑧 𝑛𝑘=1|𝝁 𝑘 𝑝 𝐱 𝑛 |𝑧 𝑛𝑘=1,𝝁 𝑘
𝑝 𝐱 𝑛|𝝁 𝑘
= 𝑝 𝑧 𝑛𝑘 = 1|𝐱 𝑛, 𝝁 𝑘 = 𝛾 𝑧 𝑛𝑘
- 43. 対数尤度の期待値を最大化するパラメータ
• 𝔼 𝐙|𝐗 ln 𝑝 𝐗, 𝐙|𝝁, 𝝅 =
𝑛=1
𝑁
𝑘=1
𝐾
𝛾 𝑧 𝑛𝑘 ln 𝜋 𝑘 +
𝑑=1
𝐷
𝑥 𝑛𝑑 ln 𝜇 𝑘𝑑 + 1 − 𝑥 𝑛𝑑 ln 1 − 𝜇 𝑘𝑑
を各種パラメータで微分して、最大化する解を求める
• 𝝁 𝑘 =
1
𝑁 𝑘
𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘 𝐱 𝑛
• 各ピクセルは、全データの重みつき平均値
• 𝜋 𝑘 =
𝑁 𝑘
𝑁
• 全データに対する文字𝑘の割合
• ただし𝑁𝑘 = 𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘
• 文字𝑘に分類されるデータの枚数
2016/9/12 パターン認識と機械学習 輪読 43
- 44. パラメータ𝝁 𝑘の直感的理解
2016/9/12 パターン認識と機械学習 輪読 44
𝑛 = 1 𝑛 = 2 𝑛 = 3 𝑛 = 4 𝑛 = 5
𝝁4
𝛾 𝑧 𝑛4
各データの
「4らしさ」
𝑥1𝑑
𝑥2𝑑
𝑥3𝑑 𝑥4𝑑 𝑥5𝑑
𝟏𝟎% 𝟕𝟎% 𝟕𝟓% 𝟓% 𝟕𝟓%
𝜇4𝑑 =
1
𝑁4
𝑛=1
𝑁
𝛾 𝑧 𝑛4 𝑥 𝑛𝑑𝜇4𝑑
𝝁4 = 𝜇41, … , 𝜇4𝑑, … , 𝜇4𝐷
文字4において、
各ピクセルが黒くなる確率
- 45. ベイズ線形回帰に関するEMアルゴリズム
• エビデンス近似再訪
• 方法
• 𝑝 𝐭 |𝛼, 𝛽 = 𝐰 𝑝 𝐭, 𝐰|𝛼, 𝛽 なので、𝑝 𝐭, 𝐰|𝛼, 𝛽 を求めたい。
• 𝐰の値が観測できないので 𝐰|𝐭 に関する期待値をとる
• Eステップ
• 𝐰の事後分布𝑝 𝐰|𝐭, 𝛼, 𝛽 を計算
• 期待完全データ対数尤度𝔼 𝐰|𝐭 𝑝 𝐭, 𝐰|𝛼, 𝛽
• Mステップ
• 期待完全データ対数尤度を最大化するように𝛼, 𝛽を更新
2016/9/12 パターン認識と機械学習 輪読 45
観測変数 潜在変数 パラメータ 尤度関数
混合ガウス分布 𝐗 𝐙 𝝁, 𝚺, 𝝅 𝑝 𝐗|𝝁, 𝚺, 𝝅
エビデンス近似 𝐭 𝐰 𝛼, 𝛽 𝑝 𝐭 |𝛼, 𝛽
- 48. 一般のEMアルゴリズム
• EMアルゴリズムをより一般的に取り扱う
• 尤度関数の最大化であることの証明
• 観測変数𝐗、潜在変数𝐙、パラメータの組𝜽
• 目的:尤度関数𝑝 𝐗|𝜽 = 𝐙 𝑝 𝐗, 𝐙|𝜽 の最大化
• 潜在変数についての分布𝑞 𝐙 を導入すると
• ln 𝑝 𝐗|𝜽 = ℒ 𝑞, 𝜽 + KL 𝑞||𝑝
• ただしℒ 𝑞, 𝜽 、KL 𝑞||𝑝 は次の通り
• ℒ 𝑞, 𝜽 = 𝐙 𝑞 𝐙 ln
𝑝 𝐗,𝐙|𝜽
𝑞 𝐙
• KL 𝑞||𝑝 = − 𝐙 𝑞 𝐙 ln
𝑝 𝐙|𝐗,𝜽
𝑞 𝐙
2016/9/12 パターン認識と機械学習 輪読 48
ℒ 𝑞, 𝜽 :自由エネルギー
KL 𝑞||𝑝 :KLダイバージェンス
- 49. ln 𝑝 𝐗|𝜽 = ℒ 𝑞, 𝜽 + KL 𝑞||𝑝 の証明
ℒ 𝑞, 𝜽 + KL 𝑞||𝑝 =
𝐙
𝑞 𝐙 ln
𝑝 𝐗, 𝐙|𝜽
𝑞 𝐙
−
𝐙
𝑞 𝐙 ln
𝑝 𝐙|𝐗, 𝜽
𝑞 𝐙
=
𝐙
𝑞 𝐙 ln
𝑝 𝐗, 𝐙|𝜽
𝑞 𝐙
− ln
𝑝 𝐙|𝐗, 𝜽
𝑞 𝐙
=
𝐙
𝑞 𝐙 ln
𝑝 𝐗, 𝐙|𝜽
𝑞 𝐙
∙
𝑞 𝐙
𝑝 𝐙|𝐗, 𝜽
=
𝐙
𝑞 𝐙 ln 𝑝 𝐗|𝜽
= ln 𝑝 𝐗|𝜽
𝐙
𝑞 𝐙
= ln 𝑝 𝐗|𝜽
2016/9/12 パターン認識と機械学習 輪読 49
𝑝 𝐗, 𝐙|𝜽
𝑝 𝐙|𝐗, 𝜽
= 𝑝 𝐗|𝜽
∴ ln 𝑝 𝐗|𝜽 = ℒ 𝑞, 𝜽 + KL 𝑞||𝑝
- 50. ℒ 𝑞, 𝜽 とKL 𝑞||𝑝 の意味
• KL 𝑞||𝑝 = − 𝐙 𝑞 𝐙 ln
𝑝 𝐙|𝐗,𝜽
𝑞 𝐙
は 𝑞 𝐙 と 𝑝 𝐙|𝐗, 𝜽 間のKLダイバージェンス
• KL 𝑞||𝑝 ≥ 0、等号成立は𝑞 𝐙 = 𝑝 𝐙|𝐗, 𝜽 のときのみ
• したがって、ℒ 𝑞, 𝜽 ≤ ln 𝑝 𝐗|𝜽
• ℒ 𝑞, 𝜃 はln 𝑝 𝐗|𝜽 の下界をなすといえる
2016/9/12 パターン認識と機械学習 輪読 50
- 52. Mステップ
• Mステップで行うこと
• 分布𝑞 𝐙 を固定し、下界ℒ 𝑞, 𝜽 を𝜽について最大化し𝜽newを得る
• 𝑞 𝐙 は𝜽old
のままだが 𝑝 𝐙|𝐗, 𝜽 のパラメータは𝜽new
に更新
• →KL 𝑞||𝑝 ≥ 0
2016/9/12 パターン認識と機械学習 輪読 52
- 53. 下界の意味
• ℒ 𝑞, 𝜽 = 𝐙 𝑝 𝐙|𝐗, 𝜽old
ln 𝑝 𝐙|𝐗, 𝜽 − 𝐙 𝑝 𝐙|𝐗, 𝜽old
ln 𝑝 𝐙|𝐗, 𝜽old
= 𝒬 𝜽, 𝜽old
+ const
• 対数尤度の期待値𝒬 𝜽, 𝜽old
が現れる
• Mステップで行ったℒ 𝑞, 𝜽 の最大化=𝒬 𝜽, 𝜽old の最大化
2016/9/12 パターン認識と機械学習 輪読 53
- 55. 9章 混合モデルとEM まとめ
• EMアルゴリズム:最適化の手法
• 目標:モデルのパラメータを調整し、対数尤度関数の期待値を最大化する
• 混合ガウス分布などのように、潜在変数をもつモデルに対応可能
• 以下のE・Mステップを繰り返す
• Eステップ
• パラメータを固定し、事後分布𝑝 𝐙|𝐗 を求める
• Mステップ
• 事後分布を固定し、対数尤度関数の期待値を最大化するように
パラメータを決定
2016/9/12 パターン認識と機械学習 輪読 55
Editor's Notes
- 上段:観測データに対しパラメトリックなモデルを設定し・・・
- タイトル:数式を使って説明していく
- タイトル:ここまではk-meansの原理を説明してきたが、k-meansの利用法としてはデータ解析などさまざまなものがある。ここではその利用法の1つである画像圧縮について説明する
- 的当てゲームといったが、わかるのは壁のどこに
- 中段:負担率は、xが与えられた下での・・・と定義されます
下段:kがどのくらい関与しているか という考え方も可能
- aは潜在変数Zも観測できている状態。しかし実際は観測できないbの状態
- タイトル:ここまでで必要な確率分布を定義してきたので、データに対してパラメータつまり的の場所とプレイヤーの正確さがもっともらしくなるように推定を行う。つまり最尤推定
- タイトル:それではEMアルゴリズムを混合ガウス分布に適用していく
- Nkはkを1つ決めてつまり的を1つ決めて、その的に対する全データ点の負担率の合計を求める
- 下段:ここでいう正規化とは、負担率の合計を全データ数でわったもの。
直感的には、より多くのデータ点を負担しているガウス要素が、π_kの値が大きくなる
- タイトル:まとめ
- 対数尤度関数を確率変数の実現値とし、条件付確率𝑝(Z|X)についての期待値を求める
同時分布の式にはzが変数として含まれているが、zについての期待値を求めることで、式からzを消すことができる
- 目的は例によって、観測データ集合から計算される対数尤度関数
完全データ対数尤度は、潜在変数zの値も観測できているときに値がわかる
- 上段:
実際、求めた式の中にzが入っているので、zというデータが必要であることがわかる
期待値をとることによってそのzを消す(矢印の意味)
- 下段:テキストの9.13式と全く同じ形
- タイトル:次に混合ガウス分布とk-meansの関連について
- 上段:まず混合ガウス分布において、
- 上段:各データ点は、K個のクラスターに対して、距離が最小になるときのみrnj=1とした
- 上段:ガウス分布の式でのパラメータはこの式で表されたが、負担率とrが一致したので、k-meansにおけるμは次の式で表される。γとrを置き換えた
- タイトル:全く話は変わって、ベルヌーイ分布
手書き文字の分類などに利用可能なので、ここではそれを扱いながら数式を説明していく
- 中段:上の式の対数をとって対数尤度を求める。対数尤度関数はzの値がわからないと求められないが、zは観測できない
下段:混合がうすのものと同じなので省略
- 混合がうすのものと同じなので省略
- タイトル p164 9.3.4節
- 具体的な例を扱うわけではないので抽象的になるが、EMアルゴリズムが数式的に正しいことを証明していく
- 吹き出し:このテキストには書いていなかったが、文献によってはLを自由エネルギーと言っているものもあった。熱力学で使われるような単語でおもしろいが、どうしてそう言うのかは調べ切れなかった
- タイトル:ℒ 𝑞,𝜽 とKL 𝑞||𝑝 の意味を考えていきます
- 下界ℒ 𝑞, 𝜽 old を直接動かすのではなくて、KLダイバージェンスを最小化することで下界を最大化する。
θを固定するので、pも固定。その状態で、qをpと等しくする
- 先ほど更新した分布𝑞 𝐙 を固定し・・・
- 定数項はθから独立。θについて最大化されるのは、対数尤度の期待値
- Eステップ:事後分布を求めるためにいったんパラメータを固定する
Mステップ:最適なパラメータを求めるために事後分布を固定
事後分布やパラメータ別々に一発で求められるのであれば繰り返す必要はないのだが、事後分布とパラメータはお互いに依存しているので、EMステップでどちらかを固定しながら繰り返す必要がある