PRML第９章「混合モデルとEM」

パターン認識と機械学習
M1 菅原啓介
第9章混合モデルとEM
2016/9/12 パターン認識と機械学習輪読 1

目次
1. K-meansクラスタリング
2. 混合ガウス分布
3. EMアルゴリズムのもう１つの解釈
4. 一般のEMアルゴリズム

９章の概要
• ＥＭアルゴリズム：最適化の手法
• 観測データに対しモデルを設定し、そのモデルのパラメータを決定
• ＥＭアルゴリズムは「潜在変数」を持つモデルに対応
• 観測変数が「潜在変数」に影響を受ける
ＥＭアルゴリズム 9.2節混合ガウス分布
9.3節混合ベルヌーイ分布
9.1節 K-meansクラスタリング
抽象度
9.3節
9.4節

9.1 K-meansクラスタリング
p140~

K-meansクラスタリング
• 多次元空間上のデータ集合をK個のクラスターに分割する方法
• クラスター
• データ点の集まり
• クラスター内部のデータ点間の距離が、
外部のデータ点間の距離と比べて小さい
2個のクラスターに分割

K-meansクラスタリングの方法
【Ｍステップ】
クラスターの中心を求める
【Ｅステップ】
データ点の所属を変更
繰り返し

K-means法に対するＥＭアルゴリズム
• 目的関数：「歪み尺度」
• 𝐽 = 𝑛=1
𝑁
𝑘=1
𝐾
𝑟𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘
2
• 𝑟𝑛𝑘：𝑛番目のデータ点がクラスタ𝑘に属するか 0,1
• 𝐱 𝑛：データ点の座標
• 𝝁 𝑘：クラスタのプロトタイプ（中心）
• Ｅステップの目的
• 𝑟𝑛𝑘について𝐽を最小化（𝝁 𝑘は固定）
• Mステップの目的
• 𝝁 𝑘について𝐽を最小化（𝑟𝑛𝑘は固定）
例：3番目のデータ点がクラスタ2に属する場合
𝑟31, 𝑟32 = 0,1

Eステップ
• 𝐽 = 𝑛=1
𝑁
𝑘=1
𝐾
2
• Ｅステップの目的：𝑟𝑛𝑘について𝐽を最小化
• 例：クラスター２つの場合
• 𝐽 = 𝑛=1
𝑁
𝑟𝑛1 𝐱 𝑛 − 𝝁1
2 + 𝑟𝑛2 𝐱 𝑛 − 𝝁2
2
• 𝐱 𝑛 − 𝝁 𝑘 が最小となる𝑘に対して𝑟𝑛𝑘 = 1とすればよい
大小0 1

Mステップ
• 𝐽 = 𝑛=1
𝑁
𝑘=1
𝐾
2
• Mステップの目的：𝝁 𝑘について𝐽を最小化
• 𝐽の𝝁 𝑘に関する変微分を0とおき、最小化
• 2 𝑛=1
𝑁
𝑟𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘 = 0
• ∴ 𝝁 𝑘 = 𝑛 𝑟 𝑛𝑘 𝐱 𝑛
𝑛 𝑟 𝑛𝑘
• クラスターに属するデータ点の座標の平均

画像圧縮への利用
r
g
b
r
g
b
• 画像の色情報を3次元空間にプロット
• クラスタリングをして代表ベクトルを
保持しておく
• 元画像では、各ピクセルは2563色を
区別する必要があったが、
• 圧縮後の画像はK色を区別できればよい
必要データ量が減少

画像圧縮への利用
r
g
b
r
g
b
圧縮前圧縮後
1ピクセルがとりうる色 256 3
= 224 𝐾
1ピクセルが必要とする情報量（ビット） log2 224
= 24 log2 𝐾
代表ベクトルの保持に必要な情報量（ビット） 𝐾 log2 28 3
= 24𝐾
Nピクセルの画像全体で必要な情報量（ビット） 24𝑁 𝑁 log2 𝐾 + 24𝐾
𝑵 = 𝟏𝟎𝟎𝟎𝟎, 𝑲 = 𝟐𝟓𝟔としたときの情報量（ビット） 𝟐𝟒𝟎𝟎𝟎𝟎 𝟖𝟎𝟎𝟎𝟎 + 𝟔𝟏𝟒𝟒 = 𝟖𝟔𝟏𝟒𝟒

9.2 混合ガウス分布
p146~

９章の概要
抽象度
9.3節
9.4節

混合ガウス分布の例
• ガウス分布を重ね合わせた分布
• 例：的当てゲーム
• 的が１つ
• →ガウス分布に従う
• 的が３つ
• →混合ガウス分布に従う
• 「壁のどこに当たったか」だけが
観測可能とし、的がどこにあるかを推定する

混合ガウス分布確率変数とパラメータ
• 𝐱 = 𝑥1, 𝑥2 ：観測変数
• データ点から観測できる
• 𝐳 = 𝑧1, 𝑧2, 𝑧3 ：潜在変数
• 𝑧 𝑘は 0,1 の2値変数
• 𝑘番目の的を狙うとき、 𝑧 𝑘 = 1
• 𝑘番目の的を狙う確率：𝑝 𝑧 𝑘 = 1 = 𝜋 𝑘
• データ点からは観測できない
• 的に関する情報
• 的の中心座標𝝁 𝑘、ばらつき𝚺 𝑘
𝑥1
𝑥2
𝑧1 𝑧2 𝑧3
𝑥2 観測可能
観測不可能

負担率の図示
• (a) 赤の的を狙った人が生成したデータ点は赤で示されている。他色も同様
• (b) どの的を実際に狙ったのか不明
• (c) 図(b)のデータ点と的の中心から、負担率を計算。
例えば青の負担率と緑の負担率が同程度であれば、水色でプロット
的

最尤推定
𝐱 𝑇
= 𝑥1, … , 𝑥 𝐷 , 𝐳 𝑇
= 𝑧1, … , 𝑧 𝐾
𝐗 =
𝑥11 ⋯ 𝑥 𝐷
⋮ ⋱ ⋮
𝑥 𝑁1 ⋯ 𝑥 𝑁𝐷
𝐙 =
𝑧11 ⋯ 𝑧 𝐷
⋮ ⋱ ⋮
𝑧 𝑁1 ⋯ 𝑧 𝑁𝐷
データ集合
• 尤度関数
• 𝑝 𝐗|𝝅, 𝝁, 𝚺 = 𝑛=1
𝑁
𝑝 𝐱 𝑛|𝝅, 𝝁, 𝚺
= 𝑛=1
𝑁
𝑘=1
𝐾
𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘, 𝚺 𝑘
• 対数尤度関数
• ln 𝑝 𝐗|𝝅, 𝝁, 𝚺 = 𝑛=1
𝑁
ln 𝑘=1
𝐾
• データ集合として考え、最尤推定を行う

混合ガウス分布の最尤推定における問題
• 各混合要素の共分散行列を 𝚺 𝑘 = 𝜎 𝑘
2
𝐈 とする
• ある𝑛について𝝁 𝑗 = 𝐱 𝑛と仮定
• つまり混合要素の平均（中心）とデータ点が一致
• データ点は次の形で尤度関数に寄与
• 𝒩 𝐱 𝑛|𝐱 𝑘, 𝜎𝑗
2
𝐈 =
1
2𝜋 𝐷/2 ∙
1
𝜎𝑗
𝐷
• 𝜎𝑗 → 0の極限をとると発散
• ガウス分布のパラメータに制限
【ガウス分布の一般形】
𝒩 𝐱|𝝁, 𝚺
=
1
2𝜋 𝐷/2
∙
1
𝚺 1 2
exp −
1
2
𝐱 − 𝝁 𝑇 𝚺−1 𝐱 − 𝝁

混合ガウス分布のＥＭアルゴリズム
• 混合ガウス分布：潜在変数を持つモデル
• EMアルゴリズムを利用して最尤解を求める
• 方針
• 最終目標：対数尤度関数の最大化
• 対数尤度関数を、ガウス分布の各パラメータ 𝝁, 𝚺 、𝜋 𝑘で微分
• 𝝁 𝑘, 𝚺 𝑘, 𝜋 𝑘のそれぞれに対して対数尤度関数を最大化

𝝁 𝑘, 𝚺 𝑘に対する尤度関数の最大化
• 対数尤度を𝝁 𝑘について微分して0とおく
• 0 = 𝑛=1
𝑁 𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘,𝚺 𝑘
𝑗 𝜋 𝑗 𝒩 𝐱 𝑛|𝝁 𝑗,𝚺 𝑗
Σ 𝑘
−1
𝐱 𝑛 − 𝝁 𝑘
• 整理して
• 𝝁 𝑘 =
1
𝑁 𝑘
𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘 𝐱 𝑛
• ただし、
• 𝑁𝑘 = 𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘
• 𝚺 𝑘についても同様に
• 𝚺 𝑘 =
1
𝑁 𝑘
𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘 𝐱 𝑛 − 𝝁 𝑘 𝐱 𝑛 − 𝝁 𝑘
T
負担率𝛾 𝑧 𝑛𝑘
k番目の的が狙われた回数
データ点の重み（=負担率）つき平均
各データ点が的（ガウス要素の中心）
からどのくらい離れているか
ln 𝑝 𝐗|𝝅, 𝝁, 𝚺
=
𝑛=1
𝑁
ln
𝑘=1
𝐾

𝜋 𝑘に関する尤度関数の最大化（１）
• 𝑘=1
𝐾
𝜋 𝑘 = 1という制約条件の下で、ラグランジュの未定乗数法を用いる
• 次の量を𝜋 𝑘で微分して0とおく
• ln 𝑝 𝐗|𝝅, 𝝁, 𝚺 + 𝜆 𝑘=1
𝐾
𝜋 𝑘 − 1
• 次の式が得られる
• 0 = 𝑛=1
𝑁 𝒩 𝐱 𝑛|𝝁 𝑘,𝚺 𝑘
+ 𝜆
次スライド

𝜋 𝑘に関する尤度関数の最大化（２）
• 両辺に𝜋 𝑘をかけて
• 0 = 𝑛=1
𝑁 𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘,𝚺 𝑘
+ 𝜆𝜋 𝑘 ⋯ ∗
• 𝑘について和をとる
• 0 = 𝑘=1
𝐾
𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘 + 𝜆 𝑘=1
𝐾
𝜋 𝑘
負担率𝛾 𝑧 𝑛𝑘
𝑘=1
𝐾
𝛾 𝑧 𝑛𝑘 = 1 𝑘=1
𝐾
𝜋 𝑘 = 1
• 0 = 𝑁 + 𝜆 ∴ 𝜆 = −𝑁
• ∗ より、
• 0 = 𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘 − 𝑁𝜋 𝑘 ∴ 𝜋 𝑘 =
𝑁 𝑘
𝑁
• よって𝜋 𝑘は、的𝑘の負担率の合計を正規化したもの
𝑁𝑘 =
𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘

𝝁 𝑘, 𝚺 𝑘, 𝜋 𝑘の最尤解
• 𝝁 𝑘 =
1
𝑁 𝑘
𝑛=1
𝑁
• データ点の重み（=負担率)つき平均
• 𝚺 𝑘 =
1
𝑁 𝑘
𝑛=1
𝑁
T
• 各データ点がガウス要素の中心からどのくらい離れているか
• 𝜋 𝑘 =
𝑁 𝑘
𝑁
• その要素の負担率の合計を正規化したもの

ＥＭアルゴリズムの適用
【Eステップ】
負担率の更新
【Mステップ】
ガウス分布のパラメータ調整
繰り返し

混合ガウス分布のためのＥＭアルゴリズム
• 目的：混合ガウス分布のパラメータについて、尤度関数を最大化
• Eステップ：負担率の計算
• 𝛾 𝑧 𝑛𝑘 =
𝜋 𝑘 𝒩 𝑥|𝜇 𝑘, Σ 𝑘
𝑗=1
𝐾 𝜋 𝑗 𝒩 𝑥|𝜇 𝑗,Σ 𝑗
• Mステップ：各パラメータの更新
• 𝝁 𝑘 =
1
𝑁 𝑘
𝑛=1
𝑁
• 𝚺 𝑘 =
1
𝑁 𝑘
𝑛=1
𝑁
T
• 𝜋 𝑘 =
𝑁 𝑘
𝑁
• 対数尤度関数
• ln 𝑝 𝐗|𝝅, 𝝁, 𝚺 = 𝑛=1
𝑁
ln 𝑘=1
𝐾

9.3 ＥＭアルゴリズムの
もう１つの解釈
p155~

９章の概要
抽象度
9.3節
9.4節

混合ガウス分布再訪
求められるもの
観測変数𝐗
条件付確率𝑝 𝐙 𝐗
対数尤度の期待値
𝔼 𝐙|𝐗 ln 𝑝 𝐗, 𝐙|𝜽
対数尤度の期待値を最大化するように、
パラメータを調整
完全データ対数尤度
ln 𝑝 𝐗, 𝐙|𝜽

𝑧 𝑛𝑘の期待値の導出
• 事後分布𝑝 𝐳 𝑛|𝐱 𝑛, 𝝁, 𝚺, 𝝅 に関する期待値
• 𝔼 𝐙|𝐗 𝑧 𝑛𝑘 = 𝐳 𝑛
𝑧 𝑛𝑘 𝑝 𝐳 𝑛|𝐱 𝑛, 𝝁, 𝚺, 𝝅
=
𝐳 𝑛 𝑧 𝑛𝑘 𝑘′=1
𝐾
𝜋 𝑘′ 𝒩 𝐱 𝑛|𝝁 𝑘′,𝚺 𝑘′
𝑧
𝑛𝑘′
𝐳 𝑛 𝑗=1
𝐾 𝜋 𝑗 𝒩 𝐱 𝑛|𝝁 𝑗,𝚺 𝑗
𝑧 𝑛𝑗
=
𝐳 𝑛 𝑧 𝑛𝑘 𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘,𝚺 𝑘
𝐳 𝑛 𝜋 𝑗 𝒩 𝐱 𝑛|𝝁 𝑗,𝚺 𝑗
=
𝜋 𝑘 𝒩 𝐱 𝑛|𝝁 𝑘,𝚺 𝑘
𝑗=1
𝐾 𝜋 𝑗 𝒩 𝐱 𝑛|𝝁 𝑗,𝚺 𝑗
≡ 𝛾 𝑧 𝑛𝑘
𝐳 𝑛 = 𝑧 𝑛1, 𝑧 𝑛2, … , 𝑧 𝑛𝑘, … , 𝑧 𝑛𝐾
𝐳 𝑛 = 𝑧 𝑛1, 𝑧 𝑛2, … , 𝑧 𝑛𝑗, … , 𝑧 𝑛𝐾
1
1
𝐳 𝑛
の意味：
𝐳 𝑛のすべてのとりうる値、つまり
1,0, … , 0, … , 0
0,1, … , 0, … , 0
0,0, … , 1, … , 0
0,0, … , 0, … , 1
に対して和をとる
𝐾

K-meansとの関連（１）
• K-means
• 二値変数𝑟𝑛𝑘による
ハード割り当て
混合ガウス分布に関するＥＭアルゴリズムのある極限として、
K-meansアルゴリズムを導ける
• 混合ガウス分布
• 負担率𝛾 𝑧 𝑛𝑘 による
ソフトな割り当て

K-meansとの関連（２）
• 各ガウス要素の共分散行列が𝜖𝐈で与えられる混合ガウス分布を考える
• 𝑝 𝐱|𝝁 𝑘, 𝚺 𝑘 =
1
2𝜋𝜖 𝐷/2 exp −
1
2𝜖
𝐱 − 𝝁 𝑘
2
• 負担率を計算すると
• 𝛾 𝑧 𝑛𝑘 ≡
𝑝 𝑧 𝑘=1 𝑝 𝐱|𝑧 𝑘=1
𝑗=1
𝐾 𝑝 𝑧 𝑗=1 𝑝 𝐱|𝑧 𝑗=1
=
𝜋 𝑘 exp − 𝐱−𝝁 𝑘
2 2𝜖
𝑗=1 𝜋 𝑗 exp − 𝐱−𝝁 𝑗
2
2𝜖

K-meansとの関連（３）
• 𝐱 − 𝝁 𝑗
2
が最小になる𝑗を𝑗∗とおく。
• 𝑟 𝑛𝑗∗ = 1、𝑘 ≠ 𝑗∗に対して𝑟𝑛𝑘 = 0
• lim
𝜖→∞
𝛾 𝑧 𝑛𝑗∗ = lim
𝜖→∞
𝜋 𝑗∗ exp − 𝐱−𝝁 𝑗∗
2
2𝜖
𝜋1 exp − 𝐱−𝝁1
2 2𝜖 +⋯+𝜋 𝑗∗ exp − 𝐱−𝝁 𝑗∗
2
2𝜖 +⋯+𝜋 𝐾 exp − 𝐱−𝝁 𝐾
2 2𝜖
= 1 = 𝑟 𝑛𝑗∗
• lim
𝜖→∞
𝛾 𝑧 𝑛𝑘 = lim
𝜖→∞
𝜋 𝑘 exp − 𝐱−𝝁 𝑘
2 2𝜖
𝜋1 exp − 𝐱−𝝁1
2 2𝜖 +⋯+𝜋 𝑗∗ exp − 𝐱−𝝁 𝑗∗
2
2𝜖 +⋯+𝜋 𝐾 exp − 𝐱−𝝁 𝐾
2 2𝜖
= 0 = 𝑟𝑛𝑘
• 𝝐 → ∞の極限をとると、𝜸 𝒛 𝒏𝒌 と𝒓 𝒏𝒌が一致する

K-meansとの関連（４）
• Ｍステップにおける𝝁 𝑘の値
• 𝝁 𝑘 = 𝑛 𝑟 𝑛𝑘 𝐱 𝑛
𝑛 𝑟 𝑛𝑘
• 対数尤度の期待値
• 𝔼 ln 𝐗, 𝐙|𝝁, 𝚺, 𝝅 → −
1
2 𝑛=1
𝑁
𝑘=1
𝐾
𝑟𝑛𝑘 𝐱 − 𝝁 𝑘
2 + const.
• 対数尤度の期待値の最大化は、歪み尺度の最小化と同等
• 𝐽 = 𝑛=1
𝑁
𝑘=1
𝐾
2
𝝁 𝑘 =
𝑛 𝛾 𝑧 𝑛𝑘 𝐱 𝑛
𝑛 𝛾 𝑧 𝑛𝑘

混合ベルヌーイ分布
• 手書き文字の分類などに利用可能
• 方針
• ピクセル数が𝐷の手書き数字を、
𝐷個の2値変数を要素にもつベクトル𝐱 = 𝑥1, 𝑥2, … , 𝑥 𝐷 とする
• 観測変数： 𝐱
• 潜在変数： 𝐳 = 𝑧1, 𝑧2, … , 𝑧 𝐾
• 書き手が文字𝑘を書こうとしたとき、𝑧 𝑘 = 1となる。𝑧𝑙≠𝑘 = 0
• パラメータを調整し対数尤度関数を最大化
• 新しい手書き文字𝐱′を実際に分類
• 𝑝 𝑧1 = 1|𝐱′ , 𝑝 𝑧2 = 1|𝐱′ , … , 𝑝 𝑧 𝐾 = 1|𝐱′ を比較し、
最大となる𝑘に分類
ここまで

混合ベルヌーイ分布による手書き文字分類
• 各文字はピクセルごとに、黒くなる確率 𝜇 𝑘𝑑を持っている
𝜇11 𝜇12 𝜇13 ⋯
𝜇1𝐷
𝜇 𝐾1 𝜇 𝐾2 𝜇 𝐾3 ⋯
𝜇 𝐾𝐷
・・・
𝜇11
クラス番号
（どの文字か）
要素番号
文字１の各要素文字Kの各要素

対数尤度関数の期待値
• データ集合𝐗 = 𝐱 𝑛 , 𝐙 = 𝐳 𝑛 に対する尤度関数
• 𝑝 𝐗, 𝐙|𝝁, 𝝅 = 𝑛=1
𝑁
𝑘=1
𝐾
𝜋 𝑘 𝑑=1
𝐷
𝜇 𝑘𝑑
𝑥 𝑑
1 − 𝜇 𝑘𝑑
1−𝑥 𝑑
𝑧 𝑘
• 対数尤度関数の導出
• ln 𝑝 𝐗, 𝐙|𝝁, 𝝅 =
𝑛=1
𝑁
𝑘=1
𝐾
𝑧 𝑛𝑘 ln 𝜋 𝑘 + 𝑑=1
𝐷
𝑥 𝑛𝑑 ln 𝜇 𝑘𝑑 + 1 − 𝑥 𝑛𝑑 ln 1 − 𝜇 𝑘𝑑
• 対数尤度関数の期待値の導出
• 𝔼 𝐙|𝐗 ln 𝑝 𝐗, 𝐙|𝝁, 𝝅 =
𝑛=1
𝑁
𝑘=1
𝐾
𝔼 𝑧 𝑛𝑘 ln 𝜋 𝑘 + 𝑑=1
𝐷

対数尤度の期待値を最大化するパラメータ
• 𝔼 𝐙|𝐗 ln 𝑝 𝐗, 𝐙|𝝁, 𝝅 =
𝑛=1
𝑁
𝑘=1
𝐾
𝛾 𝑧 𝑛𝑘 ln 𝜋 𝑘 +
𝑑=1
𝐷
を各種パラメータで微分して、最大化する解を求める
• 𝝁 𝑘 =
1
𝑁 𝑘
𝑛=1
𝑁
• 各ピクセルは、全データの重みつき平均値
• 𝜋 𝑘 =
𝑁 𝑘
𝑁
• 全データに対する文字𝑘の割合
• ただし𝑁𝑘 = 𝑛=1
𝑁
𝛾 𝑧 𝑛𝑘
• 文字𝑘に分類されるデータの枚数

パラメータ𝝁 𝑘の直感的理解
𝑛 = 1 𝑛 = 2 𝑛 = 3 𝑛 = 4 𝑛 = 5
𝝁4
𝛾 𝑧 𝑛4
各データの
「４らしさ」
𝑥1𝑑
𝑥2𝑑
𝑥3𝑑 𝑥4𝑑 𝑥5𝑑
𝟏𝟎% 𝟕𝟎% 𝟕𝟓% 𝟓% 𝟕𝟓%
𝜇4𝑑 =
1
𝑁4
𝑛=1
𝑁
𝛾 𝑧 𝑛4 𝑥 𝑛𝑑𝜇4𝑑
𝝁4 = 𝜇41, … , 𝜇4𝑑, … , 𝜇4𝐷
文字４において、
各ピクセルが黒くなる確率

9.4 一般のＥＭアルゴリズム
p165~

９章の概要
抽象度
9.3節
9.4節

一般のＥＭアルゴリズム
• EMアルゴリズムをより一般的に取り扱う
• 尤度関数の最大化であることの証明
• 観測変数𝐗、潜在変数𝐙、パラメータの組𝜽
• 目的：尤度関数𝑝 𝐗|𝜽 = 𝐙 𝑝 𝐗, 𝐙|𝜽 の最大化
• 潜在変数についての分布𝑞 𝐙 を導入すると
• ln 𝑝 𝐗|𝜽 = ℒ 𝑞, 𝜽 + KL 𝑞||𝑝
• ただしℒ 𝑞, 𝜽 、KL 𝑞||𝑝 は次の通り
• ℒ 𝑞, 𝜽 = 𝐙 𝑞 𝐙 ln
𝑝 𝐗,𝐙|𝜽
𝑞 𝐙
• KL 𝑞||𝑝 = − 𝐙 𝑞 𝐙 ln
𝑝 𝐙|𝐗,𝜽
𝑞 𝐙
ℒ 𝑞, 𝜽 ：自由エネルギー
KL 𝑞||𝑝 ：KLダイバージェンス

ln 𝑝 𝐗|𝜽 = ℒ 𝑞, 𝜽 + KL 𝑞||𝑝 の証明
ℒ 𝑞, 𝜽 + KL 𝑞||𝑝 =
𝐙
𝑞 𝐙 ln
𝑝 𝐗, 𝐙|𝜽
𝑞 𝐙
−
𝐙
𝑞 𝐙 ln
𝑝 𝐙|𝐗, 𝜽
𝑞 𝐙
=
𝐙
𝑞 𝐙 ln
𝑞 𝐙
− ln
𝑞 𝐙
=
𝐙
𝑞 𝐙 ln
𝑞 𝐙
∙
𝑞 𝐙
=
𝐙
𝑞 𝐙 ln 𝑝 𝐗|𝜽
= ln 𝑝 𝐗|𝜽
𝐙
𝑞 𝐙
= ln 𝑝 𝐗|𝜽
= 𝑝 𝐗|𝜽
∴ ln 𝑝 𝐗|𝜽 = ℒ 𝑞, 𝜽 + KL 𝑞||𝑝

ℒ 𝑞, 𝜽 とKL 𝑞||𝑝 の意味
• KL 𝑞||𝑝 = − 𝐙 𝑞 𝐙 ln
𝑝 𝐙|𝐗,𝜽
𝑞 𝐙
は 𝑞 𝐙 と 𝑝 𝐙|𝐗, 𝜽 間のKLダイバージェンス
• KL 𝑞||𝑝 ≥ 0、等号成立は𝑞 𝐙 = 𝑝 𝐙|𝐗, 𝜽 のときのみ
• したがって、ℒ 𝑞, 𝜽 ≤ ln 𝑝 𝐗|𝜽
• ℒ 𝑞, 𝜃 はln 𝑝 𝐗|𝜽 の下界をなすといえる

Ｅステップ
• Ｅステップで行うこと
• 𝜽oldを固定し、下界ℒ 𝑞, 𝜽old を𝑞 𝐙 について最大化
• 下界を最大化するにはKL 𝑞||𝑝 = 0とすればよい
• つまり𝑞 𝐙 = 𝑝 𝐙|𝐗, 𝜽old とする

Ｍステップ
• Ｍステップで行うこと
• 分布𝑞 𝐙 を固定し、下界ℒ 𝑞, 𝜽 を𝜽について最大化し𝜽newを得る
• 𝑞 𝐙 は𝜽old
のままだが 𝑝 𝐙|𝐗, 𝜽 のパラメータは𝜽new
に更新
• →KL 𝑞||𝑝 ≥ 0

下界の意味
• ℒ 𝑞, 𝜽 = 𝐙 𝑝 𝐙|𝐗, 𝜽old
ln 𝑝 𝐙|𝐗, 𝜽 − 𝐙 𝑝 𝐙|𝐗, 𝜽old
ln 𝑝 𝐙|𝐗, 𝜽old
= 𝒬 𝜽, 𝜽old
+ const
• 対数尤度の期待値𝒬 𝜽, 𝜽old
が現れる
• Mステップで行ったℒ 𝑞, 𝜽 の最大化=𝒬 𝜽, 𝜽old の最大化

ＥＭアルゴリズムの応用
• 複雑なモデルに対してはＥＭアルゴリズムを拡張する必要がある
• 一般化ＥＭアルゴリズム（ＧＥＭアルゴリズム）
• 複雑なＭステップにも対応可能
• 下界の最大化は諦め、少しでも増加させるようにパラメータを変化
• ＥＣＭ法
• ＧＥＭアルゴリズムの形式の１つ
• Ｍステップでいくつかの制限つき最適化を用いる
• パラメータの一部を固定して、残りを最適化

９章混合モデルとＥＭまとめ
• 目標：モデルのパラメータを調整し、対数尤度関数の期待値を最大化する
• 混合ガウス分布などのように、潜在変数をもつモデルに対応可能
• 以下のＥ・Ｍステップを繰り返す
• Ｅステップ
• パラメータを固定し、事後分布𝑝 𝐙|𝐗 を求める
• Ｍステップ
• 事後分布を固定し、対数尤度関数の期待値を最大化するように
パラメータを決定

PRML第９章「混合モデルとEM」

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (15)

Similar to PRML第９章「混合モデルとEM」

Similar to PRML第９章「混合モデルとEM」 (20)

PRML第９章「混合モデルとEM」

Editor's Notes