Gmm勉強会

GMM勉強会@森島研
Hayato OHYA

本日のお題
• EMアルゴリズムについて：大矢担当
• 多次元版GMMについて
– 資料は作る予定（15日現在）
– その場でPRML読みながらみんなで
• ノンパラ化
– 持橋さんの資料とか見る
– 増田君にアドバイスもらいつつみんなでがんばる
• プログラム実装
– できるのかね？
– まあやってみよう

参考図書
• Pattern Recognition and Machine Learning [Bishop]
– 言わずと知れたPRML
• 言語処理のための機械学習入門 [奥村・高村]
– 日本語でとってもわかりやすい本
• パターン認識と機械学習の学習 [光成]
– サイボウズラボが出しているPRMLの副読本
• 統計のための行列代数上・下 [ハーヴィル]
– 行列演算についてしっかり書かれた本
– 早稲田構内から原著はDL可
※もし私費で買う場合私のリンクから購入してくれるとうれしいです（アフィリエイト(笑)）
http://8810008.web.fc2.com/research/books.html

注意
• 大矢がこの1週間で勉強したことを話すだけなので、
間違っている可能性があります
• 疑問点や間違っていそうな点がありましたら、
適宜つっこみを入れてください
– 答えられるとは限らない
• 基本的なことは結構飛ばして書いてます

EMアルゴリズム概要
• クラスタリングによく使われる
• EMアルゴリズムとは枠組みである
– EMアルゴリズムのライブラリは存在しない
• ある確率分布についてEMアルゴリズムを再現したもの
– GMMはEMアルゴリズムの一種
• たとえば
Expectation(E-step):クラスの期待値を求める
Maximization(M-step):ガウス函数のパラメータを求める

EMアルゴリズム
• 混合ガウス分布を使ったクラスタリングを考える
– K-meansとは違い、クラスに入る確率が計算できる
• 使うもの
なんかのデータ（たとえば特徴ベクトル）：𝒙(𝑖)
∈ 𝐷
クラスタ（K個のうちのとあるクラスタc）：𝑐 ∈ 𝐾
分布のパラメータ（ポアソン分布の平均とか）：𝜃, 𝜃′
なんかの確率分布：𝑃(𝒙|𝑐)

対数尤度 𝒙(𝒊)∈𝑫 log𝑃(𝑐, 𝒙 𝑖 ; 𝜃) を最尤推定で最大化したい
→ cが未知なのでできない
そこでまず、事前に計算した𝜃′を利用して𝑃(𝑐|𝒙(𝑖); 𝜃′)を計算
これを重みとして、
Σ 𝒙 𝑖 ∈𝐷log𝑃 𝑐, 𝒙(𝑖); 𝜃 → Σ 𝒙 𝑖 ∈𝐷Σ 𝑐 𝑃(𝑐|𝒙(𝑖); 𝜃′)log𝑃 𝑐, 𝒙(𝑖); 𝜃
を最大化する
𝑄 𝜃; 𝜃′
= Σ 𝒙 𝑖 ∈𝐷Σ 𝑐 𝑃(𝑐|𝒙(𝑖)
; 𝜃′)log𝑃 𝑐, 𝒙(𝑖)
; 𝜃

𝑄函数について
𝑄 𝜃; 𝜃′
= Σ 𝒙 𝑖 ∈𝐷Σ 𝑐 𝑃(𝑐|𝒙(𝑖)
; 𝜃′)log𝑃 𝑐, 𝒙(𝑖)
; 𝜃
• 変数：𝜃
• 他はすべて定数
– 𝑃(𝑐|𝒙(𝑖); 𝜃′)とか

EMアルゴリズム
入力：データ𝐷
𝜃の初期値をてきとーに決める
Until収束
E-step：∀𝒙(𝑖)
∈ 𝐷, ∀𝑐: 𝑃 𝑐 𝒙 𝑖
; 𝜃′
ーデータがどの程度クラスタ𝑐に所属しているか
M-step：𝜃 𝑚𝑎𝑥 = argmax 𝜃 𝑄(𝜃|𝜃′)
𝜃′ = 𝜃 𝑚𝑎𝑥
End until

確率分布がガウス函数の場合
𝑃 𝒙 𝑖
𝑐; 𝜃 =
1
2𝜋𝜎2 𝑑
exp(−
𝒙 𝑖 − 𝒎 𝑐
2
2𝜎2
)
𝒎 𝑐について最大化すると、
𝜕𝑄 𝜃; 𝜃′
𝜕𝒎 𝑐
=
𝜕
𝜕𝒎 𝑐
𝒙 𝑖 ∈𝐷 𝑐
𝑃(𝑐|𝒙 𝑖 ; 𝜃′)log𝑃(𝑐)𝑃 𝒙(𝑖)|𝑐; 𝜃
=
𝜕
𝜕𝒎 𝑐
𝒙 𝑖 ∈𝐷
𝑃(𝑐|𝒙 𝑖
; 𝜃′)logexp −
𝒙 𝑖 − 𝒎 𝑐
2
2𝜎2
=
𝒙 𝑖 ∈𝐷
𝑃(𝑐|𝒙 𝑖
; 𝜃′
)
𝒙 𝑖
− 𝒎 𝑐
𝜎2
→ 0

∴ 𝒎 𝑐 =
Σ 𝒙 𝑖 ∈D 𝑃 𝑐 𝒙 𝑖 ; 𝜃′ 𝒙 𝑖
Σ 𝒙 𝑖 ∈D 𝑃 𝑐 𝒙 𝑖 ; 𝜃′
→ これがM-stepの計算式
𝑃 𝑐 はmarginal distributionを使って、
𝑃 𝑐 =
1
𝐷
𝒙 𝑖 ∈D
𝑃(𝑐|𝒙𝑖; 𝜃′)
となる。
・・・はずなんだけど、証明ができないぞ(´・ω・`)

• E-step
𝑃 𝑐 𝒙 𝑖 ; 𝜃′ =
𝑃 𝒙 𝑖 , 𝑐; 𝜃′
𝑃 𝒙(𝑖); 𝜃′
=
𝑃 𝒙 𝑖 , 𝑐; 𝜃′
𝒙 𝑖 ∈𝐷
𝑝 𝒙(𝑖), 𝑐; 𝜃′
=
𝑃 𝒙 𝑖 |𝑐; 𝜃′ 𝑃(𝑐)
𝒙 𝑖 ∈𝐷
𝑝 𝒙 𝑖 |𝑐; 𝜃′ 𝑃(𝑐)

混合ガウス分布
• ガウス函数（多次元）
𝑁 = 𝑁 𝑥 𝜇, Σ =
1
2𝜋
𝐷 Σ −
1
2exp −
1
2
𝑥 − 𝜇 𝑇Σ−1 𝑥 − 𝜇
• 離散的な潜在変数を用いた混合ガウス分布の定式化
𝐾次元2値変数𝑧を考える（一つの成分のみが1で他は全て0）
𝑘
𝑧 𝑘 = 1

𝑝 𝑧 𝑘 = 1 = 𝜋 𝑘 (0 ≤ 𝜋 𝑘 ≤ 1)
⇔ 𝑝 𝑧 =
𝑘
𝜋 𝑘
𝑧 𝑘
𝑝 𝑥 𝑧 𝑘 = 1 = 𝑁(𝑥|𝜇 𝑘, Σk)
⇔ 𝑝 𝑥 𝑧 =
𝑘
𝑁 𝑥|𝜇 𝑘, Σ 𝑘
𝑧 𝑘
以上より、
𝑝 𝑥 =
𝑧
𝑝(𝑥, 𝑧) =
𝑧
𝑝 𝑧 𝑝(𝑥|𝑧)
z
x

なぜグラフィカルモデル使うの？
• 今回の場合は変数が単純だが、
（LDAなど）対応関係が複雑になった場合には、
変数の対応関係が見やすくなる
• 参考
http://www.slideshare.net/Kawamoto_Kazuhiko/ss-35483453

𝑝 𝑥 =
𝑧 𝑘
𝜋 𝑘 𝑁(𝑥|𝜇k, Σ 𝑘) 𝑧 𝑘
𝑧 𝑘はどれか一つのみが1
⇒=
𝑘
𝜋 𝑘 𝑁(𝑥|𝜇 𝑘, Σ 𝑘)
• 𝑧の条件付き確率𝑝 𝑧 𝑘 = 1|𝑥 ≡ γ zk を考える
𝛾 𝑧 𝑘 =
𝑝 𝑥, 𝑧 𝑘 = 1
𝑝 𝑥
=
𝑝 𝑥, 𝑧 𝑘 = 1
Σj 𝑝(𝑥, 𝑧 𝑘 = 1)
=
𝑝 𝑧 𝑘 = 1 𝑝 𝑥 𝑧 𝑘 = 1
𝑗 𝑝 𝑧𝑗 = 1 𝑝(𝑥|𝑧 𝑘 = 1)
=
𝜋 𝑘 𝑁 𝑥 𝜇 𝑘, Σ 𝑘
𝑗 𝜋 𝑗 𝑁 𝑥 𝜇 𝑘, Σ 𝑘
→ 混合要素𝑘が観測値𝑥に対する負担率

EM Algorithm for Gaussian Mixture Model
データ集合：𝑋 𝑇 = 𝑥1, … , 𝑥 𝑁 (𝑁 × 𝐷𝑑𝑖𝑚)
対応する潜在変数：𝑍 𝑇 = 𝑧1, … , 𝑧 𝑁 𝑁 × 𝐾𝑑𝑖𝑚
• 対数尤度函数の最大点の条件を求める
𝐹 = log 𝑝 𝑋 𝜋, 𝜇, Σ =
𝑛=1
𝑁
log(
𝑗=1
𝐾
𝜋𝑗 𝑁 𝑥 𝑛 𝜇 𝑗, Σ𝑗))

• 𝜇について最大化
𝜕
𝜕𝜇
log𝑁 𝑥 𝜇, Σ =
𝜕
𝜕𝜇
(−
1
2
𝑥 − 𝜇 𝑇Σ−1(𝑥 − 𝜇))
= Σ−1 𝑥 − 𝜇
∴
𝜕
𝜕𝜇
𝑁 = 𝑁 ⋅
𝜕
𝜕𝜇 𝑘
log𝑁 = 𝑁 ⋅ Σ−1(𝑥 − 𝜇)
𝑁𝑛𝑘 = 𝑁(𝑥 𝑛|𝜇 𝑘, Σ 𝑘)と置くと、
𝜕
𝜕𝜇 𝑘
𝐹 =
𝑛
(
𝜋 𝑘
𝜕𝑁𝑛𝑘
𝜕𝜇 𝑘
𝑗 𝜋𝑗 𝑁 𝑛𝑗
) =
𝑛
𝜋 𝑘 𝑁 𝑛𝑘
𝑗 𝜋𝑗 𝑁𝑛𝑗
𝜕
𝜕𝜇 𝑘
log𝑁𝑛𝑘

=
𝑛
𝛾 𝑧 𝑛𝑘
𝜕
𝜕𝜇 𝑘
log𝑁𝑛𝑘
= Σ−1
(
𝑛
𝛾(𝑧 𝑛𝑘)(𝑥 − 𝜇)) → 0
∴
𝑛
𝛾 𝑧 𝑛𝑘 𝑥 𝑛 −
𝑛
𝛾 𝑧 𝑛𝑘 𝜇 𝑘 = 0
𝑁𝑘 = 𝑛 𝛾(𝑧 𝑛𝑘)と置くと、
𝜇 𝑘 =
1
𝑁𝑘
𝑛
𝛾 𝑧 𝑛𝑘 𝑥 𝑛

• 次にΣ 𝑘についての微分を考える
𝑁 = 𝑁(𝑥|𝜇, Σ)と置くと、
log𝑁 = −
𝐷
2
log 2𝜋 −
1
2
log Σ −
1
2
tr(Σ−1
𝑥 − 𝜇 𝑥 − 𝜇 𝑇
)
𝜕
𝜕Σ 𝑘
log𝑁 = −
1
2
Σ−1 +
1
2
Σ−1 𝑥 − 𝜇 𝑥 − 𝜇 𝑇Σ−1
𝜕
𝜕Σ 𝑘
𝐹 =
𝑛
𝛾 𝑧 𝑛𝑘
𝜕
𝜕Σ 𝑘
log𝑁 𝑛𝑘
=
𝑛
𝛾 𝑧 𝑛𝑘 −
1
2
Σ−1 +
1
2
Σ−1 𝑥 − 𝜇 𝑥 − 𝜇 𝑇Σ−1 → 0

∴
𝑛
𝛾 𝑧 𝑛𝑘 𝐼 − 𝑥 𝑛 − 𝜇 𝑘 𝑥 𝑛 − 𝜇 𝑘
𝑇Σ 𝑘
−1
= 0
⇔ Σ 𝑘 =
1
𝑁𝑘
𝑛
𝛾 𝑧 𝑛𝑘 𝑥 𝑛 − 𝜇 𝑘 𝑥 𝑛 − 𝜇 𝑘
𝑇

• 𝜋 𝑘に関する微分を考える
𝑘 𝜋 𝑘 = 1の制約があるので、
𝐺 = 𝐹 + 𝜆(
𝑘
𝜋 𝑘 − 1)
とすると、
𝜕
𝜕𝜋 𝑘
𝐺 =
𝑛
𝑁 𝑛𝑘
𝑗 𝜋𝑗 𝑁 𝑛𝑗
+ 𝜆 =
𝑛
𝛾 𝑧 𝑛𝑘
𝜋 𝑘
+ 𝜆 =
𝑁𝑘
𝜋 𝑘
+ 𝜆 → 0
⇔ 𝑁𝑘 = −𝜆𝜋 𝑘
⇔ 𝑁 =
𝑘
𝑁𝑘 =
𝑘
−𝜆𝜋 𝑘 = −𝜆
∴ 𝜋 𝑘 =
𝑁𝑘
−𝜆
=
𝑁𝑘
𝑁

EM for Gaussian Mixtures
1. テキトーに𝝁 𝑘, 𝚺 𝑘, 𝜋 𝑘を初期化
for
2. E-step：𝛾(𝑧 𝑛𝑘)を計算
3. M-step： 𝝁 𝑘, 𝚺 𝑘, 𝜋 𝑘を計算
4. 対数尤度を計算
log𝑃 𝑿 𝝁, 𝚺, 𝝅 =
𝑛=1
𝑁
log{
𝑘=1
𝐾
𝜋 𝑘 𝑁 𝒙 𝑛 𝝁 𝑘, 𝚺 𝑘)}
If flag == true:
break;

これをノンパラ化したい(´・ω・`)

EM for Gaussian Mixturesのんぱら！
1. テキトーに𝝁 𝑘, 𝚺 𝑘, 𝜋 𝑘を初期化；𝑘をたくさん用意する
for
2. E-step：𝛾(𝑧 𝑛𝑘)を計算
3. M-step： 𝝁 𝑘, 𝚺 𝑘, 𝜋 𝑘を計算
– 一定値以下の𝜋 𝑘を切り捨てる
4. 対数尤度を計算
log𝑃 𝑿 𝝁, 𝚺, 𝝅 =
𝑛=1
𝑁
log{
𝑘=1
𝐾
𝜋 𝑘 𝑁 𝒙 𝑛 𝝁 𝑘, 𝚺 𝑘)}
If flag == true:
break;

のんぱらNMFの場合
𝜋 𝑘
𝑘=1
𝐾
𝜋 𝑘
> 𝐶𝑜𝑛𝑠𝑡. → 𝜋 𝑘生き残る
𝜋 𝑘
𝑘=1
𝐾
𝜋 𝑘
< 𝐶𝑜𝑛𝑠𝑡. → 𝜋kを消す or 残して計算はしない
ガンマ分布を事前分布に与えて、
変分ベイズとか使って事後分布を近似を求める

参考
http://biometrics.cse.msu.edu/Publications/Clustering/Mallapra
gadaJinJain_NonparametricMixtureModels_SSSPR10.pdf
http://www.hua.edu.vn/khoa/fita/wp-
content/uploads/2013/08/Pattern-Recognition-and-Machine-
Learning-Christophe-M-Bishop.pdf

Gmm勉強会

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie Gmm勉強会

Ähnlich wie Gmm勉強会 (20)

Gmm勉強会