Weitere ähnliche Inhalte
Ähnlich wie 読書会 「トピックモデルによる統計的潜在意味解析」 第8回 3.6節 Dirichlet分布のパラメータ推定 (20)
読書会 「トピックモデルによる統計的潜在意味解析」 第8回 3.6節 Dirichlet分布のパラメータ推定
- 5. Dirichlet分布のパラメータ推定の重要性
5
◎LDAの確率分布(P.52 (3.27)式)より
𝑝 𝒘, 𝒛, 𝜽, 𝝓 𝜶, 𝜷 =
𝑑,𝑖
𝑝 𝑤 𝑑,𝑖 𝑧 𝑑,𝑖, 𝝓 𝑝 𝑧 𝑑,𝑖 𝜽 𝑑
𝑑
𝑝 𝜽 𝑑 𝜶
𝑘
𝑝 𝝓 𝑘 𝜷
𝜶: 各ドキュメントにおける各トピックの出現確率(の確率分布)を調整
𝜷: 各トピックにおける各単語の出現確率(の確率分布)を調整
𝜶の各要素が同じ値をもつ対称Dirichlet分布よりも、異なる値を持つ非対称
Dirichlet分布の方が望ましい性質が多々あることが知られている
一方𝜷に関しては、対称Dirichlet分布と非対称Dirichlet分布では、それほど
差がないことが知られている
Dirichlet分布のパラメータ
- 8. 変分ベイズ法の学習アルゴリズム(復習)
8
𝐹 𝑞 𝒛, 𝜽, 𝝓 𝝃 𝜃, 𝝃 𝜙, 𝜶, 𝜷
=
𝑘
log
𝛤 𝑣 𝛽𝑣
𝑣 𝛤 𝛽𝑣
− log
𝛤 𝑣 𝜉 𝑘,𝑣
𝜙
𝑣 𝛤 𝜉 𝑘,𝑣
𝜙
+
𝑘 𝑣
𝐸 𝑞 𝒛 𝑛 𝑘,𝑣 + 𝛽𝑣 − 𝜉 𝑘,𝑣
𝜙
𝐸
𝑞 𝝓 𝑘 𝝃 𝑘
𝜙 log 𝜙 𝑘,𝑣
+
𝑑
log
𝛤 𝑘 𝛼 𝑘
𝑘 𝛤 𝛼 𝑘
− log
𝛤 𝑘 𝜉 𝑑,𝑘
𝜃
𝑘 𝛤 𝜉 𝑑,𝑘
𝜃
+
𝑑 𝑘
𝐸 𝑞 𝒛 𝑛 𝑑,𝑘 + 𝛼 𝑘 − 𝜉 𝑑,𝑘
𝜃
𝐸
𝑞 𝜽 𝑑 𝝃 𝑑
𝜃 log 𝜃 𝑑,𝑘
+
𝑑 𝑖 𝑘
𝑞 𝑧 𝑑,𝑖 = 𝑘 log 𝑞 𝑧 𝑑,𝑖 = 𝑘
◎変分下限(事後分布にDirichlet分布を仮定)(P.82 (3.102)式より)
以下の変分下限を次頁のアルゴリズムで最大化する
- 10. 変分ベイズ法での𝜶,𝜷の推定
10
𝐹 𝑞 𝒛, 𝜽, 𝝓 𝝃 𝜃
, 𝝃 𝜙
, 𝜶, 𝜷 を𝜶, 𝜷に関して最大化すればよい
以下を満たす𝜶, 𝜷を見つければよい
𝜕𝐹 𝑞 𝒛, 𝜽, 𝝓 𝝃 𝜃, 𝝃 𝜙, 𝜶, 𝜷
𝜕𝜶
= 𝟎,
𝜕𝐹 𝑞 𝒛, 𝜽, 𝝓 𝝃 𝜃, 𝝃 𝜙, 𝜶, 𝜷
𝜕𝜷
= 𝟎
ここでは固定点反復法とニュートン・ラフソン法を紹介する
- 12. 固定点反復法とは
12
𝑥 = 𝑓 𝑥
を満たす𝑥を
𝑥 𝑠+1 = 𝑓 𝑥 𝑠 , 𝑠 = 1,2, ⋯
の反復計算で求めるアルゴリズム
例えば以下のような方程式を解きたいときに使う
𝑔 𝑥 = 𝑥 − 𝑓 𝑥 = 0
ここでは
𝜕𝐹 𝑞 𝒛, 𝜽, 𝝓 𝝃 𝜃, 𝝃 𝜙, 𝜶, 𝜷
𝜕𝜶
= 𝟎,
𝜕𝐹 𝑞 𝒛, 𝜽, 𝝓 𝝃 𝜃, 𝝃 𝜙, 𝜶, 𝜷
𝜕𝜷
= 𝟎
が解きたい(偏微分)方程式
- 14. 偏微分方程式の導出
14
したがって、もし
𝛼 𝑘 =
𝑑 𝛹 𝜉 𝑑,𝑘
𝜃
− 𝛹 𝛼 𝑘
𝑑 𝛹 𝑘 𝜉 𝑑,𝑘
𝜃
− 𝛹 𝑘 𝛼 𝑘
𝛼 𝑘
を満たす𝛼 𝑘 ≠ 0が見つかれば
𝜕𝐹 𝑞 𝒛, 𝜽, 𝝓 𝝃 𝜃
, 𝝃 𝜙
, 𝜶, 𝜷
𝜕𝛼 𝑘
= 0
が解けることになる → 固定点反復法
- 15. 偏微分方程式の導出
15
𝜉 𝑑,𝑘
𝜃
の更新式(P.76 (3.89)式)
𝜉 𝑑,𝑘
𝜃
= 𝐸 𝑞 𝒛 𝑛 𝑑,𝑘 + 𝛼 𝑘
を𝐹 𝑞 𝒛, 𝜽, 𝝓 𝝃 𝜃, 𝝃 𝜙, 𝜶, 𝜷 に代入後に
𝜕𝐹 𝑞 𝒛, 𝜽, 𝝓 𝝃 𝜃, 𝝃 𝜙, 𝜶, 𝜷
𝜕𝛼 𝑘
= 0
を解こうとすると、反復計算式は
𝛼 𝑘 =
𝑑 𝛹 𝐸 𝑞 𝒛 𝑛 𝑑,𝑘 + 𝛼 𝑘 − 𝛹 𝛼 𝑘
𝑑 𝛹 𝑘 𝐸 𝑞 𝒛 𝑛 𝑑,𝑘 + 𝛼 𝑘 − 𝛹 𝑘 𝛼 𝑘
𝛼 𝑘
となる → P.114 (3.191)式
この場合、𝛼 𝑘の更新時に𝜉 𝑑,𝑘
𝜃
も更新することになる
- 18. ニュートン・ラフソン法とは
18
𝜕𝐹 𝜶
𝜕𝜶
= 𝟎
を満たす𝜶を
𝜶 = 𝜶 − 𝑯−1 𝜶 𝒈 𝜶
𝒈 𝜶 =
𝜕𝐹 𝜶
𝜕𝜶 𝜶= 𝜶
𝑯 𝜶 =
𝜕2 𝐹 𝜶
𝜕𝜶𝜕𝜶′
𝜶= 𝜶
の反復計算で求めるアルゴリズム(P.116 (3.198)~(3.200)式)
ここでは
𝜕𝐹 𝑞 𝒛, 𝜽, 𝝓 𝝃 𝜃
, 𝝃 𝜙
, 𝜶, 𝜷
𝜕𝜶
= 𝟎,
𝜕𝐹 𝑞 𝒛, 𝜽, 𝝓 𝝃 𝜃
, 𝝃 𝜙
, 𝜶, 𝜷
𝜕𝜷
= 𝟎
が解きたい(偏微分)方程式
- 20. 偏微分方程式の導出
20
𝑯−1 𝜶 と𝒈 𝜶 の具体的な導出については省略する
(PP.117 (3.202)~(3.209)式を参照)
𝛽𝑣に関しても導出手順は全く同じ
固定点反復法では必ずしも停留点に収束するとは限らないが、𝛼 𝑘, 𝛽𝑣は常に
正の値となる(P.114 (3.191)式を使った場合)
一方、ニュートン・ラフソン法の場合、𝛼 𝑘, 𝛽𝑣が負の値になる可能性がある
→ 固定点反復法がお勧めとのこと
- 24. ニュートン・ラフソン法 → 確率的ニュートン・ラフソン法
24
𝑯 𝜶 はP.117 (3.201)式
𝑯 𝜶 𝑘′ 𝑘 =
𝜕2 𝐹 𝜶
𝜕𝛼 𝑘′ 𝜕𝛼 𝑘
= 𝑀 𝛹 1
𝑘
𝛼 𝑘 − 𝛿 𝑘′ = 𝑘 𝛹 1 𝛼 𝑘
より𝜶にしか依存しない
𝒈 𝜶 はP.116 (3.196)式
𝑔 𝛼 𝑘 = 𝑀 𝛹
𝑘
𝛼 𝑘 − 𝛹 𝛼 𝑘 +
𝑑
𝛹 𝜉 𝑑,𝑘
𝜃
− 𝛹
𝑘
𝜉 𝑑,𝑘
𝜃
より第二項がそれに該当する
→ 第二項を確率的最適化の考えにしたがって以下のように変更する
(P.119 (3.212)~(3.213)式)
𝑔 𝛼 𝑘 = 𝑀 𝛹
𝑘
𝛼 𝑘 − 𝛹 𝛼 𝑘 + 𝑀 𝛹 𝜉 𝑑,𝑘
𝜃
− 𝛹
𝑘
𝜉 𝑑,𝑘
𝜃
𝜶 = 𝜶 − 𝜈𝑠 𝑯−1 𝜶 𝒈 𝜶
- 28. Dirichlet分布のパラメータ推定のための目的関数
28
以下の周辺尤度を𝜶, 𝜷に対して最大化する
𝑝 𝒘, 𝒛 𝜶, 𝜷 = 𝑝 𝒘, 𝒛, 𝜽, 𝝓 𝜶, 𝜷 𝑑𝜽𝑑𝝓
PP.120~121 (3.214)~(3.215)式を経てP.121 (3.216)式が得られる
𝑝 𝒘, 𝒛 𝑠 𝜶, 𝜷
=
𝑘
log
𝛤 𝑣 𝛽𝑣
𝑣 𝛤 𝛽𝑣
− log
𝛤 𝑣 𝑛 𝑘,𝑣
𝑠
+ 𝛽𝑣
𝑣 𝛤 𝑛 𝑘,𝑣
𝑠
+ 𝛽𝑣
+
𝑑
log
𝛤 𝑘 𝛼 𝑘
𝑘 𝛤 𝛼 𝑘
− log
𝛤 𝑘 𝑛 𝑑,𝑘
𝑠
+ 𝛼 𝑘
𝑘 𝛤 𝑛 𝑑,𝑘
𝑠
+ 𝛼 𝑘
ただし、
𝑛 𝑘,𝑣
𝑠
=
𝑑 𝑖
𝛿 𝑧 𝑑,𝑖
𝑠
= 𝑘, 𝑤 𝑑,𝑖 = 𝑣 , 𝑛 𝑑,𝑘
𝑠
=
𝑖
𝛿 𝑧 𝑑,𝑖
𝑠
= 𝑘
例えば、固定点反復法で周辺尤度を最大化する𝜶, 𝜷を𝜶 𝑠
, 𝜷 𝑠
とする
- 29. (近似的な)経験ベイズ法による推定
29
目的関数として𝑝 𝒘 𝜶, 𝜷 の下限(P.122 (3.218)式)
𝑝 𝒘 𝜶, 𝜷
≥
𝑘
log
𝛤 𝑣 𝛽𝑣
𝑣 𝛤 𝛽𝑣
− log
𝛤 𝑣 𝐸 𝑞 𝒛 𝑛 𝑘,𝑣 + 𝛽𝑣
𝑣 𝛤 𝐸 𝑞 𝒛 𝑛 𝑘,𝑣 + 𝛽𝑣
+
𝑑
log
𝛤 𝑘 𝛼 𝑘
𝑘 𝛤 𝛼 𝑘
− log
𝛤 𝑘 𝐸 𝑞 𝒛 𝑛 𝑑,𝑘 + 𝛼 𝑘
𝑘 𝛤 𝐸 𝑞 𝒛 𝑛 𝑑,𝑘 + 𝛼 𝑘
を設定するやり方もある
ただし、
𝐸 𝑞 𝒛 𝑛 𝑑,𝑘 =
𝑖
𝑞 𝑧 𝑑,𝑖 = 𝑘 , 𝐸 𝑞 𝒛 𝑛 𝑘,𝑣 =
𝑑 𝑖
𝑞 𝑧 𝑑,𝑖 = 𝑘 𝛿 𝑤 𝑑,𝑖 = 𝑣
𝑞 𝒛 として
• 周辺化ギブスサンプリングによって得られたサンプル分布
• 周辺化変分ベイズ法で推定された𝑞 𝑧 𝑑,𝑖
を用いればよい