PRML10-draft1002

1. 記号の使い方に関して1 議論展開に用いる記号記号仮名称詳細 ⇐,⇔,⇒ 論理記号純粋に論理的関係/論理的帰結を表す。(従来の数学的用法を踏襲。) ⇒! 不可逆帰結⇒であるが、⇔ではないことを示す。 ·⇒ 通常帰結例外除去的な条件を課すと⇒と置換できるニュアンスを示す。 ⇒: 前提付加左側のような前提条件を取り決めた上で、右側の命題を主張する。● :⇐ 条件付加右側のような条件を追加的に取り決めた上で、左側の命題を主張する。● :⇔: 等価定義等価な条件式を並べて、どれかの条件式で取り決めをすることを示す。未定義　代入可能時主張右辺の代入可能な全ての値について、左辺の条件が成り立つことを表す。「· · ·」カギ括弧真偽の不明な命題、もしくは文字通りに解釈できない便宜上の数式を表す。イコールに似た操作記号記号仮名称詳細 = 通常等号少なくとも、純粋に論理的に両辺が等しい値を持つことを示す。ニュアンス明確化の必要がある場合には、出来るだけこの他の記号に置換。 :=: 等式展開計算すれば等式関係が判明可能であることを表す。● := (遅延) 代入左辺の未定義の変数について、右辺の内容で定義する。(ただし遅延評価。) 左辺が単純な1 つの変数で無い場合には、未定義なのはどれであるか要注意。● ← 即時代入左辺に右辺を即時に代入する。:= よりも意味が明確化する。○ (数式群からのアルゴリズムの構成に有用な場合がある。) == 等式制約等しいという条件を新たに加える操作を表す。● :== 定義確認既に定義したことを確認する意図で使う記号。○ 未定義　定義可能主張定義可能であることを主張し、かつ、それを定義として用いる。未定義　定義可能時定義定義可能な場合に限定して、それを定義として用いる。 + 近似記号近似関係 :+ 近似意図右辺を近似する意図で、左辺に何かの定義操作を加える。データを扱うための記号(大体において数学の教科書に使われているような方法を踏襲する) 記号参照名詳細 R 実数全体 RD 直積D 次元のベクトル全体 ↔ 縦/横ベクトルそれぞれN 次元縦ベクトルとM 次元横ベクトル RN l / RM N ×M 行列行列の次元の順序縦N 次元で横M 次元の行列であること RN l ↔ N ×M 行列全体 M IM 単位行列対角要素は1、非対角要素は0 の縦横M 次元の正方行列 : RD → RM 定義域と値域写像の定義域と値域を→で結んで表示している。 u · v 内積同じ長さのベクトル2 個の内積を意味している。 (xi)N i=1 数列数列を表す。 1前回のゼミとも異なるので注意。 1

2. 変数、特に確率変数に関する記号 X 確率変数 [x] 既知化(観測) ⇋ 未知化(由来参照) X⋆ 値 x P[x] 確率分布 P(x) 確率参照表記仮名称詳細 X 大文字化変数x の「未知化」。分布を考慮することができるようになる。● x⋆ 意図達成数式/変数の意図(最適化/新たなデータの代入など) 達成を⋆ で示す。 x∀ 任意化変数の由来を残したまま、値を一般的に考慮する任意化の操作を表す。 [x] 一般化括弧変数x の「由来参照」/「未知化」/「任意化」のいずれかを示す。● X⋆ 観測未知変数に⋆ がついた場合は、特に「観測」を表すこととする。○ 引数x の値だけでなく引数がどの確率変数に由来するか関知して P(x) 確率参照確率参照記号P は異なる働きをするものとする。● (従来の統計学の用法を踏襲。) 補助的に、Q, p, q も用いる。 P[x] 分布参照未知化変数を引数に持つ確率参照は、分布を表す。P([x]) の略記。● • 無名変数数式表記簡潔化/変数(の由来と意図) の考慮阻止の目的で用いる。 ∝ 比例記号未知化変数/無名変数のみを動かしたときの比例、と意味を限定する。 const. 定数記号未知化変数/無名変数のみに対して定数関数、と意味を限定する。 P′ 普遍的総和不都合の無い限り、総和及び積分をこの記号で表示する。 E[確率変数| 条件k 分布の指定] またはE分布[確率変数| 条件] 相加平均を表す。 G[確率変数| 条件k 分布の指定] またはG分布[確率変数| 条件] 相乗平均を表す。● 上記の記号体系の作成意図に関して - 概念の本質の理解にかかわる冗漫さを最小化するため。 - 後日の参照の際に、作成した数式を含むノートを容易に理解できるようにするため。 - 誤読の回避/入力と推敲の容易性/読解の手間の低減により、上記の目的の達成を目指している。 - おそらく上記は、コルモゴロフによる確率論の公理論的展開で問題無く正当化が可能と考えられる。 2

3. ■ 用語集(索引に未記載のものなど) 変分ベイズ法「変分推論法」と同じ。モデルエビデンスパラメータを周辺化した尤度モデルエビデンス最大化パラメータを周辺化した尤度関数を最大にするパラメータを決定すること非特異連続な分布を持つ確率変数が、丁度ある値を持つ確率が0 で無いこと(ポイントマスを持つこと)。積分消去観測対象となりうる値の予測分布を求めるために、パラメータの変数に対して積分をすることで、そのパラメータを消去する操作。解析的に加減乗除およびべき乗の操作で式が表示できることを表す。閉形式積分の操作をした後の結果が「解析的」になった時g の結果について表す。モデル平均p187 複数のモデルをパラメータで指定するようにして、そのパラメータ上の分布が求まったときに、それを使った平均値を使うことと考えられる。(?) ■ 参考になりそうな他の文献: 1. 情報幾何学の新展開甘利俊一サイエンス社(SGC-110) ごく最近(2014 年8 月25 日) に出版された本で、EM alg. 等の理論的な話、最良検定など(私が個人的に気になる話)、産業連関表への言及などあまり見たことの無い話、甘利氏のさまざまな個人的な研究にまつわる話が記載されており、興味深い。 2. 持橋さんのホームページ(所在未参照) この章は長くて複雑なので、この章を補完する重要情報がインターネット上のどこかにあると聞いた。http://ibisforest.org/index.php?PRML によると、10 章を担当したのは持橋氏である。 ■ 理解が難しいところなど • § 10.1(p177) 「十分に柔軟な分布を使っても、過学習の問題は起きない」 → 理論的根拠はあるのか/経験則なのか? • § 10.1.2(p183) 図10.3「最もよく近似する一変数ガウス」→ 2 変数ガウスではないか? • § 10.1.4(p187) 隠れ変数Z がモデルm により「構造」が異なるということを反映した数学的に自然な表記は何だろうか? 1

4. 1 第10 章の全般的な内容と構成に関して上下巻全般からの10 章についての言及のされかた場所(ページ) 言及のされ方言及対象/解釈 1.2.3ベイズ確率(23) 最近1999 年以降? の非常に能率的な決定論的近似法変分ベイズ法/EP 法 1.2.4ガウス分布(28) 分散パラメータがベイズアプローチでも得られる§ 10.1.3 (§ 10.3.1?) 4.4ラプラス近似 (213)(215) 解析的な近似/局所的でない全体的アプローチ分解と変分近似 6.4.5ガウス過程からの分類3 個考えられるガウス分布近似(1 個は§ 6.4.6) 変分推論法/EP 法 9混合モデルとEM (139) エレガントなベイズ的扱いKL 距離を使ったこと? 余分な計算がほとんど不要? データから自動的に要素数を決定§ 10.2 9.2.1混合ガウス最尤推定(150) 特異性による最尤推定の深刻な過学習を回避EM alg. では未解決 EMアルゴリズムの一般化が変分推論法の枠組みlog px = Lpq + KLp(z|x) q 10.2変分線形回帰 (188) →「長く複雑なので· · · 後回しにして良い」§ 10.2 全体について手法紹介の年代に関して(教科書に記載されたもの全部とは限らない) 変分推論(18 世紀、オイラーとラグランジュ)/汎関数微分(Feynmann et.al, 1964) 有限要素法(Kapur,1989)/最大エントロピー法(Schwarz,1988) 分布の分解の仮定(Jordan et al.,1999; Jaakkola, 2001)/平均場近似(Parisi, 1988) 条件q⋆( (zj) ) = G[ P(x,Z) ||Zj = zj ] による反復解の収束の保証(Boyd and Vandenberghe, 2004) ダイバージェンス(Ali and Silvey, 1966; Amari, 1985; Minka, 2005) 一変数ガウス分布を平均と分散で分解した近似の例(MacKay, 2003) ガウス分布のベイズ推論の完全な取り扱い(Minka 1998) 「変分混合ガウス分布」(ベイズ的でエレガント) (Attias, 1999b) 更新が最適化になっているのか徹底的なテスト(195)(Svens´en and Bishop, 2004) をパラメータと見なしてL を最大化し、点推定する(Corduneanu and Bishop, 2001) 変分ベイズ法の推論を行う汎用ソフトウェアの構成(207)(Bishop et al., 2003) 更新式は局所的なメッセージパッシングアルゴリズム(Winn and Bishop, 2005) 凸双対性の枠組み(Rockafellar, 1972; Jordan et al., 1999) ガウス分布の関数形式でシグモイド関数の下限を作る(Jaakkola and Jordan, 2000) EP 法(期待値伝搬法) (Minka, 2001a, Minka, 2001b) /雑音データ問題(Minka, 2001b) 仮定密度フィルタリング(ADF)/モーメント一致法 (Maybeck, 1982; Lauritzen, 1992; Boyen and Koller, 1998; Opper and Winther,1999) ロジスティックの形のモデルの場合は、EP 法が局所的変分法/ラプラス近似より勝ることが多い (Kuss and Rasmussen, 2006) 再重み付け木メッセージパッシング(Wainwright et al., 2005) 部分的確率伝搬(Wiegerinck and Heskes, 2003) Power EP 法(Minka, 2004)

5. 2 10 章の節の内容節のタイトル節の内容 10.1 変分推論分布を積に分ける/一般解を求める/ごく簡単な例 10.2 例:変分混合ガウス分布(例) 混合ガウス分布 10.3 変分線形回帰(例) 線形基底関数モデル 10.4 指数型分布族指数型分布族に関係することと/メッセージパッシング 10.5 局所的変分推定法局所的な下限? 10.6 変分ロジスティック回帰(例) ロジスティック回帰 10.7EP 法逆KL 距離で考えた/(例) 雑音とグラフィカルモデル 10 章の節の構成節小節の数(頁数) 依存先/言及先計算例 10.14(11) 2.3 ガウス分布e−z2/2 1+e−20z−4 ; 細長い分布,2 峰の分布;1 変数ガウス分布 10.25(13) 2.3.6, 10.4.1, 3.4, 間欠泉のデータに混合ガウスを適用- 10.33(4) 3.3 , 3.5 3 次式にガウスノイズを入れた10 点 10.41(3) 2.4, 4.2.4, 10.2.5 メッセージパッシング 10.50(5) 1.6.1, 4.5 10.63(7) 4.5, 4.3 ロジスティック回帰 10.72(2) 8.4 グラフ推論混合ガウスモデル、雑音データ 10 章の小節のタイトル節のタイトル小節のタイトル 10.1 変分推論分布の分解/分解の近似の持つ性質/一変数ガウス分布/モデル比較 10.2 例:変分混合ガウス分布変分事後分布/変分下限/予測分布/要素数決定/導出された分解 10.3 変分線形回帰変分分布/予測分布/変分下限 10.4 指数型分布族メッセージパッシング 10.5 局所的変分推定法 10.6 変分ロジスティック回帰変分事後分布/変分パラメータの最適化/超パラメータの推論 10.7EP 法雑音データ問題/グラフィカルモデルとEP 法似た様な章との比較手法利点欠点 9 章混合モデルとEM (32 頁) 離散潜在変数を扱う(例: どのクラスタに属するか) K-means alg. 必ず極大値に収束するE-step が無理なことがある()10 章,11 章) EM alg. (dim Z が高い/積分が閉形式でない場合) 10 章近似推論法(62 頁) 近似が決定的変分法or 変分ベイズ事後分布の解析的近似決して厳密解は求まらない (分解/ガウス分布を使う) 11 章サンプリング法(37 頁) 近似が確率的 MCMC 厳密な漸近的な一致性計算量が多く解ける問題は意外と小さい。サンプルが互いに独立か検証困難。 12 章連続潜在変数(48 頁) 連続潜在変数を扱う(例: 文字画像のズレの分布を扱う) 線形ガウスモデル? ?

6. 第10.1.2 節分解による近似のもつ性質下巻180 頁この小節では3 例に、直前の小節で示した方法の“分解” を適用し、その結果を観察する。 1. 2 次元ガウス分布をq( (z1, z2) ) := q1(z1) q2(z2) (z1, z2 2 R) で“変分近似” する。 2. 比較のため、別の方法を適用する。KL 距離KL( q || P ) の極小化をする代わりに、引数を逆転させたKL( P || q ) を極小化する。 3. 2 峰性の分布に対して適用し、局所解が複数存在することを調べる。また、ダイバージェンスを紹介する。(KL 距離、Hellinger 距離の一般化になっている。) P の分布(↓) KL(q||P) を極小化した場合KL(P||q) を極小化した場合斜めに細長い分布分布を小さく近似する傾向がある周辺分布が一致する (少なくとも1 or 2 次元ガウスの場合) 2 峰性の分布局所解が複数存在する「予測性能の悪化をもたらす」 P(z) がきわめて0 に近い場所でq(z) の値が大きいと” 損失” が大きいので q の“分布域” は小さくまとまる。 q(z) がきわめて0 に近い場所でP(z) の値が大きいと” 損失” が大きいので q はP の“分布域” を覆うように広がる。 • 考えると面白そうなこと: – 分布のP とq が上記のようなケースだけではなくて、fat-tail な場合や特異の場合も考察して、何が起こるか考える。 1

7. 第10.1.3 節例: 一変数ガウス分布下巻184 頁ガウス分布からN 個の点を観測した状況を考えている。尤度関数P(D = x|μ, ) = τ 2π N/2 exp n −τ 2 PN n=1(xn − μ)2 o (10.21) 事前分布: p[μ|] N(μ|μ0, (0)−1), p[] Gam(|a0, b0) を採用すると共役分布になる§ 2.3.6 ガウス-ガンマ分布演習2.44 。 “分解” としてはq[μ, ] = q[μ] × q[] (10.24) とすることで、q[μ] はガウス分布、q[] はガンマ分布となる。 (1) 初期値(2) μ で最適化 (3) で最適化(4) 収束解分解q[μ]q[] := q[μ, ] (10.24) 共役事前分布p([μ]|) N(μ0, 1 λ0 ) (10.22) 〃p([]) Gamma(a0, b0) (10.23) 0μ0 + Nx ¯最適解q⋆[μ] :=: N(μN, N) := N 0 + N , (0 + N)Eq⋆[τ]() (10.25 − 27) 〃q⋆[] :=: Gam(aN, bN) := Gam(a0 + N + 1 2 , b0 + 1 2 Eq⋆[μ] XN (xn − μ)2 + 0(μ − μ0) n=1 # (10.28 − 30) (a0, b0, μ0, 0) (0, 0, 0, 0) =) Eq⋆[μ][μ] = ¯x, Eq⋆[μ][μ2] = ¯x2 + 1 NEq⋆[τ][] (10.32) PN Eq⋆[τ][] = (x¯2 − ¯x2)−1 = ( n=1(xn − ¯x)2/N)−1 (10.33) , 補足: 最尤推定と比較した優位性についての議論を含む、ガウス分布のベイズ推論の完全な扱いは、 Minka 1998(“Inferring a Gaussian distribution”. Media Lab note, MIT) を参照。 http://research.microsoft.com/˜minka 2

8. 第3 章線形回帰モデル上巻135 頁この第3 章のメモについての作成意図: 第10.3 節でよく参照されるため。第10.3 節で必要と考えられる仮定と定義について(主に第3 章) 太字は主に節のタイトル下線でよく使う用語の定義●はx, t, ,,

9. , の定義○は§ 10.3.1 から参照節(小節数)頁数節のタイトル10 章で必要と考えられる仮定/定義事項 1.2.4 4 ガウス分布精度とは分散の逆数であり1/2 に等しい。 2.3.6 5 ガウス分布に対するベイズ推論精度パラメータに対する共役事前分布はガンマ分布。 3. 42 線形回帰モデル● N 個の観測値(xn 2 RD) と「目標値」(tn 2 R) 3.1 (5) 10 線形基底関数モデル線形モデル= 線形基底関数モデル∋ 線形回帰モデル ○● (j=0,...,1) : 基底関数(ただしx) := 1 とするj M−) P 0(線形モデルy(x,w) := j=0..M−1 wjj (x) :=: w · (x) 3.1.1 2 最尤推定と最小二乗法●計画行列 :( nj := j(xn) (3.16) ●

10. : 観測値へのノイズの分散の逆数P(t|x,w,

11. ) = N(t|y(x,w),

12. −1) 3.2 5 バイアス-バリアンス分解 3.3 (3) 9 ベイズ線形回帰 3.3.1 4 パラメータの分布● : パラメータw の各要素の精度p(w|) = N(w|0, −1IM) ○ 事前分布P([w]) := N(0, −1), 観測ノイズP([t]|x,w,

13. ) := N(w · (x),

14. −1) ⇒ P( [w] |t) :=: N(mN, SN) :⇐ (mN, SN) := (

15. SNT t , (IM +

16. T)−1) 3.3.2 2 予測分布○ P(t⋆|x, t, ,

17. ) :=: N(mN · (x⋆) ,

18. −1 + (x⋆) · SN(x⋆) ) 3.3.3 2 等価カーネル 3.4 4 ベイズモデル比較モデルエビデンス=周辺尤度, 複数比較した比をベイズ因子′95 と呼ぶ 3.5 (3) 7 エビデンス近似′89 =経験ベイズ′94,′04 =第二種の最尤推定′85 =一般化最尤推定′75 パラメータw の積分消去である。さて、なぜエビデンス近似というのか。 ○ (1)w を積分消去して周辺尤度関数を作る。 (2) その関数を最大化する超パラメータを探索する。 3.5.1 2 エビデンス関数の評価 3.5.2 2 エビデンス関数の最大化 ○ 予測分布P( [t⋆] |t) :=: P′ w,α,β P( [t⋆] |w,

19. )P(w|t, ,

20. )P(,

21. |t) パラメータw の積分消去P( [t] |,

22. ) :=: P′ w P( [t] |w,

23. )P(w|) エビデンス関数最大化⇔ = /mT NmN

24. = (N − ){PN n=1(tn −mT n(xn))}−2 :⇐ := Pi(i/( + i) :⇐ (i) は行列(

25. T) の固有値 3.5.3 2 有効パラメータ数 3.6 1 固定された基底関数の限界 1

26. 第3.3 節と第3.5 節の解釈あらかじめ、M 重結合されることになる基底関数(j : RD ! R)M−1 j=0 が用意されているとする。 (ただし0(•) := 1 とする。) 未知の加重係数(wj)M−1 j=0 に応じて、観測されないy(x) := PM−1 j=0 wjj(x) (3.2) と観測されるt(x) := y(x) + N(0,

27. )⋆ (3.8) が定義される。データとして、(xn)N n=1 と(tn)N n=1 が提供されている。便宜上、下記の変数を定める。変数と定義性質 := (nj := j(xn))計画行列(N ×M 行列である) § 3.1.1 (3.16) p139 nj T 1 SN := IM +

28. −w の事後分布の精度(3.49) § 3.3.1 (3.54) p152 mN :=

29. SN T t w の事後分布の平均(3.49) § 3.3.1 (3.53) p152 (i) :=

30. T の固有値S−1 N − IM の固有値に等しい§ 3.5.2 (3.87) p167 := X i i + i = Tr(IM − S−1 N )? § 3.5.2 (3.91) p168 ベイズ線形回帰を考える場合(§ 3.3)、事前分布p[w] N(0, −1IM) (3.52) =)  事後分布P([w]|t,) :=: N(mN , SN) :=: N(

31. SN T t , SN) (3.49)(3.53)(3.54) 予測分布P(t⋆|x, t, ,

32. ) :=: N(mN · (x⋆) ,

33. −1 + (x⋆) · SN(x⋆) ) (3.58)(3.59)  エビデンス近似を考える場合(§ 3.5)、パラメータw を積分消去した尤度関数L[,

34. ] を最大化することを考える。 ⋆ :=: mT N mN (3.92)

35. ⋆ :=: N − XN n=1 tn − mT n(xn) !2 (3.95) 2

36. 第10.3 節変分回帰分析200 頁初めにベイズ線形回帰のことを「基底関数の線形結合モデル」の枠組みと言い換える場合がある。話の流れ変分推論の2 番目の例1 として、ベイズ線形回帰§ 3.3 について考える。この節の目的基底関数の線形結合モデルの枠組みでエビデンスの最大化解α を求める(β は固定) 背景§ 3.5.2 でエビデンス最大化の枠組みを考えた。完全なベイズモデル(α, β,w の全てを積分消去) も考えられるが、この章の流れに沿い2、変分ベイズによる近似を行う。問題の定式化途中から第10.3.1 節 l l α 2 R がNM最適化したい精度、β 2 R は固定、(a0, b0) は共役事前分布のガンマ分布へのパラメータ。 w 2 R, t 2 R, xn 2 RD,φ : RD ! RM パラメータw の事前分布P([w]|α) :== N(0, α−1IM) (10.88)(3.52) w に対する尤度関数P([t]|w, x) :== QN N(w · φ(xn) , β−1 ) (10.87) n=1 共役事前分布P(α) Gamma(a0, b0) (10.89) 全ての変数の同時分布P(t,w, α) :=: P(t|w) P(w|α) P(α) (10.90) なぜここに記載? (グラフィカルモデルとの関連か?) 事後分布とその近似q(w, α) := q(w) q(α) : + P(w, α|t) (10.91) 変分推論の解q⋆(w, α) 及びq⋆(w) , q⋆(α) 算出される変分解について §3.1.1 で定義したN ×M の計画行列 :( (3.16) nj := φj (xn) ガンマ分布パラメタ(aN, bN) := a0 + M , b0 + 1 2 2 Eq⋆[w] wT w (10.94)(10.95) αについての変分解q⋆[α] :=: Gamma(aN, bN) (10.93) 補助等式1 E[α]⋆ := Eq⋆[α]( α ) :=: aN/bN (10.102)(10.104) 補助変数1 (§ 3.3.1 で似た定義) SN := Eq⋆[α]( α ) IM + β T−1 (10.101) 補助変数2 (§3.3.1 で同じ定義) mN := β SN T t (M × N 行列) (10.100) w についての変分解q⋆[w] :=: N(mN, SN) (10.99) 補助等式2(M ×M 行列) E[wwT ]⋆ := Eq⋆[w] wwT :=: mN mT N + SN (10.103) 考察考察ケース比較される式教科書での言及 (a0, b0) (0, 0) E[α]⋆ = M mT NmN + Tr(SN) (10.104) 無限になだらか/変則事前分布 § 3.5 の尤度最大化解α⋆ = γ =? NmN mT M − α⋆Tr(S−1 ) N 「比べてみると興味深い」 NmN mT § 9.3.4 EM アルゴリズム T−1 SN = αIM + β(3.54) M α = mT NmN + Tr(SN) (9.63) q[w] が同じ分布を与える(?) 11 番目の例は、混合ガウス分布(§ 10.2) で、3 番目はロジスティック回帰(§ 10.6)。 2積分消去困難な場合に特に有用と言える。 1

37. 予測分布(§ 10.3.2 203 頁) x⋆ を新しく入力される値、その結果出力される値をt⋆ とする。 P(t⋆|t, x⋆) :=: N( mT N φ(x⋆) , 1 β + φ(x)T SN φ(x) ) (10.105)(10.106) これは、SN を計算するときのαを固定したときの、§3.3 節の線形基底ガウスモデルの予測分布P(t⋆|x, t, α, β) :=: N(mN · φ(x⋆) , β−1 + φ(x⋆) · SNφ(x⋆) ) (3.58)(3.59) に一致する。「変分下限」(§ 10.3.3 203 頁) 引数としてw, α 上の任意の関数q に対する汎関数であるL(q) の表式を算出する。e(•) := exp(•)。 L(q) :== log G[p(w, α, t)] G[q(w, α)] = log G[p(t|w)]G[p(w|α)]G[p(α)] G[q(w)]G[q(α)] (10.107) 2πN/2 (10.108) G[p(t|w)] = β e(βmT NT t ) e( β 2 tT t) e( β 2Tr[T(mNmT N + SN)]) (10.109) G[p(w|α)] = {e(ψ(aN))/bN}M/2 (2π)M/2{e(mT NmN + Tr(SN))}aN/2bN (10.110) G[p(α)] = ba0 0 + (eψ(aN)/bN)a0−1 e(b0aN/bN) (a0) (10.111) 1 /G[q(w)] = |SN|1/2 e(1 + log 2π)M/2 (aN) e(aN) (10.112) 1 /G[q(α)] = e ( (aN − 1) ψ(aN) ) bN 上記でG は相乗平均を表す。変分解を求めるべく、L(q) を最大化するには、上記の最後の2 個の式を最小化する(aN, bN) を探索することになる3。そうすることで、L(q) の値を計算する。次はモデルごとにmaxL(q) の値の変化する様子をみたもの。 ▼ モデルの次数ごとにL(q) をプロットしたものデータはある3 次多項式f(x) に対して(f(xi) + ǫi)10 i=1 , ǫi N(0, 0.32) 事前分布のパラメータ(a0, b0) (0, 0) 精度α については無情報事前分布p(α) / 1/α 3関数とは何だろう? 2

38. 第10.4 節指数型分布族ここでの導入記号 e′ := exp , c. := const. , ~η = η : 自然パラメータ(~χN, νN):~η の形状パラメータ指数型分布族に関する一般的な性質(第2.4 節) 指数型分布族p( [x] | [~η] ) := g(~η) h(x) e′(~η · u(x)) (2.194) 共役事前分布p( [~η] | ~χ, ν) :== f(~χ, ν) g(~η)ν e′(~η · (ν~χ)) (2.229) =)事後分布p( [~η] |X, ~χ, ν) / g(~η)ν+N e′ ~η · ν~χ + XN n=1 !! u(Xn) (2.230) この節での変数の定義(今までの潜在変数をさらにばらす) 性質データサイズ増大との関係例: ガウス混合モデル Z 潜在変数外延的Z のサイズは連動して増大zインジケータ変数 kn θ パラメータ内包的θ のサイズは連動せず一定μ平均 k ,精度 k , π混合比 k ガウス混合モデルについて、その観測変数と潜在変数の同時分布は、指数型分布族 • ガウス混合モデルの[xn] と[zn] の同時分布は指数型分布族である。 • [xn] の周辺分布は混合ガウス分布。これは指数型分布族ではない。ガウス混合モデルのような、X とZ の同時分布が指数型分布族の場合の、変分近似指数型分布族p(X,Z | [~η] ) := NY n=1 g(~η) h(Xn,Zn) e′(~η · u(Xn,Zn)) (10.113) 共役事前分布p( [~η] | ν0, ~χ0) / g(~η)ν0 e′(~η · (ν0~χ0)) (10.114) =) 事後分布p( [~η] |X,Z, ν0, ~χ0) := g(~η)ν0+N e′ ~η · ν0~χ0 + XN n=1 !! u(Xn,Zn) 自然パラメータ[η] := [~η] := [θ] からの何らかの変換分解q[z] × q[η] := q[z, η] (10.115) の直前 Z の変分近似解q⋆(Z) :=: Gq⋆[η]{p(x,Z)} × c. :=: NY h(xn,Zn)Gq⋆[η]{exp(η · u(xn,Zn))} × c. (10.115) n=1 導出された分解∴ QN n=1 q⋆(Zn) := q⋆(Z) と定義可能(10.116) の直前 q⋆(Zn) :=: h(xn,Zn) × g (E[η] · u(xn,Zn)) (10.116) ηの変分近似解q⋆[η] :=: p(η|ν0, ~χ0)Gq⋆[Z]{p(x,Z|η)} × c. (10.117) :=: {g(η) e′(η · χ0)}ν0 NY n=1 g(η) e′ η · Eq(Zn) (u(xn,Zn)) (10.118) νNの定義νN := ν0 + N (10.120) ~χNの定義νN ~χN := ν0~χ0 + XN n=1 Eq⋆(Z){ u(xn,Zn) } (10.121) ηの変分近似解∴ q⋆[η] :=: f(νN, ~χN) × g(η)νN e′(~η · νN ~χN) (10.119) 変分E-step q[zn] から十分統計量の期待値E[u(xn, zn)] を算出した上で、事後分布q[η] を改良。変分M-step q[η] から自然パラメータの期待値E[η] を算出した上で、事後分布q[z] を改良。 1

39. 第10.4.1 節変分メッセージパッシング混合ガウスモデルは有向グラフでマルコフブラケットの説明グラフィカルモデリング可能(図8.26, 96 ページ) • ベイズ混合ガウス分布は、有向グラフで表すことが出来る。これに変分ベイズを考えてきた。 • 今度は、さらに一般的に、有向グラフで表されるモデルに対して変分ベイズを考える。指数型分布族に関する一般的な性質(第2.4 節) 有向グラフの同時分布 Y i p( [xi] | j2pa(i) xj) :== p(x) (10.122) 分解による近似 Y i q[xi] := q[x] :+ p[x] (10.123) 変分解が満たす等式q⋆[xj ] :=: Gq⋆(X) Y i:6=j p(Xi|Xj = xj) × c. (10.124) :=: Gq⋆(X) Y i:∈pa(j) p(Xi|Xj = xj) × c. • マルコフブランケット – q⋆[xj ] が依存するノード全体は、xj を表すノードのマルコフブランケットに対応している。 – よって、更新計算は、グラフ上で局所的なノードでの分布の更新計算になる。 – 従って、汎用ソフトウェアを構成可能(Bishop2003)。 • 全てのp(Xi|Xj = x∀j ) が指数型分布族で書けた場合 – 共役事前分布の形状パラメータの更新式が、「局所的なメッセージパッシングアルゴリズム」として表現できる(Winn and Bishop2005)。 – L の計算も簡単になる。(必要な量の多くがメッセージパッシングを通して既に求まっているため?) – このような分散メッセージパッシングは、耐規模性が良い。大きなネットワークを扱うのに、適している。 2

PRML10-draft1002

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Andere mochten auch

Andere mochten auch (20)

Ähnlich wie PRML10-draft1002

Ähnlich wie PRML10-draft1002 (20)

Mehr von Toshiyuki Shimono

Mehr von Toshiyuki Shimono (20)

PRML10-draft1002