7. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰
4.4.1モデルの比較とBIC
データの集合
パラメータモデル尤度関数 事前確率
p(✓i|Mi)p(D|✓i, Mi)
✓iMi
p(D|Mi)
D
p(D) =
Z
p(D|✓)p(✓)d✓
モデルエビデンス
=
f(✓) = p(D|✓)p(✓)
係数
Z = f(z0)
(2⇡)M/2
|A|1/2
…4.135
= Z
ln Z =
A = r2
ln p(D|✓MAP )p(✓MAP )
ex. 4.22
ln p(D) ⇡ ln p(D|✓MAP ) + ln p(✓MAP ) +
M
2
ln(2⇡)
1
2
ln |A|
| {z }
Occam
8. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰
4.4.1モデルの比較とBIC
A = r2
ln p(D|✓MAP )p(✓MAP )
と仮定すると
A = H + V 1
0
ln p(✓) = ln |V| 1/2 M
2
ln(2⇡)
1
2
(✓MAP m)T
V 1
0 (✓MAP m)
係数
p(✓) = N(✓|m, V0)
ex. 4.23
V 1
0 = r2
ln p(✓MAP )
iidなデータ点が十分に大きい時V^-1を無視できる
大胆に近似しよう
事前分布が影響しない
ln p(D) ⇡ ln p(D|✓MAP ) + ln p(✓MAP ) +
M
2
ln(2⇡)
1
2
ln |A|
| {z }
Occam
ln p(D) ⇡ ln p(D|✓MAP )
1
2
ln |V0|
1
2
(✓MAP m)T
V 1
0 (✓MAP m)
1
2
ln |H + V 1
0 |
9. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰
ln |H| の近似に焦点を当てる
H =
NX
i=1
Hi Hi = r2
ln p(Di|✓)
H はフルランク行列
ln | ˆH|
ln |H| = ln |N ˆHi| = ln(NM
| ˆH|) = M ln N + ln | ˆH|
固定された行列で近似できるとし
を得る
M = dim(✓) であり であると仮定します
すると データ数に対して独立なのでデータ数が増加すれば
無視することができます
従って
と近似できます
H =
NX
i=1
Hi = N ˆH
ln p(D) ⇡ ln p(D|ˆ✓)
1
2
M ln N
10. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰
4.5 ベイズロジスティック回帰 ∼ 4.5.1 ラプラス近似
p(w) = N(w|m0, S0)
対数尤度
likelihood Prior
ln p(w|t) =
1
2
(w m0)T
S 1
0 (w m0)
yn = (wT
n)
+
NX
n=1
{tn ln yn + (1 tn) ln(1 yn)} + const
一般的にm_0=0かな?勾配
ヘッセ行列
r2
ln p(w|t) =
NX
n=1
yn(1 yn) n
T
n S 1
0
勾配とヘッセ行列を使って
数値最適化でW_MAPを探索し
ガウス分布の平均とする
ガウス分布の分散には
ヘッセ行列に-1をかけたものを用いる
ラプラス近似
p(t|w) =
NY
n=1
Bern(yn)
r ln p(w|t) =
NX
n=1
(yn tn) n S 1
0 (w m0)
11. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰
4.5.2 予測分布
p(t|w) =
NY
n=1
Bern(yn) =
NY
n=1
ytn
n (1 yn)1 tn
p(w) = N(w|m0, S0)
q(w) = N(w|wMAP , SN )
事後分布(MAP推定)
についての予測分布
a = wT
=
Z ✓ Z
(a wT
)q(w)dw
◆
(a)da =
Z
p(a) (a)da
デルタ関数の性質
Z 1
1
f(x) (x µ)dx = f(µ)
C1
ガウス分布
p(C1| , t) =
Z
p(C1| , w)p(w|t)dw ⇡
Z
(wT
)q(w)dw
p(C1| , t) ⇡
Z ✓ Z
(a wT
) (a)q(w)dw
◆
da
12. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰
p(a) =
Z
(a wT
)q(w)dw
=
✓ Z
q(w)wdw
◆T
= E[w]T
= wT
MAP
p(a)の平均
=
Z ✓ Z
(a wT
)ada
◆
q(w)dw =
Z
q(w)(wT
)dw
µa = E[a] =
Z
p(a)ada =
Z Z
(a wT
)q(w)adwda
q(w) = N(w|wMAP , SN )
4.5.2 予測分布
13. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰
分散
2
= var[a] =
Z
p(a){a2
E[a]2
}da
=
Z ✓
(a wT
)a2
da
◆
q(w)dw
Z ✓
(a wT
)E[a]2
da
◆
q(w)dw
=
Z
q(w)(wT
)2
dw
Z
q(w)(wT
MAP )2
dw
=
Z
q(w) T
wwT
dw
Z
q(w) T
wMAP wT
MAP dw
= T
✓ Z
q(w)(wwT
wMAP wT
MAP )dw
◆
Z
q(w)(wwT
wMAP wT
MAP )dw = E[wwT
] wMAP wT
MAP
Z
q(w)dw
= wMAP wT
MAP + SN wMAP wT
MAP = SN
2
= T
SN
p(a) =
Z
(a wT
)q(w)dw
…2.62E[xxT
] = µµT
+ ⌃
q(w) = N(w|wMAP , SN )
4.5.2 予測分布
14. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰
p(C1|t) =
Z
(a)p(a)da =
Z
(a)N(a|µa, 2
a)da
予測分布の変分近似は
a上での積分は、ロジスティックシグモイド関数でのガウス分布の畳み込み積分を
表しており、解析的に評価することはできない。
最も良い近似を得るために によって
を近似できるようにする
そのために、原点で2つの関数が同じ傾きを持つことを要請することにより
の適切な値を見つけることができ となる
( a)
(a)
2
= ⇡/8
シグモイド関数をプロビット関数の逆関数で近似しよう
15. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰
Z
( a)N(a|µ, 2
)da =
✓
µ
( 2 + 2)1/2
◆
ガウス分布とプロビト関数の逆関数の畳み込み積分は以下のように表せられる
従ってシグモイド関数に対する近似は
Z
(a)N(a|µ, 2
)da ⇡ (( 2
)µ)
( 2
) = (1 + ⇡ 2
/8) 1/2
p(C1| , t) = (( 2
a)µa)
で与えられ
予測分布は
µa = wT
MAP
2
a = T
SN
S 1
N = S 1
0 +
NX
n=1
yn(1 yn) n
T
n
4.5.2 予測分布
16. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰
変数変換使って導出 ex.4.24
ex. 4.25
(a) =
Z a
1
N(✓|0, 1)d✓
(a) =
1
1 + exp( a)
二つの微分がa=0で等しいように を選ぶ
@ (a)
@a a=0
= (0)(1 (0) =
1
2
✓
1
1
2
◆
=
1
4
( a) =
Z a
1
1
Z
exp(
1
2
x2
)dx
0
( a) =
1
Z
exp
⇢
1
2
( a)2
Z =
Z 1
1
exp
⇢
1
2
( a)2
da
=
=
p
⇡/8
@ ( a)
@ a a=0
= p
2x
N(w|wMAP , SN ) N(a|wT
MAP , T
SN )
a = T
w d
dx
Z x
a
f(t)dt = f(x)
多分2.115
Appendix