Weitere ähnliche Inhalte Ähnlich wie Prml3.5 エビデンス近似〜 (20) Prml3.5 エビデンス近似〜2. 3.5 エビデンス近似
3.5 エビデンス近似
• 線形基底関数を完全にベイズ的に捉えたい。
• 超パラメータに対して事前分布を導入する
• 解析的にパラメータすべてを周辺化することは難しい
• パラメータ w
だけに関して積分して得られた周辺尤度を最大化するような
• パラメータ ↵ , " を決める二段階の近似法
• αとβは事後分布がMAPの周りで尖ってるとしαとβのMAPで近似
• MAPは最尤推定で近似するwについてベイズ推定
a,bについてMAP推定
3. エビデンス近似
3.5 エビデンス近似
p(t|w,) = N(t|y(x,w),1)
p(w|t,↵,) = N(w|mN, SN)
mN = SNT t
S1
N = ↵I + T
p(t|t) =
ZZZ
p(t|w,!)p(w|t,↵,!)p(↵, !|t)dwd↵d!
・予測分布
・パラメータ ↵ , を固定する
p(t|t) ' p(t|t, ˆ↵, ˆ ) =
' ↵↵
Z
p(t|w, ˆ )p(w|t, ˆ↵, ˆ )dw.
・ベイズ定理より超パラメータの事後分布
p(↵, |t) / p(t|↵, )p(↵, )
(3.8)
(3.49)
(3.53)
(3.54)
・モデルの事後分布
p(Mi|D) / p(D|Mi)p(Mi) (3.66)
4. エビデンス近似
3.5.1 エビデンス関数の評価
p(↵, |t) / p(t|↵, )p(↵, )
・周辺尤度を最大にするパラメータを求める
p(t|↵, ) =
Z
p(t|w,)p(w|↵)dw
・
p(t|w,!) =
NY
n=1
N(tn|wT (xn),!)
p(w|↵) = N(w|0,↵1I)
p(w|↵) =
⇣ ↵
2⇡
⌘M/2
ED(w) =
exp
n
1
2
1
2
XN
n=1
{tn wT (xn)}2
wT (↵1I)1w
o
p(t|↵, ) =
✓
2⇡
◆N/2✓
↵
2⇡
◆M/2 Z
exp
$
E(w)
dw
E(w) = !ED(w) + ↵EW(w)
=
!
2 kt − wk2 +
↵
2
wTw
EW(w) =
1
2
wTw
・ex3.17
・
・モデルエビデンス
(3.10)
(3.52)
•周辺尤度関数
p(a,b)を平坦と仮定する。
p(t|w,!) =
⇣ !
2⇡
⌘N/2
exp{!ED(w)}
5. エビデンス近似
3.5.1 エビデンス関数の評価
ex.3.18
A = ↵I + T
mN = A1T t
AとAの逆行列を第二項に掛ける
同じ値を足して引く
平方完成
E(w) =
!
2 kt − wk2 +
↵
2
wTw (3.79)
1
2
XN
n=1
{tn wT !(xn)}2 +
2
wTw (3.27)
6. エビデンス近似
3.5.1 エビデンス関数の評価
ex.3.18つづき
1
2
(tT t mT
NAmN)
前頁の第一項
=
1
2
(tT t 2mT
NAmN +mT
NAmN)
A = ↵I + T
mN = A1T t
=
1
2
NAA1T t! +mT
N(↵I + !T)mN)
(!tT t 2mT
=
1
2
(!tT t 2mT
NT t! + !mT
NTmN + ↵mT
NmN)
=
1
2
!(t mN)T (t mN) + ↵mT
NmN
=
!
2 kt − mNk2 +
↵
2
mT
NmN
E(w) = E(mN) +
1
2
(w mN)TA(w mN)
足して引く
と 展開
mN A
平方完成
= E(mN)
7. エビデンス近似
3.5.1 エビデンス関数の評価
ex.3.19
= exp{E(mN)}
Z
exp
n
1
2
(w mN)TA(w mN)
o
= exp{E(mN)}(2⇡)M/2|A|1/2
dw
Z
exp{E(w)}dw
ln p(t|↵, ) =
M
2
ln ↵ +
N
2
ln E(mN)
1
2
ln |A|
N
2
ln(2⇡)
p(t|↵, ) =
✓
2⇡
◆N/2✓
↵
2⇡
◆M/2 Z
exp
$
E(w)
dw
・対数エビデンス関数
(3.86)
8. エビデンス近似
3.5.1 エビデンス関数の評価
・2.115を用いて、エビデンス関数を導出する。
p(t|↵, ) =
ex.3.16
Z
p(t|w,)p(w|↵)dw
p(t|w,!) =
NY
n=1
N(tn|wT (xn),!)
p(w|↵) = N(w|0,↵1I)
2,115より…周辺分布
= N(t|0,!1I + ↵1T ) 1
=
1
(2⇡)N/2
1
|1I + ↵1T |1/2 exp
n
1
2
tT (1I + ↵1T )1t
o
・3.10と3.52をパラメータwに関して周辺化する
9. エビデンス近似
3.5.1 エビデンス関数の評価
ex.3.16つづき
(A + BD1C)1 = A1 A1B(D + CA1B)1CA1
expの中身の展開
より
=
1
2
tT
n
!I + !I(↵I + !T)1T !I
A = ↵I + T
mN = A1T t
o
t
置き換えて展開
=
2
tT t
2
2
tTA1T t
=
2
(tT t 2tTA1T t + tTA1T t)
=
2
(tT t 2tTA1T t) +
1
2
2tTA1T t
=
2
(tT t 2tTA1T t) +
1
2
2(A1T t)TAA1T t
=
2
(tT t 2mNt) +
1
2
mT
NAmT
N
=
!
2
(tT t 2mNt) +
1
2
mT
N↵ImN +
!
2
mT
NTmN
=
!
2
(tT t 2mNt +mT
NTmN) +
1
2
mT
N↵ImN
= (t mN)T (t mN) +
↵
2
mT
NmN
/2をくくる、3項目をたす
AA1を3項目にかける
A を展開する
因数分解?
= E(mN)
三項目くくりだす
変数を置き換える
Woodburyの公式
(C.7)
10. エビデンス近似
3.5.1 エビデンス関数の評価ex.3.16つづき
1
(2⇡)N/2
1
|1I + ↵1T |1/2 exp
n
1
2
tT (1I + ↵1T )1t
o
より
|!1I + ↵1T | = |!1IN||IN + ↵1!T |
= |!1IN||IM + ↵1!T|
= |↵1IM|1IN||↵IM + T|
= |↵1IM|1IN||A|
ln p(t|↵, ) =
M
2
ln ↵ +
N
2
ln E(mN)
1
2
ln |A|
N
2
ln(2⇡)
p(t|↵, ) =
↵M/2N/2
2⇡N/2|A|1/2 exp(E(mN))
(C.14)
・対数エビデンス関数
|IN + ABT | = |IM + ATB|
A = ↵I + T
周辺尤度の対数
(3.86)
11. エビデンス近似
3.5.1 エビデンス関数の評価
・多項式次数とモデルエビデンスの関係
・↵ = 5⇤ 103
多項式次元
・データを説明できる最も簡単なモデルがM=3.
p(D|Mi)
ln p(t|↵, ) =
M
2
ln ↵ +
N
2
ln E(mN)
1
2
ln |A|
N
2
ln(2⇡)
・対数エビデンス関数周辺尤度の対数
ln p(t|↵, )
12. エビデンス近似
3.5.2 エビデンス関数の最大化
3.5.2 流れ
↵
停留点求める、しかし ↵
に関して陰関数。
停留点求める、しかし
に関して陰関数。
・
・
ln p(t|↵, ) =
M
2
ln ↵ +
N
2
ln E(mN)
1
2
ln |A|
N
2
ln(2⇡)
・対数エビデンス関数
• パラメータ をを定義する
• パラメータ を最大化する
• パラメータ を最大化する
• パラメータの推定値は繰り返しで求められる。
13. エビデンス近似
3.5.2 エビデンス関数の最大化
ln p(t|↵, ) =
M
2
ln ↵ +
N
2
ln E(mN)
1
2
ln |A|
N
2
ln(2⇡)
0 =
M
2↵
1
2
mT
NmN
1
2
X
i
1
i + ↵
d
d↵
M
2
ln ↵ +
↵
2
mT
NmN
1
2
ln |A| = 0
↵mT
NmN = M ↵
X
i
1
i + ↵
↵ mN
↵ ↵
! =
X
i
i
↵ + i
↵ =
mT
NmN
の定義↵の最大化
・↵に関する停留点⇣
!T
(3.81)
⌘
ui = iui
Aの固有値↵ + i
M =
MX
i
!i + ↵
!i + ↵
ex.3.20
とAより
が に依存するだけでなく事後分布のモード 自身も
に依存するため に関する陰関数となる
・
・エビデンス関数
A = ↵I + T
mN = A1T t
=
(3.53)
d
d↵
ln |A| =
d
d↵
ln
Y
i
(i + ↵) =
d
d↵
X
ln(i + ↵) =
X
i
1
i + ↵
14. エビデンス近似
3.5.2 エビデンス関数の最大化
の最大化
ex.3.22
d
d!
ln |A| =
d
d!
X
i
ln(i + ↵) =
1
!
X
i
A = ↵I + T
mN = A1T t
i
i + ↵
=
$
!
ln p(t|↵, ) =
M
2
ln ↵ +
N
2
ln E(mN)
1
2
ln |A|
N
2
ln(2⇡)
0 =
N
2!
1
2
XN
n=1
N(xn)}2
{tn mT
#
2!
1
!
=
1
N
XN
n=1
N#(xn)}2
{tn mT
に関する停留点
陰関数
・
・
d
d
N
2
ln E(mN)
1
2
ln |A| = 0
=
!
2 kt − mNk2 +
↵
2
mT
E(mN) NmN
・対数エビデンス関数
d!i
d
=
!i
iが に比例することに注意する
⇣
!T
⌘
ui = iui
15. エビデンス近似
3.5.3 有効パラメータ数
事前分布と尤度関数の等高線を描く
固有値は尤度関数の歪み具合を表す
は正定値行列固有値はすべて正
! =
X
i
i
↵ + i
↵ =
mT
NmN
曲率が小さいと等高線がのびる
曲率と曲率半径との関係
T
0
!i
!i + ↵ 1
0 M
(3.91)
⇣
!T
⌘
ui = iui (3.87)
16. エビデンス近似
3.5.3 有効パラメータ数
well-determinedパラメータ
固有値が大きい方向
Hessianの固有ベクトルuiに軸をあわせるために。
(T)尤度の精度(?)と同じ?
•尤度関数
固有値が小さい方向
(T)
(T)
!i ↵
データに強く依存
最尤推定に近づく
!i
!i + ↵ は1に近い
!i ⌧ ↵
パラメータの値の変化に対する
尤度関数の感度が悪い
事前分布に近づく
!i
!i + ↵ は0に近い
事前分布
は有効なパラメータ数を示す。
パラメータ空間の軸を回転させた。
17. エビデンス近似
3.5.3 有効パラメータ数
以下では μML
を使っているため
ある統計量を構成する変数のうち独立な物の数を、その統計量の自由度という
2
ML =
分散の各偏差は独立でない
1
N
XN
n=1
データに含まれるノイズまでフィット
(xn μML)2
偏差総和が0
不偏分散は、母分散の不偏推定量(バイアスがない推定値)
2
MAP =
1
N 1
XN
n=1
(xn μML)2
1
!
=
1
N
XN
n=1
(xn μML)2
バイアス補正
バイアスを取り除くため、不偏推定量では自由度が落ちる。
バイアスが入る
母集団の統計量と標本の統計量が同じになる量。
独立でない
独立
N 分だけ補正される
基底関数の数が増える 次元が増える
18. エビデンス近似
3.5.3 有効パラメータ数
三角関数の人口データ集合に対する
パラメータb
真の値である11.1に設定する
ln p(t|↵, )
交点と誤差最小点は近い
9個のガウス基底関数
2↵EW(mN)
テスト集合に対する誤差
ln ↵ ln ↵
対数エビデンスの最大値は左プロットの交点に対応している
19. エビデンス近似
3.5.3 有効パラメータ数
ガウス基底関数の10個のパラメータをプロット
パラメータは有効パラメータ数に対して独立
↵ =
の大きさの変化
は大きさを制御する
陰的な和を含み固有値が増える
極限的に
すべてのパラメータが
well_determined
wi
↵
mT
NmN
! =
X
i
i
↵ + i
0 ↵ ∞に変化させると
γは0からMに変化する。
20. エビデンス近似
3.6 固定された基底関数の限界
線形性により閉じたかいが求まる
ベイズ推定が簡単
基底関数を用いることで
任意の非線形変換ができた
欠点
データの観測前に基底関数を
固定する仮定
次元の呪い
現実的データの性質
データは限られた非線形多様体上に分布している
すべての次元ではなく、一部の次元に強く反応する
利点
21. エビデンス近似
e.x 3.8 ベイズ更新?
p(w) = N(w|mN, SN)
p(tN+1|xN+1,w) =
✓
!
2⇡
◆1/2
exp
✓
!
2
(tN+1 wT #N+1)2
◆
p(w|tN+1, xN+1,mN, SN)
/ exp
✓
−
1
2
(w −mN)TS1
N (w −mN) −
1
2
!(tN+1 − wT N+1)2
◆
(w mN)TS1
N (w mN) + !(tN+1 wT N+1)2
= wTS1
N w 2wS1
N mN +!wT T
N+1N+1w 2!wT N+1tN+1 + const
= wT (S1
N+1)w 2wT (S1
N + !N+1T
N mN + !N+1tN+1) + const
S1
N+1 = S1
N + !T
N+1N+1
mN+1 = SN+1(S1
N mN + !T
N+1tN+1)
25. エビデンス近似
ベイズ更新
変数変換
N(w|mN, SN)
変数変換
正規分布の積
N(x|Ay + b,⌃) = · N(y|A0x + b0,⌃0)
⌃0 = (AT⌃−1A)−1
A0 = (AT⌃−1A)−1AT⌃−1
b0 = (AT⌃−1A)−1AT⌃−1b
正規分布の積
N(x|a,A)N(x|b,B)
· N(x|(A1 + B1)1(A1a + B1b), (A1 + B1)1)
= N(a|b,A + B) = N(b|a,A + B)
!0−1 = (!T
N+1N+1)−1
!0−1 = (!T
N+1!N+1)−1!T
N+1
S1
N+1 = S1
N + !T
N+1N+1
mN+1 = SN+1(S1
N mN + !T
N+1tN+1)
N(tN+1|w!N+1,1)
N(w|tN+1!N+1,1)
定数項は消える
N(w|mN+1, SN+1)
26. エビデンス近似
変数変換
N(x|Ay + b,⌃) = N(y|A0x + b0,⌃0)
N(x|Ay + b,⌃) = 1 exp
h
1
2
⇣
(x b Ay)T⌃1(x b Ay)
⌘i
2 exp
h
1
2
⇣
yTAT⌃1Ay 2yTAT⌃1(x b)
⌘i
2(x b)T⌃1AT (AT⌃1A)1A⌃1(x b))
⌘i
3 exp
h
1
2
⇣
yTAT⌃1Ay 2yTAT⌃1(x b)
3 exp
h
1
2
⇣
(y (AT⌃1A)1A⌃1(x b)T
⌘
(AT⌃A)
⇣
y(AT⌃1A)1A⌃1(x b)
#⌘i
4N(y|(AT⌃1A)1A⌃1(x b), (AT⌃1A)1)
27. エビデンス近似
正規分布の積
N(x|a,A)N(x|b,B) / N(x|(A1 + B1)1(A1a + B1b), (A1 + B1)1)
/ exp
h
−
1
2
(x − a)TA1(x − a) −
1
2
(x − b)TB1(x − b)
i
/ exp
h
−
1
2
(xT (A1 + B1)x + 2(A1a + B1b)x)
i
+(A1a + B1b)T (A1 + B1)1(A1a + B1b))
i
= exp
h
1
2
(xT (A1 + B1)x + 2(A1a + B1b)x)