Prml3.5 エビデンス近似〜

PRML3.5
エビデンス近似
Yuki

3.5 エビデンス近似
• 線形基底関数を完全にベイズ的に捉えたい。
• 超パラメータに対して事前分布を導入する
• 解析的にパラメータすべてを周辺化することは難しい
• パラメータ　 w
だけに関して積分して得られた周辺尤度を最大化するような
• パラメータ　↵　, "　を決める二段階の近似法
• αとβは事後分布がMAPの周りで尖ってるとしαとβのMAPで近似
• MAPは最尤推定で近似するwについてベイズ推定
a,bについてMAP推定

p(t|w,) = N(t|y(x,w),1)
p(w|t,↵,) = N(w|mN, SN)
mN = SNT t
S1
N = ↵I + T
p(t|t) =
ZZZ
p(t|w,!)p(w|t,↵,!)p(↵, !|t)dwd↵d!
・予測分布
・パラメータ　↵　,　を固定する
p(t|t) ' p(t|t, ˆ↵, ˆ ) =
' ↵↵
Z
p(t|w, ˆ )p(w|t, ˆ↵, ˆ )dw.
・ベイズ定理より超パラメータの事後分布
p(↵, |t) / p(t|↵, )p(↵, )
(3.8)
(3.49)
(3.53)
(3.54)
・モデルの事後分布
p(Mi|D) / p(D|Mi)p(Mi) (3.66)

3.5.1 エビデンス関数の評価
p(↵, |t) / p(t|↵, )p(↵, )
・周辺尤度を最大にするパラメータを求める
p(t|↵, ) =
Z
p(t|w,)p(w|↵)dw
・
p(t|w,!) =
NY
n=1
N(tn|wT (xn),!)
p(w|↵) = N(w|0,↵1I)
p(w|↵) =
⇣ ↵
2⇡
⌘M/2
ED(w) =
exp
n

1
2
1
2
XN
n=1
{tn wT (xn)}2
wT (↵1I)1w
o
p(t|↵, ) =
✓

2⇡
◆N/2✓
↵
2⇡
◆M/2 Z
exp
$
E(w)
dw
E(w) = !ED(w) + ↵EW(w)
=
!
2 kt − wk2 +
↵
2
wTw
EW(w) =
1
2
wTw
・ex3.17
・
・モデルエビデンス
(3.10)
(3.52)
•周辺尤度関数
p(a,b)を平坦と仮定する。
p(t|w,!) =
⇣ !
2⇡
⌘N/2
exp{!ED(w)}

ex.3.18
A = ↵I + T
mN = A1T t
AとAの逆行列を第二項に掛ける
同じ値を足して引く
平方完成
E(w) =
!
2 kt − wk2 +
↵
2
wTw (3.79)
1
2
XN
n=1
{tn wT !(xn)}2 +

2
wTw (3.27)

ex.3.18つづき
1
2
(tT t mT
NAmN)
前頁の第一項
=
1
2
(tT t 2mT
NAmN +mT
NAmN)
A = ↵I + T
mN = A1T t
=
1
2
NAA1T t! +mT
N(↵I + !T)mN)
(!tT t 2mT
=
1
2
(!tT t 2mT
NT t! + !mT
NTmN + ↵mT
NmN)
=
1
2
!(t mN)T (t mN) + ↵mT
NmN
=
!
2 kt − mNk2 +
↵
2
mT
NmN
E(w) = E(mN) +
1
2
(w mN)TA(w mN)
足して引く
と展開
mN A
平方完成
= E(mN)

ex.3.19
= exp{E(mN)}
Z
exp
n

1
2
(w mN)TA(w mN)
o
= exp{E(mN)}(2⇡)M/2|A|1/2
dw
Z
exp{E(w)}dw
ln p(t|↵, ) =
M
2
ln ↵ +
N
2
ln E(mN)
1
2
ln |A|
N
2
ln(2⇡)
p(t|↵, ) =
✓

2⇡
◆N/2✓
↵
2⇡
◆M/2 Z
exp
$
E(w)
dw
・対数エビデンス関数
(3.86)

ex.3.16つづき
(A + BD1C)1 = A1 A1B(D + CA1B)1CA1
expの中身の展開
より
=
1
2
tT
n
!I + !I(↵I + !T)1T !I
A = ↵I + T
mN = A1T t
o
t
置き換えて展開
=

2
tT t
2
2
tTA1T t
=

2
(tT t 2tTA1T t + tTA1T t)
=

2
(tT t 2tTA1T t) +
1
2
2tTA1T t
=

2
(tT t 2tTA1T t) +
1
2
2(A1T t)TAA1T t
=

2
(tT t 2mNt) +
1
2
mT
NAmT
N
=
!
2
(tT t 2mNt) +
1
2
mT
N↵ImN +
!
2
mT
NTmN
=
!
2
(tT t 2mNt +mT
NTmN) +
1
2
mT
N↵ImN
= (t mN)T (t mN) +
↵
2
mT
NmN
/2をくくる、３項目をたす
AA1を３項目にかける

A を展開する
因数分解？
= E(mN)
三項目くくりだす
変数を置き換える
Woodburyの公式
(C.7)

3.5.1 エビデンス関数の評価ex.3.16つづき
1
(2⇡)N/2
1
|1I + ↵1T |1/2 exp
n

1
2
tT (1I + ↵1T )1t
o
より
|!1I + ↵1T | = |!1IN||IN + ↵1!T |
= |!1IN||IM + ↵1!T|
= |↵1IM|1IN||↵IM + T|
= |↵1IM|1IN||A|
ln p(t|↵, ) =
M
2
ln ↵ +
N
2
ln E(mN)
1
2
ln |A|
N
2
ln(2⇡)
p(t|↵, ) =
↵M/2N/2
2⇡N/2|A|1/2 exp(E(mN))
(C.14)
|IN + ABT | = |IM + ATB|
A = ↵I + T
周辺尤度の対数
(3.86)

3.5.2 エビデンス関数の最大化
3.5.2 流れ

↵

停留点求める、しかし ↵
　に関して陰関数。
停留点求める、しかし
　に関して陰関数。
・
・
ln p(t|↵, ) =
M
2
ln ↵ +
N
2
ln E(mN)
1
2
ln |A|
N
2
ln(2⇡)
• パラメータ　　をを定義する
• パラメータ　　を最大化する
• パラメータ　　を最大化する
• パラメータの推定値は繰り返しで求められる。

ln p(t|↵, ) =
M
2
ln ↵ +
N
2
ln E(mN)
1
2
ln |A|
N
2
ln(2⇡)
0 =
M
2↵
1
2
mT
NmN
1
2
X
i
1
i + ↵
d
d↵
M
2
ln ↵ +
↵
2
mT
NmN
1
2
ln |A| = 0
↵mT
NmN = M ↵
X
i
1
i + ↵
↵ mN
↵ ↵
! =
X
i
i
↵ + i
↵ =

mT
NmN
の定義↵の最大化
・↵に関する停留点⇣
!T
(3.81)
⌘
ui = iui
Aの固有値↵ + i
M =
MX
i
!i + ↵
!i + ↵
ex.3.20
とAより
が　に依存するだけでなく事後分布のモード　　自身も　　
に依存するため　に関する陰関数となる
・
・エビデンス関数
A = ↵I + T
mN = A1T t
=
(3.53)
d
d↵
ln |A| =
d
d↵
ln
Y
i
(i + ↵) =
d
d↵
X
ln(i + ↵) =
X
i
1
i + ↵

の最大化
ex.3.22
d
d!
ln |A| =
d
d!
X
i
ln(i + ↵) =
1
!
X
i
A = ↵I + T
mN = A1T t
i
i + ↵
=
$
!
ln p(t|↵, ) =
M
2
ln ↵ +
N
2
ln E(mN)
1
2
ln |A|
N
2
ln(2⇡)
0 =
N
2!
1
2
XN
n=1
N(xn)}2
{tn mT
#
2!
1
!
=
1
N
XN
n=1
N#(xn)}2
{tn mT
に関する停留点
陰関数
・
・
d
d
N
2
ln E(mN)
1
2
ln |A| = 0
=
!
2 kt − mNk2 +
↵
2
mT
E(mN) NmN
d!i
d
=
!i

iが　に比例することに注意する
⇣
!T
⌘
ui = iui

3.5.3 有効パラメータ数
事前分布と尤度関数の等高線を描く
固有値は尤度関数の歪み具合を表す
は正定値行列固有値はすべて正
! =
X
i
i
↵ + i
↵ =

mT
NmN
曲率が小さいと等高線がのびる
曲率と曲率半径との関係
T
0 
!i
!i + ↵  1
0   M
(3.91)
⇣
!T
⌘
ui = iui (3.87)

well-determinedパラメータ
固有値が大きい方向
Hessianの固有ベクトルuiに軸をあわせるために。
(T)尤度の精度(?)と同じ?
•尤度関数
固有値が小さい方向
(T)
(T)
!i ↵
データに強く依存
最尤推定に近づく
!i
!i + ↵ は１に近い
!i ⌧ ↵
パラメータの値の変化に対する
尤度関数の感度が悪い
事前分布に近づく
!i
!i + ↵ は０に近い
事前分布
は有効なパラメータ数を示す。
パラメータ空間の軸を回転させた。

以下では μML
を使っているため
ある統計量を構成する変数のうち独立な物の数を、その統計量の自由度という
2
ML =
分散の各偏差は独立でない
1
N
XN
n=1
データに含まれるノイズまでフィット
(xn μML)2
偏差総和が０
不偏分散は、母分散の不偏推定量（バイアスがない推定値）
2
MAP =
1
N 1
XN
n=1
(xn μML)2
1
!
=
1
N
XN
n=1
(xn μML)2
バイアス補正
バイアスを取り除くため、不偏推定量では自由度が落ちる。
バイアスが入る
母集団の統計量と標本の統計量が同じになる量。
独立でない
独立
N 分だけ補正される
基底関数の数が増える　次元が増える

三角関数の人口データ集合に対する
パラメータb
真の値である11.1に設定する
ln p(t|↵, )
交点と誤差最小点は近い
９個のガウス基底関数
2↵EW(mN)

テスト集合に対する誤差
ln ↵ ln ↵
対数エビデンスの最大値は左プロットの交点に対応している

ガウス基底関数の１０個のパラメータをプロット
パラメータは有効パラメータ数に対して独立
↵ =
の大きさの変化
は大きさを制御する
陰的な和を含み固有値が増える
極限的に
すべてのパラメータが
well_determined
wi
↵

mT
NmN
! =
X
i
i
↵ + i
0 ↵ ∞に変化させると
γは０からMに変化する。

3.6 固定された基底関数の限界
線形性により閉じたかいが求まる
ベイズ推定が簡単
基底関数を用いることで
　　　　　　任意の非線形変換ができた
欠点
データの観測前に基底関数を
　　　　　　　　固定する仮定
次元の呪い
現実的データの性質
データは限られた非線形多様体上に分布している
すべての次元ではなく、一部の次元に強く反応する
利点

e.x 3.8 ベイズ更新?
p(w) = N(w|mN, SN)
p(tN+1|xN+1,w) =
✓
!
2⇡
◆1/2
exp
✓

!
2
(tN+1 wT #N+1)2
◆
p(w|tN+1, xN+1,mN, SN)
/ exp
✓
−
1
2
(w −mN)TS1
N (w −mN) −
1
2
!(tN+1 − wT N+1)2
◆
(w mN)TS1
N (w mN) + !(tN+1 wT N+1)2
= wTS1
N w 2wS1
N mN +!wT T
N+1N+1w 2!wT N+1tN+1 + const
= wT (S1
N+1)w 2wT (S1
N + !N+1T
N mN + !N+1tN+1) + const
S1
N+1 = S1
N + !T
N+1N+1
mN+1 = SN+1(S1
N mN + !T
N+1tN+1)

おまけ
julia言語で実装してみた(何故かうまく行ってない気がする)
・データ
エビデンス関数の評価

エビデンス関数の最大化
エビデンス関数(M)
再推定値

やってみた
青、標準偏差
、真の値
、予測値
水色
赤

　　変数変換
N(x|Ay + b,⌃) = N(y|A0x + b0,⌃0)
N(x|Ay + b,⌃) = 1 exp
h

1
2
⇣
(x b Ay)T⌃1(x b Ay)
⌘i
2 exp
h

1
2
⇣
yTAT⌃1Ay 2yTAT⌃1(x b)
⌘i
2(x b)T⌃1AT (AT⌃1A)1A⌃1(x b))
⌘i
3 exp
h

1
2
⇣
yTAT⌃1Ay 2yTAT⌃1(x b)
3 exp
h

1
2
⇣
(y (AT⌃1A)1A⌃1(x b)T
⌘
(AT⌃A)
⇣
y(AT⌃1A)1A⌃1(x b)
#⌘i
4N(y|(AT⌃1A)1A⌃1(x b), (AT⌃1A)1)

正規分布の積
N(x|a,A)N(x|b,B) / N(x|(A1 + B1)1(A1a + B1b), (A1 + B1)1)
/ exp
h
−
1
2
(x − a)TA1(x − a) −
1
2
(x − b)TB1(x − b)
i
/ exp
h
−
1
2
(xT (A1 + B1)x + 2(A1a + B1b)x)
i
+(A1a + B1b)T (A1 + B1)1(A1a + B1b))
i
=  exp
h

1
2
(xT (A1 + B1)x + 2(A1a + B1b)x)

Prml3.5 エビデンス近似〜

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie Prml3.5 エビデンス近似〜

Ähnlich wie Prml3.5 エビデンス近似〜 (20)

Prml3.5 エビデンス近似〜