SlideShare ist ein Scribd-Unternehmen logo
1 von 16
Downloaden Sie, um offline zu lesen
PRML4.4-4.5
ラプラス近似∼ベイズロジスティック回帰
Yuki
4.4 ラプラス近似 4.5 ベイズロジスティック回帰
  4.4ラプラス近似
事後確率分布がもはやガウス分布ではないので
パラメータw上で正確に積分することができない
ベイズロジスティック回帰
ラプラス近似: :
近似する必要がある!
確率密度関数をガウス分布で近似する
まず,1変数zの場合を考え分布p(z)を仮定する
p(z) =
1
Z
f(z) Z =
Z
f(z)dz
Zの値は未知であると仮定する
ラプラス近似とは、分布p(z)のモードを中心とする
            ガウス分布による近似を見つけることである
4.4 ラプラス近似 4.5 ベイズロジスティック回帰
  4.4ラプラス近似
p(z)のモードを見つける
p0
(z0) = 0
dp(z)
dz z=z0
= 0
言い換えると または等価な
を満たす z0 見つけることである
ガウス分布は、対数が変数の二次の関数であるという特性を持っている
そこで、z0 を中心としたln f(z) のテーラー展開を考える
A =
d2
dz2
ln f(z)
z=z0
が分布の局所最大値であるので、テイラー展開の一次の項は現れないz0
このテイラー展開の指数を取ると
ln f(z) ⇡ ln f(z0)
1
2
A(z z0)2
f(z) ⇡ f(z0) exp
⇢
A
2
(z z0)2
4.4 ラプラス近似 4.5 ベイズロジスティック回帰
  4.4ラプラス近似
ガウス分布の正規化のための標準的な結果を利用すると、正規化分布 q(z)
q(z) =
✓
A
2⇡
◆1/2
exp
⇢
A
2
(z z0)2
A > 0
を得る。
ガウス分布による近似が適切に定義されるのは の場合のみである
言い換えると、定常点 が局所最大である場合で、
その点での二階微分が負となる場合である。
z0
4.4 ラプラス近似 4.5 ベイズロジスティック回帰
  4.4ラプラス近似
ラプラス法を拡張しM次元空間 上で定義される分布z
p(z) = f(z)/Z を近似する
同様に で対数を取りテイラー展開z0
A = rr ln f(z)|z=z0
q(z) =
|A|1/2
(2⇡)M/2
exp
⇢
1
2
(z z0)T
A(z z0) = N(z|z0, A 1
)
M Mヘッセ行列
は勾配オペレータ
両辺の指数を取る
比例している
正規化
で表される精度行列が正定値行列
定常点 が局所最大である場合にガウス分布が適切に定義される
A
z0
ln f(z) ⇡ ln f(z0)
1
2
(z z0)T
A(z z0)
f(z) ⇡ f(z0) exp
⇢
1
2
(z z0)T
A(z z0)
4.4 ラプラス近似 4.5 ベイズロジスティック回帰
  4.4ラプラス近似
ラプラス近似を適用する
モードz0を見つける
そのモードでヘッセ行列を評価する
モードは数値最適で求められる(Bishop and Nabney, 2008)
・現実の分布は多峰的
・中心極限定理より
 観測データが増えるほど
 ガウス分布による近似
 が良くなると期待される
・相対的にデータが多いと
 良い近似となる
・実数変数のみにしか適用できない
・ある一点における
 局面にのみ基づいてしまう
・全体的特性を捉えられない
・多峰な分布の場合どのモードを選択するか
 考慮する必要がある
欠点 利点
4.4 ラプラス近似 4.5 ベイズロジスティック回帰
  4.4.1モデルの比較とBIC
データの集合
パラメータモデル尤度関数 事前確率
p(✓i|Mi)p(D|✓i, Mi)
✓iMi
p(D|Mi)
D
p(D) =
Z
p(D|✓)p(✓)d✓
モデルエビデンス
=
f(✓) = p(D|✓)p(✓)
係数
Z = f(z0)
(2⇡)M/2
|A|1/2
…4.135
= Z
ln Z =
A = r2
ln p(D|✓MAP )p(✓MAP )
ex. 4.22
ln p(D) ⇡ ln p(D|✓MAP ) + ln p(✓MAP ) +
M
2
ln(2⇡)
1
2
ln |A|
| {z }
Occam
4.4 ラプラス近似 4.5 ベイズロジスティック回帰
  4.4.1モデルの比較とBIC
A = r2
ln p(D|✓MAP )p(✓MAP )
と仮定すると
A = H + V 1
0
ln p(✓) = ln |V| 1/2 M
2
ln(2⇡)
1
2
(✓MAP m)T
V 1
0 (✓MAP m)
係数
p(✓) = N(✓|m, V0)
ex. 4.23
V 1
0 = r2
ln p(✓MAP )
iidなデータ点が十分に大きい時V^-1を無視できる
大胆に近似しよう
事前分布が影響しない
ln p(D) ⇡ ln p(D|✓MAP ) + ln p(✓MAP ) +
M
2
ln(2⇡)
1
2
ln |A|
| {z }
Occam
ln p(D) ⇡ ln p(D|✓MAP )
1
2
ln |V0|
1
2
(✓MAP m)T
V 1
0 (✓MAP m)
1
2
ln |H + V 1
0 |
4.4 ラプラス近似 4.5 ベイズロジスティック回帰
ln |H| の近似に焦点を当てる
H =
NX
i=1
Hi Hi = r2
ln p(Di|✓)
H はフルランク行列
ln | ˆH|
ln |H| = ln |N ˆHi| = ln(NM
| ˆH|) = M ln N + ln | ˆH|
固定された行列で近似できるとし
を得る
M = dim(✓) であり であると仮定します
すると データ数に対して独立なのでデータ数が増加すれば
無視することができます
従って
と近似できます
H =
NX
i=1
Hi = N ˆH
ln p(D) ⇡ ln p(D|ˆ✓)
1
2
M ln N
4.4 ラプラス近似 4.5 ベイズロジスティック回帰
  4.5 ベイズロジスティック回帰 ∼ 4.5.1 ラプラス近似
p(w) = N(w|m0, S0)
対数尤度
likelihood Prior
ln p(w|t) =
1
2
(w m0)T
S 1
0 (w m0)
yn = (wT
n)
+
NX
n=1
{tn ln yn + (1 tn) ln(1 yn)} + const
一般的にm_0=0かな?勾配
ヘッセ行列
r2
ln p(w|t) =
NX
n=1
yn(1 yn) n
T
n S 1
0
勾配とヘッセ行列を使って
数値最適化でW_MAPを探索し
ガウス分布の平均とする
ガウス分布の分散には
ヘッセ行列に-1をかけたものを用いる
ラプラス近似
p(t|w) =
NY
n=1
Bern(yn)
r ln p(w|t) =
NX
n=1
(yn tn) n S 1
0 (w m0)
4.4 ラプラス近似 4.5 ベイズロジスティック回帰
  4.5.2 予測分布
p(t|w) =
NY
n=1
Bern(yn) =
NY
n=1
ytn
n (1 yn)1 tn
p(w) = N(w|m0, S0)
q(w) = N(w|wMAP , SN )
事後分布(MAP推定)
についての予測分布
a = wT
=
Z ✓ Z
(a wT
)q(w)dw
◆
(a)da =
Z
p(a) (a)da
デルタ関数の性質
Z 1
1
f(x) (x µ)dx = f(µ)
C1
ガウス分布
p(C1| , t) =
Z
p(C1| , w)p(w|t)dw ⇡
Z
(wT
)q(w)dw
p(C1| , t) ⇡
Z ✓ Z
(a wT
) (a)q(w)dw
◆
da
4.4 ラプラス近似 4.5 ベイズロジスティック回帰
p(a) =
Z
(a wT
)q(w)dw
=
✓ Z
q(w)wdw
◆T
= E[w]T
= wT
MAP
p(a)の平均
=
Z ✓ Z
(a wT
)ada
◆
q(w)dw =
Z
q(w)(wT
)dw
µa = E[a] =
Z
p(a)ada =
Z Z
(a wT
)q(w)adwda
q(w) = N(w|wMAP , SN )
  4.5.2 予測分布
4.4 ラプラス近似 4.5 ベイズロジスティック回帰
分散
2
= var[a] =
Z
p(a){a2
E[a]2
}da
=
Z ✓
(a wT
)a2
da
◆
q(w)dw
Z ✓
(a wT
)E[a]2
da
◆
q(w)dw
=
Z
q(w)(wT
)2
dw
Z
q(w)(wT
MAP )2
dw
=
Z
q(w) T
wwT
dw
Z
q(w) T
wMAP wT
MAP dw
= T
✓ Z
q(w)(wwT
wMAP wT
MAP )dw
◆
Z
q(w)(wwT
wMAP wT
MAP )dw = E[wwT
] wMAP wT
MAP
Z
q(w)dw
= wMAP wT
MAP + SN wMAP wT
MAP = SN
2
= T
SN
p(a) =
Z
(a wT
)q(w)dw
…2.62E[xxT
] = µµT
+ ⌃
q(w) = N(w|wMAP , SN )
  4.5.2 予測分布
4.4 ラプラス近似 4.5 ベイズロジスティック回帰
p(C1|t) =
Z
(a)p(a)da =
Z
(a)N(a|µa, 2
a)da
予測分布の変分近似は
a上での積分は、ロジスティックシグモイド関数でのガウス分布の畳み込み積分を
表しており、解析的に評価することはできない。
最も良い近似を得るために によって
を近似できるようにする
そのために、原点で2つの関数が同じ傾きを持つことを要請することにより
の適切な値を見つけることができ となる
( a)
(a)
2
= ⇡/8
シグモイド関数をプロビット関数の逆関数で近似しよう
4.4 ラプラス近似 4.5 ベイズロジスティック回帰
Z
( a)N(a|µ, 2
)da =
✓
µ
( 2 + 2)1/2
◆
ガウス分布とプロビト関数の逆関数の畳み込み積分は以下のように表せられる
従ってシグモイド関数に対する近似は
Z
(a)N(a|µ, 2
)da ⇡ (( 2
)µ)
( 2
) = (1 + ⇡ 2
/8) 1/2
p(C1| , t) = (( 2
a)µa)
で与えられ
予測分布は
µa = wT
MAP
2
a = T
SN
S 1
N = S 1
0 +
NX
n=1
yn(1 yn) n
T
n
  4.5.2 予測分布
4.4 ラプラス近似 4.5 ベイズロジスティック回帰
変数変換使って導出 ex.4.24
ex. 4.25
(a) =
Z a
1
N(✓|0, 1)d✓
(a) =
1
1 + exp( a)
二つの微分がa=0で等しいように を選ぶ
@ (a)
@a a=0
= (0)(1 (0) =
1
2
✓
1
1
2
◆
=
1
4
( a) =
Z a
1
1
Z
exp(
1
2
x2
)dx
0
( a) =
1
Z
exp
⇢
1
2
( a)2
Z =
Z 1
1
exp
⇢
1
2
( a)2
da
=
=
p
⇡/8
@ ( a)
@ a a=0
= p
2x
N(w|wMAP , SN ) N(a|wT
MAP , T
SN )
a = T
w d
dx
Z x
a
f(t)dt = f(x)
多分2.115
Appendix

Weitere ähnliche Inhalte

Was ist angesagt?

PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2Hiroyuki Kato
 
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.42013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4Takeshi Sakaki
 
PRML 4.4-4.5.2 ラプラス近似
PRML 4.4-4.5.2 ラプラス近似PRML 4.4-4.5.2 ラプラス近似
PRML 4.4-4.5.2 ラプラス近似KokiTakamiya
 
PRML 2.3節 - ガウス分布
PRML 2.3節 - ガウス分布PRML 2.3節 - ガウス分布
PRML 2.3節 - ガウス分布Yuki Soma
 
PRML 6.1章 カーネル法と双対表現
PRML 6.1章 カーネル法と双対表現PRML 6.1章 カーネル法と双対表現
PRML 6.1章 カーネル法と双対表現hagino 3000
 
PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2matsuolab
 
PRML輪読#7
PRML輪読#7PRML輪読#7
PRML輪読#7matsuolab
 
MLaPP 9章 「一般化線形モデルと指数型分布族」
MLaPP 9章 「一般化線形モデルと指数型分布族」MLaPP 9章 「一般化線形モデルと指数型分布族」
MLaPP 9章 「一般化線形モデルと指数型分布族」moterech
 
PRML輪読#9
PRML輪読#9PRML輪読#9
PRML輪読#9matsuolab
 
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半Ohsawa Goodfellow
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)Yasunori Ozaki
 
PRML輪読#6
PRML輪読#6PRML輪読#6
PRML輪読#6matsuolab
 
PRML輪読#12
PRML輪読#12PRML輪読#12
PRML輪読#12matsuolab
 
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布Nagayoshi Yamashita
 
PRML輪読#13
PRML輪読#13PRML輪読#13
PRML輪読#13matsuolab
 

Was ist angesagt? (20)

強化学習2章
強化学習2章強化学習2章
強化学習2章
 
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
 
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.42013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
 
PRML 4.4-4.5.2 ラプラス近似
PRML 4.4-4.5.2 ラプラス近似PRML 4.4-4.5.2 ラプラス近似
PRML 4.4-4.5.2 ラプラス近似
 
PRML 2.3節 - ガウス分布
PRML 2.3節 - ガウス分布PRML 2.3節 - ガウス分布
PRML 2.3節 - ガウス分布
 
PRML 6.1章 カーネル法と双対表現
PRML 6.1章 カーネル法と双対表現PRML 6.1章 カーネル法と双対表現
PRML 6.1章 カーネル法と双対表現
 
PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2
 
PRML輪読#7
PRML輪読#7PRML輪読#7
PRML輪読#7
 
PRML第3章@京大PRML輪講
PRML第3章@京大PRML輪講PRML第3章@京大PRML輪講
PRML第3章@京大PRML輪講
 
MLaPP 9章 「一般化線形モデルと指数型分布族」
MLaPP 9章 「一般化線形モデルと指数型分布族」MLaPP 9章 「一般化線形モデルと指数型分布族」
MLaPP 9章 「一般化線形モデルと指数型分布族」
 
PRML輪読#9
PRML輪読#9PRML輪読#9
PRML輪読#9
 
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
 
階層ベイズとWAIC
階層ベイズとWAIC階層ベイズとWAIC
階層ベイズとWAIC
 
PRML_titech 2.3.1 - 2.3.7
PRML_titech 2.3.1 - 2.3.7PRML_titech 2.3.1 - 2.3.7
PRML_titech 2.3.1 - 2.3.7
 
PRML輪読#6
PRML輪読#6PRML輪読#6
PRML輪読#6
 
PRML輪読#12
PRML輪読#12PRML輪読#12
PRML輪読#12
 
PRML 2.4
PRML 2.4PRML 2.4
PRML 2.4
 
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
 
PRML輪読#13
PRML輪読#13PRML輪読#13
PRML輪読#13
 

Kürzlich hochgeladen

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 

Kürzlich hochgeladen (8)

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 

Prml4.4 ラプラス近似~ベイズロジスティック回帰

  • 2. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰   4.4ラプラス近似 事後確率分布がもはやガウス分布ではないので パラメータw上で正確に積分することができない ベイズロジスティック回帰 ラプラス近似: : 近似する必要がある! 確率密度関数をガウス分布で近似する まず,1変数zの場合を考え分布p(z)を仮定する p(z) = 1 Z f(z) Z = Z f(z)dz Zの値は未知であると仮定する ラプラス近似とは、分布p(z)のモードを中心とする             ガウス分布による近似を見つけることである
  • 3. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰   4.4ラプラス近似 p(z)のモードを見つける p0 (z0) = 0 dp(z) dz z=z0 = 0 言い換えると または等価な を満たす z0 見つけることである ガウス分布は、対数が変数の二次の関数であるという特性を持っている そこで、z0 を中心としたln f(z) のテーラー展開を考える A = d2 dz2 ln f(z) z=z0 が分布の局所最大値であるので、テイラー展開の一次の項は現れないz0 このテイラー展開の指数を取ると ln f(z) ⇡ ln f(z0) 1 2 A(z z0)2 f(z) ⇡ f(z0) exp ⇢ A 2 (z z0)2
  • 4. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰   4.4ラプラス近似 ガウス分布の正規化のための標準的な結果を利用すると、正規化分布 q(z) q(z) = ✓ A 2⇡ ◆1/2 exp ⇢ A 2 (z z0)2 A > 0 を得る。 ガウス分布による近似が適切に定義されるのは の場合のみである 言い換えると、定常点 が局所最大である場合で、 その点での二階微分が負となる場合である。 z0
  • 5. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰   4.4ラプラス近似 ラプラス法を拡張しM次元空間 上で定義される分布z p(z) = f(z)/Z を近似する 同様に で対数を取りテイラー展開z0 A = rr ln f(z)|z=z0 q(z) = |A|1/2 (2⇡)M/2 exp ⇢ 1 2 (z z0)T A(z z0) = N(z|z0, A 1 ) M Mヘッセ行列 は勾配オペレータ 両辺の指数を取る 比例している 正規化 で表される精度行列が正定値行列 定常点 が局所最大である場合にガウス分布が適切に定義される A z0 ln f(z) ⇡ ln f(z0) 1 2 (z z0)T A(z z0) f(z) ⇡ f(z0) exp ⇢ 1 2 (z z0)T A(z z0)
  • 6. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰   4.4ラプラス近似 ラプラス近似を適用する モードz0を見つける そのモードでヘッセ行列を評価する モードは数値最適で求められる(Bishop and Nabney, 2008) ・現実の分布は多峰的 ・中心極限定理より  観測データが増えるほど  ガウス分布による近似  が良くなると期待される ・相対的にデータが多いと  良い近似となる ・実数変数のみにしか適用できない ・ある一点における  局面にのみ基づいてしまう ・全体的特性を捉えられない ・多峰な分布の場合どのモードを選択するか  考慮する必要がある 欠点 利点
  • 7. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰   4.4.1モデルの比較とBIC データの集合 パラメータモデル尤度関数 事前確率 p(✓i|Mi)p(D|✓i, Mi) ✓iMi p(D|Mi) D p(D) = Z p(D|✓)p(✓)d✓ モデルエビデンス = f(✓) = p(D|✓)p(✓) 係数 Z = f(z0) (2⇡)M/2 |A|1/2 …4.135 = Z ln Z = A = r2 ln p(D|✓MAP )p(✓MAP ) ex. 4.22 ln p(D) ⇡ ln p(D|✓MAP ) + ln p(✓MAP ) + M 2 ln(2⇡) 1 2 ln |A| | {z } Occam
  • 8. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰   4.4.1モデルの比較とBIC A = r2 ln p(D|✓MAP )p(✓MAP ) と仮定すると A = H + V 1 0 ln p(✓) = ln |V| 1/2 M 2 ln(2⇡) 1 2 (✓MAP m)T V 1 0 (✓MAP m) 係数 p(✓) = N(✓|m, V0) ex. 4.23 V 1 0 = r2 ln p(✓MAP ) iidなデータ点が十分に大きい時V^-1を無視できる 大胆に近似しよう 事前分布が影響しない ln p(D) ⇡ ln p(D|✓MAP ) + ln p(✓MAP ) + M 2 ln(2⇡) 1 2 ln |A| | {z } Occam ln p(D) ⇡ ln p(D|✓MAP ) 1 2 ln |V0| 1 2 (✓MAP m)T V 1 0 (✓MAP m) 1 2 ln |H + V 1 0 |
  • 9. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰 ln |H| の近似に焦点を当てる H = NX i=1 Hi Hi = r2 ln p(Di|✓) H はフルランク行列 ln | ˆH| ln |H| = ln |N ˆHi| = ln(NM | ˆH|) = M ln N + ln | ˆH| 固定された行列で近似できるとし を得る M = dim(✓) であり であると仮定します すると データ数に対して独立なのでデータ数が増加すれば 無視することができます 従って と近似できます H = NX i=1 Hi = N ˆH ln p(D) ⇡ ln p(D|ˆ✓) 1 2 M ln N
  • 10. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰   4.5 ベイズロジスティック回帰 ∼ 4.5.1 ラプラス近似 p(w) = N(w|m0, S0) 対数尤度 likelihood Prior ln p(w|t) = 1 2 (w m0)T S 1 0 (w m0) yn = (wT n) + NX n=1 {tn ln yn + (1 tn) ln(1 yn)} + const 一般的にm_0=0かな?勾配 ヘッセ行列 r2 ln p(w|t) = NX n=1 yn(1 yn) n T n S 1 0 勾配とヘッセ行列を使って 数値最適化でW_MAPを探索し ガウス分布の平均とする ガウス分布の分散には ヘッセ行列に-1をかけたものを用いる ラプラス近似 p(t|w) = NY n=1 Bern(yn) r ln p(w|t) = NX n=1 (yn tn) n S 1 0 (w m0)
  • 11. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰   4.5.2 予測分布 p(t|w) = NY n=1 Bern(yn) = NY n=1 ytn n (1 yn)1 tn p(w) = N(w|m0, S0) q(w) = N(w|wMAP , SN ) 事後分布(MAP推定) についての予測分布 a = wT = Z ✓ Z (a wT )q(w)dw ◆ (a)da = Z p(a) (a)da デルタ関数の性質 Z 1 1 f(x) (x µ)dx = f(µ) C1 ガウス分布 p(C1| , t) = Z p(C1| , w)p(w|t)dw ⇡ Z (wT )q(w)dw p(C1| , t) ⇡ Z ✓ Z (a wT ) (a)q(w)dw ◆ da
  • 12. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰 p(a) = Z (a wT )q(w)dw = ✓ Z q(w)wdw ◆T = E[w]T = wT MAP p(a)の平均 = Z ✓ Z (a wT )ada ◆ q(w)dw = Z q(w)(wT )dw µa = E[a] = Z p(a)ada = Z Z (a wT )q(w)adwda q(w) = N(w|wMAP , SN )   4.5.2 予測分布
  • 13. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰 分散 2 = var[a] = Z p(a){a2 E[a]2 }da = Z ✓ (a wT )a2 da ◆ q(w)dw Z ✓ (a wT )E[a]2 da ◆ q(w)dw = Z q(w)(wT )2 dw Z q(w)(wT MAP )2 dw = Z q(w) T wwT dw Z q(w) T wMAP wT MAP dw = T ✓ Z q(w)(wwT wMAP wT MAP )dw ◆ Z q(w)(wwT wMAP wT MAP )dw = E[wwT ] wMAP wT MAP Z q(w)dw = wMAP wT MAP + SN wMAP wT MAP = SN 2 = T SN p(a) = Z (a wT )q(w)dw …2.62E[xxT ] = µµT + ⌃ q(w) = N(w|wMAP , SN )   4.5.2 予測分布
  • 14. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰 p(C1|t) = Z (a)p(a)da = Z (a)N(a|µa, 2 a)da 予測分布の変分近似は a上での積分は、ロジスティックシグモイド関数でのガウス分布の畳み込み積分を 表しており、解析的に評価することはできない。 最も良い近似を得るために によって を近似できるようにする そのために、原点で2つの関数が同じ傾きを持つことを要請することにより の適切な値を見つけることができ となる ( a) (a) 2 = ⇡/8 シグモイド関数をプロビット関数の逆関数で近似しよう
  • 15. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰 Z ( a)N(a|µ, 2 )da = ✓ µ ( 2 + 2)1/2 ◆ ガウス分布とプロビト関数の逆関数の畳み込み積分は以下のように表せられる 従ってシグモイド関数に対する近似は Z (a)N(a|µ, 2 )da ⇡ (( 2 )µ) ( 2 ) = (1 + ⇡ 2 /8) 1/2 p(C1| , t) = (( 2 a)µa) で与えられ 予測分布は µa = wT MAP 2 a = T SN S 1 N = S 1 0 + NX n=1 yn(1 yn) n T n   4.5.2 予測分布
  • 16. 4.4 ラプラス近似 4.5 ベイズロジスティック回帰 変数変換使って導出 ex.4.24 ex. 4.25 (a) = Z a 1 N(✓|0, 1)d✓ (a) = 1 1 + exp( a) 二つの微分がa=0で等しいように を選ぶ @ (a) @a a=0 = (0)(1 (0) = 1 2 ✓ 1 1 2 ◆ = 1 4 ( a) = Z a 1 1 Z exp( 1 2 x2 )dx 0 ( a) = 1 Z exp ⇢ 1 2 ( a)2 Z = Z 1 1 exp ⇢ 1 2 ( a)2 da = = p ⇡/8 @ ( a) @ a a=0 = p 2x N(w|wMAP , SN ) N(a|wT MAP , T SN ) a = T w d dx Z x a f(t)dt = f(x) 多分2.115 Appendix