PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)

Pattern Recognition and Machine Learning
3.3.3 – 3.4
新田晃大 / 関西学院大学理工学部 / http://www.akihironitta.com / 2017 年 11 月 15 日
1

2/23
本日の内容
- 3.3.3 等価カーネル [pp.156-159]
- 3.4 ベイズモデル比較 [pp.160-164]

3.3.3 等価カーネル
pp. 156-159
3

4/23
予測平均
T
1
0
( , ) ( ) ( )
M
j
j jy w f f
-
=
= =å x ww xx (3.3)
回帰関数
T
N Nb= S Φm t
パラメータの事後分布の平均
(3.53)
予測平均
T
1
T T T
( ) ( )( , )) ( )(N N N N n n
N
n
y tf bf bf f
=
= == åx x Φ xSxx m m S t (3.60)

5/23
等価カーネル
予測平均
T
1
T T T
( ) ( )( , )) ( )(N N N N n n
N
n
y tf bf bf f
=
= == åx x Φ xSxx m m S t (3.60)
等価カーネル，平滑化行列
T
(( , ) ) ( )Nk bf f ¢=¢ x S xx x
データ集合の入力値に依存
目標変数の線形結合

6/23
等価カーネル（ガウス基底関数）
2
2
( )
( ) exp
2
j
j
x
x
s
µ
f
ì ü-ï ï
= -í ý
ï ïî þ
ガウス関数等価カーネル T
1 1
T
( ) ( )
( , )
(
( ) ( )
) ( )
N N
M M
x x
k x x
x
x
x
x
f f
bf f
f f
¢æ ö æ ö
ç ÷ ç ÷
¢ ¢ = ç ÷ ç ÷
ç ÷ ç ÷¢è è
=
ø ø
SS ! !
( , )k a x¢
( , )k b x¢
( , )k c x¢
x a=
x c=
x b=
等価カーネルは x’に関して局所的

7/23
基底関数と等価カーネル
多項式基底関数
シグモイド関数
1
( )
1 exp
j
j
j
x
x
xs
s
µ
f s
µ
æ ö
=
-
= ç ÷
æ öè ø
ç ÷
è
+
ø
-
( ) j
j x xf =
基底関数は局所的でない
等価カーネルは x’に関して局所的

8/23
注意：ガウス基底関数とガウスカーネル
2
2
( )
( ) exp
2
j
j
x
x
s
µ
f
ì ü-ï ï
= -í ý
ï ïî þ
ガウス基底関数
2
2
) ex( p,
2
k
s
æ ö- ¢
ç ÷¢ = -
ç ÷
è ø
x x
x x
ガウスカーネル

9/23
異なる 𝒙の値における予測値同士の共分散
[ ] T T
T 1
( ), ( ) ( ) , ( )
( ) (
cov c v
),)
o
(N k
y y f f
f f b -
é¢ ¢
=
ù= ë
= ¢ ¢
ûw w
S x
x x
x x x
x x
(3.63)
等価カーネルノイズの仮定
近傍点での予測平均は強い相関
離れた点での予測平均の相関は小さい

10/23
等価カーネル
予測器の点ｘごとの不確かさが異なる
図3.8
予測分布の分散
2 T1 1 1
(( ( , )) ( ) )N N k
b
f
b b
s f += + =S x xx xx
データ点周りは不確かさ小さい
予測分布平均
データの生成元関数
予測平均
1
( , )( , )N n n
N
n
y tk
=
= å x xx m

11/23
線形回帰問題の定式化（ガウス過程へ）
基底関数の集合，訓練集合から等価カーネルが決まる
=> 新たな入力に対する予測
カーネルを直接定義する
=> 新たな入力に対する予測
6.4節ガウス過程（Gaussian process）

12/23
等価カーネル
等価カーネルは重みを定める役割
重み付きのデータ集合の目標値の和 = 予測値
ある仮定の下ですべての x の値に対して１になる
1
( 1, )
N
n
n
k
=
=å x x
凸結合：和が１となるような非負係数を持つ点の線形結合 [Wikipedia]
1
( , )( , )N n
N
n
n
y tk
=
= å x xx m
目標変数の凸結合になるとは限らない
パラメータ事前分布の分散無限
基底関数は線形独立

13/23
カーネル関数
等価カーネルはカーネル関数が満たすべき性質を満たしている
T
) (( ( ), )k = ψ x ψx zz
1 1
2 2
( ) ( )Nb f= Sψ x xただし，
非線形関数のベクトルの内積

3.4 ベイズモデル比較
pp. 160-164
14

15/23
ベイズモデル比較
これまでのモデル選択法：交差確認
訓練データだけでモデル比較可能
超パラメータを複数導入可能 => RVM７章

16/23
モデル比較
L個のモデルを比較
{ }( 1, ),i i L= …M
モデルはD上の確率分布
( | ) ( ) ( | )i i ip p pµD DM M M
モデルエビデンス / 周辺尤度モデルの事前分布
モデルの事後分布
データ集合はどれかから生成された
どのモデルからかはわからない
D

18/23
モデルエビデンスの解釈
posterior
pri
M
or
AP nln ( | ) ln l( | , )ii p
w
w
wp
æ öD
ç ÷ç ÷D
+
è ø
D D! MM
第１項
Ø データへのフィッティング度
Ø データＤが生成される確率（尤度）
第２項
Ø モデルの複雑さへのペナルティ
Ø 負 posterior priorw wD<D
モデルがデータに強くフィット
ペナルティ大
パラメータが１つのモデルの場合

19/23
モデルエビデンスの解釈
posterior
pri
A
or
M P lnln ( | ) ln ( | , )iip
w
M
w
p
æ öD
ç ÷ç ÷D ø
+
è
wD D!M M
パラメータがＭ個のモデルの場合
エビデンス最大にするモデルは，
相反する項をバランスよく小さくする．
パラメータ数Ｍが多い
Ø フィッティング度 +大
Ø ペナルティ -大
パラメータ数Ｍが少ない
Ø フィッティング度 +小
Ø ペナルティ -小
今回のモデルエビデンスの近似は大雑把 => 4.4.1節ガウス近似法

20/23
データをサンプリング
３つのモデルからデータ集合生成
Ø 事前分布に従いパラメータの値を選択
Ø そのパラメータ値に対し，データをp(D|w)からサンプリング
1 2 3, ,M M M
モデルはD上の確率分布
単純なモデル：データ集合は多様性に乏しい = 狭い範囲に分布
複雑なモデル：データ集合は多様性に富む = 広い範囲に分布

21/23
モデル比較
0D観測データ集合
1 2 3, ,M M M

22/23
期待ベイズ因子
1
1
2
( | )
( | )l
|
dn
( )
p
p
pò
D
DD
D
M
M
M
２つのモデルの比較
1M真のモデル
1 2,M M
有限のデータ集合では，正しくないモデルが選ばれる可能性 => 期待値
( | )
( | )
i
j
p
p
D
D
M
M
ベイズ因子
1 2
2 1
( | ) ( | )
( | ) ( | )
p p
p p
>
D D
D D
M M
M M
ベイズ因子が大きいほうが真のモデル
データ集合 D
カルバック-ライブラーダイバージェンス
( )
( || ) ( )l dn
( )
q
KL p q p
p
= -ò
x
x
x
x

23/23
まとめ
全体の予測分布を個々のモデルの予測分布をモデルの事後確率で重み付き平均
モデルエビデンス最大化で近似
Ø 過学習の問題を回避（フィッティング度とモデル複雑さをバランス良く）
Ø 訓練データだけでモデル比較
問題点
Ø 正しくない仮定を置くと，誤った結果になる
Ø 変則事前分布に対し，エビデンスを定義できない
Ø 変則でない事前分布ならＯＫ

PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)

Ähnlich wie PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison) (20)

Mehr von Akihiro Nitta

Mehr von Akihiro Nitta (6)

Kürzlich hochgeladen

Kürzlich hochgeladen (8)

PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)