Weitere ähnliche Inhalte
Ähnlich wie PRML2.1 2.2 (20)
Kürzlich hochgeladen (12)
PRML2.1 2.2
- 2. 発表概要
2.1 二値変数
2.2 多値変数
2.3 ガウス分布
2.4 指数型分布族
2.5 ノンパラメトリック法
2
- 3. この章の目的
密度推定
観測値の有限集合𝑥1 , … , 𝑥 𝑁 が与えられた時,確率変数𝑥
の確率分布𝑝(𝑥)をモデル化すること
このような確率分布は無限に存在しうる
パラメトリック法
分布の形を仮定し,観測値に合わせてパラメータを調整する
手法
ノンパラメトリック法
分布の形を仮定せず,観測値によって分布を決める手法
3
- 4. 4 2.1 二値変数
• ベルヌーイ分布
• 二項分布
• ベータ分布
- 5. ベルヌーイ分布 – 記号の定義
二値確率変数 x ∈ {0,1}
ex. コインを投げて,表なら 𝑥 = 1 裏なら 𝑥 = 0
パラメータ μ
𝑥 = 1となる確率
0≦ 𝜇 ≦1
𝑝 𝑥 = 1 𝜇) = 𝜇, 𝑝 𝑥 = 0 𝜇 =1− 𝜇
計算例:𝜇 = 0.7の時
歪んだコインがある.このコインが表となる確率は0.7,
裏となる確率は0.3である.この時,
𝑝 𝑥 = 1 𝜇 = 0.7) = 0.7
𝑝 𝑥 = 0 𝜇 = 0.7 = 0.3 5
- 6. ベルヌーイ分布
ベルヌーイ分布
Bern x 𝜇) = 𝜇 𝑥 (1 − 𝜇)1−𝑥 (2.2)
確率𝜇で表が出るコインを一回投げ,表(裏)が出る確率
特徴
𝐸[𝑥] = 𝜇 (2.3)
𝑣𝑎𝑟[𝑥] = 𝜇(1 − 𝜇) (2.4)
計算例:𝜇 = 0.7の時
歪んだコインがある.このコインが表となる確率は0.7,
裏となる確率は0.3である.この時,
𝐵𝑒𝑟𝑛 𝑥 = 1 𝜇 = 0.7) = 0.71 (1 − 0.7)0 = 0.7
𝐵𝑒𝑟𝑛 𝑥 = 0 𝜇 = 0.7 = 0.70 (1 − 0.7)1 = 0.3 6
- 7. 複数回観測した時の尤度関数
設定
D = 𝑥1 , … , 𝑥 𝑁
𝑥 𝑖 は,𝑝(𝑥 | 𝜇)から独立に得られたと仮定
尤度関数
𝑝 𝐷 𝜇) = 𝑛=1 𝑝 𝑥 𝑛 𝜇) = 𝑛=1 𝜇 𝑥 𝑛 (1 − 𝜇)1−𝑥 𝑛 (2.5)
𝑁 𝑁
𝜇が与えられた時,どのくらい,観測したデータが生起
しやすいかを表す
7
- 8. パラメータ𝜇の値を最尤推定
対数尤度
𝑁
ln 𝑝(𝐷 | 𝜇) = ln 𝑝 𝑥 𝑛 𝜇)
𝑛=1
𝑁
= { 𝑥 𝑛 ln 𝜇 + 1 − 𝑥 𝑛 ln 1 − 𝜇 } (2.6)
𝑛=1
𝑁
= ln 𝜇 − ln 1 − 𝜇 𝑥 𝑛 + 𝑁 ln(1 − 𝜇)
𝑛=1
𝑁
この式は, 𝑛=1 𝑥 𝑛 のみに依存しているため,この式は,
この分布の下,このデータに対する十分統計量の例
8
- 9. パラメータ𝜇の値を最尤推定
最尤推定
ln 𝑝 𝐷 𝜇) を𝜇で偏微分して0とおいて解く
1 𝑁
𝜇 𝑀𝐿 = 𝑛=1 𝑥𝑛 (2.7)
𝑁
サンプル平均と呼ばれる
結果の違った見方
データ集合中で,𝑥 = 1になる回数を𝑚とすると,
𝑚 データ集合中での表の観測値の割合が
𝜇 𝑀𝐿 = (2.8)
𝑁 表が出る確率となる
9
- 10. 二項分布
記号の定義
𝑚 : 大きさ𝑁のデータ集合のうち,𝑥 = 1となる観測値mの数
二項分布
𝑁
𝐵𝑖𝑛(𝑚 | 𝑁, 𝜇) = 𝑚
𝜇 𝑚 (1 − 𝜇) 𝑁−𝑚 (2.9)
𝑁
=
𝑁! (2.10)
𝑚 𝑁−𝑚 !𝑚!
確率𝜇で表が出るコインを𝑁回投げた時,
表が出る回数𝑚の確率分布
特徴
𝐸[𝑚] = 𝑁𝜇 (2.11)
𝑣𝑎𝑟[𝑚] = 𝑁𝜇(1 − 𝜇) (2.12)
10
- 12. ベータ分布
ベルヌーイ分布のパラメータ𝜇の最尤推定
3回表が出ると,以降ずっと表が出る? 𝑁
1
過学習の問題 𝜇 𝑀𝐿 = 𝑥𝑛
𝑁
𝑛=1
ベイズ主義的に扱う
事前分布𝑝(𝜇)を導入する必要性 𝑁
𝑥 𝑛 (1 −
𝑝 𝐷 𝜇) = 𝜇 𝜇)1−𝑥 𝑛
事後分布が事前分布と同様の
𝑛=1
形式となる事前分布を選びたい
共役性
𝜇と(1 − 𝜇) のべきに比例する事前分布を導入
12
- 13. ベータ分布
Γ(a + b) 𝑎−1
𝐵𝑒𝑡𝑎 𝜇 𝑎, 𝑏) = 𝜇 (1 − 𝜇) 𝑏−1 (2.13)
Γ a Γ(b)
特徴
𝑎
𝐸[𝜇] = (2.15)
𝑎+𝑏
𝑎𝑏
𝑣𝑎𝑟[𝜇] = (2.16)
𝑎+𝑏 2 (𝑎+𝑏+1)
𝑎, 𝑏は,𝜇の分布を決めるので,ハイパーパラメータと
呼ばれる
13
- 15. 事後分布を求める
事前分布
Γ(a + b) 𝑎−1
𝐵𝑒𝑡𝑎 𝜇 𝑎, 𝑏) = 𝜇 (1 − 𝜇) 𝑏−1
Γ a Γ(b)
尤度関数
𝑁
𝐵𝑖𝑛(𝑚 | 𝑁, 𝜇) = 𝜇 𝑚 (1 − 𝜇) 𝑙 (𝑙 = 𝑁 − 𝑚)
𝑚
事後分布
Γ(m + a + b + l) 𝑚+𝑎−1
𝑝 𝜇 𝑚, 𝑙, 𝑎, 𝑏) = (1 − 𝜇) 𝑙+𝑏−1
𝜇
Γ m + a Γ(b + l)
(2.18)
𝑥 = 1の観測値が𝑚個,𝑥 = 0の観測値が𝑙個あった時,
事後分布を求めるには,𝑎を𝑚, 𝑏を𝑙だけ増やせばよい
𝑎, 𝑏はそれぞれ,𝑥 = 1, 𝑥 = 0の有効観測数と解釈できる
15
- 16. 逐次学習
事後分布の特徴
事後分布は,事前分布と形式が同じなので,
事後分布を新たな事前分布として扱える
逐次学習
データがひとつづつ与えられ,データが与えられる度に
パラメータを更新していく学習法
𝑥1 𝑥2
𝑝(𝜇) 𝑝(𝜇|𝑥1 ) 𝑝(𝜇|𝑥1,2 )
16
- 17. 逐次学習の例
x=1を1つ
𝑎=2 観測した時の
𝑏=2 尤度関数
β分布 (N=m=1の
二項分布)
𝑎=3
𝑏=2
β分布
17
- 18. 逐次学習の長所・短所
長所
実時間での学習に利用できる
毎観測値ごとに事後確率を算出するので,全てのデータが
なくともよい
大規模データ集合に有用
観測値の処理が終わった後,そのデータはもう捨ててよい
短所
学習の早さと,正しい解への収束性のトレードオフ
18
- 19. 𝑥の予測分布
これまでの議論
𝑝(𝜇 | 𝐷)の推定
観測データ集合𝐷から,パラメータ𝜇の確率分布を推定
ここからの議論
𝑝(𝑥 = 1 | 𝐷)の推定
観測データ集合𝐷から,𝑥 = 1となる確率を推定
19
- 20. 𝑥の予測分布
1
𝑝(𝑥 = 1 | 𝐷) = 𝑝 𝑥=1 𝜇)𝑝 𝜇 𝐷) 𝑑𝜇
0
1
= 𝜇𝑝 𝜇 𝐷) 𝑑𝜇
0
= 𝑬 𝜇
𝐷] (2.19)
𝑚+ 𝑎
= (2.20)
𝑚+ 𝑎+ 𝑙+ 𝑏
観測値のうち,𝑥 = 1に相当するものの割合
𝑚, 𝑙がとても大きい時,最尤推定の結果と一致する
このような特性は,多くの例で見られる
有限のデータ集合では,
事前平均 ≦ 事後平均 ≦ 𝜇の最尤推定量 →演習2.7 20
- 21. 事後分布の特性
事後分布(ベータ分布)の分散
𝑎𝑏
𝑣𝑎𝑟 𝜇 =
𝑎+𝑏 2 𝑎+𝑏+1
𝑎 → ∞や𝑏 → ∞の時,分散は0に近づく
多くのデータを学習すればするほど,一般的に
事後分布の不確実性は減少する?
21
- 22. 平均・分散の不確実性
事前平均と事後平均
𝐸 𝜽 𝜽 = 𝐸 𝐷 [𝐸 𝜽 𝜽 | 𝐷 ] (2.21)
𝜽の事後平均を,データを生成する分布上で平均すると,
𝜽の事前平均に等しい
事前分散と事後分散
𝑣𝑎𝑟 𝜃 𝜃 = 𝐸 𝐷 [𝑣𝑎𝑟 𝜃 𝜃 𝐷]] + 𝑣𝑎𝑟 𝐷 [𝐸 𝐷 𝜃 𝐷]] (2.24)
事前分散 事後分散の平均 事後平均の分散
の平均
平均的には 事前分散 > 事後分散
成り立たないデータセットもある
22
- 23. 23 2.2 多値変数
• 多項分布
• ディリクレ分布
- 24. 例えば
サイコロを投げる
6通りの状態がありうる
1-of-K 符号化法
K個の状態を取りうる離散変数を扱う際に用いられる
要素の一つ𝑥 𝑘 のみが1で他が0
𝐾
𝑘=1 𝑥 𝑘 = 1を満たす
ex. サイコロの目を観測値𝑥として,3が出た時
𝑥 = (0,0,1,0,0,0) 𝑇
24
- 25. 歪んだサイコロ
記号の定義
𝜇 𝑘 ∶ 𝑥 𝑘 = 1となる確率
正確なサイコロの場合
1 1 1 1 1 1
𝝁=( , , , , , )
6 6 6 6 6 6
シゴロ賽の場合
1 1 1
𝝁 = (0,0,0, , , )
3 3 3
ピンゾロ賽の場合
𝝁 = (1,0,0,0,0,0)
25
- 26. 多項分布
𝑥の分布
𝐾
𝑥𝑘 ベルヌーイ分布を2種類以上の
𝑝 𝑥 𝜇) = 𝜇𝑘 (2.26)
出力に一般化したもの
𝑘=1
観測値が複数あった場合
𝑁個の独立な観測値𝑥1 … 𝑥 𝑁
尤度関数
𝑁 𝐾 𝐾 𝐾
𝑝 𝐷 𝜇) = 𝜇𝑘 𝑥 𝑛𝑘 = 𝜇 𝑘( 𝑛 𝑥 𝑛𝑘 ) = 𝜇𝑘 𝑚𝑘
𝑛=1 𝑘=1 𝑘=1 𝑘=1 (2.29)
𝑚𝑘 = 𝑥 𝑛𝑘 : この分布の十分統計量
26
𝑛
- 27. 𝝁の最尤推定
制約付き対数尤度最大化
ラグランジュの未定乗数法を用いる
𝐾 𝐾
𝜇 𝑘 = 1 に代入して,
𝑓= 𝑚 𝑘 ln 𝜇 𝑘 + 𝜆 𝜇𝑘−1
𝑘
𝑘=1 𝑘=1 𝑚𝑘
𝜕𝑓 𝑚𝑘 − =1
= + 𝜆 𝜆
𝜕𝜇 𝑘 𝜇𝑘 𝑘
𝜕𝑓 − 𝑚𝑘 = 𝜆
= 0 より,
𝜕𝜇 𝑘 𝑘
𝑚𝑘 𝜆 = −𝑁
𝜇𝑘 =− 𝑚𝑘
𝜆 𝜇 𝑘 𝑀𝐿 =
𝑁 27
- 28. 多項分布
𝐾
𝑁 𝑚𝑘
𝑀𝑢𝑙𝑡 𝑚1 , … 𝑚 𝐾 𝝁, 𝑁) = 𝜇𝑘 (2.34)
𝑚1 𝑚2 … 𝑚 𝐾
𝑘=1
𝑁 𝑁!
ただし, =
𝑚1 𝑚2 … 𝑚 𝐾 𝑚1 ! 𝑚2 ! … 𝑚 𝐾 !
𝐾
𝑚𝑘 = 𝑁
𝑘=1
パラメータ𝜇と観測値の総数𝑁が与えられた条件の下,
𝑚1 … 𝑚 𝐾 の同時確率
28
- 29. ディリクレ分布
多項分布の𝜇 𝑘 についての事前分布
共役分布の形は以下の通り
𝐾
𝛼 𝑘 −1 (2.37)
𝑝 𝝁 𝜶) ∝ 𝜇𝑘
𝑘=1
ただし,0 ≦ 𝜇 𝑘 ≦ 1, 𝑘 𝜇 𝑘 = 1
ハイパーパラメータ 𝜶 = (𝛼1 , … , 𝛼 𝐾 ) 𝑇
ディリクレ分布
𝐾
Γ(𝛼0 )
𝐷𝑖𝑟 𝝁 𝜶) = 𝜇𝑘 𝛼 𝑘 −1 (2.38)
Γ 𝛼1 … Γ(𝛼 𝐾 )
𝑘=1
ただし,𝛼0 = 𝑘 𝛼𝑘
29
- 30. 共役性の確認
事前分布
𝐾
Γ(𝛼0 ) 𝛼 𝑘 −1
𝑝 𝝁 𝜶) = 𝜇𝑘 (2.38)
Γ 𝛼1 … Γ(𝛼 𝐾 )
𝑘=1
尤度関数
𝐾
𝑁
𝑝 𝐷 𝝁) =
𝑚1 𝑚2 … 𝑚 𝐾
𝜇𝑘 𝑚𝑘
(2.34)
𝑘=1
事後分布
𝑝 𝝁 𝐷, 𝜶) = 𝐷𝑖𝑟 𝝁 𝜶 + 𝒎)
𝐾
Γ(𝛼0 + 𝑁)
= 𝜇𝑘 𝛼 𝑘 +𝑚 𝑘 −1 (2.41)
Γ 𝛼1 + 𝑚1 … Γ(𝛼 𝐾 + 𝑚 𝐾 ) 30
𝑘=1
- 31. 参考サイト
朱鷺の杜Wiki
http://ibisforest.org/index.php?FrontPage
Bishopさんのサイト
http://research.microsoft.com/en-
us/um/people/cmbishop/PRML/
prml_note@wiki
http://www43.atwiki.jp/prml_note/pages/1.html
十分統計量について
http://www012.upp.so-
net.ne.jp/doi/math/anova/sufficientstatistic.pdf
31