Weitere ähnliche Inhalte
Ähnlich wie ベイズ統計学の概論的紹介-old (20)
Mehr von Naoki Hayashi (20)
ベイズ統計学の概論的紹介-old
- 5. ベイズ推論のフレームワーク
• ベイズ推論の流れは次のようになる:
‒ ステップ1 モデルと事前分布を定義
モデル:データの確率分布。人間が作る。パラメータを持つ
事前分布:モデルが持つパラメータの確率分布。人間が作る
‒ ステップ2 事後分布を計算
事後分布:データを観測した後のパラメータの分布。アルゴリズムが作る
‒ ステップ3 予測分布を計算
予測分布:データを観測した後の未知データも含むデータの分布。アルゴリズムが作る
5
- 6. ベイズ推論のフレームワーク
• ベイズ推論の流れは次のようになる:
‒ ステップ1 モデルと事前分布を定義
モデル:データの確率分布。人間が作る。パラメータを持つ
事前分布:モデルが持つパラメータの確率分布。人間が作る
‒ ステップ2 事後分布を計算
事後分布:データを観測した後のパラメータの分布。アルゴリズムが作る
‒ ステップ3 予測分布を計算
予測分布:データを観測した後の未知データも含むデータの分布。アルゴリズムが作る
6
ベイズ推論とは
「データを発生している真の分布は予測分布だろう」
と推論すること
- 12. ベイズ推論のフレームワーク(再掲)
• ベイズ推論の流れは次のようになる:
‒ ステップ1 モデルと事前分布を定義
モデル:データの確率分布。人間が作る。パラメータを持つ
事前分布:モデルが持つパラメータの確率分布。人間が作る
‒ ステップ2 事後分布を計算
事後分布:データを観測した後のパラメータの分布。アルゴリズムが作る
‒ ステップ3 予測分布を計算
予測分布:データを観測した後の未知データも含むデータの分布。アルゴリズムが作る
12
- 29. メトロポリスヘイスティング法の原理
• 「ある基準」とは
‒ 疑問:動く必要があるなら常に動き続ければいいのでは?
‒ 全くのランダムウォークではMCMCにならない(一様分布になる)
‒ 分布の形状(エネルギー面)を考慮しないと
事後分布からのサンプリングにならない
‒ 現在位置と次の位置候補のエネルギー差H(w’)-H(w)を計算する
エネルギー:𝜓 𝑤 𝑋 𝑛
∝ exp −𝐻 𝑤 なる函数H(w)
‒ 差が負のときは必ず移動する
‒ 差が非負のときは確率exp(-差)で移動する
差が非負のときにも動かないと,
停留点から動かなくなってしまい
サンプリング箇所が偏ってしまう
29
- 30. メトロポリスヘイスティング法のアルゴリズム
• 準備:
‒ エネルギー:𝜓 𝑤 𝑋 𝑛 ∝ exp −𝐻 𝑤 なる函数H(w)を用意する
‒ ステップ幅εを固定する
• サンプリング:
1. パラメータの初期値wを決める
2. w’ = w + d, d ~ N(0,ε^2)
3. 確率min 1, exp −𝐻 𝑤′ + 𝐻 𝑤 でw←w’(移動)とし,
そうでなければ留まる
4. 2に戻る
5. 以上を所定の回数繰り返す
30
例として,MCMC_Converg.ipynb
- 35. ギブスサンプリング
• ギブスサンプリング (Gibbs Sampling, GS) もMCMCの1つ
• MH法でエネルギーの追跡などイロイロな処理が出てきたが,
これは事後分布が部分的にも簡単に書くことができないためである
• 事後分布そのものはわからなくとも,
各変数については解析的な分布がわかる場合はGSが有効である
35
この「簡単になった」分布からのサンプリングを基にして事後分布
に従うサンプルを得るのがGS。解析的に計算しやすくするために
共役事前分布を意識したモデリングをすることが多い
- 36. ギブスサンプリング
• w1及びw2という2つのパラメータがある
• 事後分布𝜓(𝑤1, 𝑤2|𝑋 𝑛
) は解析的に分からなくとも,
それぞれの条件付き確率分布𝜓1(𝑤1|𝑤2, 𝑋 𝑛)と𝜓2(𝑤2|𝑤1, 𝑋 𝑛)は
簡単な分布で書けるとする
‒ 例えば正規分布であるなど(右図)
• アルゴリズムは極めて簡明である:
1. 𝑤1の初期値を決める
2. 𝑤2 ~ 𝜓2(𝑤2|𝑤1, 𝑋 𝑛)
3. 𝑤1 ~ 𝜓1(𝑤1|𝑤2, 𝑋 𝑛)
4. 2と3を所定回数繰り返す
36
w1 w2
2つの分布から乱数生成
を繰り返すだけ!!
- 37. ギブスサンプリングの注意点
• ギブスサンプリングは導出できれば非常に簡明
• 導出できるのはある程度限られた状況になる
‒ 直接の共役事前分布ではないが,
その性質が利用できるように帰着できる事前分布を使うことになる
‒ 混合正規分布やトピックモデルといった実際的な構造を持つモデルでは,
隠れ変数を導入してGSの導出が可能になることがある
• 尤度と事前分布からすぐ計算できるMHのエネルギー函数とは異なり,
GSの条件付き分布の導出は数式的に非自明
• MH同様にバーンインとシニングは必要
• まとめ:使える状況は限られるが使えるときは非常に強力
‒ 簡単な分布からの乱数生成を指定回数繰り返すのみである
37
- 38. MCMCと予測分布
• MCMCより,事後分布𝜓 𝑤 𝑋 𝑛 からサンプル 𝑤 𝑘 𝑘=1
𝐾
が得られる
• 𝐾 → ∞のとき,函数𝑓 𝑤 についてほとんど至る所
1
𝐾
𝑘=1
𝐾
𝑓 𝑤 𝑘 → 𝑓 𝑤 𝜓 𝑤 𝑋 𝑛 𝑑𝑤 =: 𝔼 𝑤 𝑓 𝑤 .
• MCMCを用いた時の予測分布𝑝∗ 𝑥 は数値的には下記を用いる:
𝑝∗ 𝑥 = 𝔼 𝑤 𝑝 𝑥|𝑤 ≈
1
𝐾
𝑘=1
𝐾
𝑝 𝑥 𝑤 𝑘 .
‒ 𝑝∗
𝑥 と
1
𝐾 𝑘=1
𝐾
𝑝 𝑥 𝑤 𝑘 が𝐾や 𝑤 𝑘 によってどれほど異なるかは一般には未解明:
1
𝐾
𝑘=1
𝐾
𝑝 𝑥 𝑤 𝑘 = 𝑝∗
𝑥 + 謎 𝐾 ; 謎 𝐾 = 𝑜 1 ; 𝑎. 𝑒.
- 42. 混合ポアソン分布
• 数式モデルは
𝑝 𝑥 𝜆, 𝜋 =
𝑘=1
𝐾
𝜋 𝑘Poi 𝑥|𝜆 𝑘
‒ 𝜆 = 𝜆1, … , 𝜆 𝐾 :1つ1つのポアソン分布の平均
‒ 𝜋 = 𝜋1, … , 𝜋 𝐾 :混合比、すべて𝜋 𝐾 ≥ 0かつ 𝑘=1
𝐾
𝜋 𝑘 = 1
• この2つのパラメータの事前分布を考える
• メトロポリスヘイスティングでは自由に
• ギブスサンプリングでは
‒ 𝜆: ガンマ分布
‒ 𝜋: ディリクレ分布
42
混合ポアソン分布は構造を持つモデル
(特異モデル)ですので、最尤法や事後
確率最大化法に比べてベイズ推論は
精度が良い手法になります
- 51. 推論して得られた結果
• ベイズ推論に限らず、統計的推論は正しくない。
• 推論の間違いは「正しく」知ることができる!
‒ どうやって? 真の分布(実世界)はわからないのに……
→ 数理科学の出番
‒ 真の分布が分からなくても、データとモデルから推論の間違いを知ることができる
真の分布がどんなものであっても成り立つ普遍法則を作ればよい
‒ 例えば
ベイズ推論では、真の分布が分からなくてもデータとモデルから計算できる量を使って、推論
結果の間違いがどのような挙動を持つか導出することができる
◦ 最尤推定でも似たような定理が証明できるが、モデルと真の分布に強い制約がつく
52
これにまつわる
数理科学の成果を紹介
定理が成立する仮定の下で正しい
- 52. 記号の復習
• モデル:𝑝 𝑥 𝑤
• 事前分布:𝜑 𝑤
• データ:𝑋 𝑛
= 𝑋1, … , 𝑋 𝑛
• 尤度:𝑃 𝑋 𝑛
|𝑤
• 事後分布:𝜓 𝑤 𝑋 𝑛
• 周辺尤度、エビデンス:𝑍 𝑋 𝑛
• 予測分布:𝑝∗
𝑥 given data を強調して𝑝∗
𝑥 𝑋 𝑛
とも書く
53
- 53. 準備:KL情報量
• 最も一般的な分布間の非類似度としてカルバック・ライブラ (KL) 情報量がある:
𝐾𝐿 𝑞||𝑝 = 𝑞 𝑥 log
𝑞 𝑥
𝑝 𝑥
𝑑𝑥
‒ という定義式で、qからpへのKL情報量という
• 情報理論や統計力学の負の相対エントロピーと同値
‒ 情報理論では情報源と受信機の非類似度
‒ 統計学・機械学習ではデータの分布とモデルの非類似度
• どちらも送信と受信で非対称な関係なため、KLは非可換𝐾𝐿 𝑞||𝑝 ≠ 𝐾𝐿(𝑞| 𝑝
‒ 距離にはならないが
𝐾𝐿 𝑞||𝑝 ≥ 0, 𝐾𝐿(𝑞| 𝑝 = 0 ⇔ 𝑝 = 𝑞
なる正定値性を持つ。
54
- 55. 正確な予測
• 汎化損失を
𝐺 𝑛 = − 𝑞 𝑥 log 𝑝∗ 𝑥|𝑋 𝑛 𝑑𝑥
と定義する。
• 𝐺 𝑛 = − ∫ 𝑞 𝑥 log 𝑝∗ 𝑥|𝑋 𝑛 𝑑𝑥 = − ∫ 𝑞 𝑥 log 𝑞 𝑥 𝑑𝑥 + 𝐾𝐿 𝑞||𝑝∗ と
変形できる
• 𝑆 = − ∫ 𝑞 𝑥 log 𝑞 𝑥 𝑑𝑥はモデルに依存しない定数
• 𝐾𝐿 𝑞||𝑝∗
は真の分布と予測分布のKL情報量→小さいほど予測が正確
56
情報理論の言葉を使うと、
真の分布と予測分布の交差(クロス)エントロピーのことです。
- 56. 構造の発見
• データセットの真の分布:𝑄 𝑥 𝑛 = 𝑖=1
𝑛
𝑞 𝑥𝑖
‒ 𝑥 𝑛 = 𝑥1, … , 𝑥 𝑛 :データセット(大文字は確率変数、小文字は実現値)
• データセットの確率分布を推論したい
‒ モデルから推論したこの分布が真に近いほど、
データの生成を間違いにくく説明するモデルになる
• ベイズ推論では 周辺尤度𝑍 𝑋 𝑛
𝑍 𝑋 𝑛
= 𝑃 𝑋 𝑛
|𝑤 𝜑 𝑤 𝑑𝑤
• やること:𝑍 𝑋 𝑛 の最大化⇔𝐹𝑛 ≔ − log 𝑍 𝑋 𝑛 の最小化
57
- 57. 構造の発見
• 最大化の正当化:
− 𝑄 𝑥 𝑛 log 𝑍 𝑥 𝑛 𝑑𝑥 𝑛 = − 𝑄 𝑥 𝑛 log 𝑄 𝑥 𝑛 𝑑𝑥 + 𝐾𝐿 𝑄||𝑍
‒ 上式が成立するため、汎化損失の最小化と同様の理由で
-∫ 𝑄 𝑥 𝑛 log 𝑍 𝑥 𝑛 𝑑𝑥 𝑛(総和損失という)の最小化が正当化される
‒ ∫ 𝑄 𝑥 𝑛 𝑑𝑥 𝑛はデータセットの出方についての平均
→ 𝐹𝑛 ≔ − log 𝑍 𝑋 𝑛 の最小化は平均的に𝐾𝐿 𝑄||𝑍 を最小化する //
• 自由エネルギーを最小にするモデルはn→∞のとき真のモデルになる
‒ ただし、モデルの中に真の分布がぴったり含まれている(真のモデルと呼ぶ)必要がある
‒ たとえ真の分布がモデル候補に含まれていても、汎化損失最小化では実現できない
58
- 61. 経験損失
• 手元のデータ𝑋 𝑛
= 𝑋1, … , 𝑋 𝑛 の損失は次式で定義される経験損失
である:
𝑇𝑛 = −
1
n
𝑖=1
𝑛
log 𝑝∗ 𝑋𝑖|𝑋 𝑛
• 𝑛 → ∞のとき𝑇𝑛 → 𝐺 𝑛
• 経験損失で評価していい?
62
- 66. ベイズ統計理論
• 比較的明らかな結果: 𝔼 𝐺 𝑛 = 𝔼 𝐹𝑛+1 − 𝐹𝑛
• 前述のとおり自由エネルギー𝐹𝑛もまた重要な確率変数であった
• まず,一般の自由エネルギーの漸近挙動が解明された
𝐹𝑛 = 𝑛𝑆 𝑛 + 𝜆 log 𝑛 − 𝑚 − 1 log log 𝑛 + 𝑜 𝑝 log log 𝑛
‒ Snは経験エントロピー
• 第1の主要項の係数𝜆や第2項の𝑚とは何か?
67
- 67. ベイズ統計理論
• 一般の自由エネルギーの漸近挙動
𝐹𝑛 = 𝑛𝑆 𝑛 + 𝜆 log 𝑛 − 𝑚 − 1 log log 𝑛 + 𝑜 𝑝 log log 𝑛
• 係数𝜆や𝑚とは何か?
• 事後分布が正規分布で近似可能なとき(正則モデル):
𝜆 =
𝑑
2
, 𝑚 = 1; 𝑑: パラメータ次元
‒ この結果は古くから知られていた→ベイズ情報量規準BIC[Schwarz, 1978]
• 近似不可能な場合を含む一般の場合はλは実対数閾値、mは多重度である。
68
- 73. 広く使える情報量規準
前述の漸近挙動より、
𝔼 𝐺 𝑛 − 𝔼 𝑇𝑛 = 𝑆 +
𝜆
𝑛
− 𝑆 −
𝜆−2𝜈
𝑛
+ 𝑜
1
𝑛
=
2𝜈
𝑛
+ 𝑜
1
𝑛
=
𝔼 𝑉𝑛
𝑛
+ 𝑜
1
𝑛
.
∴ 𝔼 𝐺 𝑛 = 𝔼 𝑇𝑛 +
𝑉𝑛
𝑛
+ 𝑜
1
𝑛
.
‒ 実は𝑜
1
𝑛
は𝑜
1
𝑛2 にまで改善可能であり、
WAICは1個抜き交差検証(LOOCV)損失と漸近等価である。
- 74. WAICの計算
WAICは次のように計算することができる。
1. 事後分布𝜓 𝑤 𝑋 𝑛
からサンプリングする。
𝑤 𝑘 ∼ 𝜓 𝑤 𝑋 𝑛
, 𝑘 = 1, … , 𝐾
2. 経験損失𝑇𝑛と汎函数分散𝑉𝑛を計算する。
𝑇𝑛 ← −
1
n 𝑖=1
𝑛
log
1
𝐾 𝑘=1
𝐾
𝑝 𝑋𝑖 𝑤 𝑘 ,
𝑉𝑛 ← 𝑖=1
𝑛 1
𝐾 𝑘=1
𝐾
log 𝑝 𝑋𝑖 𝑤 2
−
1
𝐾 𝑘=1
𝐾
log 𝑝 𝑋𝑖 𝑤
2
3. 2.で計算した量からWAICが得られる。
WAIC ← 𝑇𝑛 +
𝑉𝑛
𝑛
- 76. 広く使えるベイズ情報量規準
前述の漸近挙動より、𝐹𝑛 = 𝑛𝑆 𝑛 + 𝜆 log 𝑛 − 𝑚 − 1 log log 𝑛 + 𝑂𝑝 1 .
一方で、−𝔼 𝑤
1
log 𝑛
log 𝑃 𝑋 𝑛|𝑤 = 𝑛𝑆 𝑛 + 𝜆 log 𝑛 + 𝑂𝑝 𝜆 log 𝑛 であるこ
とを証明できる。
‒ 漸近挙動の主要項までが等しい確率変数であって、データから容易に計算できる
量であるものの1つとしてWBICが与えられる。
Hinweis der Redaktion
- 社会に出ていろいろ仕事をして、もうやりつくしたやりたくないってなる燃え尽き症候群をバーンアウトと言うが、関係ない。