SlideShare ist ein Scribd-Unternehmen logo
1 von 44
Doing Bayesian Data Analysis 輪読会
Chapter 9
Gunosy Inc.
Coffee Yoshida
2013/08/24
9章 Bernoulli Likelihood with Hierarchical Prior
• 目次
– 9.1 A Single Coin from a Single Mint
– 9.2 Multiple Coins from a Single Mint
– 9.3 Multiple Coins from Multiple Mints
– 9.4 Summary
– 9.5 R Code
– 9.6 Exercises
– (mint = 造幣局)
2013/08/24
8章の内容と9章の内容
• 8章では、独立な2個のパラメータを推定する問
題について考えた
– Ex) コインの表裏の確率に関するパラメータは、コイ
ン間で影響し合わない
• 9章では、従属な2個以上のパラメータを推定す
る問題について考える
– Ex) あるコインの表裏の確率に関するパラメータは、
コイン工場のパラメータを通して、別のコインの表
裏の確率に関するパラメータに影響を与える
2013/08/24
パラメータとハイパーパラメータ
• 2種類のパラメータ
– パラメータ : データに直接的に影響を与えるパラメー
タ
• Ex) コインのパラメータ
– ハイパーパラメータ:別のパラメータに影響をあた
えることで、間接的にデータに影響を与えるパラ
メータ
• Ex) コイン工場のパラメータ
2013/08/24
ハイパーパラメータの利点
• パラメータ間の従属関係を考えることの2つの利
点
– 1. 同時事後確率を考えるときに、モデルの構造を変
更しないで良い
– 2. 従属関係は、その事後分布から、比較的効率的な
モテカルロサンプリングをモチベートする
2013/08/24
9.1 A SINGLE COIN FROM A SINGLE MINT
• コインが1個の場合の尤度と事前確認を復習する
• コインの表裏の確率は、ベルヌーイ分布を用い
て、以下の式で表せる
p ( y | θ ) = bern ( y | θ )
= θy ( 1 – θ ) 1- y
( 表 : y = 1、裏 : y = 0 )
( θ : コインの表が出る確率に関するパラメータ )
2013/08/24
パラメータの独立性
• 試行(コイン投げ)ごとに、表裏が出るパラメータ
は独立と仮定した
• N 回の試行中、 z 回表が出る同じ確率は、以下の式
で表せる
p ( y1, y1, …, | θ1, θ2, …, ) = Π p ( yi |θi )
= θz ( 1 - θ )N-z
– N = 1 の場合は、前ページの以下の式と同じ
p ( y | θ ) = bern ( y | θ )
= θy ( 1 – θ ) 1- y
2013/08/24
パラメータ θ の事前確率
• パラメータ θ の事前確率 p(θ) について考える
• コイン投げの例では、 p(θ) として、ベータ分布を仮
定していた
• ベータ分布
beta ( θ | a, b ) = θa-1 ( 1 - θ )b-1 / B(a, b)
– a, bは、ベータ分布のパラメータ、B(*, *) はベータ関数
– 平均 μ 、サンプルサイズ Z を用いて、a, bは以下のように
表せる
a = μ K
b = (1-μ) K
2013/08/24
パラメータ θ の事前確率
• サンプルサイズ K は、confidenceに影響を与える
• ここでは、K は定数だと考え、事前分布は以下
の式で表す
p( θ | μ) = beta ( θ | μK, ( 1–μ)K )
2013/08/24
hierachical models
• μ を定数ではなく、0 ~ 1の値をとる確率変数と
考えるhierachical modelsの領域に入っていく…
– μ を定数ではなく、0 ~ 1の値をとる確率変数と考える
→ コイン工場のコイン作りに対する信念の不確かさを
表す
p ( μ ) = beta( μ | Aμ, Bμ ) (Aμ, Bμは定数)
Ex) 大きいμ → 表が出やすいコイン作りばかりする工
場
小さいμ → 裏が出やすいコイン作りばかりする工
場2013/08/24
hierachical models
• 変数間の関係を表したhierachial
modelsの図
– i 番目のコイン投げの表裏 yi は、パラ
メータ θ のベルヌーイ分布から生成さ
れる
– θ は、パラメータ a, b のベータ分布か
ら生成される
– a, b は、それぞれ μK, (1-μ)K に等しい
– μ は、パラメータ Aμ, Bμ のベータ分布
から生成される
2013/08/24
hierachical modelsへのベイズルールの適用
• ベイズルールを適用する
p ( θ, μ | y ) = p ( y | θ, μ ) p ( θ, μ ) / p ( y )
= p ( y | θ ) p ( θ | μ ) p (μ) / p ( y )
2013/08/24
9.1.1 Posterior via Grid Approximation
• 事後分布をGrid Approximationする
– θ と μ の値域は、[0, 1]で有限なので、Grid
Approximationはtractableで、グラフも簡単に作れる
2013/08/24
Posterior via Grid Approximation 事前分布
• 事前分布の図
– p ( μ ) = beta( μ | 2, 2 )
– p( θ | μ ) = beta( θ | μ100, (1-μ)100)
2013/08/24
Posterior via Grid Approximation事前分布
• μ は、0.5付近をとる確率が大きいが、uncertaintyは大き
い(右上の図)
• θ は、μ と同じくらいの値を取りやすい(真ん中上と右
下の図)
2013/08/24
Posterior via Grid Approximation尤度
• 尤度の図
– データ D : 表 9 回、裏 3 回
– 尤度 : p ( D | θ ) = θ9 ( 1 – θ )3
2013/08/24
Posterior via Grid Approximation事後確率
• 事後確率の図
2013/08/24
Posterior via Grid Approximation 事後確率
• 事後確率 = 尤度 × 事前確率
= ×
2013/08/24
certainty の大きな μ の場合の事前分布
• μ の certainty を0.5周辺で大きくする
– p ( μ ) = beta( μ | 20, 20 )
– p ( θ | μ ) = beta( θ | μ6, (1-μ)6 )
2013/08/24
certainty の大きな μ の場合の尤度
• さっきと同じデータ
– データ D : 表 9 回、裏 3 回
– 尤度 : p ( D | θ ) = θ9 ( 1 – θ )3
2013/08/24
certainty の大きな μ の場合の事後分布
• 事後確率の図
– μ は、certainty高かったので、あまり変わらず、θ だ
けとんがる
2013/08/24
certainty の大きな μ の場合の事後分布
• 事後確率 = 尤度 × 事前確率
= ×
2013/08/24
9.2 MULTIPLE COINS FROM A SINGLE MINT
• 9.1
– コインは1個で、複数回の試行でパラメータ θ は同じ
ものだった
• 9.2
– コインは複数個で、それぞれ異なるパラメータ θj を
持つ
– コインは複数個あるけど、同じmint(工場)で作られ
てるとする
– 同じmintで作られてるので、パラメータ μ は複数個の
コインで同一とする
– コインは独立に作られてるので、θjはμに関して条件
付き独立とする
2013/08/24
9.2 MULTIPLE COINS FROM A SINGLE MINT
9.1では θ, yi → 9.2では θj, yij
2013/08/24
9.1.2 Posterior via Grid Approximation
• 9.1.1の内容を、コインが2個(θ1, θ2)の場合で
行う
2013/08/24
Posterior via Grid Approximation 事前確率
• 事前確率
2013/08/24
Posterior via Grid Approximation 尤度
• 尤度
– データ D1 : 表 3 回、裏 13 回
– データ D2 : 表 4 回、裏 1 回
– 尤度 : p ( D1 | θ1 ) = θ1
3 ( 1 – θ1 )13
– 尤度 : p ( D1 | θ2 ) = θ2
4 ( 1 – θ2 )1
2013/08/24
Posterior via Grid Approximation 事後確率
• 事後確率
– データ数の大きかった 1 の方がデータの平均値に事後
確率も集まりやすい
2013/08/24
Posterior via Grid Approximation 事前確率
μ と θ の依存関係が強い場合
• 事前確率
– μ と θ の依存関係が強い場合
2013/08/24
Posterior via Grid Approximation 事前確率
μ と θ の依存関係が強い場合
• 尤度、データはさっきと同じ
– データ D1 : 表 3 回、裏 13 回
– データ D2 : 表 4 回、裏 1 回
– 尤度 : p ( D1 | θ1 ) = θ1
3 ( 1 – θ1 )13
– 尤度 : p ( D1 | θ2 ) = θ2
4 ( 1 – θ2 )1
2013/08/24
Posterior via Grid Approximation 事後確率
μ と θ の依存関係が強い場合
• 事後確率
– さっきよりも θ2 が θ1 の方によってる
– μ と θ の依存関係が強いので、μを通して、データの
影響が別のパラメータθへの影響も強くなる
2013/08/24
9.2.2 Posterior via Monte Carlo Sampling
• モデルをより現実的なものにするために、パラ
メータ K も導入する
– サンプルサイズKは、9.2.1まで定数だった
– K が大 → θj は μ に近くなりやすい
– K が小 → θj は μ からはなれて広がりやすい
– 実際には、 K の値を事前に知ることはできず、「異
なるコインの試行結果が似かよってたら、K は大きい
だろう」、「異なるコインの試行結果があんまり似
てなかったら、K は小さいだろう」みたいにという証
拠になる
2013/08/24
9.2.2 Posterior via Monte Carlo Sampling
• パラメータ K (図中ではκ)
は、定数ではなくて、事前
分布から生じる(ここでは
ガンマ分布を使用)
• パラメータは全部で J + 2 個
– θ1 〜 θJ, μ, κ
2013/08/24
ガンマ分布
– s: shape parameter, 分布のな
だらかさを表す
– r: rate parameter, (=1/scale)
– m: s / r
– sd: √s / r
2013/08/24
κ の事前分布にガンマ分布を用いた場合
• さっきはK=5で固定してたのを、ガンマ分布の平均を
5.0、標準偏差を0.01にして同じような結果を出してみる
2013/08/24
κ の事前分布にガンマ分布を用いた場合
2013/08/24
• ガンマ分布のサンプルサイズκを75.0に変えてみる
• μ と θ1, θ2 の依存関係が強くなる
κ の事前分布にガンマ分布を用いた場合
• コイン3個の試行で、3個とも似たような結果だった場合
• コイン工場のパラメータ μ の推定の確かさは高い
• κ の平均値が大きくなる
2013/08/24
κ の事前分布にガンマ分布を用いた場合
2013/08/24
• コイン3個の試行で、3個ともバラバラな結果だった場合
• コイン工場のパラメータ μ の推定の確かさは低い
• κ の平均値は小さくなる
9.2.3 Outliers and Shrinkage of Individual
Estimates
• 多くのコインが似たような結果を出すと、κ は
大きくなり、θ と μ の依存関係も強くなる
– 異なるコインの θ が同じような分布になる
2013/08/24
Outliers and Shrinkage
• コイン5個投げて、1個変なコインがいた
(Outliers)
– κ が小さい時は、θ5 は実際の分布に近づくが、κ が大
きい時は、他のコインの θ の分布に近づく
(Shrinkage)
2013/08/24
9.2.5 Number of Coins and Flips per Coin
• データ増やすと、よりcertainにモデル推定が可
能になる
• データの増やし方
– コインごとの投げ数を増やす
– コインの数を増やす
• ハイパーパラメータの推定が目的の場合はこっち
• 個々のコインのバイアスではなくて、コイン工場のパラメー
タを推定したい時とか
2013/08/24
9.3 MULTIPLE COINS FROM MULTIPLE MINTS
• コイン工場に関するパラメータ μ, κ が工場ごと
にことなる場合
• 工場ごとのパラメータが独立な場合と従属な場
合の2つを考える
2013/08/24
9.3.1 Independent Mints
• μc, κc は、コイン毎に異なるが、同じガンマ分布
から生成される
μ, κ が同じの場合 μc, κc がバラバラの場合
2013/08/24
9.3.2 Dependent Mints
• μc, κc が、コイン毎に異なり、
異なるガンマ分布から生成さ
れる
– ガンマ分布のパラメータsc, rcは、
平均 μγ, 標準偏差 σγ で表される
– μγ と σγ は一様分布から生じる
2013/08/24

Weitere ähnliche Inhalte

Was ist angesagt?

整数格子点上の劣モジュラ被覆に対する高速アルゴリズム
整数格子点上の劣モジュラ被覆に対する高速アルゴリズム整数格子点上の劣モジュラ被覆に対する高速アルゴリズム
整数格子点上の劣モジュラ被覆に対する高速アルゴリズムTasuku Soma
 
ディープラーニングゼミ応用編2
ディープラーニングゼミ応用編2ディープラーニングゼミ応用編2
ディープラーニングゼミ応用編2Yota Ishida
 
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)Akihiro Nitta
 
最小カットを使って「燃やす埋める問題」を解く
最小カットを使って「燃やす埋める問題」を解く最小カットを使って「燃やす埋める問題」を解く
最小カットを使って「燃やす埋める問題」を解くshindannin
 
Divisor
DivisorDivisor
Divisoroupc
 
低ランク行列補完のためのマトロイド理論
低ランク行列補完のためのマトロイド理論低ランク行列補完のためのマトロイド理論
低ランク行列補完のためのマトロイド理論ryotat
 
OpenGLと行列
OpenGLと行列OpenGLと行列
OpenGLと行列miyosuda
 
ゼロから作るDeepLearning 3.3~3.6章 輪読
ゼロから作るDeepLearning 3.3~3.6章 輪読ゼロから作るDeepLearning 3.3~3.6章 輪読
ゼロから作るDeepLearning 3.3~3.6章 輪読KCS Keio Computer Society
 
04.第四章用Matlab求偏导数
04.第四章用Matlab求偏导数04.第四章用Matlab求偏导数
04.第四章用Matlab求偏导数Xin Zheng
 
Sort
SortSort
Sortoupc
 
確率的主成分分析
確率的主成分分析確率的主成分分析
確率的主成分分析Mika Yoshimura
 
サポートベクトルマシン入門
サポートベクトルマシン入門サポートベクトルマシン入門
サポートベクトルマシン入門Wakamatz
 
kagamicomput201709
kagamicomput201709kagamicomput201709
kagamicomput201709swkagami
 

Was ist angesagt? (20)

整数格子点上の劣モジュラ被覆に対する高速アルゴリズム
整数格子点上の劣モジュラ被覆に対する高速アルゴリズム整数格子点上の劣モジュラ被覆に対する高速アルゴリズム
整数格子点上の劣モジュラ被覆に対する高速アルゴリズム
 
会津合宿2015Day3:D問題
会津合宿2015Day3:D問題会津合宿2015Day3:D問題
会津合宿2015Day3:D問題
 
ディープラーニングゼミ応用編2
ディープラーニングゼミ応用編2ディープラーニングゼミ応用編2
ディープラーニングゼミ応用編2
 
ma99992006id365
ma99992006id365ma99992006id365
ma99992006id365
 
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
 
最小カットを使って「燃やす埋める問題」を解く
最小カットを使って「燃やす埋める問題」を解く最小カットを使って「燃やす埋める問題」を解く
最小カットを使って「燃やす埋める問題」を解く
 
Divisor
DivisorDivisor
Divisor
 
低ランク行列補完のためのマトロイド理論
低ランク行列補完のためのマトロイド理論低ランク行列補完のためのマトロイド理論
低ランク行列補完のためのマトロイド理論
 
OpenGLと行列
OpenGLと行列OpenGLと行列
OpenGLと行列
 
Jokyo20130218
Jokyo20130218Jokyo20130218
Jokyo20130218
 
ゼロから作るDeepLearning 3.3~3.6章 輪読
ゼロから作るDeepLearning 3.3~3.6章 輪読ゼロから作るDeepLearning 3.3~3.6章 輪読
ゼロから作るDeepLearning 3.3~3.6章 輪読
 
04.第四章用Matlab求偏导数
04.第四章用Matlab求偏导数04.第四章用Matlab求偏导数
04.第四章用Matlab求偏导数
 
Hairetu2
Hairetu2Hairetu2
Hairetu2
 
Sort
SortSort
Sort
 
SVM
SVMSVM
SVM
 
Chainerで流体計算
Chainerで流体計算Chainerで流体計算
Chainerで流体計算
 
確率的主成分分析
確率的主成分分析確率的主成分分析
確率的主成分分析
 
サポートベクトルマシン入門
サポートベクトルマシン入門サポートベクトルマシン入門
サポートベクトルマシン入門
 
kagamicomput201709
kagamicomput201709kagamicomput201709
kagamicomput201709
 
ggplot2 110129
ggplot2 110129ggplot2 110129
ggplot2 110129
 

Andere mochten auch

【DBDA 勉強会 2013 夏】Doing Bayesian Data Analysis Chapter 4: Bayes’ Rule
【DBDA 勉強会 2013 夏】Doing Bayesian Data Analysis Chapter 4: Bayes’ Rule【DBDA 勉強会 2013 夏】Doing Bayesian Data Analysis Chapter 4: Bayes’ Rule
【DBDA 勉強会 2013 夏】Doing Bayesian Data Analysis Chapter 4: Bayes’ RuleShuhei Iitsuka
 
Dbda勉強会~概要説明ochi20130803
Dbda勉強会~概要説明ochi20130803Dbda勉強会~概要説明ochi20130803
Dbda勉強会~概要説明ochi20130803Masanao Ochi
 
Doing Bayesian Data Analysis Chapter 11. Null Hypothesis Significance Testing
Doing Bayesian Data Analysis Chapter 11. Null Hypothesis Significance TestingDoing Bayesian Data Analysis Chapter 11. Null Hypothesis Significance Testing
Doing Bayesian Data Analysis Chapter 11. Null Hypothesis Significance TestingHiroki Takanashi
 
クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定Hiroshi Nakagawa
 
Chapter.13: Goals, Power and Sample Size "Doing Bayesian Data Analysis: A Tu...
Chapter.13: Goals, Power and Sample Size "Doing Bayesian Data Analysis:  A Tu...Chapter.13: Goals, Power and Sample Size "Doing Bayesian Data Analysis:  A Tu...
Chapter.13: Goals, Power and Sample Size "Doing Bayesian Data Analysis: A Tu...Hajime Sasaki
 
【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 8: Inferring Two Binomial P...
【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 8: Inferring Two Binomial P...【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 8: Inferring Two Binomial P...
【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 8: Inferring Two Binomial P...Junki Marui
 
【DBDA 勉強会 2013 夏】Chapter 12: Bayesian Approaches to Testing a Point (‘‘Null’’...
【DBDA 勉強会 2013 夏】Chapter 12: Bayesian Approaches to Testing a Point (‘‘Null’’...【DBDA 勉強会 2013 夏】Chapter 12: Bayesian Approaches to Testing a Point (‘‘Null’’...
【DBDA 勉強会 2013 夏】Chapter 12: Bayesian Approaches to Testing a Point (‘‘Null’’...Shuhei Iitsuka
 
Doing Bayesian Data Analysis, Chapter 5
Doing Bayesian Data Analysis, Chapter 5Doing Bayesian Data Analysis, Chapter 5
Doing Bayesian Data Analysis, Chapter 5春 根上
 
【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 16: Metric Predicted Variab...
【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 16: Metric Predicted Variab...【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 16: Metric Predicted Variab...
【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 16: Metric Predicted Variab...Junki Marui
 
Doing Bayesian Data Analysis; Chapter 14
Doing Bayesian Data Analysis; Chapter 14Doing Bayesian Data Analysis; Chapter 14
Doing Bayesian Data Analysis; Chapter 14春 根上
 
Dbda勉強会chapter18
Dbda勉強会chapter18Dbda勉強会chapter18
Dbda勉強会chapter18Koichiro Kondo
 
全脳アーキテクチャ勉強会 第1回(松尾)
全脳アーキテクチャ勉強会 第1回(松尾)全脳アーキテクチャ勉強会 第1回(松尾)
全脳アーキテクチャ勉強会 第1回(松尾)Yutaka Matsuo
 

Andere mochten auch (17)

Dbda03
Dbda03Dbda03
Dbda03
 
【DBDA 勉強会 2013 夏】Doing Bayesian Data Analysis Chapter 4: Bayes’ Rule
【DBDA 勉強会 2013 夏】Doing Bayesian Data Analysis Chapter 4: Bayes’ Rule【DBDA 勉強会 2013 夏】Doing Bayesian Data Analysis Chapter 4: Bayes’ Rule
【DBDA 勉強会 2013 夏】Doing Bayesian Data Analysis Chapter 4: Bayes’ Rule
 
Dbda勉強会~概要説明ochi20130803
Dbda勉強会~概要説明ochi20130803Dbda勉強会~概要説明ochi20130803
Dbda勉強会~概要説明ochi20130803
 
Dbda chap7
Dbda chap7Dbda chap7
Dbda chap7
 
Dbda chapter17
Dbda chapter17Dbda chapter17
Dbda chapter17
 
Doing Bayesian Data Analysis Chapter 11. Null Hypothesis Significance Testing
Doing Bayesian Data Analysis Chapter 11. Null Hypothesis Significance TestingDoing Bayesian Data Analysis Chapter 11. Null Hypothesis Significance Testing
Doing Bayesian Data Analysis Chapter 11. Null Hypothesis Significance Testing
 
クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定
 
Dbda chapter15
Dbda chapter15Dbda chapter15
Dbda chapter15
 
Chapter.13: Goals, Power and Sample Size "Doing Bayesian Data Analysis: A Tu...
Chapter.13: Goals, Power and Sample Size "Doing Bayesian Data Analysis:  A Tu...Chapter.13: Goals, Power and Sample Size "Doing Bayesian Data Analysis:  A Tu...
Chapter.13: Goals, Power and Sample Size "Doing Bayesian Data Analysis: A Tu...
 
【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 8: Inferring Two Binomial P...
【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 8: Inferring Two Binomial P...【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 8: Inferring Two Binomial P...
【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 8: Inferring Two Binomial P...
 
【DBDA 勉強会 2013 夏】Chapter 12: Bayesian Approaches to Testing a Point (‘‘Null’’...
【DBDA 勉強会 2013 夏】Chapter 12: Bayesian Approaches to Testing a Point (‘‘Null’’...【DBDA 勉強会 2013 夏】Chapter 12: Bayesian Approaches to Testing a Point (‘‘Null’’...
【DBDA 勉強会 2013 夏】Chapter 12: Bayesian Approaches to Testing a Point (‘‘Null’’...
 
Dbda勉強会
Dbda勉強会Dbda勉強会
Dbda勉強会
 
Doing Bayesian Data Analysis, Chapter 5
Doing Bayesian Data Analysis, Chapter 5Doing Bayesian Data Analysis, Chapter 5
Doing Bayesian Data Analysis, Chapter 5
 
【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 16: Metric Predicted Variab...
【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 16: Metric Predicted Variab...【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 16: Metric Predicted Variab...
【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 16: Metric Predicted Variab...
 
Doing Bayesian Data Analysis; Chapter 14
Doing Bayesian Data Analysis; Chapter 14Doing Bayesian Data Analysis; Chapter 14
Doing Bayesian Data Analysis; Chapter 14
 
Dbda勉強会chapter18
Dbda勉強会chapter18Dbda勉強会chapter18
Dbda勉強会chapter18
 
全脳アーキテクチャ勉強会 第1回(松尾)
全脳アーキテクチャ勉強会 第1回(松尾)全脳アーキテクチャ勉強会 第1回(松尾)
全脳アーキテクチャ勉強会 第1回(松尾)
 

Ähnlich wie 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

パターン認識 04 混合正規分布
パターン認識 04 混合正規分布パターン認識 04 混合正規分布
パターン認識 04 混合正規分布sleipnir002
 
2012-06-15-トピックを考慮したソーシャルネットワーク上の情報拡散モデル
2012-06-15-トピックを考慮したソーシャルネットワーク上の情報拡散モデル2012-06-15-トピックを考慮したソーシャルネットワーク上の情報拡散モデル
2012-06-15-トピックを考慮したソーシャルネットワーク上の情報拡散モデルYuya Yoshikawa
 
みどりぼん読書会 第4章
みどりぼん読書会 第4章みどりぼん読書会 第4章
みどりぼん読書会 第4章Masanori Takano
 
Kdd2015reading-tabei
Kdd2015reading-tabeiKdd2015reading-tabei
Kdd2015reading-tabeiYasuo Tabei
 
CODE FESTIVAL 2014 本選 解説
CODE FESTIVAL 2014 本選 解説CODE FESTIVAL 2014 本選 解説
CODE FESTIVAL 2014 本選 解説AtCoder Inc.
 

Ähnlich wie 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior (7)

パターン認識 04 混合正規分布
パターン認識 04 混合正規分布パターン認識 04 混合正規分布
パターン認識 04 混合正規分布
 
Oshasta em
Oshasta emOshasta em
Oshasta em
 
2012-06-15-トピックを考慮したソーシャルネットワーク上の情報拡散モデル
2012-06-15-トピックを考慮したソーシャルネットワーク上の情報拡散モデル2012-06-15-トピックを考慮したソーシャルネットワーク上の情報拡散モデル
2012-06-15-トピックを考慮したソーシャルネットワーク上の情報拡散モデル
 
みどりぼん読書会 第4章
みどりぼん読書会 第4章みどりぼん読書会 第4章
みどりぼん読書会 第4章
 
Kdd2015reading-tabei
Kdd2015reading-tabeiKdd2015reading-tabei
Kdd2015reading-tabei
 
演習発表 Sari v.1.2
演習発表 Sari v.1.2演習発表 Sari v.1.2
演習発表 Sari v.1.2
 
CODE FESTIVAL 2014 本選 解説
CODE FESTIVAL 2014 本選 解説CODE FESTIVAL 2014 本選 解説
CODE FESTIVAL 2014 本選 解説
 

【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

  • 1. Doing Bayesian Data Analysis 輪読会 Chapter 9 Gunosy Inc. Coffee Yoshida 2013/08/24
  • 2. 9章 Bernoulli Likelihood with Hierarchical Prior • 目次 – 9.1 A Single Coin from a Single Mint – 9.2 Multiple Coins from a Single Mint – 9.3 Multiple Coins from Multiple Mints – 9.4 Summary – 9.5 R Code – 9.6 Exercises – (mint = 造幣局) 2013/08/24
  • 3. 8章の内容と9章の内容 • 8章では、独立な2個のパラメータを推定する問 題について考えた – Ex) コインの表裏の確率に関するパラメータは、コイ ン間で影響し合わない • 9章では、従属な2個以上のパラメータを推定す る問題について考える – Ex) あるコインの表裏の確率に関するパラメータは、 コイン工場のパラメータを通して、別のコインの表 裏の確率に関するパラメータに影響を与える 2013/08/24
  • 4. パラメータとハイパーパラメータ • 2種類のパラメータ – パラメータ : データに直接的に影響を与えるパラメー タ • Ex) コインのパラメータ – ハイパーパラメータ:別のパラメータに影響をあた えることで、間接的にデータに影響を与えるパラ メータ • Ex) コイン工場のパラメータ 2013/08/24
  • 5. ハイパーパラメータの利点 • パラメータ間の従属関係を考えることの2つの利 点 – 1. 同時事後確率を考えるときに、モデルの構造を変 更しないで良い – 2. 従属関係は、その事後分布から、比較的効率的な モテカルロサンプリングをモチベートする 2013/08/24
  • 6. 9.1 A SINGLE COIN FROM A SINGLE MINT • コインが1個の場合の尤度と事前確認を復習する • コインの表裏の確率は、ベルヌーイ分布を用い て、以下の式で表せる p ( y | θ ) = bern ( y | θ ) = θy ( 1 – θ ) 1- y ( 表 : y = 1、裏 : y = 0 ) ( θ : コインの表が出る確率に関するパラメータ ) 2013/08/24
  • 7. パラメータの独立性 • 試行(コイン投げ)ごとに、表裏が出るパラメータ は独立と仮定した • N 回の試行中、 z 回表が出る同じ確率は、以下の式 で表せる p ( y1, y1, …, | θ1, θ2, …, ) = Π p ( yi |θi ) = θz ( 1 - θ )N-z – N = 1 の場合は、前ページの以下の式と同じ p ( y | θ ) = bern ( y | θ ) = θy ( 1 – θ ) 1- y 2013/08/24
  • 8. パラメータ θ の事前確率 • パラメータ θ の事前確率 p(θ) について考える • コイン投げの例では、 p(θ) として、ベータ分布を仮 定していた • ベータ分布 beta ( θ | a, b ) = θa-1 ( 1 - θ )b-1 / B(a, b) – a, bは、ベータ分布のパラメータ、B(*, *) はベータ関数 – 平均 μ 、サンプルサイズ Z を用いて、a, bは以下のように 表せる a = μ K b = (1-μ) K 2013/08/24
  • 9. パラメータ θ の事前確率 • サンプルサイズ K は、confidenceに影響を与える • ここでは、K は定数だと考え、事前分布は以下 の式で表す p( θ | μ) = beta ( θ | μK, ( 1–μ)K ) 2013/08/24
  • 10. hierachical models • μ を定数ではなく、0 ~ 1の値をとる確率変数と 考えるhierachical modelsの領域に入っていく… – μ を定数ではなく、0 ~ 1の値をとる確率変数と考える → コイン工場のコイン作りに対する信念の不確かさを 表す p ( μ ) = beta( μ | Aμ, Bμ ) (Aμ, Bμは定数) Ex) 大きいμ → 表が出やすいコイン作りばかりする工 場 小さいμ → 裏が出やすいコイン作りばかりする工 場2013/08/24
  • 11. hierachical models • 変数間の関係を表したhierachial modelsの図 – i 番目のコイン投げの表裏 yi は、パラ メータ θ のベルヌーイ分布から生成さ れる – θ は、パラメータ a, b のベータ分布か ら生成される – a, b は、それぞれ μK, (1-μ)K に等しい – μ は、パラメータ Aμ, Bμ のベータ分布 から生成される 2013/08/24
  • 12. hierachical modelsへのベイズルールの適用 • ベイズルールを適用する p ( θ, μ | y ) = p ( y | θ, μ ) p ( θ, μ ) / p ( y ) = p ( y | θ ) p ( θ | μ ) p (μ) / p ( y ) 2013/08/24
  • 13. 9.1.1 Posterior via Grid Approximation • 事後分布をGrid Approximationする – θ と μ の値域は、[0, 1]で有限なので、Grid Approximationはtractableで、グラフも簡単に作れる 2013/08/24
  • 14. Posterior via Grid Approximation 事前分布 • 事前分布の図 – p ( μ ) = beta( μ | 2, 2 ) – p( θ | μ ) = beta( θ | μ100, (1-μ)100) 2013/08/24
  • 15. Posterior via Grid Approximation事前分布 • μ は、0.5付近をとる確率が大きいが、uncertaintyは大き い(右上の図) • θ は、μ と同じくらいの値を取りやすい(真ん中上と右 下の図) 2013/08/24
  • 16. Posterior via Grid Approximation尤度 • 尤度の図 – データ D : 表 9 回、裏 3 回 – 尤度 : p ( D | θ ) = θ9 ( 1 – θ )3 2013/08/24
  • 17. Posterior via Grid Approximation事後確率 • 事後確率の図 2013/08/24
  • 18. Posterior via Grid Approximation 事後確率 • 事後確率 = 尤度 × 事前確率 = × 2013/08/24
  • 19. certainty の大きな μ の場合の事前分布 • μ の certainty を0.5周辺で大きくする – p ( μ ) = beta( μ | 20, 20 ) – p ( θ | μ ) = beta( θ | μ6, (1-μ)6 ) 2013/08/24
  • 20. certainty の大きな μ の場合の尤度 • さっきと同じデータ – データ D : 表 9 回、裏 3 回 – 尤度 : p ( D | θ ) = θ9 ( 1 – θ )3 2013/08/24
  • 21. certainty の大きな μ の場合の事後分布 • 事後確率の図 – μ は、certainty高かったので、あまり変わらず、θ だ けとんがる 2013/08/24
  • 22. certainty の大きな μ の場合の事後分布 • 事後確率 = 尤度 × 事前確率 = × 2013/08/24
  • 23. 9.2 MULTIPLE COINS FROM A SINGLE MINT • 9.1 – コインは1個で、複数回の試行でパラメータ θ は同じ ものだった • 9.2 – コインは複数個で、それぞれ異なるパラメータ θj を 持つ – コインは複数個あるけど、同じmint(工場)で作られ てるとする – 同じmintで作られてるので、パラメータ μ は複数個の コインで同一とする – コインは独立に作られてるので、θjはμに関して条件 付き独立とする 2013/08/24
  • 24. 9.2 MULTIPLE COINS FROM A SINGLE MINT 9.1では θ, yi → 9.2では θj, yij 2013/08/24
  • 25. 9.1.2 Posterior via Grid Approximation • 9.1.1の内容を、コインが2個(θ1, θ2)の場合で 行う 2013/08/24
  • 26. Posterior via Grid Approximation 事前確率 • 事前確率 2013/08/24
  • 27. Posterior via Grid Approximation 尤度 • 尤度 – データ D1 : 表 3 回、裏 13 回 – データ D2 : 表 4 回、裏 1 回 – 尤度 : p ( D1 | θ1 ) = θ1 3 ( 1 – θ1 )13 – 尤度 : p ( D1 | θ2 ) = θ2 4 ( 1 – θ2 )1 2013/08/24
  • 28. Posterior via Grid Approximation 事後確率 • 事後確率 – データ数の大きかった 1 の方がデータの平均値に事後 確率も集まりやすい 2013/08/24
  • 29. Posterior via Grid Approximation 事前確率 μ と θ の依存関係が強い場合 • 事前確率 – μ と θ の依存関係が強い場合 2013/08/24
  • 30. Posterior via Grid Approximation 事前確率 μ と θ の依存関係が強い場合 • 尤度、データはさっきと同じ – データ D1 : 表 3 回、裏 13 回 – データ D2 : 表 4 回、裏 1 回 – 尤度 : p ( D1 | θ1 ) = θ1 3 ( 1 – θ1 )13 – 尤度 : p ( D1 | θ2 ) = θ2 4 ( 1 – θ2 )1 2013/08/24
  • 31. Posterior via Grid Approximation 事後確率 μ と θ の依存関係が強い場合 • 事後確率 – さっきよりも θ2 が θ1 の方によってる – μ と θ の依存関係が強いので、μを通して、データの 影響が別のパラメータθへの影響も強くなる 2013/08/24
  • 32. 9.2.2 Posterior via Monte Carlo Sampling • モデルをより現実的なものにするために、パラ メータ K も導入する – サンプルサイズKは、9.2.1まで定数だった – K が大 → θj は μ に近くなりやすい – K が小 → θj は μ からはなれて広がりやすい – 実際には、 K の値を事前に知ることはできず、「異 なるコインの試行結果が似かよってたら、K は大きい だろう」、「異なるコインの試行結果があんまり似 てなかったら、K は小さいだろう」みたいにという証 拠になる 2013/08/24
  • 33. 9.2.2 Posterior via Monte Carlo Sampling • パラメータ K (図中ではκ) は、定数ではなくて、事前 分布から生じる(ここでは ガンマ分布を使用) • パラメータは全部で J + 2 個 – θ1 〜 θJ, μ, κ 2013/08/24
  • 34. ガンマ分布 – s: shape parameter, 分布のな だらかさを表す – r: rate parameter, (=1/scale) – m: s / r – sd: √s / r 2013/08/24
  • 37. κ の事前分布にガンマ分布を用いた場合 • コイン3個の試行で、3個とも似たような結果だった場合 • コイン工場のパラメータ μ の推定の確かさは高い • κ の平均値が大きくなる 2013/08/24
  • 38. κ の事前分布にガンマ分布を用いた場合 2013/08/24 • コイン3個の試行で、3個ともバラバラな結果だった場合 • コイン工場のパラメータ μ の推定の確かさは低い • κ の平均値は小さくなる
  • 39. 9.2.3 Outliers and Shrinkage of Individual Estimates • 多くのコインが似たような結果を出すと、κ は 大きくなり、θ と μ の依存関係も強くなる – 異なるコインの θ が同じような分布になる 2013/08/24
  • 40. Outliers and Shrinkage • コイン5個投げて、1個変なコインがいた (Outliers) – κ が小さい時は、θ5 は実際の分布に近づくが、κ が大 きい時は、他のコインの θ の分布に近づく (Shrinkage) 2013/08/24
  • 41. 9.2.5 Number of Coins and Flips per Coin • データ増やすと、よりcertainにモデル推定が可 能になる • データの増やし方 – コインごとの投げ数を増やす – コインの数を増やす • ハイパーパラメータの推定が目的の場合はこっち • 個々のコインのバイアスではなくて、コイン工場のパラメー タを推定したい時とか 2013/08/24
  • 42. 9.3 MULTIPLE COINS FROM MULTIPLE MINTS • コイン工場に関するパラメータ μ, κ が工場ごと にことなる場合 • 工場ごとのパラメータが独立な場合と従属な場 合の2つを考える 2013/08/24
  • 43. 9.3.1 Independent Mints • μc, κc は、コイン毎に異なるが、同じガンマ分布 から生成される μ, κ が同じの場合 μc, κc がバラバラの場合 2013/08/24
  • 44. 9.3.2 Dependent Mints • μc, κc が、コイン毎に異なり、 異なるガンマ分布から生成さ れる – ガンマ分布のパラメータsc, rcは、 平均 μγ, 標準偏差 σγ で表される – μγ と σγ は一様分布から生じる 2013/08/24