SlideShare a Scribd company logo
Suche senden
Hochladen
MCMCと正規分布の推測
Melden
Teilen
Gen Fujita
CEO, Ph,D. in Linguistics um Canopus LLC., Toyoeiwa University, Tokyo Keizai University
Folgen
•
2 gefällt mir
•
6,441 views
1
von
26
MCMCと正規分布の推測
•
2 gefällt mir
•
6,441 views
Melden
Teilen
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Daten & Analysen
はじめての統計データ分析勉強会 #2 資料
Mehr lesen
Gen Fujita
CEO, Ph,D. in Linguistics um Canopus LLC., Toyoeiwa University, Tokyo Keizai University
Folgen
Recomendados
MCMCでマルチレベルモデル von
MCMCでマルチレベルモデル
Hiroshi Shimizu
19.1K views
•
43 Folien
階層モデルの分散パラメータの事前分布について von
階層モデルの分散パラメータの事前分布について
hoxo_m
34.9K views
•
49 Folien
Chapter9 一歩進んだ文法(前半) von
Chapter9 一歩進んだ文法(前半)
itoyan110
1.8K views
•
29 Folien
Stanの便利な事後処理関数 von
Stanの便利な事後処理関数
daiki hojo
18K views
•
34 Folien
15分でわかる(範囲の)ベイズ統計学 von
15分でわかる(範囲の)ベイズ統計学
Ken'ichi Matsui
55K views
•
47 Folien
MCMCサンプルの使い方 ~見る・決める・探す・発生させる~ von
MCMCサンプルの使い方 ~見る・決める・探す・発生させる~
. .
15.7K views
•
69 Folien
Más contenido relacionado
Was ist angesagt?
階層ベイズとWAIC von
階層ベイズとWAIC
Hiroshi Shimizu
27.7K views
•
80 Folien
階層ベイズと自由エネルギー von
階層ベイズと自由エネルギー
Hiroshi Shimizu
23.4K views
•
52 Folien
変分ベイズ法の説明 von
変分ベイズ法の説明
Haruka Ozaki
41.3K views
•
27 Folien
Stan超初心者入門 von
Stan超初心者入門
Hiroshi Shimizu
85K views
•
156 Folien
比例ハザードモデルはとってもtricky! von
比例ハザードモデルはとってもtricky!
takehikoihayashi
82.3K views
•
43 Folien
Cmdstanr入門とreduce_sum()解説 von
Cmdstanr入門とreduce_sum()解説
Hiroshi Shimizu
9.3K views
•
55 Folien
Was ist angesagt?
(20)
階層ベイズとWAIC von Hiroshi Shimizu
階層ベイズとWAIC
Hiroshi Shimizu
•
27.7K views
階層ベイズと自由エネルギー von Hiroshi Shimizu
階層ベイズと自由エネルギー
Hiroshi Shimizu
•
23.4K views
変分ベイズ法の説明 von Haruka Ozaki
変分ベイズ法の説明
Haruka Ozaki
•
41.3K views
Stan超初心者入門 von Hiroshi Shimizu
Stan超初心者入門
Hiroshi Shimizu
•
85K views
比例ハザードモデルはとってもtricky! von takehikoihayashi
比例ハザードモデルはとってもtricky!
takehikoihayashi
•
82.3K views
Cmdstanr入門とreduce_sum()解説 von Hiroshi Shimizu
Cmdstanr入門とreduce_sum()解説
Hiroshi Shimizu
•
9.3K views
変分推論法(変分ベイズ法)(PRML第10章) von Takao Yamanaka
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
•
30.5K views
ベイズファクターとモデル選択 von kazutantan
ベイズファクターとモデル選択
kazutantan
•
18.8K views
3分でわかる多項分布とディリクレ分布 von Junya Saito
3分でわかる多項分布とディリクレ分布
Junya Saito
•
28K views
ベイズ主義による研究の報告方法 von Masaru Tokuoka
ベイズ主義による研究の報告方法
Masaru Tokuoka
•
9.3K views
ベイズモデリングと仲良くするために von Shushi Namba
ベイズモデリングと仲良くするために
Shushi Namba
•
6.6K views
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話) von Yoshitake Takebayashi
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
Yoshitake Takebayashi
•
49.9K views
StanとRでベイズ統計モデリング読書会 導入編(1章~3章) von Hiroshi Shimizu
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
Hiroshi Shimizu
•
27.9K views
Chapter2.3.6 von Takuya Minagawa
Chapter2.3.6
Takuya Minagawa
•
16.4K views
ブートストラップ法とその周辺とR von Daisuke Yoneoka
ブートストラップ法とその周辺とR
Daisuke Yoneoka
•
13.3K views
状態空間モデルの考え方・使い方 - TokyoR #38 von horihorio
状態空間モデルの考え方・使い方 - TokyoR #38
horihorio
•
37.8K views
グラフィカルモデル入門 von Kawamoto_Kazuhiko
グラフィカルモデル入門
Kawamoto_Kazuhiko
•
117.7K views
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布 von Nagayoshi Yamashita
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
Nagayoshi Yamashita
•
32.2K views
MCMCとともだちになろう【※Docswellにも同じものを上げています】 von Hiroyuki Muto
MCMCとともだちになろう【※Docswellにも同じものを上げています】
Hiroyuki Muto
•
7.1K views
PRML輪読#2 von matsuolab
PRML輪読#2
matsuolab
•
11.4K views
MCMCと正規分布の推測
1.
はじめての統計データ分析勉強会 【#2】 MCMC と正規分布の推測 藤田
元 (合同会社 カノープス/上智大学)
2.
今日取り扱う項目 前回の復習(サラッと) マルコフ連鎖モンテカルロ法(MCMC) 事後分布(とその代表値) 予測分布 ベイズ的推測と「『信頼区間』と『確信区間』の違い」 生成量(とそこから導き出される各種指標の分布) ベイズ統計における「仮説検証」
3.
前回の復習(サラッと) 連続型確率変数における期待値と分散 積率系と分位系 ベイズの定理 無情報事前分布:一様分布 ベイズ統計と頻度論的統計学の考え方の違い
4.
連続型確率変数における期待値と分散 連続型確率変数: 各値の確率は定義できず確率密度で表される 確率密度関数で確率分布を表現する 期待値:確率密度関数の期待値 式: 分散:確率密度関数の期待値 式: 確率:確率密度関数の面積で表現される
5.
積率系と分位系の記述統計量 積率系(moment):データの関数の平均 代表値:平均値(mean) 散布度:分散(variance)、標準偏差(SD) 分位系(quantile):順序 代表値:中央値(median)・最頻値(mode) 分位点:四分位点、パーセンタイル点など 積率系は累乗変換に対して不変でない 一次変換には不変
6.
ベイズの定理 ベイズの定理 x=(x1, x2, …,
xn) [データ] θ=(θ1, θ2, …, θm) [パラメタ]とするとき 以下のように定義される このとき f(x|θ) を尤度、f(θ) を事前分布とよぶ
7.
無情報事前分布 ベイズ統計は、事前分布の選択が恣意的であるという批判が あった(主観確率) 無情報事前分布:事前分布が事後分布に出来るだけ景況しな いような確率分布 具体的には:一様分布 事前分布に一様分布を仮定すると、事後分布は尤度のみに影 響をうける
8.
ベイズ統計と頻度論的統計学 頻度論的統計学 ベイズ統計 パラメタ (未知の)固定の値
確率分布 パラメタの推定 最尤推定法(MLE) EAP, MED, MAP データ 確率分布 所与 事前分布 仮定しない 仮定する(※)
9.
マルコフ連鎖モンテカルロ法 略して、MCMC MCMCとは:多変量の確率分布からサンプルを抽出(= 乱数を生成す る)ためのアルゴリズムのことである(岩波データサイエンス 1:17) 事後分布に従う乱数を(大量に)発生させ、事後分布そのものをデー タとして手にする 同時事後分布に従う乱数を、継続的に発生させ第m期に発生した乱数 を、θ(m)と表記する 幾つかの手法がある ギブスサンプリング法(GS法) メトロポリス・ヘイスティング法(MH法) ハミルトニアンモンテカルロ法(HMC法) ここではHMC法を利用する(詳しくは豊田(2015)を参照)
10.
マルコフ連鎖モンテカルロ法 乱数の生成に際しては、パラメタの事前分布として一様分布を仮定 ( µ 〜
U(0,1000), σ 〜U(0,100) ) バーンイン:生成された乱数のうち初期に生成された乱数 → 同時事後 分布に従わない 事後分布の性質を調べるには、バーンイン以降の有効な乱数を用いる (m = B+1, B+2, … , M) チェイン(Chain):乱数列 チェイン数:乱数列の数 図 1-4(p.15)は T=10000 (= [M=(21000-1000)]×5)個の有効な乱数を 用いて描いた散布図 乱数列は、θ(t)(t = 1, 2, …, T) のように表記する トレースプロット:事後分布から乱数が発生しているか視覚的に評価
11.
マルコフ連鎖モンテカルロ法 乱数列の数値的評価 収束判定指標( ):事後分布から乱数が発生しているかを判 定する指標(チェイン間とチェイン内の散らばりを比較する) → チェイン間の散らばりが大きい場合には事後分布から乱数が 発生していないことが疑われる(
が望ましい) 有効標本数(neff):生成された乱数が「理想的に無関係である 乱数」の何個分に相当するかの推定値
12.
事後分布とその代表値 事後分布:データが得られた時のパラメタ(母数)の確率分布 データはMCMCによって得る 母数(パラメタ)に関する情報は、すべて事後分布に含まれる 点推定:母数の事後分布を点で代表させる 3つの代表的な点推定量 EAP(θeap):事後分布の平均値 MED(θmed):事後分布の中央値 MAP(θmap):事後分布の最頻値(最大値) 事後分散・事後標準偏差:事後分布の分散と標準偏差 (post.sd) 事後分布の散布度(分散・標準偏差)が小さいと、それだけ点推定の精度が高いと いうこと 事後標準偏差( ,
post.sd)は、θ の標準偏差:事後分布がどれだけ で代表されているか、を表現
13.
事後分布とその代表値 実際に観測できる、EAP( )は、事後分布の平均値であり、推定 値:MCMCをするたびに異なる値になる 一方で真のEAP( )は未知なる固定値 推定量(
)の分布を標本分布といい、標本分布の標準偏差を標準 誤差(S.E.)と呼ぶ(推定の精度) 「事後標準偏差」と「標本誤差」の区別 事後標準偏差( )は、事後分布の標準偏差で、標準誤差は標 本分布(複数回 を推定した時の、 の分布の標準偏差) 事後標準偏差も標準誤差も小さいほうが好ましい 事後標準偏差( )が大きい場合 → データ(n)を増やす 標準誤差( )が大きい場合 → 乱数(T)を増やす
14.
事後分布とその代表値 カーネル密度推定によってデータから確率密度関数を推定
15.
予測分布 予測分布:将来観測されるであろうデータ x* の確率分布 2種類の予測分布 事後予測分布:f(x*|x) →
事後分布 f(θ|x) による f(x*|θ) の平均 → パラメタ(θ)が与えられた時の x* の分布 → 問題はパラメタ(θ)自体が確率的に変動する → MCMC をおこなうごとに、パラメタの推定値を計算し、そこから事後予測分布を 求める必要がある(x*(t) ~ f(θ(t) )) → 煩雑で取り扱いづらい 条件付き予測分布: → パラメタの推定値( )を所与とした時の未来のデータ x* の条件付き確率 → 点推定値にのみ依存するので、取り扱いやすい
16.
ベイズ的推測 リサーチクエスチョン(RQ)を自覚することが重要 常にRQを自覚し、実質科学的知見を最大限利用すること(cf. 事 前分布・主観確率) どんなRQがありうるのか? RQ1:平均値の点推定(µ の点推定) RQ2:平均値の区間推定(µ
の区間推定) RQ3:平均値の片側区間推定 RQ4:標準偏差の点推定・区間推定(σ の点推定) RQ5:予測分布の区間推定( x* の区間推定) → RQ1-4:母集団のパラメタに関する推測 → RQ5:将来のデータの分布に関する推測
17.
ベイズ的推測 平均値(µ)に関する推測 EAP:80.6 S.E.:0.01 post.sd:1.9 2.5%:76.8 5%:77.5 50%:80.6 95%:83.7 97.5%:84.4
18.
ベイズ的推測 平均値(µ)に関する推測 点推定(EAP, MED, MAP): →
EAP = MED = MAP = 80.6(RQ1への答え) 区間推定:µ(t) の平均値である は、µ の事前分布の型状にかかわらず 、正規分布に従う → µeap が母平均である母集団からの、µ の無限回の標本抽出と考えるこ とができる(中心極限定理) → 標本分布の2.5%点〜97.5% 点の面積が信頼区間(標準正規分布におい て信頼区間は -1.96×SD 〜 1.96×SD) → SD(標本の標準偏差:S.E.) = 0.01 → 80.6 ± 1.96 × 0.01 → 信頼区間:[80.58, 80.62](95%信頼区間)(RQ2への答え) → 確信区間:[76.8, 84.4](95%確信区間:事後分布の面積が95%)
19.
「信頼区間」と「確信区間」 信頼区間:「Aの信頼区間」というとき、Aは未 知なる固定点(頻度論的) 標本抽出を無限回おこない、同様の区間構成 をしたとき、そのうち95%の回数(サンプリ ング)は、真値Aを含む 確信区間(信用区間):「Aの確信区間」という ときA自身が分布する(ベイズ的) データから確信区間を計算するとき、パラメ タ自身が95%の確率でその区間に存在する
20.
ベイズ的推測 平均値(σ)に関する推測 EAP:5.6 MED:5.5 MAP:4.7(= MLE) S.E.:0.01 post. sd: 2.5%:3.6 5%:3.8 50%:5.5 95%:9.0 97.5%:10.1
21.
ベイズ的推測 平均値(σ)に関する推測 EAP:80.6 S.E.:(0.02) post.sd:6.4 2.5%:68.0 5%:70.4 50%:80.6 95%:90.9 97.5%:93.3
22.
ベイズ的推測 RQへの答え RQ4: (1) 標準偏差の点推定 [a] EAP:5.6 [b]
MED:5.5 [c] MAP:4.7 (2) 標準偏差の区間推定 [a] 確信区間:[3.6, 10.1] RQ5: 予想分布の区間推定 [a] 確信区間:[68.0, 93.3]
23.
ベイズ的推測(2):生成量 生成量:MCMC法による標本(データ)θ(t) の関数 g(θ(t)) θ(t)
を原料に作られたものが生成量 ここで g は任意の関数 例:g(θ) のEAP推定量は g(θ(t)) から計算可能 生成量を利用すると以下のRQに答えることが可能 RQ6:分散の点推定・区間推定 RQ7:変動係数の点推定・区間推定 RQ8:効果量の点推定 RQ9:効果量の区間推定・片側区間推定の下限・上限 RQ10:%点の点推定・区間推定 RQ11:基準点未満の測定値が観測される確率 RQ12:基準点との比の点推定・区間推定 推定量・区間推定の考え方は前述と同じ、推定結果は p. 47 表2.4 を参照
24.
ベイズ統計における「仮説検証」 研究仮説の真偽を表現する2値変数を利用すると 、研究仮説(U)が正しい確率を調べることがで きる 頻度論的な仮説検定では、(対立)仮説が正しい 確率を調べることはできなかった 真: :θ(t) に関して研究仮説が真 偽: :それ以外の場合
25.
ベイズ統計における「仮説検証」 「店舗Bの牛丼の具の重さの平均が85」 研究仮説:Uµ<85 > > otherwise
26.
ベイズ統計における「仮説検証」 研究仮説:Uµ<85 Uµ<85 が正しい確率は 98.5% → 研究仮説が正しいこと はほぼ検証された