Weitere ähnliche Inhalte
Ähnlich wie Osaka.stan#2 chap5-1 (20)
Mehr von Makoto Hirakawa (6)
Osaka.stan#2 chap5-1
- 3. 本書で扱うデータ
出欠率に関する架空データ (n = 50)
A: アルバイトが好きかどうかの2値 (好き = 1)
Score: 学問への興味の強さ (200点満点)
Y: 1年間の出欠率 (出席回数 / 総授業回数)
* 総授業回数は200~500(人によって異なる)
3
- 9. モデル式の記述
モデル式5-1
𝑌 𝑛 = 𝑏1 + 𝑏2 𝐴 𝑛 + 𝑏3 𝑆𝑐𝑜𝑟𝑒 𝑛 + 𝜖 𝑛 𝑛 = 1, … , 𝑁
𝜖 𝑛 ~𝑁𝑜𝑟𝑚𝑎𝑙 0, 𝜎 𝑛 = 1, … , 𝑁
9
AとScoreの線形結合 ノイズ
ノイズは平均0, 標準偏差𝜎
の正規分布従う
- 10. モデル式の記述
モデル式5-2 ( 𝜖 を消去)
𝑌 𝑛 ~𝑁𝑜𝑟𝑚𝑎𝑙 𝑏1 + 𝑏2 𝐴 𝑛 + 𝑏3 𝑆𝑐𝑜𝑟𝑒 𝑛 , 𝜎 𝑛 = 1, … , 𝑁
10
(再) モデル式5-1
𝑌 𝑛 = 𝑏1 + 𝑏2 𝐴 𝑛 + 𝑏3 𝑆𝑐𝑜𝑟𝑒 𝑛 + 𝜖 𝑛 𝑛 = 1, … , 𝑁
𝜖 𝑛 ~𝑁𝑜𝑟𝑚𝑎𝑙 0, 𝜎 𝑛 = 1, … , 𝑁
- 11. モデル式の記述
モデル式5-3
𝜇 𝑛 = 𝑏1 + 𝑏2 𝐴 𝑛 + 𝑏3 𝑆𝑐𝑜𝑟𝑒 𝑛 𝑛 = 1, … , 𝑁
𝑌 𝑛 ~𝑁𝑜𝑟𝑚𝑎𝑙 𝜇[𝑛], 𝜎 𝑛 = 1, … , 𝑁
11
Yの予測値*はAとScoreの線形結合で決定する
予測値*を中心に標準偏差𝜎の正規分布
に従うノイズがのって、Yの値が決まる
*ここでは予測値を一つの値の指すものとして使っており、本書とは異なる意味で使ってます。
本書では予測値は予測分布のとりうる値を指します。
- 12. モデル式5-2(再)
𝑌 𝑛 ~𝑁𝑜𝑟𝑚𝑎𝑙 𝜇[𝑛], 𝜎
𝜇 𝑛 = 𝑏1 + 𝑏2 𝐴 𝑛 + 𝑏3 𝑆𝑐𝑜𝑟𝑒 𝑛 𝑛 = 1, … , 𝑁
12
Yは正規分布から発生している
正規分布の平均パラメタは、説明変数の線形結合で表現され
る
𝑌 𝑛 ~𝑁𝑜𝑟𝑚𝑎𝑙 𝑏1 + 𝑏2 𝐴 𝑛 + 𝑏3 𝑆𝑐𝑜𝑟𝑒 𝑛 , 𝜎 𝑛 = 1, … , 𝑁
⇒平均パラメタを代入してやればモデル式5-2
- 13. Stanで実装
13
(再) モデル式5-3
𝜇 𝑛 = 𝑏1 + 𝑏2 𝐴 𝑛 + 𝑏3 𝑆𝑐𝑜𝑟𝑒 𝑛 𝑛 = 1, … 𝑁
𝑌 𝑛 ~𝑁𝑜𝑟𝑚𝑎𝑙 𝜇[𝑛], 𝜎 𝑛 = 1, … , 𝑁
そのまま
model5-3.stan
←Scoreは200点満点だったが、
0-1の範囲で指定されている
←のちにベイズ予測区間を描くので、
予測分布からのMCMCサンプルを生成
- 28. ノイズの大きさをいじってみる
28
𝜎 = 0.5
𝜎 = 10
cf. 𝜎 = 3
実測値と予測値が
対応しにくくなる
パラメタのベイズ信頼区間は
ノイズが大きくなると広がる
* 事後平均値はlm()と一致する
ノイズが大きいと乱数の発生毎に
係数は大きく変化
Hinweis der Redaktion
- 率だから二項分布でモデリングしないと、思われる方もいるかもしれない
分母にあたる授業回数(2項分布でいうN試行数)が多ければ、正規分布で十分近似できるので、このデータで重回帰する。
二項分布をもちいたモデリングについては、次回。
- Yの分布についての読み取りがないのは何か理由がある?
逆になぜScoreについての読み取りがあるのか
- 心理統計的な書き方に近い
- Muについて、心理統計の本ではyの予測値yhutという言い方をしている
その言い方でいえば、
Yの予測値はAとScoreの線形結合で決定する
予測値を中心に標準偏差𝜎の正規分布に従うノイズがのって、Yの値が決まる
本書では予測値は予測分布のとりうる値(MCMCサンプル)を指します。
- モデル5-3の①と②を逆転して
- データの範囲を指定していた方がよい?
予測分布からのMCMCサンプリング
- アルバイトが好きな学生(1)はそうでない学生(0)に比べて、出席率が平均的に0.14低い
Scoreは0~200点が0~1に変換されているので、0点の学生は200点の学生に比べて出席率が平均的に0.32高い、ということ。
150点の学生は50点の学生に比べて、出席率が平均的に0.16高い
- パラメタの大きさを1程度にそろえる、とある。
パラメタ?
- モデルはデータブロックでScoreの範囲についての部分を削除している。
Scoreのデータを200で割らずにわたす
- 本では「出席率のベースラインmu」といういいかた
- パラメタの値が0より大きい(または小さい)確率を伝統的な統計学における回帰係数の有意性判定になぞらえてBayesian p-valueと呼ぶ流儀もある
- これまで95%で描画してきたのは伝統的な統計学を意識してのこと
解析者が適宜区間を変えてよいという立場。
この章の解析においては8割の確率で予測を当てれば十分だ、という意向で80%区間
- 「80%区間が直線を含んでいる」というのは十分に予測できている根拠になる?
データ数が少ないなどで、80%区間が広がることもある、のでは
ここでの予測値は、予測
- ここでの予測値はMCMCサンプルであって、特定の値ではない。
- Spearmanの順位相関係数×100
- 教科書ではtransformed parametersで書いてるけど、モデルブロックでmuを書くこともできる。
書き方の一例として。(ただしgene quaで使えなくなるので、予測区間を書いたりするための予測分布からのMCMCサンプリングを出すときには、transformed paraで書く必要)
パラメタの弱情報事前分布として、それぞれ設定。
Sigmaはパラメタの下限を0にしている。ハーフコーシー。
推定はうまくいっているが、乱数依存のところがある。
- 事後平均値はlmと一致するが、パラメタのベイズ信頼区間はノイズが大きいと広がる
- 回帰係数パラメタの相関
- 説明変数の相関をいれると推定にちょっと時間がかかる