SlideShare ist ein Scribd-Unternehmen logo
1 von 36
Downloaden Sie, um offline zu lesen
データ解析のための
統計モデリング入門
1
2014. 07. 29.
6章後半 @0kayu
#みどりぼん
japan.R12.6
自己紹介
- @0kayu 岡
- 早稲田大学 M2 機械系
- 研究 機能的脳画像解析
- 来年 アドテク系の会社で働きます
- slide http://www.slideshare.net/
yurieoka37/65-37454378
6章 GLMの応用範囲 後半
3
章 適用例 確率分布 リンク関数 ポイント
前半 生存確率の予測 二項分布 logit
6.5 生存確率の予測 二項分布 logit 交互作用項
6.6 人口密度の予測 ポアソン 対数リンク オフセット
6.7 連続値データ 正規分布 ̶̶
連続値の
最尤推定
6.8
確率変数が

0以上の連続値
ガンマ分布 対数リンク GLMすごい
6.9 ま  と  め
6章 GLMの応用範囲 後半
4
章 適用例 確率分布 リンク関数 ポイント
前半 生存確率の予測 二項分布 logit
6.5 生存確率の予測 二項分布 logit 交互作用項
6.6 人口密度の予測 ポアソン 対数リンク オフセット
6.7 連続値データ 正規分布 ̶̶
連続値の
最尤推定
6.8
確率変数が

0以上の連続値
ガンマ分布 対数リンク GLMすごい
6.9 ま  と  め
これまでの線形予測子
6.5 交互作用項
体サイズ 肥料処理+
交互作用項を追加した線形予測子
!
交互作用項    の考え方
- 植物の体サイズxiと肥料処理の効果fiの「積」の効果
6
6.5 交互作用項
体サイズ 肥料処理+ 交互作用+
肥料処理によって体サイズが変わる
体サイズによって肥料処理の効果が変わる
7
交互作用項を含めたGLM
glm(cbind(y, N-y)~ x * f, family = binomial, data = d)
または
glm(cbind(y,N-y)~x + f + x:f, family=binomial, data=d)
Coefficients:
(Intercept) x fT x:fT
-18.52332 1.85251 -0.06376 0.21634
!
Degrees of Freedom: 99 Total (i.e. Null); 96 Residual
Null Deviance: 499.2
Residual Deviance: 122.4 AIC: 273.6
8
交互作用項のあり・なし
Coefficients:
(Intercept) x fT
-19.536 1.952 2.022
!
Degrees of Freedom: 99 Total (i.e. Null); 97 Residual
Null Deviance: 499.2
Residual Deviance: 123 AIC: 272.2
Coefficients:
(Intercept) x fT x:fT
-18.52332 1.85251 -0.06376 0.21634
!
Degrees of Freedom: 99 Total (i.e. Null); 96 Residual
Null Deviance: 499.2
Residual Deviance: 122.4 AIC: 273.6
あり
なし
9
交互作用項のあり・なし
ありなし
T
C C
T
T logit(qi)=--17.5 + 1.95 x
C logit(qi)=-19.5 + 1.95 x C logit(qi)=-18.5 + 1.85 x
T logit(qi)=-18.6 + 2.07 x
10
交互作用項 β4 の値の比較
β4 (推定値)
T
C C
T
C logit(qi)=-18.5 + 1.85 x
T logit(qi)=-18.6 + 2.28 x
β4 (推定値) 2
C logit(qi)=-18.5 + 1.85 x
T logit(qi)=-18.6 + 2.07 x
交互作用項はむやみにいれない
- 変数増える→交互作用項の数増える→組み合せ爆発!
AIC の値が大きくなったとき
- 交互作用項を多数含んだ統計モデルのAICが最良
- ? 交互作用の効果を過大推定していないか?
- ? 「個体差」「場所差」が大きく影響してないか?
7章以降の個体差・場所差を考慮したGLMを使う
11
交互作用項の使いかた
6章 GLMの応用範囲 後半
12
章 適用例 確率分布 リンク関数 ポイント
前半 生存確率の予測 二項分布 logit
6.5 生存確率の予測 二項分布 logit 交互作用項
6.6 人口密度の予測 ポアソン 対数リンク オフセット
6.7 連続値データ 正規分布 ̶̶
連続値の
最尤推定
6.8
確率変数が

0以上の連続値
ガンマ分布 対数リンク GLMすごい
6.9 ま  と  め
13
観測値に対してやりがちなこと
割り算
変数変換
異なる
観測値の平均
14
観測値に対してやりがちなこと
割り算
変数変換
異なる
観測値の平均
なぜだめなのか
情報が失われる
- 例 野球の打率 3割打者
- 1000打数 300 安打
- 10打数 3安打
変換された値の分布… ?
- 分子/分母にそれぞれ誤差が入った数量どうしを割り算
したとしてその確率分布は… ? ?
15
割り算が使われがちな場面
人口密度を求めたいとき
16
平均個体数 λi
面積 Ai
人口密度
例: 植物の人口密度
データ
!
!
!
目的
- 調査地 i における植物個体数の人口密度 が

明るさ xi にどう影響されているか?
17
面積 A
個体数y
明るさ
x
offset 項
18
×人口密度 =
平均個体数
面積
人口密度 =
平均個体数は、
人口密度が正 → exp
明るさxiに依存 → βxi
人口密度
人口密度は、
offset 項
19
exp でまとめて
オフセット項
×人口密度 =
平均個体数は、
係数βがつかない項
線形予測子は、
人口密度のGLM
対数リンク関数 + ポアソン分布
線形予測子
20
glm(y ~ x, offset = log(A), family = poisson, data = d)
面積 A
個体数y
明るさ
x
結果
21
glm(y ~ x, offset = log(A), family = poisson, data = d)
面積 A
個体数y
明るさ
x
6章 GLMの応用範囲 後半
22
章 適用例 確率分布 リンク関数 ポイント
前半 生存確率の予測 二項分布 logit
6.5 生存確率の予測 二項分布 logit 交互作用項
6.6 人口密度の予測 ポアソン 対数リンク オフセット
6.7 連続値データ 正規分布 ̶̶
連続値の
最尤推定
6.8
確率変数が

0以上の連続値
ガンマ分布 対数リンク GLMすごい
6.9 ま  と  め
正規分布 (ガウス分布)
連続値データのための確率分布
- 平均値 μ ( )
- 標準偏差(データのばらつき)σ を指定可能
正規分布の確率密度関数
23
正規分布 (Rコード)
24
y <- seq(-5, 5, 0.1)
mfrow(c(1,3))
plot(y, dnorm(y, mean = 0, sd = 1), type =“l”)
plot(y, dnorm(y, mean = 0, sd = 3), type =“l”)
plot(y, dnorm(y, mean = 2, sd = 1), type =“l”)
正規分布の確率
25
> pnorm(1.8, 0, 1) - pnorm(1.2, 0, 1)
[1] 0.07914
!
> dnorm(1.5, 0, 1) * 0.6
[1] 0.07771
確率 = 確率密度関数 Δy
最尤推定
yi が,        である確率は、
26
最尤推定
対数尤度は
!
!
連続分布ではσが小さいとき等に、

対数尤度が正の値になったり、AICや逸脱度が負
の値になる場合がある
27
最小二乗法と最尤推定
最小二乗法ではσ=1としているので、第一項が定数
に
28
最小二乗法と一致
6章 GLMの応用範囲 後半
29
章 適用例 確率分布 リンク関数 ポイント
前半 生存確率の予測 二項分布 logit
6.5 生存確率の予測 二項分布 logit 交互作用項
6.6 人口密度の予測 ポアソン 対数リンク オフセット
6.7 連続値データ 正規分布 ̶̶
連続値の
最尤推定
6.8
確率変数が

0以上の連続値
ガンマ分布 対数リンク GLMすごい
6.9 ま  と  め
ガンマ分布
確率変数が0以上の連続確率分布
- 確率密度関数
30
例 花と葉っぱ
花の重量 yi と葉の重量 xi の関係
- 花の重量 yi が平均 μi のガンマ分布に従うとする
平均花重量μi のモデル
- 葉重量x_i の単調増加関数
31
線形予測子
平均花重量
!
右辺で、A=exp(a) として
!
対数をとって
32
ガンマ分布のGLM
対数リンク関数 + ガンマ分布
線形予測子
33
glm(y ~ log(x), family = Gamma(link=“log”),data = d)
Coefficients:
(Intercept) log(x)
-1.0403 0.6833
!
Degrees of Freedom: 49 Total (i.e. Null); 48 Residual
Null Deviance: 35.37
Residual Deviance: 17.25 AIC: -110.9
6章 GLMの応用範囲 後半
34
章 適用例 確率分布 リンク関数 ポイント
前半 生存確率の予測 二項分布 logit
6.5 生存確率の予測 二項分布 logit 交互作用項
6.6 人口密度の予測 ポアソン 対数リンク オフセット
6.7 連続値データ 正規分布 ̶̶
連続値の
最尤推定
6.8
確率変数が

0以上の連続値
ガンマ分布 対数リンク GLMすごい
6.9 ま  と  め
6章 GLMの応用範囲 後半
35
章 適用例 確率分布 リンク関数 ポイント
前半 生存確率の予測 二項分布 logit
6.5 生存確率の予測 二項分布 logit 交互作用項
6.6 人口密度の予測 ポアソン 対数リンク オフセット
6.7 連続値データ 正規分布 ̶̶
連続値の
最尤推定
6.8
確率変数が

0以上の連続値
ガンマ分布 対数リンク GLMすごい
6.9 ↑ この表 ↑
おわり。

Weitere ähnliche Inhalte

Was ist angesagt?

PRML輪読#12
PRML輪読#12PRML輪読#12
PRML輪読#12matsuolab
 
20180118 一般化線形モデル(glm)
20180118 一般化線形モデル(glm)20180118 一般化線形モデル(glm)
20180118 一般化線形モデル(glm)Masakazu Shinoda
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明Haruka Ozaki
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)Takao Yamanaka
 
パターン認識 04 混合正規分布
パターン認識 04 混合正規分布パターン認識 04 混合正規分布
パターン認識 04 混合正規分布sleipnir002
 
制限ボルツマンマシン入門
制限ボルツマンマシン入門制限ボルツマンマシン入門
制限ボルツマンマシン入門佑馬 斎藤
 
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process ModelsDeep Learning JP
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説弘毅 露崎
 
スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)Hidetoshi Matsui
 
MLaPP 9章 「一般化線形モデルと指数型分布族」
MLaPP 9章 「一般化線形モデルと指数型分布族」MLaPP 9章 「一般化線形モデルと指数型分布族」
MLaPP 9章 「一般化線形モデルと指数型分布族」moterech
 
マルコフ連鎖モンテカルロ法入門-1
マルコフ連鎖モンテカルロ法入門-1マルコフ連鎖モンテカルロ法入門-1
マルコフ連鎖モンテカルロ法入門-1Nagi Teramo
 
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)Yoshitake Takebayashi
 
あなたの心にBridgeSampling
あなたの心にBridgeSamplingあなたの心にBridgeSampling
あなたの心にBridgeSamplingdaiki hojo
 
頻度論とベイズ論と誤差最小化について
頻度論とベイズ論と誤差最小化について頻度論とベイズ論と誤差最小化について
頻度論とベイズ論と誤差最小化についてShohei Miyashita
 
MCMCでマルチレベルモデル
MCMCでマルチレベルモデルMCMCでマルチレベルモデル
MCMCでマルチレベルモデルHiroshi Shimizu
 
馬に蹴られるモデリング
馬に蹴られるモデリング馬に蹴られるモデリング
馬に蹴られるモデリングShushi Namba
 

Was ist angesagt? (20)

PRML輪読#12
PRML輪読#12PRML輪読#12
PRML輪読#12
 
20180118 一般化線形モデル(glm)
20180118 一般化線形モデル(glm)20180118 一般化線形モデル(glm)
20180118 一般化線形モデル(glm)
 
階層ベイズとWAIC
階層ベイズとWAIC階層ベイズとWAIC
階層ベイズとWAIC
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
パターン認識 04 混合正規分布
パターン認識 04 混合正規分布パターン認識 04 混合正規分布
パターン認識 04 混合正規分布
 
制限ボルツマンマシン入門
制限ボルツマンマシン入門制限ボルツマンマシン入門
制限ボルツマンマシン入門
 
Chapter11.2
Chapter11.2Chapter11.2
Chapter11.2
 
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
 
スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)
 
MLaPP 9章 「一般化線形モデルと指数型分布族」
MLaPP 9章 「一般化線形モデルと指数型分布族」MLaPP 9章 「一般化線形モデルと指数型分布族」
MLaPP 9章 「一般化線形モデルと指数型分布族」
 
マルコフ連鎖モンテカルロ法入門-1
マルコフ連鎖モンテカルロ法入門-1マルコフ連鎖モンテカルロ法入門-1
マルコフ連鎖モンテカルロ法入門-1
 
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM) 一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
 
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
 
Prml 10 1
Prml 10 1Prml 10 1
Prml 10 1
 
あなたの心にBridgeSampling
あなたの心にBridgeSamplingあなたの心にBridgeSampling
あなたの心にBridgeSampling
 
頻度論とベイズ論と誤差最小化について
頻度論とベイズ論と誤差最小化について頻度論とベイズ論と誤差最小化について
頻度論とベイズ論と誤差最小化について
 
MCMCでマルチレベルモデル
MCMCでマルチレベルモデルMCMCでマルチレベルモデル
MCMCでマルチレベルモデル
 
馬に蹴られるモデリング
馬に蹴られるモデリング馬に蹴られるモデリング
馬に蹴られるモデリング
 

データ解析のための統計モデリング入門 6.5章 後半