SlideShare ist ein Scribd-Unternehmen logo
1 von 38
Downloaden Sie, um offline zu lesen
第7章
一般化線形混合モデル(GLMM)
「データ解析のための統計モデリング入門」読書会
所沢義男
• ところさわよしお
• twitter:やってません
• Facebook:やってません
• Yo:DAISUKEI
今日これだけは覚える
•  擬似反復があるならランダム効果を考慮
•  その時、GLMは一般化線形混合モデル
(GLMM)になる
•  GLMMは計算が面倒
これまでとこれから
http://hosho.ees.hokudai.ac.jp/~kubo/ce/IwanamiBook.html
本題へ
7.1 例題の説明
•  架空植物の各個体から8個の種子をとって
くる
•  生存種子数は葉数とともにどのように増
大するか
•  個体数は100
•  データは本書のサポートサイトから入手
–  以下の条件のもと発生させたデータ(おそらく)
•  結実確率→傾き1 切片-4(+ランダム効果)のロジ
スティックモデル
•  ランダム効果→平均0標準偏差3の正規分布
図にするとこうなる
死  
死  
架空植物  
×100  
関係が  
気になる  
葉の数 生存種子数
元のデータ及び真の曲線
葉の数
生
存
種
子
数
GLMでモデリングしてみる
種子の生存確率
葉の数
GLMでモデリングしてみる
> d <- read.csv("http://hosho.ees.hokudai.ac.jp/~kubo/stat/iwanamibook/
fig/glmm/data.csv", as.is=TRUE)
> glm(data=d, cbind(y,N-y)~x, family="binomial")
Call: glm(formula = cbind(y, N - y) ~ x, family = "binomial", data = d)
Coefficients:
(Intercept) x
-2.1487 0.5104
Degrees of Freedom: 99 Total (i.e. Null); 98 Residual
Null Deviance: 607.4
Residual Deviance: 513.8 AIC: 649.6
切片:-2.1487
傾き:0.5104
ここで
真の切片:-4
真の傾き:1
GLMうまくいかず
欲しかったもの
現実
葉の数
生
存
種
子
数
全然二項分布じゃない
葉の数4枚の場合の生存種子数と個体数の関係
生存種子数
個
体
数
GLMの
結果から
求めた
二項分布
どうしてこうなった
7.2 過分散と個体差
•  過分散
–  データから得られる分散が平均から推定される分散に比べて大き
すぎる
•  過分散とは統計モデリングしている人間の錯誤
–  観測されていない諸要因を無視するなど過度に単純化した仮定
•  観測されていない諸要因とは
–  生物的な要因(遺伝子、年齢や履歴)→個体差
–  非生物的な局所環境(局所的な栄養塩類量等)→場所差
–  原因不明のまま影響をうまくとりこむ必要がある
図にするとこうなる
自然  
個体差を  
無視  
錯誤  
無知  
傲�慢  過分散  
罠
じゃあどうする
7.3 一般化線形混合モデル
個体差として追加
個体間で独立した正規分布
平均は0
標準偏差はsとして任意に設定
切片にランダム効果を追加→ランダム切片モデル
傾きに追加すれば→ランダム傾きモデル
個体差で生存確率は変わる
生
存
確
率
葉の数
個体差がプラスの時
個体差がマイナスの時
線形予測子の構成要素
固定効果 ランダム効果
なにを固定効果として
なにをランダム効果と
するか?
ちなみにGLMMの色々な呼び名
•  分野によって呼び名が異なる
– 階層線形モデル(HLM)
– マルチレベルモデル
– ランダム効果モデル
– 成長曲線モデル
•  類書や資料を探すときはGLMM以外にも上
記の名前で検索するとよい
ランダム効果を入れるのは
わかったが
どうやって計算する
7.4 一般化線形混合モデルの最尤推定
•  個体差のパラメータを推定するのはナンセンス
–  100個体あれば個体差を100個推定することになる
•  個体差を積分して各個体の尤度を算出
•  各個体の尤度を個体数分掛け合わせて最尤推定する
•  以上の手順は今回のようなシンプルなモデルが限界
–  多くの積分を含む計算は実に面倒
–  本書ではその処方箋としてベイズを用意
図にするとこうなる
二項分布 正規分布
積分して
1個体分の
尤度
100個体分
掛け合わせて
対数化して
最大にする
パラメータを求める
怠惰  
諦念  
計算負荷高い
二項分布 正規分布
積分して
1個体分の
尤度
二項分布 正規分布
積分して
1個体分の
尤度
GLMMのパラメータを推定
> library(glmmML)
> glmmML(data=d, cbind(y, N-y)~x, family = binomial, cluster = id,
method="ghq")
Call: glmmML(formula = cbind(y, N - y) ~ x, family = binomial, data = d,
cluster = id, method = "ghq")
coef se(coef) z Pr(>|z|)
(Intercept) -4.1296 0.9055 -4.561 5.10e-06
x 0.9903 0.2141 4.625 3.75e-06
Scale parameter in mixing distribution: 2.494 gaussian
Std. Error: 0.3093
LR p-value for H_0: sigma = 0: 1.792e-56
Residual deviance: 264.5 on 97 degrees of freedom AIC: 270.5
うまくいっている
真のモデル
GLM(青)
葉の数
生
存
種
子
数
GLMM(赤)
GLMMはどんなときに
必要なのか
7.5 現実のデータ解析にはGLMMが必要
•  今回は過分散でチェックした
•  現実には厳密な実験計画を実施した場合
を除いて、擬似反復という状況になり
GLMMが必要になることが多い
反復と擬似反復
•  個体差等が見えてしまうかどうか
– みえない:反復
– みえる:擬似反復
•  言い換えればそのデータはネストされてい
る(入れ子)か
– ネストあり:擬似反復
•  実験計画とは反復にして個体差、場所差を
考えないで良いようにすること
– 実験計画法の三原則(局所管理化・反復・無作為化)
図にするとこうなる
個体に種子がネスト→個体差がみえる
壱 弐
じゃあこの場合は
学校に個人がネスト
↓
学校差がみえるが固定効果でも良いのでは?
モテ  
モテ  
モテ  
非モテ  
非モテ  
非モテ  
K大学 D大学
固定効果とランダム効果をどう区別するか
•  効果の大きさに興味あるんだろうか?
→Yes なら固定効果
•  その要因の水準ってのが「効果のばらつきの確率分布」
に由来するものだと考えるのは妥当だろうか?
→Yes ならランダム効果
•  要因の水準数が十分多くて分散を推定したいのか?
→No ならその要因は固定効果
•  下記URLに他にも区別する目安が9つ紹介されている
•  http://hosho.ees.hokudai.ac.jp/~kubo/ce/
RandomEffectsCrawley.html
7.6 いろいろな分布のGLMM
•  過分散で個体差をチェックしたが過分散
が定義できない分布の場合はどうするか
– 正規分布やガンマ分布
– 平均と分散が別個に定義される
•  過分散はあくまで一例としてとりあげたの
みであり、擬似反復が本質的に重要
図にするとこうなる
GGLLMMMM  
GGLLMM  
擬似反復の  
データ  
YYeess   NNoo
まとめ
•  擬似反復があるなら個体差を考慮
•  個体差を考慮した場合、GLMは一般化線形
混合モデル(GLMM)になる
•  GLMMは計算が面倒
最後に
参考にした情報(書籍)
•  医学統計のための線型混合モデル G.Verbeke
–  事例が多く解説も丁寧だがSAS
–  絶版
•  一般化線形モデル 粕谷英一
–  第6章に一般化線形混合モデルの解説あり。Rの関連
パッケージの詳しい説明があるので手を動かす時に
一読をおすすめする。
•  一般化線形モデル入門 Annette J.Dobson
–  第11章にクラスターデータおよび経時データへの対
応としてGLMMが紹介されている。数式で簡潔に表現
されておりわかりやすい。
参考にした情報(WEB)
•  Wolfeyes Bioinformatics
–  秀逸な混合分布のアニメーション
–  http://yagays.github.io/blog/2012/11/09/glm-mcmc-chp7-2/
–  GLMMとGLMの比較をシミュレーションで
–  http://yagays.github.io/blog/2012/11/02/glm-mcmc-chp7/
•  MIZUMOTO LABLOG
–  GLMM(ここでは階層線型モデル)についてのわかりやすい資料
あり。また、関連資料がまとまっていてリンク集としても非常
に有用
–  http://mizumot.com/lablog/archives/179
データ解析のための勉強会第7章

Weitere ähnliche Inhalte

Was ist angesagt?

状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38
horihorio
 
MCMCサンプルの使い方 ~見る・決める・探す・発生させる~
MCMCサンプルの使い方 ~見る・決める・探す・発生させる~MCMCサンプルの使い方 ~見る・決める・探す・発生させる~
MCMCサンプルの使い方 ~見る・決める・探す・発生させる~
. .
 
5分でわかるベイズ確率
5分でわかるベイズ確率5分でわかるベイズ確率
5分でわかるベイズ確率
hoxo_m
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門
Miyoshi Yuya
 
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
shima o
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデル
Yohei Sato
 

Was ist angesagt? (20)

傾向スコアの概念とその実践
傾向スコアの概念とその実践傾向スコアの概念とその実践
傾向スコアの概念とその実践
 
心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する
 
状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38
 
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)
 
MCMCサンプルの使い方 ~見る・決める・探す・発生させる~
MCMCサンプルの使い方 ~見る・決める・探す・発生させる~MCMCサンプルの使い方 ~見る・決める・探す・発生させる~
MCMCサンプルの使い方 ~見る・決める・探す・発生させる~
 
負の二項分布について
負の二項分布について負の二項分布について
負の二項分布について
 
階層ベイズとWAIC
階層ベイズとWAIC階層ベイズとWAIC
階層ベイズとWAIC
 
Rで因子分析 商用ソフトで実行できない因子分析のあれこれ
Rで因子分析 商用ソフトで実行できない因子分析のあれこれRで因子分析 商用ソフトで実行できない因子分析のあれこれ
Rで因子分析 商用ソフトで実行できない因子分析のあれこれ
 
5分でわかるベイズ確率
5分でわかるベイズ確率5分でわかるベイズ確率
5分でわかるベイズ確率
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門
 
情報推薦システム入門:講義スライド
情報推薦システム入門:講義スライド情報推薦システム入門:講義スライド
情報推薦システム入門:講義スライド
 
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
 
分割時系列解析(ITS)の入門
分割時系列解析(ITS)の入門分割時系列解析(ITS)の入門
分割時系列解析(ITS)の入門
 
社会心理学とGlmm
社会心理学とGlmm社会心理学とGlmm
社会心理学とGlmm
 
2 3.GLMの基礎
2 3.GLMの基礎2 3.GLMの基礎
2 3.GLMの基礎
 
最適腕識別と多重検定
最適腕識別と多重検定最適腕識別と多重検定
最適腕識別と多重検定
 
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM) 一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデル
 
2 4.devianceと尤度比検定
2 4.devianceと尤度比検定2 4.devianceと尤度比検定
2 4.devianceと尤度比検定
 
計量経済学と 機械学習の交差点入り口 (公開用)
計量経済学と 機械学習の交差点入り口 (公開用)計量経済学と 機械学習の交差点入り口 (公開用)
計量経済学と 機械学習の交差点入り口 (公開用)
 

Mehr von TokorosawaYoshio (10)

R45LT
R45LTR45LT
R45LT
 
JapanR2014
JapanR2014JapanR2014
JapanR2014
 
Tokyor37
Tokyor37Tokyor37
Tokyor37
 
Tokyor44
Tokyor44Tokyor44
Tokyor44
 
TokyoR42_around_chaining
TokyoR42_around_chainingTokyoR42_around_chaining
TokyoR42_around_chaining
 
Rから通知をとばす
Rから通知をとばすRから通知をとばす
Rから通知をとばす
 
2分でパッケージを作ってインストールする
2分でパッケージを作ってインストールする2分でパッケージを作ってインストールする
2分でパッケージを作ってインストールする
 
TokyoR40
TokyoR40TokyoR40
TokyoR40
 
Tokyor36
Tokyor36Tokyor36
Tokyor36
 
TokyoR#31 初心者セッション
TokyoR#31 初心者セッションTokyoR#31 初心者セッション
TokyoR#31 初心者セッション
 

データ解析のための勉強会第7章