Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
重回帰分析入門
株式会社オルトメディコ 市川周平
目次
 重回帰分析とは
 二値データを用いた重回帰
 二値データとの交互作用項を持つ重回帰
 引用文献・推奨文献
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会2
目次
 重回帰分析とは
 二値データを用いた重回帰
 二値データとの交互作用項を持つ重回帰
 引用文献・推奨文献
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会3
重回帰分析 (Multiple Regression) とは
 複数の変数と1つのアウトカムの関係性を評価する
統計手法
※ 用語の統一
 複数の変数
説明変数 (explanatory variable)
独立変数 (independen...
関係性の評価
 相関係数
 2変数間の類似性の度合いを表す
 因果関係は表現できない
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会5
r = 0.190
関係性の評価
 単回帰分析
 独立変数が従属変数をどの程度説明できるか、定量的に評
価
 因果関係の存在を仮定し、その妥当性を検証
 重回帰分析
 単回帰分析の独立変数側が複数になったもの
2013/7/27 於 東京医科歯科大学 心...
(重) 回帰分析を何のために使う?
 質問
太郎さんは、結婚資金500万円を貯めるため、毎月、一定の
金額を貯金しています。
 2012年1月の貯金残高は100万円でした。
 2013年1月の貯金残高は220万円でした。
Q1. 太郎さん...
数学的なお話
 単回帰分析
Y = β0 + β1X1 + ε
 重回帰分析
Y = β0 + β1X1 + β2X2 + … + βnXn + ε
cf. 2way ANOVAの概念モデル
Y = f1(X1) + f2(X2) + f1...
結果の読み方
 独立変数の影響力
 モデルの説明力
例) 独立変数を10個投入し、うち1つがぎりぎり有意でし
た。
このモデルは妥当でしょうか?
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計...
結果の読み方
 独立変数の影響力
 偏回帰係数 (b)
ӧ 独立変数にかけられる重み
ӧ 独立変数が、従属変数に対してどの程度影響を与え
ているかを表す
 標準偏回帰係数 (β)
ӧ SD=1にそろえて標準化した偏回帰係数
ӧ 偏回帰係数...
結果の読み方
 モデルの説明力
 重決定係数 (R2)
ӧ 回帰分析の精度、あるいは回帰式の当てはまりの具
合を表す
 自由度調整済み重決定係数 (adjusted R2)
ӧ モデル分析の精度は、N数が大きければ大きいほど
高くなる
Q...
Rで実践!
 参考 : Fox (1997)
 dataset : Davis
 carライブラリに収載
 習慣的に運動をしている男女の身体測定及びその自己
申告
ӧ sex 性別 (F: female, M: male)
ӧ weig...
Rで実践!
 参考 : Fox (1997)
 dataset : Davis
 carライブラリに収載
 習慣的に運動をしている男女の身体測定及びその自己
申告
ӧ sex 性別 (F: female, M: male)
ӧ weig...
Rで実践!
 手順
1. carパッケージをインストールする
> install.packages(“car”)
2. carライブラリを使えるようにする
> library(car)
3. Davisデータセットを使えるようにする
> da...
結果
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会15
残差
係数
モデルの説明力
glm関数でも似たようなことができる
 手順
1. GLM <- lm(repwt ~ weight + height, data = Davis)
2. summary(GLM)
2013/7/27 於 東京医科歯科大学 心理・医学系研究者...
重回帰分析の前提
 正規性
 独立変数がどのような値をとっても、従属変数は正規分
布する
 等分散性
 独立変数がどのような値をとっても、従属変数の分散は
異ならない
 独立性
 独立変数と従属変数は独立している
 直線性
 独...
多重共線性
 多重共線性
 独立変数間の強い相関のこと
 βの値が歪む
ӧ βが過小評価 / 過大評価される
 多重共線性の指標 : VIF (Variance Inflation
Factors)
 VIF > 10 なら多重共線性...
VIFの確認
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会19
VIFが10未満
目次
 重回帰分析とは
 二値データを用いた重回帰
 二値データとの交互作用項を持つ重回帰
 引用文献・推奨文献
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会20
二値データとは
 カテゴリカルデータの一種
 2種類の値のうち、いずれか一方のみをとる
 性別 : 男性, 女性
 コイントスの結果 : 表, 裏
 二肢法への回答 : はい, いいえ
 患者と診断されたか : 患者, 健常者
 ...
どうして二値データを使うの?
 従属変数をよりよく説明するため
=モデルの説明力を上げるため
 交絡要因を炙り出し、結果にかかるバイアスを
解消するため
⇐ Simpson's Paradox
2013/7/27 於 東京医科歯科大学 心理...
Simpson’s Paradox
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会23
Fox J (2008)
男女それぞれの
回帰直線は右上がり
男女を合わせた回帰直
線は右下がり
二値データを用いた重回帰分析?
 直観的には……
 独立変数側が離散データになるのであれば、ANOVAを
適応するべきでは?
!! ANOVA familyと線形回帰は、General Linear
Modelで統合された
2013/7/2...
(重) 回帰分析で二値データを扱うために
1. カテゴリカルデータをダミー変数にコードする
 男性: 1, 女性: 0
 患者: 1, 健常者: 0
 介入群: 1, コントロール: 0
2. ダミー変数を独立変数に投入し、(重) 回帰分...
Rで実践!
 参考 : Fox (1997)
 dataset : Davis
 carライブラリに収載
 習慣的に運動をしている男女の身体測定及びその自己
申告
ӧ sex 性別 (F: female, M: male)
ӧ weig...
Rで実践!
 手順
1. パッケージ・ライブラリ・データセットの準備
※ 省略
2. sexをダミーデータに変換する
> male <- ifelse(Davis$sex == “M”, 1, 0)
3. 回帰を行う
> MR2 <- lm(...
結果
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会28
ダミー変数を作らなくても……
 統計パッケージの場合、カテゴリーデータを作成し
なくても、解析してくれることが多い
⇒ ソフトのクセに合わせて選択すれば良い
 plot(effect())は、ダミー変数を自作すると上手く動
かない、ような気...
ダミー変数を作らずにやってみよう
 手順
1. パッケージ・ライブラリ・データセットの準備
※ 省略
2. 回帰を行う
> MR3 <- lm(repwt ~ sex + weight, data = Davis)
3. 結果を出力する
> ...
結果:ダミー変数不使用
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会31
グラフ:ダミー変数不使用
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会32
結果を比較してみる
 ダミー不使用 (sex) とダミー使用 (male) の結果は
等しい
 単回帰と比較すると、R2が0.08ほど上昇
 単回帰と比較すると、Weightの係数が低下
2013/7/27 於 東京医科歯科大学 心理・医...
数学的なお話
 重回帰分析
Y = β0 + β1X1 + γDi + εi
 D=0のとき
Y = β0 + β1X1 + εi
 D=1のとき
Y = (β0 + γ) + β1X1 + εi
 注意
 二値変数は分散に意味がない...
repwt(kg)
weight
D=1 D=0
数学的なお話
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会35
1
β1
γ
1
β1
β0 + γ
β0
目次
 重回帰分析とは
 二値データを用いた重回帰
 二値データとの交互作用項を持つ重回帰
 引用文献・推奨文献
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会36
交互作用とは
 交互作用なし (Additive)
 交互作用あり (Multiplicative)
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会37
30
40
50
60
70
8...
Rでの表現形
 主効果 (Additive)
 A + B + ... + N
 交互作用 (Multiplicative)
 A + B + A*B + ...
 A:B (結果での表記など)
2013/7/27 於 東京医科歯科大...
Rで実践!
 参考 : Fox (1997)
 dataset : Davis
 carライブラリに収載
 習慣的に運動をしている男女の身体測定及びその自己
申告
ӧ sex 性別 (F: female, M: male)
ӧ weig...
Rで実践!
 手順
1. パッケージ・ライブラリ・データセットの準備
※ 省略
2. 回帰を行う
> MR4 <- lm(repwt ~ sex + weight + sex*weight,
data = Davis)
3. 結果を出力する
...
結果:二値データを含む交互作用
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会41
グラフ:二値データを含む交互作用項
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会42
結果を比較してみる
 ダミーなしとダミーありの結果は等しい
 単回帰と比較すると、R2が0.08ほど上昇
 単回帰と比較すると、Weightの係数が低下
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境R...
数学的なお話
 重回帰分析
Y = β0 + βiXi + γDi + δ(XiDi) + εi
 D=0のとき
Y = β0 + β1X1 + εi
 D=1のとき
Y = (β0 + γ) + (β1 + δ)X1 + εi
2013...
repwt(kg)
weight
D=1 D=0
数学的なお話
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会45
1
β1+δ
1
β1
β0 + γ
β0
3水準以上のカテゴリーデータについて
 (水準数-1) 個のダミーデータを作成
 何故、(水準数) 個のダミーデータを作らない?
 Baseline : Y = β0 + β1X1 + εi
 Additive : Y = (β0 + ...
連続データ同士の交互作用
 独立変数X1と、その交互作用X1*X2とは、相関が高
くなりやすい
⇒ 多重共線性が生じやすい
 dataset : Davis
 sex 性別 (F: female, M: male)
 weight 計測...
連続データ同士の交互作用
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会48
r = 0.745
結果:連続変数同士の交互作用
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会49
多重共線性が
発生
連続データ同士の交互作用
 高い確率で多重共線性が生じるため、注意が必要
 多重共線性回避のための手段
 中心化 ←最近では否定されつつある
 変数を絞る ←モデルやプロトコルとの相談
2013/7/27 於 東京医科歯科大学 心理・医...
目次
 重回帰分析とは
 二値データを用いた重回帰
 二値データとの交互作用項を持つ重回帰
 引用文献・推奨文献
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会51
今回使ったパッケージ
 car
 データセットDavis
 DAAG
 多重共線性の検証
 関数 : vif
 effects
 交互作用データのプロット
 plot(effect(...))
2013/7/27 於 東京医科歯...
注意点
 Davisは欠損値や外れ値、入力ミスを含む
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会53
引用文献・参考文献
 Dalal DK and Zickar MJ : Some common myths about
centering predictor variables in moderated multiple
regressio...
参考図書
 Fox J : Dummy-variable Regression. in Fox J : Applied
regression analysis and generalized models. Willey,
2008.
 K...
参考図書
 大橋靖雄 2013 : わかりやすい医学統計の報告
- 医学論文作成のためのガイドライン (第2版)
 安藤正人 2011 : マルチレベル分析入門
 General LM (ANOVA, MR, et al)
⇒ Gener...
FIN
2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会
Nächste SlideShare
Wird geladen in …5
×

03 「重回帰分析」の入門

24.319 Aufrufe

Veröffentlicht am

2013/07/27 心理・医学系研究者のためのデータ解析環境Rによる統計学の研究会  第11回 重回帰分析 にて発表した内容です。

Veröffentlicht in: Technologie
  • Als Erste(r) kommentieren

03 「重回帰分析」の入門

  1. 1. 重回帰分析入門 株式会社オルトメディコ 市川周平
  2. 2. 目次  重回帰分析とは  二値データを用いた重回帰  二値データとの交互作用項を持つ重回帰  引用文献・推奨文献 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会2
  3. 3. 目次  重回帰分析とは  二値データを用いた重回帰  二値データとの交互作用項を持つ重回帰  引用文献・推奨文献 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会3
  4. 4. 重回帰分析 (Multiple Regression) とは  複数の変数と1つのアウトカムの関係性を評価する 統計手法 ※ 用語の統一  複数の変数 説明変数 (explanatory variable) 独立変数 (independent variable) Regressor  1つのアウトカム 基準変数 (criterion variable) 従属変数 (dependent variable) アウトカム (outcome) 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会4
  5. 5. 関係性の評価  相関係数  2変数間の類似性の度合いを表す  因果関係は表現できない 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会5 r = 0.190
  6. 6. 関係性の評価  単回帰分析  独立変数が従属変数をどの程度説明できるか、定量的に評 価  因果関係の存在を仮定し、その妥当性を検証  重回帰分析  単回帰分析の独立変数側が複数になったもの 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会6 残差 (residual) 最小二乗法 残差の二乗和が最小に なるように回帰曲線を設定 回帰直線 (regression line)
  7. 7. (重) 回帰分析を何のために使う?  質問 太郎さんは、結婚資金500万円を貯めるため、毎月、一定の 金額を貯金しています。  2012年1月の貯金残高は100万円でした。  2013年1月の貯金残高は220万円でした。 Q1. 太郎さんは毎月いくら貯金していますか? ⇒法則性の検証、現象の説明 (explanation) Q2. 太郎さんが結婚資金を準備できるのはいつだと予測さ れますか? ⇒予測 (prediction) 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会7
  8. 8. 数学的なお話  単回帰分析 Y = β0 + β1X1 + ε  重回帰分析 Y = β0 + β1X1 + β2X2 + … + βnXn + ε cf. 2way ANOVAの概念モデル Y = f1(X1) + f2(X2) + f1*2(X1*X2) + E !! ANOVA familyと線形回帰は、General Linear Modelで 統合された ※ Generalized Linear Modelは別物なので注意 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会8 Y : 従属変数 Xk : 独立変数 β0 : 切片 βk : 係数 ε : 残差 Y : 従属変数 Xk : 独立変数 fk : 要因関数(効果) E : 誤差
  9. 9. 結果の読み方  独立変数の影響力  モデルの説明力 例) 独立変数を10個投入し、うち1つがぎりぎり有意でし た。 このモデルは妥当でしょうか? 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会9
  10. 10. 結果の読み方  独立変数の影響力  偏回帰係数 (b) ӧ 独立変数にかけられる重み ӧ 独立変数が、従属変数に対してどの程度影響を与え ているかを表す  標準偏回帰係数 (β) ӧ SD=1にそろえて標準化した偏回帰係数 ӧ 偏回帰係数は独立変数の平均値に依存する=単位 変換の影響を受ける 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会10
  11. 11. 結果の読み方  モデルの説明力  重決定係数 (R2) ӧ 回帰分析の精度、あるいは回帰式の当てはまりの具 合を表す  自由度調整済み重決定係数 (adjusted R2) ӧ モデル分析の精度は、N数が大きければ大きいほど 高くなる Q. N=10のデータのR2とN=100のデータのR2を同じに扱 えるか? ⇒ N数を調整した決定係数を用いる 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会11
  12. 12. Rで実践!  参考 : Fox (1997)  dataset : Davis  carライブラリに収載  習慣的に運動をしている男女の身体測定及びその自己 申告 ӧ sex 性別 (F: female, M: male) ӧ weight 計測された体重 (kg) ӧ height 計測された身長 (cm) ӧ repwt 自己申告された体重 (kg) ӧ repht 自己申告された身長 (cm) 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会12
  13. 13. Rで実践!  参考 : Fox (1997)  dataset : Davis  carライブラリに収載  習慣的に運動をしている男女の身体測定及びその自己 申告 ӧ sex 性別 (F: female, M: male) ӧ weight 計測された体重 (kg) ӧ height 計測された身長 (cm) ӧ repwt 自己申告された体重 (kg) ӧ repht 自己申告された身長 (cm) 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会13 独立変数 従属変数
  14. 14. Rで実践!  手順 1. carパッケージをインストールする > install.packages(“car”) 2. carライブラリを使えるようにする > library(car) 3. Davisデータセットを使えるようにする > data(Davis) 4. 回帰を行う > MR <- lm(repwt ~ weight + height, data = Davis) 5. 結果を出力する > summary(MR) 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会14
  15. 15. 結果 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会15 残差 係数 モデルの説明力
  16. 16. glm関数でも似たようなことができる  手順 1. GLM <- lm(repwt ~ weight + height, data = Davis) 2. summary(GLM) 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会16 決定係数等が 算出されない 係数は lmと同じ
  17. 17. 重回帰分析の前提  正規性  独立変数がどのような値をとっても、従属変数は正規分 布する  等分散性  独立変数がどのような値をとっても、従属変数の分散は 異ならない  独立性  独立変数と従属変数は独立している  直線性  独立変数の変化に対し、従属変数は直線的に増加する 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会17
  18. 18. 多重共線性  多重共線性  独立変数間の強い相関のこと  βの値が歪む ӧ βが過小評価 / 過大評価される  多重共線性の指標 : VIF (Variance Inflation Factors)  VIF > 10 なら多重共線性が起きている  DAAGパッケージのvif関数を用いる ӧ > MR <- lm(repwt ~ weight + height, data = Davis) ӧ > summary(MR) ӧ > vif(MR) 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会18
  19. 19. VIFの確認 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会19 VIFが10未満
  20. 20. 目次  重回帰分析とは  二値データを用いた重回帰  二値データとの交互作用項を持つ重回帰  引用文献・推奨文献 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会20
  21. 21. 二値データとは  カテゴリカルデータの一種  2種類の値のうち、いずれか一方のみをとる  性別 : 男性, 女性  コイントスの結果 : 表, 裏  二肢法への回答 : はい, いいえ  患者と診断されたか : 患者, 健常者  介入を受けたか : 介入群, コントロール 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会21
  22. 22. どうして二値データを使うの?  従属変数をよりよく説明するため =モデルの説明力を上げるため  交絡要因を炙り出し、結果にかかるバイアスを 解消するため ⇐ Simpson's Paradox 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会22
  23. 23. Simpson’s Paradox 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会23 Fox J (2008) 男女それぞれの 回帰直線は右上がり 男女を合わせた回帰直 線は右下がり
  24. 24. 二値データを用いた重回帰分析?  直観的には……  独立変数側が離散データになるのであれば、ANOVAを 適応するべきでは? !! ANOVA familyと線形回帰は、General Linear Modelで統合された 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会24 重回帰分析でも、二値データや離散データを 独立変数とすることができる
  25. 25. (重) 回帰分析で二値データを扱うために 1. カテゴリカルデータをダミー変数にコードする  男性: 1, 女性: 0  患者: 1, 健常者: 0  介入群: 1, コントロール: 0 2. ダミー変数を独立変数に投入し、(重) 回帰分析を 実施する 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会25
  26. 26. Rで実践!  参考 : Fox (1997)  dataset : Davis  carライブラリに収載  習慣的に運動をしている男女の身体測定及びその自己 申告 ӧ sex 性別 (F: female, M: male) ӧ weight 計測された体重 (kg) ӧ height 計測された身長 (cm) ӧ repwt 自己申告された体重 (kg) ӧ repht 自己申告された身長 (cm) 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会26 独立変数 従属変数
  27. 27. Rで実践!  手順 1. パッケージ・ライブラリ・データセットの準備 ※ 省略 2. sexをダミーデータに変換する > male <- ifelse(Davis$sex == “M”, 1, 0) 3. 回帰を行う > MR2 <- lm(repwt ~ male + weight, data = Davis) 4. 結果を出力する > summary(MR2) 5. プロットする > plot(effect(“weight:male”, MR2, xlevels = list(weight=40:120),multiline = TRUE, ylab = “repwt(kg)”, rug = FALSE)) 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会27 この方法だと、プロットに失敗する
  28. 28. 結果 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会28
  29. 29. ダミー変数を作らなくても……  統計パッケージの場合、カテゴリーデータを作成し なくても、解析してくれることが多い ⇒ ソフトのクセに合わせて選択すれば良い  plot(effect())は、ダミー変数を自作すると上手く動 かない、ような気がする 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会29
  30. 30. ダミー変数を作らずにやってみよう  手順 1. パッケージ・ライブラリ・データセットの準備 ※ 省略 2. 回帰を行う > MR3 <- lm(repwt ~ sex + weight, data = Davis) 3. 結果を出力する > summary(MR3) 4. プロットする > plot(effect(“weight:sex”, MR3, xlevels = list(weight=40:120),multiline = TRUE, ylab = “repwt(kg)”, rug = FALSE)) 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会30
  31. 31. 結果:ダミー変数不使用 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会31
  32. 32. グラフ:ダミー変数不使用 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会32
  33. 33. 結果を比較してみる  ダミー不使用 (sex) とダミー使用 (male) の結果は 等しい  単回帰と比較すると、R2が0.08ほど上昇  単回帰と比較すると、Weightの係数が低下 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会33 male sex 単回帰 β_Intercept 23.520 23.520 15.759 β_weight 0.570 0.570 0.753 β_sex 9.751 9.751 R2 0.782 0.782 0.698
  34. 34. 数学的なお話  重回帰分析 Y = β0 + β1X1 + γDi + εi  D=0のとき Y = β0 + β1X1 + εi  D=1のとき Y = (β0 + γ) + β1X1 + εi  注意  二値変数は分散に意味がないため、標準化偏回帰係数 が解釈不能 → 偏回帰係数を用いましょう 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会34 Y : 従属変数 Xk : 独立変数 β0 : 切片 βk : 係数 Di : ダミー変数 γ : ダミー変数の係数 ε : 残差
  35. 35. repwt(kg) weight D=1 D=0 数学的なお話 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会35 1 β1 γ 1 β1 β0 + γ β0
  36. 36. 目次  重回帰分析とは  二値データを用いた重回帰  二値データとの交互作用項を持つ重回帰  引用文献・推奨文献 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会36
  37. 37. 交互作用とは  交互作用なし (Additive)  交互作用あり (Multiplicative) 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会37 30 40 50 60 70 80 90 100 repwt(kg) weight D=1 D=0 30 40 50 60 70 80 90 100 repwt(kg) weight D=1 D=0 30 40 50 60 70 80 90 100 repwt(kg) weight D=1 D=0 2本のグラフが 平行 2本のグラフが 平行ではない
  38. 38. Rでの表現形  主効果 (Additive)  A + B + ... + N  交互作用 (Multiplicative)  A + B + A*B + ...  A:B (結果での表記など) 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会38
  39. 39. Rで実践!  参考 : Fox (1997)  dataset : Davis  carライブラリに収載  習慣的に運動をしている男女の身体測定及びその自己 申告 ӧ sex 性別 (F: female, M: male) ӧ weight 計測された体重 (kg) ӧ height 計測された身長 (cm) ӧ repwt 自己申告された体重 (kg) ӧ repht 自己申告された身長 (cm) 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会39 独立変数 従属変数
  40. 40. Rで実践!  手順 1. パッケージ・ライブラリ・データセットの準備 ※ 省略 2. 回帰を行う > MR4 <- lm(repwt ~ sex + weight + sex*weight, data = Davis) 3. 結果を出力する > summary(MR4) 4. プロットする > plot(effect(“weight:sex”, MR4, xlevels = list(weight=40:120),multiline = TRUE, ylab = “repwt(kg)”, rug = FALSE)) 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会40
  41. 41. 結果:二値データを含む交互作用 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会41
  42. 42. グラフ:二値データを含む交互作用項 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会42
  43. 43. 結果を比較してみる  ダミーなしとダミーありの結果は等しい  単回帰と比較すると、R2が0.08ほど上昇  単回帰と比較すると、Weightの係数が低下 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会43 Interaction Additive 単回帰 β_Intercept 41.323 23.520 15.759 β_weight 0.264 0.570 0.753 β_sex -39.964 9.751 β_sex*weight 0.725 R2 0.887 0.782 0.698
  44. 44. 数学的なお話  重回帰分析 Y = β0 + βiXi + γDi + δ(XiDi) + εi  D=0のとき Y = β0 + β1X1 + εi  D=1のとき Y = (β0 + γ) + (β1 + δ)X1 + εi 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会44 Y : 従属変数 Xk : 独立変数 β0 : 切片 βk : 係数 Di : ダミー変数 γ : ダミー変数の係数 δ : 交互作用項の係数 ε : 残差
  45. 45. repwt(kg) weight D=1 D=0 数学的なお話 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会45 1 β1+δ 1 β1 β0 + γ β0
  46. 46. 3水準以上のカテゴリーデータについて  (水準数-1) 個のダミーデータを作成  何故、(水準数) 個のダミーデータを作らない?  Baseline : Y = β0 + β1X1 + εi  Additive : Y = (β0 + γ) + β1X1 + εi  Multiplicative : Y = (β0 + γ) + (β1 + δ)X1 + εi 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会46 カテゴリー D1 D2 Intervention 1 0 Positive Control 0 1 Negative Control 0 0
  47. 47. 連続データ同士の交互作用  独立変数X1と、その交互作用X1*X2とは、相関が高 くなりやすい ⇒ 多重共線性が生じやすい  dataset : Davis  sex 性別 (F: female, M: male)  weight 計測された体重 (kg)  height 計測された身長 (cm)  repwt 自己申告された体重 (kg)  repht 自己申告された身長 (cm) 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会47 独立変数 従属変数
  48. 48. 連続データ同士の交互作用 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会48 r = 0.745
  49. 49. 結果:連続変数同士の交互作用 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会49 多重共線性が 発生
  50. 50. 連続データ同士の交互作用  高い確率で多重共線性が生じるため、注意が必要  多重共線性回避のための手段  中心化 ←最近では否定されつつある  変数を絞る ←モデルやプロトコルとの相談 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会50
  51. 51. 目次  重回帰分析とは  二値データを用いた重回帰  二値データとの交互作用項を持つ重回帰  引用文献・推奨文献 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会51
  52. 52. 今回使ったパッケージ  car  データセットDavis  DAAG  多重共線性の検証  関数 : vif  effects  交互作用データのプロット  plot(effect(...)) 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会52
  53. 53. 注意点  Davisは欠損値や外れ値、入力ミスを含む 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会53
  54. 54. 引用文献・参考文献  Dalal DK and Zickar MJ : Some common myths about centering predictor variables in moderated multiple regression and polynomial regression. Organiz Res Methods 2012 ; 15 : 339-362.  Fox J : Effect Displays in R for Generalised Linear Models. J Stat Soft 2003 ; 8 : 1-18.  Gromping U : Relative importance fro linear regression in R : The package relaimpo. J Stat Soft 2006 ; 17 : 1- 27 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会54
  55. 55. 参考図書  Fox J : Dummy-variable Regression. in Fox J : Applied regression analysis and generalized models. Willey, 2008.  Kelley K and Maxwell S E. Multiple regression. in G. R. Hancock & R. O. Mueller (Eds.), The reviewer's guide to quantitative methods in the social sciences (pp. 281- 298). New York: Routledge.  Concato J, Feinstein AR, Holford TR : Predicting values from one or more variable. in Lang TA, Secic M (Eds.), How to Report Statistics in Medicine. 85-101, ACP Press 2006. 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会55
  56. 56. 参考図書  大橋靖雄 2013 : わかりやすい医学統計の報告 - 医学論文作成のためのガイドライン (第2版)  安藤正人 2011 : マルチレベル分析入門  General LM (ANOVA, MR, et al) ⇒ Generalized LM ⇒ Generalized LMM  より高次の解析法への橋渡しとして  舟尾暢男 2009 : The R Tips 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会56
  57. 57. FIN 2013/7/27 於 東京医科歯科大学 心理・医学系研究者のためのデータ解析環境Rによる統計研究会

×