傾向スコアマッチと多重補完法の解説 その1

Atsushi Shiraishi
Atsushi ShiraishiChief of Department um Kameda Medical Center
Atsushi Shiraishi, MD
Trauma and Emergency Medical Center,
Tokyo Medical and Dental University
Goals
Propensity score matching (PSM)
どんな研究で、なぜ使うのか?
実際にやってみよう。
Multiple imputation (MI)
欠損値のある対象を除外しちゃだめなの?
実際にやってみよう。
日本臨床リウマチ治療学会総会
日本臨床リウマチ治療学会総会
PICO
ヨクキクマブの効果を後ろ向きに評価した。
関節リウマチの患者が対象
ヨクキクマブの投与有無で患者を二群に分割
投与1週後のCRPを比較した (Student’s t-test)
CRP (mg/dL) P
Yokukikumab (N=41) 6.42
0.044
Control (N=33) 11.18
日本臨床リウマチ治療学会総会
PICO
ヨクキクマブの効果を後ろ向きに評価した。
関節リウマチの患者が対象
ヨクキクマブの投与有無で患者を二群に分割
投与1週後のCRPを比較した (Student’s t-test)
CRP (mg/dL) P
Yokukikumab (N=41) 6.42
0.044
Control (N=33) 11.18
・ 後ろ向き研究で背景因子調整を行わず、共変量
の影響を無視している。
・ 不適切な代用アウトカムを用いている。
・ 治療有無とCRPの二変数の相関関係が因果関
係であると安易にみなしている。
相関 ≠ 因果
相関 ≠ 因果
相関 ≠ 因果
・ ドイツで、コウノトリのつがいの数と出生数が正の
相関関係を示している。
・ コウノトリが増えると出生が増えるという因果関
係?
相関 ≠ 因果
相関 ≠ 因果
・ 世界での海賊行為の数と地球温暖化が負の相関
関係を示している。
・ 海賊は地球温暖化を阻止していたという因果関
係?
人間の経験に基づく曖昧
な因果関係について考え
る代わりに、数学的に厳
密に定義される相関関係
を問うべきだ。
Karl Pearson (1857-1936)
あり
なし
治療
Yokukikumab
データ
データ
転帰
この差を知りたい
年齢
性別
対象患者
重症度
ADL
緊急度
経済状況
治療時期
医療機関
…
未知の因子
あり
なし
データ
データ
転帰
この差を知りたい
だが共変量も
転帰に影響する
治療選択は共変量
に影響される
年齢
性別
対象患者
重症度
ADL
緊急度
経済状況
治療時期
医療機関
…
未知の因子
治療
Yokukikumab
差を知りたい介入以外の介
入が等しくなければ、因果関
係が正しく分からない。
Ronald Fisher (1890-1962)
あり
なし
データ
データ
転帰
この差を知りたい
年齢
性別
対象患者
重症度
ADL
緊急度
経済状況
治療時期
医療機関
…
RCT
R
未知の因子
治療
Yokukikumab
あり
なし
データ
データ
転帰
この差を知りたい
共変量は治療に
影響しないはず
年齢
性別
対象患者
重症度
ADL
緊急度
経済状況
治療時期
医療機関
…
RCT
R
未知の因子
二群間の共変量は
一致している
未知の因子を含め
全ての共変量が調
整されている
治療
Yokukikumab
RCTで因果関係が得られる
のはなぜだろうか?
Rubin’s causal model「xが起きた世界でのy」と「xが
起きなかった世界でのy」の差
分が因果効果である。
因果効果とは独立変数単独の
効果である。
Donald Rubin (b 1943)
Rubin’s causal model
あり データ
転帰
治療
Yokukikumab
Rubin’s causal model
あり データ
介入ありの
場合の転帰
データ
介入なしの
場合の転帰
治療
Yokukikumab
Rubin’s causal model
あり データ
介入ありの
場合の転帰
データ
介入なしの
場合の転帰
この差を介入の因
果効果と定義した
治療
Yokukikumab
高速道路
RQ: 高速道路を使ったら目
的地に早く着けるか?
一般道路
同じ人、同じ車が同時に両方を通れば
因果効果を求めることができる。
Rubin’s causal model
あり データ
介入ありの
場合の転帰
データ
介入なしの
場合の転帰
この差を介入の因
果効果と定義した
治療
Yokukikumab
Rubin’s causal model
あり データ
介入ありの
場合の転帰
欠損値
介入なしの
場合の転帰
この差を介入の因
果効果と定義した
しかし
差が求められない
事実 反事実
治療
Yokukikumab
Rubin’s causal model
あり データ
介入ありの
場合の転帰
欠損値
介入なしの
場合の転帰
実際に求まるのは
上記の差だが…
なし 欠損値 データ
治療
Yokukikumab
Rubin’s causal model
あり データ
介入ありの
場合の転帰
欠損値
介入なしの
場合の転帰
実際に求まるのは
上記の差だが…
介入以外の独立変
数も違う別世界
なし 欠損値 データ
年齢
性別
対象患者
重症度
ADL
緊急度
経済状況
治療時期
医療機関
…
未知の因子
治療選択は共変量
に影響される
治療
Yokukikumab
あり
なし
年齢
性別
対象患者
重症度
ADL
緊急度
経済状況
治療時期
医療機関
…
R
未知の因子
データ
介入ありの
場合の転帰
欠損値
介入なしの
場合の転帰
欠損値 データ
Rubin’s causal model
RCTの場合
治療
Yokukikumab
あり
なし
Yokukikumab
年齢
性別
対象患者
重症度
ADL
緊急度
経済状況
治療時期
医療機関
…
R
未知の因子
サンプルサイズが十分に大きければ、
二群は集団として同一と見なせる。
未知の因子を含め
全ての共変量が調
整されている
データ
介入ありの
場合の転帰
欠損値
介入なしの
場合の転帰
欠損値 データ
Rubin’s causal model
RCTの場合
あり
なし
年齢
性別
対象患者
重症度
ADL
緊急度
経済状況
治療時期
医療機関
…
R
未知の因子
データ
介入ありの
場合の転帰
欠損値
介入なしの
場合の転帰
欠損値 データ
Rubin’s causal model
実際に求まる上記の差が、
同一集団の単一独立変数
の因果効果と見なせる。同一集団と見なせる
RCTの場合
相互に代入可
治療
Yokukikumab
Rubin’s causal model
あり データ
介入ありの
場合の転帰
欠損値
介入なしの
場合の転帰
なし 欠損値 データ
年齢
性別
対象患者
重症度
ADL
緊急度
経済状況
治療時期
医療機関
…
未知の因子
PSMの場合
治療
Yokukikumab
Rubin’s causal model
あり データ
介入ありの
場合の転帰
欠損値
介入なしの
場合の転帰
なし 欠損値 データ
58歳
女性
対象患者
中等症
ADL自立
待機的
健康保険
2014年
大学病院
…
未知の因子
PSMの場合
治療
Yokukikumab
Rubin’s causal model
あり データ
介入ありの
場合の転帰
欠損値
介入なしの
場合の転帰
なし 欠損値 データ
76歳
男性
対象患者
重症
伝い歩き
待機的
無保険
2008年
一般病院
…
未知の因子
PSMの場合
治療
Yokukikumab
Rubin’s causal model
あり データ
介入ありの
場合の転帰
欠損値
介入なしの
場合の転帰
なし 欠損値 データ
76歳
男性
対象患者
重症
伝い歩き
待機的
無保険
2008年
一般病院
…
未知の因子
PSMの場合
この確率を背景因子か
ら計算したものがPS
治療
Yokukikumab
Propensity scoreの計算
単なるロジスティック回帰です。
介入決定以前の背景因子が独立変数
介入の有無が目的変数
pがpropensity score
1例ごとにpropensity scoreが求まる
Propensity scoreとは介入を行う確率
値域は0-1
Propensity score
Frequency
0.0 0.2 0.4 0.6 0.8 1.0
010002000300040005000
Propensity scoreの計算
リウマチ症例
Yokukikumabを投与された
Propensity score
Frequency
0.0 0.2 0.4 0.6 0.8 1.0
010002000300040005000
Propensity scoreの計算
リウマチ症例
Yokukikumabを投与された
Yokukikumabを投与されなかった
あり
なし
年齢
性別
対象患者
重症度
ADL
緊急度
経済状況
治療時期
医療機関
…
P
未知の因子
データ
介入ありの
場合の転帰
欠損値
介入なしの
場合の転帰
欠損値 データ
Rubin’s causal model
PSMの場合
治療
Yokukikumab
あり
なし
年齢
性別
対象患者
重症度
ADL
緊急度
経済状況
治療時期
医療機関
…
P
未知の因子
データ
介入ありの
場合の転帰
欠損値
介入なしの
場合の転帰
欠損値 データ
Rubin’s causal model
PSMの場合
PSが近い値で、介入有
り無しのペアを抽出
治療
Yokukikumab
Propensity score
Frequency
0.0 0.2 0.4 0.6 0.8 1.0
010002000300040005000
Propensity score matching
リウマチ症例
Yokukikumabを投与された
Yokukikumabを投与されなかった
Propensity score
Frequency
0.0 0.2 0.4 0.6 0.8 1.0
010002000300040005000
Propensity score matching
リウマチ症例
Yokukikumabを投与された
Yokukikumabを投与されなかった
PSの近いペア
あり
なし
年齢
性別
対象患者
重症度
ADL
緊急度
経済状況
治療時期
医療機関
…
P
未知の因子
データ
介入ありの
場合の転帰
欠損値
介入なしの
場合の転帰
欠損値 データ
Rubin’s causal model
PSMの場合
マッチされなかった対象
個々のペアごとに同一
サンプルサイズが増えればさらに
既知の共変量は調整
されている。おそら
く未知の共変量も…
治療
Yokukikumab
あり
なし
年齢
性別
対象患者
重症度
ADL
緊急度
経済状況
治療時期
医療機関
…
P
未知の因子
データ
介入ありの
場合の転帰
欠損値
介入なしの
場合の転帰
欠損値 データ
Rubin’s causal model
PSMの場合
マッチされなかった対象
実際に求まる上記の差が、
同一集団の単一独立変数
の因果効果と見なせる。同一集団と見なせる
治療
Yokukikumab
相互に代入可
実際にやってみましょう
• 配布した “PSM1.R”をエディタで開いて下さい
• 中身はRの関数を記述したテキストファイルで
す。
• 丸ごとRのコンソールに貼り付け、リターンを
押して実行して下さい。
• 宜保光一郎先生と吉田和樹先生に感謝!
http://goo.gl/W5wfqR
• “lalonde” datasetを使っています。
• 教育効果(介入)の年収(転帰)に対する因果
関係を調べてみましょう。
• 12変数からなる445例の観察研究です。
– 背景因子 8変数
– 治療 1変数
– 転帰 3変数
• 欠損値の無い完全データです。
実際にやってみましょう
変数表
独立変数 (Propensity scoreの構成変数)
age 年齢
educ 教育年数
black 黒人
hisp ヒスパニック
married 既婚者
nodegr 高校卒業
re74 1974年の年収
re75 1975年の年収
介入 (Propensity scoreの目的変数)
treat 教育プログラムの有無
目的変数
re78 1978年の年収
実際にやってみましょう
Before PSM
Stratified by treat
0 1 p test
n 260 185
age (mean (sd)) 25.05 (7.06) 25.82 (7.16) 0.265
educ (mean (sd)) 10.09 (1.61) 10.35 (2.01) 0.135
black (mean (sd)) 0.83 (0.38) 0.84 (0.36) 0.649
hisp (mean (sd)) 0.11 (0.31) 0.06 (0.24) 0.076
married (mean (sd)) 0.15 (0.36) 0.19 (0.39) 0.327
nodegr (mean (sd)) 0.83 (0.37) 0.71 (0.46) 0.001
re74 (mean (sd)) 2107.03 (5687.91) 2095.57 (4886.62) 0.982
re75 (mean (sd)) 1266.91 (3102.98) 1532.06 (3219.25) 0.382
re78 (mean (sd)) 4554.80 (5483.84) 6349.15 (7867.40) 0.005
u74 (mean (sd)) 0.75 (0.43) 0.71 (0.46) 0.326
u75 (mean (sd)) 0.68 (0.47) 0.60 (0.49) 0.065
After PSM
Stratified by treat
0 1 p test
n 150 150
age (mean (sd)) 25.41 (6.86) 25.48 (7.29) 0.929
educ (mean (sd)) 10.11 (1.67) 10.29 (1.77) 0.349
black (mean (sd)) 0.87 (0.33) 0.87 (0.34) 0.864
hisp (mean (sd)) 0.05 (0.23) 0.06 (0.24) 0.804
married (mean (sd)) 0.18 (0.39) 0.16 (0.37) 0.646
nodegr (mean (sd)) 0.81 (0.40) 0.77 (0.42) 0.399
re74 (mean (sd)) 1821.88 (4792.12) 1517.04 (4370.13) 0.565
re75 (mean (sd)) 1329.82 (3350.84) 914.13 (1943.45) 0.190
re78 (mean (sd)) 4064.76 (4568.86) 6149.53 (7960.04) 0.006
u74 (mean (sd)) 0.76 (0.43) 0.78 (0.42) 0.682
u75 (mean (sd)) 0.68 (0.47) 0.68 (0.47) 1.000
Propensity score matching
利点
• 背景因子調整に優れる。
• 因果関係を言うことができる。
• 後ろ向き解析で最良の方法のひとつ。
• RCTと比べて、
– ランダム化が不可能な解析も可能。
– 低コスト。
– 厳格な倫理審査が不要。
Propensity score matching
欠点
• 多くは後ろ向き解析。
• サンプルサイズの計算が困難。
• PSの構成変数を決める標準的な手法は確立していない。
• 介入前の背景因子がPSを構成するため、計算困難な場合
がある。
• 未知の背景因子は十分に調整できない。
• マッチングできなかった対象を除外するため、
– 検出力が低下する。
– PSの重なり合いが少ない介入の解析は困難。
• 欠損値に脆弱で更に検出力が低下する。
1 von 49

Más contenido relacionado

Was ist angesagt?(20)

傾向スコアマッチと多重補完法の解説 その1