SlideShare ist ein Scribd-Unternehmen logo
1 von 34
Downloaden Sie, um offline zu lesen
統計的因果推論の理論と実践
Chapter10 傾向スコア
ML輪読会 2023/2/25 担当:寺澤
傾向スコアに入る前に
ベストな因果推論は実験研究(ex:ランダム化比較検証)
=> なぜなら処置群と統制群で共変量の分布が同じだから
Y(0) 年収 ・・・
男女
比
年齢
平均 10 450 ・・・ 0.51 36
標準
偏差
5 60 ・・・ 0.5 10
中央
値
10.1 370 ・・・ 0 40
Y(1) 年収 ・・・
男女
比
年齢
平均 15 450 ・・・ 0.51 36
標準
偏差
5.2 60 ・・・ 0.5 10
中央
値
12 370 ・・・ 0 40
<統制群> <処置群>
傾向スコアに入る前に
ベストな因果推論は実験研究(ex:ランダム化比較検証)
=> なぜなら処置群と統制群で共変量の分布が同じだから
Y(0) 年収 ・・・
男女
比
年齢
平均
10 450 ・・・ 0.51 36
標準
偏差
5 60 ・・・ 0.5 10
中央
値
10.1 370 ・・・ 0 40
Y(1) 年収 ・・・
男女
比
年齢
平均
15 450 ・・・ 0.51 36
標準
偏差
5.2 60 ・・・ 0.5 10
中央
値
12 370 ・・・ 0 40
<統制群> <処置群>
期待値の差 = 平均処置効果(ATE)
共変量を無視 共変量を無視
傾向スコアに入る前に
しかし、実験研究(=無作為な処置の割り付け)は実現が難しい
=> そこで、ある条件で無作為実験を再現する(=準実験)
=> つまり、統制群と処理群の共分散の分布をそろえる
=> その条件の一つが傾向スコア
傾向スコアに入る前に
しかし、実験研究(=無作為な処置の割り付け)は実現が難しい
=> そこで、ある条件で無作為実験を再現する(=準実験)
=> つまり、統制群と処理群の共変量の分布をそろえる
=> その条件の一つが傾向スコア
傾向スコアはバランシングスコアの一種
バランシングスコア
=>共変量Xの関数b(X)が与えられたときのXの条件付き分布
が、処置群と統制群において同じとなる関数である。
傾向スコアはバランシングスコアの一種
バランシングスコア
=>共変量Xの関数b(X)が与えられたときのXの条件付き分布
が、処置群と統制群において同じとなる関数である。
傾向スコアはバランシングスコアの一種
被験者 処置 結果 X1
2 0 55 70
3 0 59 70
4 1 77 73
5 0 73 73
8 1 81 77
9 1 77 77
10 0 72 78
11 0 65 78
12 1 81 78
19 1 97 92
20 1 81 92
最もシンプル(かつ詳細)なバ
ランシングスコアはXそれ自体
である。
=> 式は
=> Xが1変量の場合・・・
傾向スコアはバランシングスコアの一種
最もシンプル(かつ詳細)なバ
ランシングスコアはXそれ自体
である。
=> 式は
=> Xが1変量の場合・・・
被験者 処置 結果 X1
2 0 55 70
3 0 59 70
4 1 77 73
5 0 73 73
8 1 81 77
9 1 77 77
10 0 72 78
11 0 65 78
12 1 81 78
19 1 97 92
20 1 81 92
・処置群:(77+81)/2=79
・統制群:(73+65)/2=69
・ATE : 79-69=10
Xが同じ
Xが同じ
傾向スコアはバランシングスコアの一種
しかし、現実の共変量Xは多変量
=>そこで、多変量Xを代表する関数b(X)を導入する
被験者 処置 結果 X1 X2 … Xn
2 0 55 70 83 … 41
3 0 59 70 92 … 61
4 1 77 73 88 … 54
5 0 73 73 41 … 51
8 1 81 77 66 … 51
被験者 処置 結果 b(X)
2 0 55 70
3 0 59 70
4 1 77 73
5 0 73 73
8 1 81 77
Xを
抽象化
傾向スコアはバランシングスコアの一種
しかし、現実の共変量Xは多変量
=>そこで、多変量Xを代表する関数b(X)を導入する
被験者 処置 結果 X1 X2 … Xn
2 0 55 70 83 … 41
3 0 59 70 92 … 61
4 1 77 73 88 … 54
5 0 73 73 41 … 51
8 1 81 77 66 … 51
被験者 処置 結果 b(X)
2 0 55 0.41
3 0 59 0.80
4 1 77 0.89
5 0 73 0.12
8 1 81 0.55
Xを
抽象化
傾向スコア
傾向スコアとは
=> 共変量Xで条件付けときに、処置に割り付けられる確率
=> 傾向スコアは、最も荒いバランシングスコア
=> (最も細かいバランシングスコアはXそれ自体)
傾向スコア
傾向スコアとは
=> 共変量Xで条件付けときに、処置に割り付けられる確率
=> 傾向スコアは、最も荒いバランシングスコア
=> (最も細かいバランシングスコアはXそれ自体)
傾向スコア
傾向スコアの値が似た個
体で分けてみよう。
ID y0t y1t t1 y x1 x2 x3 傾向スコア
1 55 70 0 55 70 75 55 0.05
2 63 74 0 63 66 76 75 0.12
3 59 69 0 59 70 60 73 0.19
4 69 73 1 73 79 74 60 0.26
5 65 79 0 65 78 79 64 0.28
6 69 79 0 69 75 78 73 0.34
7 73 78 0 73 73 79 78 0.35
8 66 77 0 66 74 72 79 0.41
9 71 77 1 77 73 76 82 0.43
10 72 81 0 72 78 76 74 0.48
11 62 77 1 77 77 66 77 0.5
12 68 81 1 81 78 83 79 0.57
13 70 81 1 81 77 75 83 0.62
14 79 93 1 93 83 89 88 0.86
15 75 85 1 85 84 81 90 0.9
16 75 89 0 75 88 78 82 0.9
17 74 81 1 81 92 77 73 0.9
18 80 91 1 91 87 82 86 0.91
19 82 85 1 85 91 84 85 0.95
20 91 97 1 97 92 102 101 0.99
傾向スコア
傾向スコアの値が似た個
体で分けてみよう。
ID y0t y1t t1 y x1 x2 x3 傾向スコア
1 55 70 0 55 70 75 55 0.05
2 63 74 0 63 66 76 75 0.12
3 59 69 0 59 70 60 73 0.19
4 69 73 1 73 79 74 60 0.26
5 65 79 0 65 78 79 64 0.28
6 69 79 0 69 75 78 73 0.34
7 73 78 0 73 73 79 78 0.35
8 66 77 0 66 74 72 79 0.41
9 71 77 1 77 73 76 82 0.43
10 72 81 0 72 78 76 74 0.48
11 62 77 1 77 77 66 77 0.5
12 68 81 1 81 78 83 79 0.57
13 70 81 1 81 77 75 83 0.62
14 79 93 1 93 83 89 88 0.86
15 75 85 1 85 84 81 90 0.9
16 75 89 0 75 88 78 82 0.9
17 74 81 1 81 92 77 73 0.9
18 80 91 1 91 87 82 86 0.91
19 82 85 1 85 91 84 85 0.95
20 91 97 1 97 92 102 101 0.99
傾向スコアの定理
・定理1(バランシング)
=> 処置の割り付けTと観測された共変量Xは傾向スコアe(X)
が与えられた時、条件付き独立である。
=> すなわち、傾向スコアe(X)が同じ値であれば、処置群と統制群
における多変量の共変量Xの分布は同じである。
傾向スコアの定理
・定理1(バランシング)
=> 処置の割り付けTと観測された共変量Xは、傾向スコアe(X)
が与えられたとき条件付き独立である。
=> すなわち、傾向スコアe(X)が同じ値であれば、処置群と統制群
における多変量の共変量Xの分布は同じである。
傾向スコアの定理
・定理1(バランシング)の直感的理解
定期預金の申し込み予測に関するデータ
https://www.kaggle.com/datasets/kukuroo3/bank-marketing-response-predict
<元データ(傾向スコアでの条件付けなし )>
データ使用: 定期預金の申し込みに関するデータ
処置の割付け: 職業(technicain)かどうか
傾向スコアe(X): 職業(technicain)の確率
傾向スコアの定理
・定理1(バランシング)の直感的理解
定期預金の申し込み予測に関するデータ
https://www.kaggle.com/datasets/kukuroo3/bank-marketing-response-predict
<傾向スコアe(x) = 0.20で条件付けたデータ >
データ使用: 定期預金の申し込みに関するデータ
処置の割付け: 職業(technicain)かどうか
傾向スコアe(X): 職業(technicain)の確率
傾向スコアe(X)が0.20のデータのヒストグラム
を見ると、共変量Xの分布が処置群と統制群でそ
こまで変わらないことがわかる。
処置
傾向スコア
傾向スコアの定理
・定理2(条件付き独立性)
=> 傾向スコアe(X)が与えられれば、潜在的結果変数{Y(1), Y(0)}と
割り付け変数Tは条件付き独立。
=> すなわち、傾向スコアe(X)が同じ値であれば、処置群と統制群
への割り付けは無作為。
傾向スコアの定理
・定理2(条件付き独立性)
=> 傾向スコアe(X)が与えられれば、潜在的結果変数{Y(1), Y(0)}と
割り付け変数Tは条件付き独立。
=> すなわち、傾向スコアe(X)が同じ値であれば、処置群と統制群
への割り付けは無作為。
傾向スコアの定理
2.条件付き独立の直感的理解
e(X)
e1 e2 e3
Y
処置群
統制群
0
処置群
統制群
処置群
統制群
処置の割り付けと潜在的結果変数
{Y(0),Y(1)}が独立でない場合を
考える。
=> 例えば、Y(0)が低いものだけ
に処理を割り付けた場合・・・
τi
τi
τi
τi
τi
τi
<潜在的結果変数:個体処置効果τは一定とする>
傾向スコアの定理
2.条件付き独立の直感的理解
e(X)
e1 e2 e3
Y
処置群
統制群
0
処置群
統制群
処置群
統制群
<実測値>
処置の割り付けと潜在的結果変数
{Y(0),Y(1)}が独立でない場合を
考える。
=> 例えば、Y(0)が低いものだけ
に処理を割り付けた場合・・・
観測されない
傾向スコアの定理
2.条件付き独立の直感的理解
e(X)
e1 e2 e3
Y
処置群
統制群
0
処置群
統制群
処置群
統制群
<実測値>
e(X)
e1 e2 e3
Y
処置群
統制群
0
処置群
統制群
処置群
統制群
<潜在的結果変数>
ATE
つまり、傾向スコアで条件付けた場合の割り付けは、Y(0)の値と独立でなければならない
傾向スコアの定理
・前提条件1:(無交絡性 unconfoundedness)
=> 共変量Xを条件としたとき、処置の割付けを表す変数T
が、潜在的結果変数{Y(0), Y(1)}に依存しない
傾向スコアの定理
・前提条件2:(条件付き正値性 conditional positivity)
=> 共変量Xを条件とした場合、どの個体も処置群または
統制群に割り付けられる確率が0または1でない.
=> どの個体も処理群もまたは統制群に割付けられる可能性
がある
傾向スコアの定理
・前提条件1, 2を満たさない場合は
=> 操作変数法(13章)
=> または、回帰不連続デザイン(15章)へ
傾向スコアのモデル化
傾向スコアとは、
=> 共変量Xで条件付けときに、処置に割り付けられる確率
=> どうやって確率を出すか?
ロジスティック回帰、プロビットモデル、
一般化加法モデル、ニューラルネットワーク、分類木モデル
傾向スコアのモデル化
傾向スコアとは、
=> 共変量Xで条件付けときに、処置に割り付けられる確率
=> どうやって確率を出すか?
ロジスティック回帰、プロビットモデル、
一般化加法モデル、ニューラルネットワーク、分類木モデル
傾向スコアのモデル化
ロジスティック回帰モデル
=> 複数の説明変数から、2値の生起確率を予測するモデル
(別表記)
傾向スコアのモデル化
ロジスティック回帰モデル
=> 処置Tは、生起確率πのベルヌーイ分布に従うと仮定
=> 一般線形モデル
=> Tをロジット変換
傾向スコアのモデル化
ロジスティック回帰モデル
=> 処置Tは、生起確率πのベルヌーイ分布に従うと仮定
=> 一般線形モデル
=> Tをロジット変換
オッズ比
傾向スコアのモデル化
傾向スコアのモデル化
では、傾向スコアを使ってどのように平均処置効果(ATE)を推
定するのか?
11章に続く・・・

Weitere ähnliche Inhalte

Ähnlich wie 統計的因果推論の理論と実践10章.pdf

ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門Miyoshi Yuya
 
統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)Kota Mori
 
第4回スキル養成講座 講義スライド
第4回スキル養成講座 講義スライド第4回スキル養成講座 講義スライド
第4回スキル養成講座 講義スライドkeiodig
 
第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)Yoshitake Takebayashi
 
K070k80 点推定 区間推定
K070k80 点推定 区間推定K070k80 点推定 区間推定
K070k80 点推定 区間推定t2tarumi
 
Zansa0130presentation
Zansa0130presentationZansa0130presentation
Zansa0130presentationZansa
 
モンテカルロ法と情報量
モンテカルロ法と情報量モンテカルロ法と情報量
モンテカルロ法と情報量Shohei Miyashita
 
脳波モデルを用いたてんかん波判別手法
脳波モデルを用いたてんかん波判別手法脳波モデルを用いたてんかん波判別手法
脳波モデルを用いたてんかん波判別手法Kenyu Uehara
 

Ähnlich wie 統計的因果推論の理論と実践10章.pdf (9)

ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門
 
統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)
 
第4回スキル養成講座 講義スライド
第4回スキル養成講座 講義スライド第4回スキル養成講座 講義スライド
第4回スキル養成講座 講義スライド
 
第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)
 
K070k80 点推定 区間推定
K070k80 点推定 区間推定K070k80 点推定 区間推定
K070k80 点推定 区間推定
 
Zansa0130presentation
Zansa0130presentationZansa0130presentation
Zansa0130presentation
 
モンテカルロ法と情報量
モンテカルロ法と情報量モンテカルロ法と情報量
モンテカルロ法と情報量
 
脳波モデルを用いたてんかん波判別手法
脳波モデルを用いたてんかん波判別手法脳波モデルを用いたてんかん波判別手法
脳波モデルを用いたてんかん波判別手法
 
回帰
回帰回帰
回帰
 

統計的因果推論の理論と実践10章.pdf