SlideShare ist ein Scribd-Unternehmen logo
1 von 54
Downloaden Sie, um offline zu lesen
みなさん
こんにちは
自己紹介
• @dichika
• 医療系のデータ(健診とかレセプトとか)
• たまに非効率なコードを書いて、裏Rjpwikiで
怒られてる
こんな感じ
そんな私が
お送りする
抽出
推定
誤差評価
ーその1ー
さて、わたくし
先日
統計数理研究所の
公開講座に行って
参りました
これ
良いものだったので
少しでも
皆さんに
おすそわけしたい
おすそわけしたいもの
• 抽出→推定→誤差評価という流れ
• 抽出法(の一部)
• 抽出法に対応した推定法・誤差評価法
• 対応しているRのパッケージ
さて
皆さんに
訊きたい
ポケットに
小銭いくら
入ってますか
俺は今
会場の
小銭の総額を
知りたい
一人一人
ジャンプ
してもらう
めんどい
今回の
出席者(40人)の
リストから5人を
ランダムに抽出
5人に
ジャンプ
してもらう
1さん 200
2さん 300
3さん 12
4さん 12
5さん 300
総計 824
結果
ここから
全体を推定
824×40/5
→6592円
5人が40人を代表している
うさんくさい
別の5人
だったら
ぶれるん
じゃないの?
総計の
ぶれ具合を
測る
ぶれ具合
(標準誤差)
6592円
=          ≒ 2599	
総計のぶれ(標準誤差)の近似式
母集団サイズ×サンプルの標準偏差
√サンプルサイズ
40×145.3
√5
結果
会場の皆さんの
ポケットの小銭総額
6592±2599円
ここまでを
振り返ると
母集団からサンプルを抽出
非復元単純無作為抽出法
標本統計量(総計)に抽出
確率の逆数を乗じて母集団
の総計を推定
推定値の標準誤差(ぶれ
幅)を評価
抽出
推定
誤差評価
それぞれの
ステップについて
もう少し詳しく
母集団からサンプルを抽出
非復元単純無作為抽出法
標本統計量(総計)に抽出
確率の逆数を乗じて母集団
の総計を推定
推定値の標準誤差(ぶれ
幅)を評価
抽出
推定
誤差評価
抽出を工夫して
推定の精度を
高めたい
抽出法いろいろ
無作為抽出
復元 →
復元単純無作為
抽出法
非復元 →
非復元単純無作
為抽出法
補助変数を
利用する
連続変数 → 確率比例抽出法
カテゴリカル → 層化抽出法
集落単位での抽出 → 集落抽出法
みな同じ確率で
抽出されるわけではなくなる
ことに注意
(抽出確率が一定でない)
母集団からサンプルを抽出
非復元単純無作為抽出法
標本統計量(総計)に抽出
確率の逆数を乗じて母集団
の総計を推定
推定値の標準誤差(ぶれ
幅)を評価
抽出
推定
誤差評価
抽出法に対応して
推定・誤差評価も
調整する必要が
ある
ナンデ?
抽出確率が
一定でない
ということは
サンプルの要素
1つが代表する
重みが違ってくる
抽出確率の違いの影響
要素
単純無作為抽出法 確率比例抽出法
抽出確率 代表する人数 抽出確率 代表する人数
1 5/40 8 4/40 10
2 5/40 8 4/40 10
3 5/40 8 8/40 5
4 5/40 8 8/40 5
5 5/40 8 4/40 10
せっかく抽出法を凝っても
対応した推定・誤差評価を
行わないと
意図した結果が
得られない
実は得られた結果をもとに
事後的に調整することも可能
(キャリブレーション)
本日は略
ここまで
Rの話なし
surveyパッケージで万事解決
• Auckland  Univ.の統計
学者Thomas  Lumleyが
作成
• 抽出法に対応した推
定・誤差評価がまとめら
れたパッケージ
svydesign
svydesign(ids  =  ~層別化した変数,  
                            weights  =  ~抽出ウェイト,
                            data  =  対象データ)
• 得られるのはsurvey.designオブジェクト
• 層別化していないときはids=~1と指定
• 抽出ウェイトは、サンプルの各要素が母集
団の要素をどれだけ代表しているか
–  単純無作為抽出法の場合は抽出確率の逆数
svytotal
svytotal    (x  =  ~集計したい目的変数,  
                            design  =  survey.designオブジェクト,
                            na.rm  =  FALSE,
                            deff  =  FALSE)
• 集計したい目的変数は複数可能。その場
合は~目的変数1+目的変数2+...と指定
• na.rm、deffについては指定しない場合、
初期値がFALSE
# surveyパッケージの読み込み
library(survey)
# データをつくる
df <- data.frame(kozeni = c(200,300,12,12,300),
              wt = (40/5) )
# svydesignで抽出デザインと抽出ウェイトを指定する
stts <- svydesign(ids = ~1, weights = ~wt, data = df)
# svytotalで推定する
svytotal(x = ~kozeni, design = stts)
total SE
kozeni 6592 2599.9	
手計算と一致
まとめ
お伝えできたのはごく一部です
• 抽出→推定→誤差評価という流れ
• 抽出法(の一部)
• 抽出法に対応した推定法・誤差評価法
• 対応しているRのパッケージ
お伝えしていないこと
• サンプルサイズの設計
• 抽出法に対応したパッケージ紹介(sampling)
• 総計以外の推定量について
• 単純無作為抽出法以外の抽出法を使った場
合の一般化線形モデルの適用
• デザイン効果
• キャリブレーションの詳細
また機会があれば
その2以降を
やります
待てない人これを読んでね
• 松井博:標本調査法入門
–  1200円と安いわりに内容は濃いのでコスパ高い
• 土屋隆裕:概説標本調査法
–  今回のネタ本、公開講座もわかりやすくてオススメ
–  朝倉書店のサイトにsurveyパッケージを使ったサン
プルコードあり
• 原純輔ほか:社会調査演習
–  実例を知りたい場合はこちら
enjoy!

Weitere ähnliche Inhalte

Mehr von Daisuke Ichikawa (8)

Tokyor23
Tokyor23Tokyor23
Tokyor23
 
Tokyor20
Tokyor20Tokyor20
Tokyor20
 
Tokyor18
Tokyor18Tokyor18
Tokyor18
 
Tokyor17
Tokyor17Tokyor17
Tokyor17
 
Tokyor16
Tokyor16Tokyor16
Tokyor16
 
Saku110716
Saku110716Saku110716
Saku110716
 
Tokyor15mod
Tokyor15modTokyor15mod
Tokyor15mod
 
世界のR(仮)
世界のR(仮)世界のR(仮)
世界のR(仮)
 

sampling