sampling

自己紹介
• ＠dichika
• 医療系のデータ（健診とかレセプトとか）
• たまに非効率なコードを書いて、裏Rjpwikiで
怒られてる

そんな私が
お送りする

抽出
推定
誤差評価
ーその１ー

先日
統計数理研究所の
公開講座に行って
参りました

良いものだったので
少しでも
皆さんに
おすそわけしたい

おすそわけしたいもの
• 抽出→推定→誤差評価という流れ
• 抽出法（の一部）
• 抽出法に対応した推定法・誤差評価法
• 対応しているＲのパッケージ

さて
皆さんに
訊きたい

ポケットに
小銭いくら
入ってますか

俺は今
会場の
小銭の総額を
知りたい

一人一人
ジャンプ
してもらう

今回の
出席者（40人）の
リストから5人を
ランダムに抽出

5人に
ジャンプ
してもらう

１さん 200
２さん 300
３さん 12
４さん 12
５さん 300
総計 824
結果

824×40/5
→6592円
５人が４０人を代表している

別の５人
だったら
ぶれるん
じゃないの？

総計の
ぶれ具合を
測る

ぶれ具合
（標準誤差）
６５９２円

＝　　　　　　　　　　≒　2599
総計のぶれ（標準誤差）の近似式
母集団サイズ×サンプルの標準偏差
√サンプルサイズ
40×145.3
√5

会場の皆さんの
ポケットの小銭総額
6592±2599円

ここまでを
振り返ると

母集団からサンプルを抽出
非復元単純無作為抽出法
標本統計量（総計）に抽出
確率の逆数を乗じて母集団
の総計を推定
推定値の標準誤差（ぶれ
幅）を評価
抽出
推定
誤差評価

それぞれの
ステップについて
もう少し詳しく

抽出を工夫して
推定の精度を
高めたい

抽出法いろいろ
無作為抽出
復元 →
復元単純無作為
抽出法
非復元 →
非復元単純無作
為抽出法
補助変数を
利用する
連続変数 → 確率比例抽出法
カテゴリカル → 層化抽出法
集落単位での抽出 → 集落抽出法

みな同じ確率で
抽出されるわけではなくなる
ことに注意
（抽出確率が一定でない）

抽出法に対応して
推定・誤差評価も
調整する必要が
ある

抽出確率が
一定でない
ということは

サンプルの要素
１つが代表する
重みが違ってくる

抽出確率の違いの影響
要素
単純無作為抽出法確率比例抽出法
抽出確率代表する人数抽出確率代表する人数
１ 5/40 8 4/40 10
２ 5/40 8 4/40 10
３ 5/40 8 8/40 5
４ 5/40 8 8/40 5
５ 5/40 8 4/40 10

せっかく抽出法を凝っても
対応した推定・誤差評価を
行わないと
意図した結果が
得られない

実は得られた結果をもとに
事後的に調整することも可能
（キャリブレーション）
本日は略

surveyパッケージで万事解決
• Auckland Univ.の統計
学者Thomas Lumleyが
作成
• 抽出法に対応した推
定・誤差評価がまとめら
れたパッケージ

svydesign
svydesign(ids = ~層別化した変数,
weights = ~抽出ウェイト,
data = 対象データ)
• 得られるのはsurvey.designオブジェクト
• 層別化していないときはids=~1と指定
• 抽出ウェイトは、サンプルの各要素が母集
団の要素をどれだけ代表しているか
–  単純無作為抽出法の場合は抽出確率の逆数

svytotal
svytotal (x = ~集計したい目的変数,
design = survey.designオブジェクト,
na.rm = FALSE,
deff = FALSE)
• 集計したい目的変数は複数可能。その場
合は~目的変数１＋目的変数２＋...と指定
• na.rm、deffについては指定しない場合、
初期値がFALSE

# surveyパッケージの読み込み
library(survey)
# データをつくる
df <- data.frame(kozeni = c(200,300,12,12,300),
　　　　　　　　　　　　　 wt = (40/5) )
# svydesignで抽出デザインと抽出ウェイトを指定する
stts <- svydesign(ids = ~1,　weights = ~wt,　data = df)
# svytotalで推定する
svytotal(x = ~kozeni,　design = stts)
total SE
kozeni 6592 2599.9
手計算と一致

お伝えできたのはごく一部です
• 抽出→推定→誤差評価という流れ
• 抽出法（の一部）
• 抽出法に対応した推定法・誤差評価法
• 対応しているＲのパッケージ

お伝えしていないこと
• サンプルサイズの設計
• 抽出法に対応したパッケージ紹介（sampling）
• 総計以外の推定量について
• 単純無作為抽出法以外の抽出法を使った場
合の一般化線形モデルの適用
• デザイン効果
• キャリブレーションの詳細

また機会があれば
その２以降を
やります

待てない人これを読んでね
• 松井博：標本調査法入門
–  1200円と安いわりに内容は濃いのでコスパ高い
• 土屋隆裕：概説標本調査法
–  今回のネタ本、公開講座もわかりやすくてオススメ
–  朝倉書店のサイトにsurveyパッケージを使ったサン
プルコードあり
• 原純輔ほか：社会調査演習
–  実例を知りたい場合はこちら

sampling

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Mehr von Daisuke Ichikawa

Mehr von Daisuke Ichikawa (8)

sampling