Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
標本数が40または100が
望ましい場合についての
ある考察
2014-07-27 TS.
同じ分布に従う独立な多数の標本を一体何個とりだせば、
検出力 1- β = 90% で、得たいもの、見てみたいものを取り出すことが
出来るか、さまざまな...
標本抽出について
• 全体の性質を把握するには、適切なサンプリング
が必要
• ランキング方式など別方式は、見えて来る性質が実用
上問題を起こす程度に偏ることが多い。
• 「偏ったサンプルを取り出すほどなら、
n=3の方が本質を理解出来る。」(...
統計もしくは標本抽出の理解に
必要な概念
• 平均(μ ミュー) ← 合計を個数で割った値
• 標準偏差(σ シグマ) 分散(σ2)
← “各値が平均からどれだけ揺らぐか”
← `各値と平均の差の2乗の合計÷個数’ が σ2
• 確率分布 ← ...
二項分布の例
出現確率pが決まっていて
も、n=10回試したからと言っ
て、出現回数は確率的にし
か決まらない。
3割(p=0.3)の出現確率で10
回試しても、1回しか現れな
い確率は12%(右上グラフのオレ
ンジ色)ある。
二項分布について...
超幾何分布と二項分布の違い
• 二項分布(n,p)
平均 = np
分散 = n × p × (1-p)
• 超幾何分布(N,m,n)
平均 = N (m/n)
分散 = n× m/N × (N-m)/N × (N-n)/(N-1)
超幾何分布...
見逃しはどうして発生するか
~ 二項分布からの考察
知っている現象は1つでも発見して、その例を詳しく見たい。
未知の現象は2回以上見ないと、普通は気付かない。
そんな現象は3回以上目撃しないと何かの偶然と思い込むこともある。
では、全部で何回の...
20回または40回の観察で得られるもの
未知の現象は、複数回観察しないと見逃してしまう、と仮定する。
20回観察して “見逃してしまう” 確率は
1回当たり 25% の確率で発生する現象は 2.43..%
1回当たり 15% の確率で発生する現...
一定の出現確率の現象を90%以上の
確率で1回でも観察するための条件
• 出現確率 1/2 の現象は、4回以上の観察が必要
• 出現確率 1/3 の現象は、6回以上の観察が必要
• 出現確率 1/4 の現象は、9回以上の観察が必要
• 出現確率...
一定の出現確率の現象を90%以上の
確率で2回以上観察するための条件
• 出現確率 1/2 の現象は、7回以上の観察が必要
• 出現確率 1/3 の現象は、11回以上の観察が必要
• 出現確率 1/4 の現象は、15回以上の観察が必要
• 出現...
一定の出現確率の現象を90%以上の
確率で3回以上観察するための条件
• 出現確率 1/2 の現象は、9回以上の観察が必要
• 出現確率 1/3 の現象は、15回以上の観察が必要
• 出現確率 1/4 の現象は、20回以上の観察が必要
• 出現...
ある結論: 標本数20と40の比較
• 採集した標本数が20だと、
90%の確率で標本中2個以上検出できる現象は
出現確率が18.1%以上であることが必要。
90%の確率で標本中3個以上検出できる現象は
出現確率が30.4%以上であることが必要...
(参考) Rule of Three 3の法則
95%以上の確率で1回以上観察するための条件
• 出現確率 1/2 の現象は、5回以上の観察が必要
• 出現確率 1/3 の現象は、8回以上の観察が必要
• 出現確率 1/4 の現象は、11回以上...
分布をつかむのに必要な
観察数についての考察
では、平均や標準偏差を 推定したいと思った時に、高い確
率で精度良く求めるには、何回の観察が必要だろうか。
ガウス分布
• 多くの現象で現れる数の分布は、ガウス分布で近似できる。こ
のガウス分布は、平均μと分散σ2が与えられると形が決まる。
推定した μ と σ はどれだけ揺らぐか?
• 平均の推定値と標準偏差の推定値を
2個ずつ接触した長方形で表している。
ガウス分布から μ+2σ以上の値を
90%の確実さで得るために
必要な観察回数は101回
R言語で下記のように計算する :
log(0.1)/log(pnorm(c(1, 1.5, 2) ) → 13.3 33.3 100.1
(ある値(上記の...
μ+1σ及びμ+2σ以上の値を
90%の確実さでK個以上得るのに
必要なガウス乱数の必要生成個数について
R言語で下記のように計算する :
> for(M in 1:12){N=2;while(pbinom(M-1,N,pnorm(1,,,F)...
平均 μ からの逸脱が 1σ及び 2σ以上の値を
90%の確実さでK個以上得るのに
必要なガウス乱数の必要生成個数について
R言語で下記のように計算する :
> for(M in 1:12){N=2;while(pbinom(M-1,N,2*p...
この節での結論
• 変数の分布の範囲を大雑把に把握するために :
観察回数が10回や20回では、未知の変数の分布の範囲を大雑
把に求めるにしても不足気味のようである。40回ないし100回くら
いあると良さそうである。
• やや異常に大きな値を経...
まとめ
主張
• サンプリングをランダムにしないと、”偏り”が発生
して、さまざまな弊害(見逃しや稀少現象の大量補
足)などが起こる。
• 何かの現象を捉えるには、40回程度の観察が必
要で、20回程度では足りないことがある。
• しかし、人間(観察者...
Nächste SlideShare
Wird geladen in …5
×

標本抽出で なぜn=40なのか についてのある考察

見逃しをしないため、また平均や標準偏差を実用的な精度で把握するためには、n=20程度では不足で、n=40くらいが妥当ということを説明する意図で作成しました。

  • Als Erste(r) kommentieren

標本抽出で なぜn=40なのか についてのある考察

  1. 1. 標本数が40または100が 望ましい場合についての ある考察 2014-07-27 TS. 同じ分布に従う独立な多数の標本を一体何個とりだせば、 検出力 1- β = 90% で、得たいもの、見てみたいものを取り出すことが 出来るか、さまざまな例を紹介します。 一応、統計学は知らない人向けに作った資料ですが、統計学が分かっていれ ば、最初の方は読み飛ばして気になるところを読んでも、意味がよく分かると 思います。 R言語のコマンドを記載することにより、やや複雑な数式を用いた計算がが必 要な場面でも、若干の値の変更により即座に得たい値を算出できます。
  2. 2. 標本抽出について • 全体の性質を把握するには、適切なサンプリング が必要 • ランキング方式など別方式は、見えて来る性質が実用 上問題を起こす程度に偏ることが多い。 • 「偏ったサンプルを取り出すほどなら、 n=3の方が本質を理解出来る。」(統計学者テューキー) • 無作為抽出はさまざまな統計値を(抽出を繰り返すこと で)偏りなく抽出することができる。 • 調査対象の件数が莫大でも、必要な精度に対して、n はほとんど変わらない。(1000で40なら1億・1兆でも40)
  3. 3. 統計もしくは標本抽出の理解に 必要な概念 • 平均(μ ミュー) ← 合計を個数で割った値 • 標準偏差(σ シグマ) 分散(σ2) ← “各値が平均からどれだけ揺らぐか” ← `各値と平均の差の2乗の合計÷個数’ が σ2 • 確率分布 ← 「それぞれの値の出現確率」のこと • 二項分布 ← 確率pで”当たる”ことをn回試して結果的に何 回当たるかの 分布 • 超幾何分布 ← N個の玉が入った壺の中の内、 赤玉がm個入っていた場合に、 n回拾い出した内の赤玉の個数の分布 • ガウス分布 ← μ と σ が固定された時のある自然な分布
  4. 4. 二項分布の例 出現確率pが決まっていて も、n=10回試したからと言っ て、出現回数は確率的にし か決まらない。 3割(p=0.3)の出現確率で10 回試しても、1回しか現れな い確率は12%(右上グラフのオレ ンジ色)ある。 二項分布についての公式 平均値 = n × p 分散 σ2 = n ×p × (1-p) ※ グラフ中のNは n と見なすこと。 この文書の他の部分との整合性のため
  5. 5. 超幾何分布と二項分布の違い • 二項分布(n,p) 平均 = np 分散 = n × p × (1-p) • 超幾何分布(N,m,n) 平均 = N (m/n) 分散 = n× m/N × (N-m)/N × (N-n)/(N-1) 超幾何分布の m/N を 二項分布のp と見なすと、 Nがnよりも何倍も大きい場合、 2つの分布はほぼ等しくなる。 ※ ここから n=3~ 40程度、N=1000~ を考えるので、 超幾何分布のことは忘れて、二項分布で考えて良い。
  6. 6. 見逃しはどうして発生するか ~ 二項分布からの考察 知っている現象は1つでも発見して、その例を詳しく見たい。 未知の現象は2回以上見ないと、普通は気付かない。 そんな現象は3回以上目撃しないと何かの偶然と思い込むこともある。 では、全部で何回の観察が、未知の現象の探索に必要とするのだろうか・・?
  7. 7. 20回または40回の観察で得られるもの 未知の現象は、複数回観察しないと見逃してしまう、と仮定する。 20回観察して “見逃してしまう” 確率は 1回当たり 25% の確率で発生する現象は 2.43..% 1回当たり 15% の確率で発生する現象は 17.5..% 1回当たり 10% の確率で発生する現象は 39.1..% 1回当たり 5% の確率で発生する現象は 73.5..% 40回観察して “見逃してしまう” 確率は 1回当たり 25% の確率で発生する現象は 0.014..% 1回当たり 15% の確率で発生する現象は 1.21..% 1回当たり 10% の確率で発生する現象は 8.04..% ← 1回当たり 5% の確率で発生する現象は 39.9..%
  8. 8. 一定の出現確率の現象を90%以上の 確率で1回でも観察するための条件 • 出現確率 1/2 の現象は、4回以上の観察が必要 • 出現確率 1/3 の現象は、6回以上の観察が必要 • 出現確率 1/4 の現象は、9回以上の観察が必要 • 出現確率 1/10 の現象は、22回以上の観察が必要 ← • 出現確率 1/20 の現象は、45回以上の観察が必要 • 出現確率 1/50 の現象は、114回以上の観察が必要 • 出現確率 1/100 の現象は、230回以上の観察が必要 • 出現確率 1/1000 の現象は、2302回以上の観察が必要 ☞ 出現確率が1回につき 1/Dの現象は、Dの2倍半の回数の観察を重ねれば、 90%以上の確率(確実さ)で、その現象に出会うことが出来る。 この観察必要回数は log(10)×D = 2.30258..× D と近似できる。 ☞ 確実さを 99%以上・99.9%以上にしたければ、さらにその2倍・3倍にすると良い。
  9. 9. 一定の出現確率の現象を90%以上の 確率で2回以上観察するための条件 • 出現確率 1/2 の現象は、7回以上の観察が必要 • 出現確率 1/3 の現象は、11回以上の観察が必要 • 出現確率 1/4 の現象は、15回以上の観察が必要 • 出現確率 1/10 の現象は、38回以上の観察が必要 ← • 出現確率 1/20 の現象は、77回以上の観察が必要 • 出現確率 1/50 の現象は、194回以上の観察が必要 • 出現確率 1/100 の現象は、388回以上の観察が必要 • 出現確率 1/1000 の現象は、3889回以上の観察が必要 ☞ 出現確率が1回につき 1/Dの現象は、Dの4倍の回数の観察を重ねれば、 90%以上の確率(確実さ)で、その現象に2回以上出会うことが出来る。 この観察必要回数は 3.8897..× D と近似できる。(係数 3.88.. は exp(k)/(1+k)=10の解) ☞ 確実さを 99%以上・99.9%以上にしたければ、さらにその1.7倍・2.4倍にすると良い。
  10. 10. 一定の出現確率の現象を90%以上の 確率で3回以上観察するための条件 • 出現確率 1/2 の現象は、9回以上の観察が必要 • 出現確率 1/3 の現象は、15回以上の観察が必要 • 出現確率 1/4 の現象は、20回以上の観察が必要 • 出現確率 1/10 の現象は、52回以上の観察が必要 • 出現確率 1/20 の現象は、105回以上の観察が必要 • 出現確率 1/50 の現象は、265回以上の観察が必要 • 出現確率 1/100 の現象は、531回以上の観察が必要 • 出現確率 1/1000 の現象は、5321回以上の観察が必要 ☞ 出現確率が1回につき 1/Dの現象は、Dの5倍半の回数の観察を重ねれば、 90%以上の確率(確実さ)で、その現象に2回以上出会うことが出来る。 この観察必要回数は 5.3233..× D と近似できる。(係数 5.32.. は exp(k)/(1+k+k2/2)=10の解)
  11. 11. ある結論: 標本数20と40の比較 • 採集した標本数が20だと、 90%の確率で標本中2個以上検出できる現象は 出現確率が18.1%以上であることが必要。 90%の確率で標本中3個以上検出できる現象は 出現確率が30.4%以上であることが必要。 • 採集した標本数が20だと、 90%の確率で標本中2個以上検出できる現象は 出現確率が9.38%以上であることが必要。 90%の確率で標本中3個以上検出できる現象は 出現確率が15.9%以上であることが必要。 つまり、十分な検出力(90%)で出現頻度10%程度の未知の現象を探索するには、 N=20では足りない。しかし、N=40であれば、上記の通り十分である。1回あたり出 現確率1/10で2個以上, 1/6で3個以上の出現個数を90%の確率で確保できる。 ここで算出に使ったR言語のコマンドの例 : uniroot(function(p){pbinom(3,40,p)-0.1},c(0,1))$root
  12. 12. (参考) Rule of Three 3の法則 95%以上の確率で1回以上観察するための条件 • 出現確率 1/2 の現象は、5回以上の観察が必要 • 出現確率 1/3 の現象は、8回以上の観察が必要 • 出現確率 1/4 の現象は、11回以上の観察が必要 • 出現確率 1/10 の現象は、29回以上の観察が必要 • 出現確率 1/20 の現象は、59回以上の観察が必要 • 出現確率 1/50 の現象は、149回以上の観察が必要 • 出現確率 1/100 の現象は、299回以上の観察が必要 • 出現確率 1/1000 の現象は、2995回以上の観察が必要 ☞ 出現確率が1回につき 1/Dの現象は、Dのほぼ3倍の回数の観察を重ねれば、 95%以上の確率で、その現象に会うことが出来る。 ☞ 係数の3は -log(0.05) = 2.99573.. または exp(-3) = 1/20.0855.. に由来する。 ☞ http://en.wikipedia.org/wiki/Rule_of_three_(statistics) を参照 ☞ 2 ≦ D ≦ 118 ならば その必要回数は丁度 3×D -1 である。 ☞下記のようなR言語のコマンドで上記の値は求まる。 K=100;M=1;{N=1;while(pbinom(M-1,N,1/K)>0.05){N<-N+1};N} → 299
  13. 13. 分布をつかむのに必要な 観察数についての考察 では、平均や標準偏差を 推定したいと思った時に、高い確 率で精度良く求めるには、何回の観察が必要だろうか。
  14. 14. ガウス分布 • 多くの現象で現れる数の分布は、ガウス分布で近似できる。こ のガウス分布は、平均μと分散σ2が与えられると形が決まる。
  15. 15. 推定した μ と σ はどれだけ揺らぐか? • 平均の推定値と標準偏差の推定値を 2個ずつ接触した長方形で表している。
  16. 16. ガウス分布から μ+2σ以上の値を 90%の確実さで得るために 必要な観察回数は101回 R言語で下記のように計算する : log(0.1)/log(pnorm(c(1, 1.5, 2) ) → 13.3 33.3 100.1 (ある値(上記の場合はμ+1σ, μ+1.5σ, μ+2σ)以上の観測値を 90%の確率で得るために必要な観察回数を算出している。) 逆に、ある回数(10, 20, 40, 100)観測したときに90%の確率で zスコアで下記以上の値が得られる。 qnorm((0.1)^(1/c(10,20,40,100))) → 0.822 1.233 1.590 2.000
  17. 17. μ+1σ及びμ+2σ以上の値を 90%の確実さでK個以上得るのに 必要なガウス乱数の必要生成個数について R言語で下記のように計算する : > for(M in 1:12){N=2;while(pbinom(M-1,N,pnorm(1,,,F))>0.1){N<-N+1};cat(N, " ")} 14 24 32 41 49 57 65 72 80 87 95 102 > for(M in 1:12){N=2;while(pbinom(M-1,N,pnorm(2,,,F))>0.1){N<-N+1};cat(N, " ")} 101 170 233 292 350 406 461 516 569 622 675 727
  18. 18. 平均 μ からの逸脱が 1σ及び 2σ以上の値を 90%の確実さでK個以上得るのに 必要なガウス乱数の必要生成個数について R言語で下記のように計算する : > for(M in 1:12){N=2;while(pbinom(M-1,N,2*pnorm(1,,,F))>0.1){N<-N+1};cat(N, " ")} 7 11 15 20 24 27 31 35 39 42 46 50 > for(M in 1:12){N=2;while(pbinom(M-1,N,2*pnorm(2,,,F))>0.1){N<-N+1};cat(N, " ")} 50 85 116 145 174 202 230 257 284 310 336 362 上記から結論例 : 20個のガウス乱数を生成すると、90%以上の確率で、 [ μ – 1σ , μ + 1σ ] の 区間外の値を 4 個得ることが出来る。 [ μ – 2σ , μ + 2σ ] の区間の外にある乱数を1個でも90%の確率で 得るには、丁度50個のガウス乱数生成を要する。
  19. 19. この節での結論 • 変数の分布の範囲を大雑把に把握するために : 観察回数が10回や20回では、未知の変数の分布の範囲を大雑 把に求めるにしても不足気味のようである。40回ないし100回くら いあると良さそうである。 • やや異常に大きな値を経験するために: ある同じガウス分布に従う独立な変数を40回観察をすること で、μ+1.6σ以上の値を約90%の確実さで得ることができる。丁 度50回の観察をすることで、90%の確実さで[μ-2σ, μ+2σ]の外の 値を得ることができる。100回の観察をすることで、μ+2σ以上 の値を約90%の確実さで得ることができる。
  20. 20. まとめ
  21. 21. 主張 • サンプリングをランダムにしないと、”偏り”が発生 して、さまざまな弊害(見逃しや稀少現象の大量補 足)などが起こる。 • 何かの現象を捉えるには、40回程度の観察が必 要で、20回程度では足りないことがある。 • しかし、人間(観察者/分析者)の主観による記憶は 数百の事例をきちんと記憶することは困難なので、 40回程度が妥当とも考えられる。

×