Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
具体例をいくつ観察すれば
見たい対象の全体について
理解出来るかについての
ある考察
2014-07-30 (水)
(株)ウフル 下野寿之
必要な標本数を算出したケース
1. 現象を複数例見ることで見逃しを防ぎたい
2. 全てのグループのサンプルを網羅的に取りたい
3. 多数決の結果が正しくなる可能性を高くしたい
4. 逸脱したサンプルを見つけたい
5. 標本から分布の範囲を把握し...
90%以上の確率で、1回当たり10%で起こる現象を、
2回以上捉えるために必要な観察回数は最低38回。
未知の現象を、いくつかの観察の中
から、1度だけ見ただけでは、おそら
くその現象は見逃してしまうだろう。
では、1回あたり10%しか起きない...
10色のシールが同数の各商品に1枚ずつ貼られて
いる時に、全ての色のシールを90%の確率で集める
には、何個の商品を買いに行く必要があるだろう
か? ある商品に10種類のシールが1
枚ずつ貼られていて、開封する
までどのシールが入っているか
分...
各人が2:1の確率で賛成票と反対票を投じる時に多
数決で賛成が決まる可能性を90%確保するために
必要な人数は、15人。3:2なら 41人。
仮想的な状況として、投票者がそれ
ぞれ他人の意見を全く知らないで、
全員がある決まった確率で賛成票ま
...
平均μ 標準偏差σ のガウス乱数を何個か取り出した中から、
区間μ±2σの外にある値を1個でも見つかる確率を
90%以上確保するには、最低でも50個の取り出しが必要。
確率分布は、ガウス分布で近似できること
が多い。たとえば多数の人の身長や体重...
20回の観察をしたとしても意外と結果の分布の揺らぎは大きい。
値の範囲について精度良く把握するには、40回は必要と考えら
れる。
上記の4個のグラフは、それぞれ観察回数を10回・20回・40回・100回と決め
た場合に、15回ずつ値の”分布”を...
2変量間の母相関係数が0.5の場合に、無相関の
片側検定を有意水準5%,検出力90%で行うには、
標本サイズが31以上が必要。
2つの変量の間の関係が大事なことは多い。その関係を捉え
る有力な方法は、「無相関の検定」である。
しかし、元の分布に...
[まとめ] 思ったことが正しい場合に 90% の確
率で正しい結果を得るための調査必要量
1. 多数決: 2:1の優勢 → 15人 3:2の優勢 → 41人
2. シール10色を全て集めたい → 44個
3. 10%の未知の現象の見逃しを防ぐな...
最後に
• 何かをきちんと調査したいときは、意外と多数のサンプル
が必要であることを算出した。
• 簡単な問題でも20例程度では足りない。
• もちろん目的によるが、重要例をこの文書に示した。
• 無作為抽出は偏りのない調査に極めて重要。
• ...
(参考) R言語で本資料の数を算
出するためのプログラム
## (1) 1回で1/10の確率で起こる現象を2回以上観測したい
pbinom(1,35:40,1/10) # 38回の所で0.1を切ることに注意。
# (2) シールを集めるのに何個...
Nächste SlideShare
Wird geladen in …5
×

具体例をいくつ観察すれば見たい対象の全体について理解出来るか

日常生活で、もしくは、社会生活で役に立つであろう
「経験はどれだけ必要か」「調査にどれだけ手間をかけるのが良いだろうか」について目安となる数とその計算方法をまとめました。

How many experiences are necessary to understand something you do not know? I would like to answer this question from a numerical aspects using statistics.

  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

具体例をいくつ観察すれば見たい対象の全体について理解出来るか

  1. 1. 具体例をいくつ観察すれば 見たい対象の全体について 理解出来るかについての ある考察 2014-07-30 (水) (株)ウフル 下野寿之
  2. 2. 必要な標本数を算出したケース 1. 現象を複数例見ることで見逃しを防ぎたい 2. 全てのグループのサンプルを網羅的に取りたい 3. 多数決の結果が正しくなる可能性を高くしたい 4. 逸脱したサンプルを見つけたい 5. 標本から分布の範囲を把握したい 6. 2変量に相関があるかどうか検定したい
  3. 3. 90%以上の確率で、1回当たり10%で起こる現象を、 2回以上捉えるために必要な観察回数は最低38回。 未知の現象を、いくつかの観察の中 から、1度だけ見ただけでは、おそら くその現象は見逃してしまうだろう。 では、1回あたり10%しか起きない現 象でも、 90%以上の確率で全部で2 回以上の観察を確保する計画を立 てたいとする。 その時に最低限必要な観察回数は 38回となる。 左の図はある二項分布を描画したも ので、38回の観察で1回当たり10%の 現象の合計観察回数が1回以下の 場合と2回以上の場合のそれぞれの 確率を、赤と青で塗り分けている。
  4. 4. 10色のシールが同数の各商品に1枚ずつ貼られて いる時に、全ての色のシールを90%の確率で集める には、何個の商品を買いに行く必要があるだろう か? ある商品に10種類のシールが1 枚ずつ貼られていて、開封する までどのシールが入っているか 分からないとする。開封すると のどれかの種類のシールが 10%ずつ現れるものとする。 では異なる10種類のシールを全 て集めるには何個商品を集める 必要があるだろうか。答えは、 44個集めることで、90%の確率 で揃う。その様子は左のグラフ で表されている。(10個集めるだ けで全て揃う確率は低く 0.05% に満たない。51個で95%, 66個で 99%に達する。)
  5. 5. 各人が2:1の確率で賛成票と反対票を投じる時に多 数決で賛成が決まる可能性を90%確保するために 必要な人数は、15人。3:2なら 41人。 仮想的な状況として、投票者がそれ ぞれ他人の意見を全く知らないで、 全員がある決まった確率で賛成票ま たは反対票のどちらかを投票して、 多数決をとる状況を考える。(賛成反 対が同数の場合はその場でさいころ を振るとしよう。) すると、賛成票を投じる確率が50%よ り大きくても、偶然に支配されて多数 決の結果が反対になることがありう る。その可能性は人数が少ないほど 大きい。 では、そんな可能性が10%未満にな るように人数をそろえるにはどうした らよいだろうか? 賛成の確率が 2/3 ならば 15人、3/5 ならば 41人である。
  6. 6. 平均μ 標準偏差σ のガウス乱数を何個か取り出した中から、 区間μ±2σの外にある値を1個でも見つかる確率を 90%以上確保するには、最低でも50個の取り出しが必要。 確率分布は、ガウス分布で近似できること が多い。たとえば多数の人の身長や体重の 分布はガウス分布で近似できる。ガウス分 布の形は左のグラフのような形になる。 (このグラフの場合は、平均μ は 0 , 標準偏 差σは 1 になるように調整してある。 μ とσの パラメータをいろいろ変えることであらゆる ガウス分布を表現できる。) “偏差値” にたとえると、 μ + 2σ は 70, μ - 2σ は 30 に相当する。この2個の値に挟まれた 部分の割合は95.45% ,その外の部分の割 合は 4.55%と決まっている。 この外の部分を1つでも見つけ出す可能性 を90%以上にするには、そのガウス分布か ら 丁度50個以上の値を取り出す必要があ る。
  7. 7. 20回の観察をしたとしても意外と結果の分布の揺らぎは大きい。 値の範囲について精度良く把握するには、40回は必要と考えら れる。 上記の4個のグラフは、それぞれ観察回数を10回・20回・40回・100回と決め た場合に、15回ずつ値の”分布”をシュミレートしたものである。(観察した分 布から推測した平均と標準偏差を表す長方形を重ねてある。)
  8. 8. 2変量間の母相関係数が0.5の場合に、無相関の 片側検定を有意水準5%,検出力90%で行うには、 標本サイズが31以上が必要。 2つの変量の間の関係が大事なことは多い。その関係を捉え る有力な方法は、「無相関の検定」である。 しかし、元の分布に相関があっても、2桁の標本サイズではな かなか無相関の検定で対立仮説を ”棄却” することはできな い。 “対立仮説” を「相関係数は0より大きい」と設定して、有意水 準5%の無相関の検定を行う場合を考える。母相関係数0.5に 対して検出力90%以上を確保するために必要な標本数は31と 計算することができる。 図は母相関0.5の分布を表す雲のような分布の上に31個の標 本を重ねた例である。相関係数0.5程度の現象は、同一年齢 同性の親子の身長、プロ野球の年間総得点と総失点などに 現れる。 この場合の標本 相関係数は 0.421.. で、95%信頼区間は [0.13.. , 1.0]であり、p値は 0.009となり、帰無仮説を棄却するこ とができた。しかし、10%弱の確率で、このように棄却すること は出来ず、帰無仮説 “相関は正とは言えない” を支持すること になる。
  9. 9. [まとめ] 思ったことが正しい場合に 90% の確 率で正しい結果を得るための調査必要量 1. 多数決: 2:1の優勢 → 15人 3:2の優勢 → 41人 2. シール10色を全て集めたい → 44個 3. 10%の未知の現象の見逃しを防ぐなら → 38例 4. 2σ以上の逸脱したケースを探すなら → 50例 5. 標本から分布の範囲を把握したい→ 概ね 40例 6. 2変量に相関があるかどうか検定したい → 31例 ※ 上記の説明は詳細を省略している。解説は前のページを参照 3. 見逃しを避けるには複数例(2例以上) を必要とすると仮定している。 4.-6. はガ ウス分布を仮定している。5.は90%とは関係無い。 6. 片側検定でα=0.05, β = 0.1, ρ0=0.5 を設定している。(両側にすると37例になる。)
  10. 10. 最後に • 何かをきちんと調査したいときは、意外と多数のサンプル が必要であることを算出した。 • 簡単な問題でも20例程度では足りない。 • もちろん目的によるが、重要例をこの文書に示した。 • 無作為抽出は偏りのない調査に極めて重要。 • 他の方式を用いると異常例を多数観察することも多く、その異常を 取り除くことに多大な労力が発生する。 • 莫大なデータがあったとしても、全ては理解不能 • 人の目で100個以上の例をよく把握することは困難。 • 部分抽出したものが全体の傾向とあまり変わらないことは、超幾 何分布を二項分布で近似できることで理論的に正当化ができる。
  11. 11. (参考) R言語で本資料の数を算 出するためのプログラム ## (1) 1回で1/10の確率で起こる現象を2回以上観測したい pbinom(1,35:40,1/10) # 38回の所で0.1を切ることに注意。 # (2) シールを集めるのに何個買い集めたら良いのだろう。 # -- モンテカルロシュミレーションを採用したので、計算には時間がかかる。 M=10:80 # 何枚集めるかの数の候補 LL=3e3;pp=rep(1,10); # 各候補のシュミレート回数と多項分布に与えるパラメータ a<-matrix(0,max(M),3); # 格納する変数の準備 for(L in M){ temp<- prop.test(sum(apply(rmultinom(LL,L,pp),2,min)<1),LL,conf.level=.99) ; a[L,1]=temp$estimate; a[L,2]=temp$conf.int[1]; a[L,3]=temp$conf.int[2]; } a1=1-a plot ( M, a1[M,1],type="o",cex=0.7,pch=3,ylim=c(0,1), main="10色シールが全て揃っている確率", ylab="確率", xlab="収集枚数", yaxt="n" , yaxs="i"); axis(2,0:10/10,paste(0:10*10,"%",sep=""),las=1) abline( h=c(1:3/4,0.9,0.95),col="red3") abline( v=1:20*5,col="indianred1") arrows( M,a1[M,2], M,a1[M,3],angle=90,length=0.01) arrows( M,a1[M,3], M,a1[M,2],angle=90,length=0.01) ## (3) 賛成数の可能分布の考察 pbinom(c(6,7),c(13,15),2/3) # 13人中賛成6人以下の可能性は 0.103 だが 15人中7人以下は 0.088 pbinom(c(19,20),c(39,41),3/5)# 39人中賛成19人以下の可能性は 0.102 だが 41人中20人以下は 0.0965 # グラフを描く par(mfrow=c(2,1)) barplot(dbinom(0:13,13,2/3),col=c(rep("red1",7),rep("blue1",7)),names.arg=0:13,main="15人の各人が独立に2/3の確率で賛成する場合") barplot(dbinom(0:41,41,3/5),col=c(rep("red1",21),rep("blue1",21)),names.arg=0:41,main="41人の各人が独立に3/5の確率で賛成する場合") # (4) 逸脱を見つける もしくは pbinom(0,49:51,2*pnorm(-2)) # 両側を見る場合 pbinom(0,99:102,2*pnorm(-2)) # 片側を見る場合 # (6) L<-1e4 ; r<-0.5; r2<-sqrt(1-r^2) K<-31 prop.test(sum(replicate(L,{x<-rnorm(K);y<-rnorm(K)*r2+x*r;cor.test(x,y,"greater")$p.value})>=.05),L)$conf.int K<-30 prop.test(sum(replicate(L,{x<-rnorm(K);y<-rnorm(K)*r2+x*r;cor.test(x,y,"greater")$p.value})>=.05),L)$conf.int

×