Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
— 6個,13個,72個のサンプルによる分位点の信頼区間の構成 —
2015-03-09 TS
分布の形を仮定できないときは、6回はちゃんと観察しましょうという
話。分布の形が分かっていれば、ほんの1,2回の観察でも意味あるかも知れま
せんが。...
初めのことわり書き
• “独立同分布”かつ”分布の形を仮定しない” サンプ
ルを得た場合に分位点をどう構成するかについて
の話です。
• 非常に簡単な仮定で話をしますが、暗黙にやや高
度な統計学の知識を要求します。
• 書いてあることは、理解出...
分位点の信頼区間の構成
一般論
1. 母分位点の順序統計量の考察
▶ ある母分布DからN点を(独立同分布を仮定して)サンプルとして取得したとする。
▶ その観測値を小さい順に並べ x(1), x(2), …,x(N) とした場合に、
母分布の下側 P点 Q が区間 [x(m)...
2. 信頼区間の構成について
あるパラメータに値を設定した前提で、観測値から得られる統計量が
下側2.5%点未満か下側97.5%点超の値を取る場合に有意と定義す
る。そして、観測値を得た場合に、有意にならない前提を与えるパラ
メータの値の集合が...
分位点の信頼区間の構成
〜 具体的な数値例 〜
N ≧ 6 で、母中央値の95%信頼区間を構成できる。
• N=6,7,8の場合は、N個の観測値の最小値と最大値が、
母中央値の95%信頼区間となる。
• N=9,10,11 の場合は、N個の観測値の最小値と最大値をひとつずつ消去
した残りの値...
N ≧ 13 で、母四分位値の95%信頼区間を構成できる。
• N=13〜19の場合に、下側母四分位値の95%信頼区間の下限は、観測値の最小
値に一致する。
• N=13,14,15,16,17,18,19のそれぞれの場合に、下側母四分位値の9...
N≧72 で母分布の5%点の
95%信頼区間を構成できる。
• N=71だと母分布の下側5%点が全ての観測
値より小さい確率は 0.0262 ≧ 0.025 となって
しまう。
• N=72の場合は、観測値の最小から1番目と9
番目を信頼区間の...
参考事項
N=2,3 だとどうなるか?
あるパラメータに値を設定した前提で、観測値から得られる統計量が下側
100α/2%点未満か下側100(1-α/2)%点超の値を取る場合に有意水準αで有
意。観測値を得た場合に、有意にならない前提を与えるパラメータの...
N=6で、母中央値の信頼区間を今までに説明し
た方法と、t検定による方法で構成して比較する。
各長方形の、x座標範囲とy座標範囲は次の方法で作った。
標準正規分布に従う乱数6個を生成し、t検定の方法で母平均(=母中央値)の95%信頼区間を
求め...
数値はどうやって得たかについて
• 一変数の方程式を数値的に解く場合には、uniroot を用いている。
その他考えたいこと
考えたいこと(1)
• サンプルの最小値または最大値を使った、信
頼限界を用いると、ハッキング(現実での悪意
を持った操作)に対して脆弱な可能性がある
ように思われる。2番目か3番目の最小値また
は最大値を用いるようにしたいようにも思わ
れる。...
考えたいこと(2)
• 本文書の考え方が、何かパラドックスを生み出
す可能性がある。(一般的に確立した考え方では
ないと、本文書作成者は考えるため。)
• そのような事例を収集し、考察を加えることで、
統計学の理論のさらなる洗練を導くことが期待...
考えたいこと(2)
• 境界に端点を含めるか否かについて
– この文書について、不等号にイコールが付くか否
か、境界が端点を含むか否かについては、再検
討を要する。
– R言語の qbinomのような ”q+離散分布” の形の
関数の不連続点で...
Nächste SlideShare
Wird geladen in …5
×

最低6回は見よ

中央値の95%信頼区間を作るには6個の標本サイズが必要である。

--
分布の形を仮定できないときは、6回はちゃんと観察しましょうという話。分布の形が分かっていれば、ほんの1,2回の観察でも意味あるかも知れませんが。 ただし、本文書は「95%信頼区間」の考え方を採用しています。仮定としてはかなり強すぎるかもれませんし、人によっては弱すぎるかもしれません。 (本文書の仮定が自然なのか不自然なのかについては、本文書作成者は判断を一旦保留します。理屈が分かって、日常の中に使う分にはなんら問題はないと、考えています。)

  • Als Erste(r) kommentieren

最低6回は見よ

  1. 1. — 6個,13個,72個のサンプルによる分位点の信頼区間の構成 — 2015-03-09 TS 分布の形を仮定できないときは、6回はちゃんと観察しましょうという 話。分布の形が分かっていれば、ほんの1,2回の観察でも意味あるかも知れま せんが。 ただし、本文書は「95%信頼区間」の考え方を採用しています。仮定としてはか なり強すぎるかもれませんし、人によっては弱すぎるかもしれません。 (本文書の仮定が自然なのか不自然なのかについては、本文書作成者は判断を一旦保留します。理 屈が分かって、日常の中に使う分にはなんら問題はないと、考えています。) 中央値の95%信頼区間を作るには 6個の標本サイズが必要である
  2. 2. 初めのことわり書き • “独立同分布”かつ”分布の形を仮定しない” サンプ ルを得た場合に分位点をどう構成するかについて の話です。 • 非常に簡単な仮定で話をしますが、暗黙にやや高 度な統計学の知識を要求します。 • 書いてあることは、理解出来れば日常や社会生活 に容易に適用できるはずです。 • しかし、適用の仕方を間違うと、全く的外れな結末 になるので、気をつけてください。
  3. 3. 分位点の信頼区間の構成 一般論
  4. 4. 1. 母分位点の順序統計量の考察 ▶ ある母分布DからN点を(独立同分布を仮定して)サンプルとして取得したとする。 ▶ その観測値を小さい順に並べ x(1), x(2), …,x(N) とした場合に、 母分布の下側 P点 Q が区間 [x(m),x(m+1) )に含まれる場合の確率はいくらだろうか? ▶ ただし、便宜上、x(0):=-∞ , x(N+1):=+∞とする。 • 母分布 D は未知であるとする。P は既知だが、Q は未知である。 • 母分布Dはポイントマスは無いと仮定してある(サンプル中に全く同じ値が複 数出現する確率をゼロにするため)。 もしくは、小さなεの値を設定し、[-ε,+ε]の一様乱数を観測値に足し算をして ポイントマスを無くす。 → M の値を Q∈ [x(m),x(m+1) ) の場合に m であると定義する(一意に定まる)。 すると、Mの値の分布は、二項分布 Binom(N,P) に従う。 → N,Pが決まっているときに各Mの値を取る確率は R言語で dbinom( M , N , P) で計算できる。
  5. 5. 2. 信頼区間の構成について あるパラメータに値を設定した前提で、観測値から得られる統計量が 下側2.5%点未満か下側97.5%点超の値を取る場合に有意と定義す る。そして、観測値を得た場合に、有意にならない前提を与えるパラ メータの値の集合が、パラメータの95%信頼区間であると定義する。 • 有意となる条件を「2.5%点以下もしくは97.5%点以上」とする定義は、条件としてはや や甘い。実用上難点があるので、本文書では採用しない。 • R言語で M1<-qbinom( 1/40,N,P,TRUE ) ; M2<-qbinom( 1/40,N,P,FALSE ) とする。 • Mを統計量、Qをパラメータとする。 すると、Qの95%信頼区間は [x(M1) , x(M2 + 1 ) ]
  6. 6. 分位点の信頼区間の構成 〜 具体的な数値例 〜
  7. 7. N ≧ 6 で、母中央値の95%信頼区間を構成できる。 • N=6,7,8の場合は、N個の観測値の最小値と最大値が、 母中央値の95%信頼区間となる。 • N=9,10,11 の場合は、N個の観測値の最小値と最大値をひとつずつ消去 した残りの値の最小値と最大値が、母中央値の95%信頼区間の下限と 上限となる。 • N≦5の場合は、母中央値の信頼区間は構成できない(もしくは区間(- ∞,+∞)と表される。 • 不動産屋さんなどを見るときは、物件を6件は見た方が良いと言える(?)。 そうしないと、中央値すら信頼区間を構成不可能だから。 6 7 8
  8. 8. N ≧ 13 で、母四分位値の95%信頼区間を構成できる。 • N=13〜19の場合に、下側母四分位値の95%信頼区間の下限は、観測値の最小 値に一致する。 • N=13,14,15,16,17,18,19のそれぞれの場合に、下側母四分位値の95%信頼区間 の上限は、観測値の下から7,8,8,9,9,9,10番目となる。 • N=13,15,17,19の場合に、下側母四分位値の95%信頼区間の上限は、観測値の 中央値に一致する。 • N≦12の場合は、母四分位値の95%信頼区間は構成できない。(もしくは±∞を区 間の端に含む。) 13 19
  9. 9. N≧72 で母分布の5%点の 95%信頼区間を構成できる。 • N=71だと母分布の下側5%点が全ての観測 値より小さい確率は 0.0262 ≧ 0.025 となって しまう。 • N=72の場合は、観測値の最小から1番目と9 番目を信頼区間の境界とすれば良い。 11番目と26番目の間が 下側25%点の信頼区間 28番目と45番目の間が 下側50%点(中央値)の信頼区間 1番目と9番目の間が 下側5%点の信頼区間 上から6番目と19番目の 間が上側1/6点の信頼区間 図はN=72の場合
  10. 10. 参考事項
  11. 11. N=2,3 だとどうなるか? あるパラメータに値を設定した前提で、観測値から得られる統計量が下側 100α/2%点未満か下側100(1-α/2)%点超の値を取る場合に有意水準αで有 意。観測値を得た場合に、有意にならない前提を与えるパラメータの値の集 合が、パラメータの100(1-α/2)%信頼区間であると定義する。 日常生活の中では、未知/未経験の現象が発生した場合、それを何度も確かめたり、 何人もの人に類似の経験が無いか聞いて回ることは、普通はしないことが多い。 (N=6もサンプルを集めることは少なく、N=2,3で済ますことが多いだろう。) N回の観測の最小値xMINと最大値xMAXを用いることで、下記のことが可能。 N=2回の観測の場合は、母中央値の 50%信頼区間は [xMIN, xMAX] である。 N=3回の観測の場合は、母中央値の 75%信頼区間は [xMIN, xMAX] である。 N=4回の観測の場合は、母中央値の 87.5%信頼区間は [xMIN, xMAX] である。 N=5回の観測の場合は、母中央値の 93.75%信頼区間は [xMIN, xMAX] である。 N=2回の観測の場合は、母下側84.2%点の 95%信頼区間が [−∞, xMAX] である。 N=3回の観測の場合は、母下側70.7%点の 95%信頼区間が[−∞, xMAX] である。 N=4回の観測の場合は、母下側60.2%点の 95%信頼区間が[−∞, xMAX] である。 N=5回の観測の場合は、母下側52.1%点の 95%信頼区間が[−∞, xMAX] である。
  12. 12. N=6で、母中央値の信頼区間を今までに説明し た方法と、t検定による方法で構成して比較する。 各長方形の、x座標範囲とy座標範囲は次の方法で作った。 標準正規分布に従う乱数6個を生成し、t検定の方法で母平均(=母中央値)の95%信頼区間を 求めることと、その6個の値の最小値と最大値で信頼区間を求めた。それを20回繰り返した。各 長方形を見てみると、2個の区間はあまり大きく異ならないことが分かる。
  13. 13. 数値はどうやって得たかについて • 一変数の方程式を数値的に解く場合には、uniroot を用いている。
  14. 14. その他考えたいこと
  15. 15. 考えたいこと(1) • サンプルの最小値または最大値を使った、信 頼限界を用いると、ハッキング(現実での悪意 を持った操作)に対して脆弱な可能性がある ように思われる。2番目か3番目の最小値また は最大値を用いるようにしたいようにも思わ れる。それについても考察したい。 • 世の中で多くの会社が、見積もりを2-3個の業 者で済ませることについての妥当性について、 検討したい。
  16. 16. 考えたいこと(2) • 本文書の考え方が、何かパラドックスを生み出 す可能性がある。(一般的に確立した考え方では ないと、本文書作成者は考えるため。) • そのような事例を収集し、考察を加えることで、 統計学の理論のさらなる洗練を導くことが期待 できるかも知れない。 • さらに別の隠れた意図としては、本当は人間の 直感が、意外と偏見に支配されやすいことを示 す例の一端を示したかった。(今回はあまり達成 できず。)
  17. 17. 考えたいこと(2) • 境界に端点を含めるか否かについて – この文書について、不等号にイコールが付くか否 か、境界が端点を含むか否かについては、再検 討を要する。 – R言語の qbinomのような ”q+離散分布” の形の 関数の不連続点での振る舞いについては、再検 討を要する。(当面策は 3e-16 を加減する。str(.Machine)を参照) – ただし、実際の数値計算をする際は、おそらく問 題が起こる可能性はとても小さい。それでも、理 論構築の上では、よく調べる必要がある。

×