Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
有意差の検出と信頼区間の構成
— R言語による簡便な計算法 —
2015.03.02 T.S.
「差があるのかどうなのか?」という問題に答えることは、
そんなに簡単なことではありません。
ここでは様々な場面で数値が現れた時に即座に使える
R言語...
初めの断り書き
気にしない人に取っては、ここの断り書きはあまり重要でないかもしれませ
ん。しかし、本文書の立場をはっきりさせるための但し書きをこのページに記
すこととします。
• 本文書では、統計学の基本的な考え方である、有意性検定や仮説検定の...
本文書のねらい
• 日常生活や社会生活で、やや遭遇する機会の多い基本
的な、統計の数の問題を、扱います。
• その中でも、R言語で即座に算出できる問題を扱います。
– これは必要なときにすぐ使えるノウハウこそ、まとめておくこと
が大事と考えるた...
R言語に関して
• R言語は、インターネット上で検索して、(英語
のサイトですが)非常に簡単にインストール出
来ます。 Windows, Mac, Linux を問いません。
• 次ページ以降に表示されるコマンドの使い方
が分からなければ、? ...
2個の数に違いはあるか?
設定 ある商品を売り出したら、男性が515個、女性が459個購入してくれた。
売れ具合に男女差があると考えて良いか?
R言語での計算法 : binom.test を使う。
結論 : p値は 0.07796 > 0.05...
2個のオッズに違いはあるか?
例「2商品の売れ方に男女差はあるか?」
設定 ある2商品を売り出したら、商品AとBは、それぞれ男性に131個と95個、
女性に120個と65個売れた。商品間の売れ行きで男女差はあるか?
R言語での計算法 : fis...
商品の売り上がる効率の推定
例「ある日の売上げが25個だった」
設定 ある商品のある日の売上げを担当者に聞いたら、25個であった。
一日当たりの売上がる個数の母平均の信頼区間は?
R言語での計算法 : poisson.test を使う。
結論 ...
中央値の信頼区間の構成をしたい。
例「毎日の売上げデータから毎月の様子を知りたい」
設定 ある商品の毎日のデータから、月ごとに1日の売れ行きの中央値の信
頼区間を構成したい。
Rによる計算法 : qbinom(1/40,c(28,29,30,3...
2個のオッズ比に違いはあるか?
例「2個のキャンペーンで新商品への誘導効果に差はあったか?」
設定 古い商品を購入している客を減らして、新しい商品へ移行させたい。
2個のキャンペーンを行った。効果に違いはあっただろうか?
計算法 : ワルド検定...
付け加え
• 5% = 0.05 の有意水準で、有意差が無かった場
合、それでも「違いがある」と言いたい場合には、
他に十分説得力のある根拠が必要です。
– 観察対象となった標本から取り出した属性が適切で
なかったかもしれません。
– 観測が足...
その他忘れざるべきこと
• 両側検定なのか、片側検定なのか考えること。
• あらかじめ計画立てて、必要観測数を見積もることも重要で
その場合は pwrパッケージのコマンドを使うこと。
• (無)相関についての検定には、cor.testが使えるこ...
Nächste SlideShare
Wird geladen in …5
×

R言語による簡便な有意差の検出と信頼区間の構成

How to calculate significant difference and confidence interval with R, quickly?

R言語による簡便な有意差の検出と信頼区間の構成

  1. 1. 有意差の検出と信頼区間の構成 — R言語による簡便な計算法 — 2015.03.02 T.S. 「差があるのかどうなのか?」という問題に答えることは、 そんなに簡単なことではありません。 ここでは様々な場面で数値が現れた時に即座に使える R言語などを使った計算の方法を説明します。 1
  2. 2. 初めの断り書き 気にしない人に取っては、ここの断り書きはあまり重要でないかもしれませ ん。しかし、本文書の立場をはっきりさせるための但し書きをこのページに記 すこととします。 • 本文書では、統計学の基本的な考え方である、有意性検定や仮説検定の考え方を用います。 • それに従って、有意性がある/なしを判断したり、信頼区間を構成します。 • 検定のp値は0.05, 信頼区間は95%信頼区間を用います。 • この文書では、尤度比を考えて判断をしたり、ベイズ統計学の考え方は用いません。それでも、そ の考え方を用いて、本文書の内容を発展させることは有意義なことです。 • 本文書は、「問題設定」に対して、それ以上の背後の状況などは考えません。やや不自然かもしれませ んが、あえてそういう最小限の情報から、数について算出する方法を説明します。 • 説明を簡潔にするため、あえて専門用語を多用します。意味はご自身でお調べください。途中の考え方 も細かいところは説明しません。自分で考えて、何か間違いがあればご報告して頂くことは歓迎します。 2
  3. 3. 本文書のねらい • 日常生活や社会生活で、やや遭遇する機会の多い基本 的な、統計の数の問題を、扱います。 • その中でも、R言語で即座に算出できる問題を扱います。 – これは必要なときにすぐ使えるノウハウこそ、まとめておくこと が大事と考えるためです。 – 電車の中でも計算できる位に簡単なノウハウを目指しました。 • 3桁(100〜999)程度の数でも、有意差がなかなか出ないこ とがあることを知るのも、数の感覚として大事なことだと、 本文書作成者は考えています。 3
  4. 4. R言語に関して • R言語は、インターネット上で検索して、(英語 のサイトですが)非常に簡単にインストール出 来ます。 Windows, Mac, Linux を問いません。 • 次ページ以降に表示されるコマンドの使い方 が分からなければ、? command のように ? に続けてコマンド名を入力することで、 詳細なヘルプが得られます。 4
  5. 5. 2個の数に違いはあるか? 設定 ある商品を売り出したら、男性が515個、女性が459個購入してくれた。 売れ具合に男女差があると考えて良いか? R言語での計算法 : binom.test を使う。 結論 : p値は 0.07796 > 0.05 であり、有意差は無い。 男女比の信頼区間は [ 0.987 , 1.275] になる。 例-1 5
  6. 6. 2個のオッズに違いはあるか? 例「2商品の売れ方に男女差はあるか?」 設定 ある2商品を売り出したら、商品AとBは、それぞれ男性に131個と95個、 女性に120個と65個売れた。商品間の売れ行きで男女差はあるか? R言語での計算法 : fisher.test を使う。 近似値で良い場合はchisq.testを使う。 結論 : p値は 0.1565 > 0.05 であり、有意差は無い。 オッズ比の信頼区間は [ 0.489 , 1.137] になる。 例-2 6
  7. 7. 商品の売り上がる効率の推定 例「ある日の売上げが25個だった」 設定 ある商品のある日の売上げを担当者に聞いたら、25個であった。 一日当たりの売上がる個数の母平均の信頼区間は? R言語での計算法 : poisson.test を使う。 結論 : 母数の信頼区間は [ 16.17, 36.90 ] になる。 ポアソン分布に従う変数の標準偏差は母平均 λ の平方根 λ1/2 に等しいで す。信頼区間は [ λ-2λ1/2 , λ+2λ1/2 ] にほぼ等しいことは注目すべきことです。 例-3 7
  8. 8. 中央値の信頼区間の構成をしたい。 例「毎日の売上げデータから毎月の様子を知りたい」 設定 ある商品の毎日のデータから、月ごとに1日の売れ行きの中央値の信 頼区間を構成したい。 Rによる計算法 : qbinom(1/40,c(28,29,30,31),1/2)による数値を使う。 結論 : 各月の、毎日の売上げデータ28〜31個を並べ、小さい順に並べる。 そして、2月は両端から9番目の値を信頼区間の上下限とする。それ以外の 月は両端から10番目の値を信頼区間の上下限とする。 この方法を採用すると、5個以下のデータからは中央値の信頼区間は構成できず、6〜8個の データの場合は、データの最大値と最小値が信頼区間の上下限に一致することは、注目に値 する。 例-4 8
  9. 9. 2個のオッズ比に違いはあるか? 例「2個のキャンペーンで新商品への誘導効果に差はあったか?」 設定 古い商品を購入している客を減らして、新しい商品へ移行させたい。 2個のキャンペーンを行った。効果に違いはあっただろうか? 計算法 : ワルド検定の考え方を使う 対数オッズ比とその分散を計算する。 対数オッズ比は θ= log ad/bc その分散は s2=a-1+b-1+c-1+d-1 である。 (変数は右の図を参照) z:= (θ1-θ2) / (s1 2+s2 2)1/2 に対して Rでpnorm(z) の値が[0.025,0.975] の の外にあれば、有意差ありとする。 ちなみに、右上のような図のことをモザイクプロットと呼ぶ。 なお、「オッズ odds 」と「オッズ比 odds ratio」は違う概念である。 例-5 9 キャンペーン 1 の前後の様子 キャンペーン 2 の前後の様子 a1 b1 c1 d1 a2 b2 c2 d2 4個の四角で構成されるブロックの上側が古い商品、 下側が新商品。左側がキャンペーン前、右側がキャ ンペーン後。四角の面積が売れ行きに比例する。 この計算法についてはもっと良い 方法があるかもしれません。
  10. 10. 付け加え • 5% = 0.05 の有意水準で、有意差が無かった場 合、それでも「違いがある」と言いたい場合には、 他に十分説得力のある根拠が必要です。 – 観察対象となった標本から取り出した属性が適切で なかったかもしれません。 – 観測が足りなかったのかもしれません。 – 一般的には、信頼区間の幅が標本サイズの平方根 に反比例して縮むことを用いて、必要なサイズを大雑 把に見積もることが可能です。 10
  11. 11. その他忘れざるべきこと • 両側検定なのか、片側検定なのか考えること。 • あらかじめ計画立てて、必要観測数を見積もることも重要で その場合は pwrパッケージのコマンドを使うこと。 • (無)相関についての検定には、cor.testが使えること。 • ちゃんと統計学を学ぶこと。 – 数理的なこともそうで無いことも大事であること。 – t検定やマンホイットニーのU検定は基礎である。 – スコア検定など知っておくべきこと。 – フィッシャーと、ネイマン/ピアソンの間の論争は解決していないこと。多分。 – それだけではないこと。 – 学術レベルの論文でも、統計学的観点から怪しいものがあれば、 それを見破る目を持つべきこと。 11

×