Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

統計学

1.416 Aufrufe

Veröffentlicht am

  • Als Erste(r) kommentieren

統計学

  1. 1. 統計学第1回
  2. 2. 全体像• マスに入った日本酒の体積は?• 1回目測定値が100.5立方センチメートル• 2回目測定値が100.7立方センチメートル• 100回目測定値が100.1立方センチメートル• 100回測定したがバラツキがある• 本当の値、真の値を求めたい• どのように表現したらよいか?
  3. 3. 全体像• 平均値は100.2立方センチメートルと出た。• この平均値もバラツキがある(もう100回測定 したら別の平均値が出る)• 真の値+誤差 というモデルを考える• 誤差は正規分布(釣鐘型の山の形)に従うと 知られている
  4. 4. 全体像• 真の値を平均値で推測する• 100.2±誤差• 誤差は分散で推測できる(分散とは平均値からの データのバラツキ度合い)• 計算で分散の平方根(標準偏差)が0.001だと求まっ た• 真の値±誤差 → 100.2±2×0.001上記の式で約95%は信頼できる95%の信頼とは正規分布の中心(平均値)からのバラツキが標準偏差の2倍くらいになる範囲が95%信頼区間
  5. 5. 全体像• 以上が統計的推定、統計量の内容• 統計量とは、平均値や分散、標準偏差などの指標の こと• 統計学では「正規分布」など、「確率分布」であらかじ めデータがどのようにふるまうか分かっているので、 確率分布を利用して求めたい値を推定している。• 平均値は代表値(100回測定した値の代表)• 分散は平均値からのデータのバラツキを表す度合い。 データと平均値の差を2乗したものをデータ数で割って いる。σ^2(シグマ2乗)で表現される。• 標準偏差は分散の平方根、σ(シグマ)で表現される、 分散が2乗なので平方根をとっている。
  6. 6. 全体像• 1組の英語の平均点が70点、2組の英語の平均 点が65点。帰無仮説:1組と2組の平均点は等しい対立仮説:1組と2組の平均点は異なる帰無仮説とは「無に帰す仮説」。確率分布で「1組と2組の平均点は等しい」が5%未満であれば珍しいとして、帰無仮説を棄却(否定)し、対立仮説を採用する。以上が統計的仮説検定。
  7. 7. 全体像• 統計学はあらかじめ知られている確率分布 (正規分布、t分布、F分布、カイ二乗分布、幾 何分布、二項分布、ポアソン分布、指数分布 など)を用いて、統計的推定や統計的仮説検 定を行っている。
  8. 8. 全体像• 相関係数とは2つの観測値(XとY)が直線的な 関係(線形)の度合いを示す。たとえば、身長 が大きければ体重も大きくなるような関係な ど。• 上述の確率分布や相関係数を使って、2つ以 上の観測値(変数X、Yなど)から変数間の関 係をモデル式で表したり、予測したりすること ができる。→線形モデル
  9. 9. データとは?• 情報科学 – 現実を表しているもの • データ圧縮 • DNA • 可視化• 統計学 – データを発生させる何らかのメカニズムがある
  10. 10. 統計学のデータとは?• データは標本の実現値 標本 メカニズム 標本 母集団 分布 標本
  11. 11. 統計学で大切なことは?• 仮説を持つということ!
  12. 12. 統計学で大切なことは?• ジョーカーを除いたトランプ52枚から10枚取り 出し、トランプの値の平均値を求めた。 – 取った10枚を元に戻して、再び10枚とって平均値 を求める – 10枚とって計算した平均値はバラツク、変動する – どのようにバラツクのか?• バラツキかたを知ることが構造を知るというこ と!
  13. 13. どう考えるのか?• Simple is the Best ! – まずはシンプルに考える• どうしてこんなグラフの形になるのかを考える
  14. 14. どう考えるのか?• 仮説0 – 1つの構造が1つある• 仮説1 – 同じ構造が2つある ←やりやすい!!• 仮説2 – 違う構造が2つある
  15. 15. どう考えるのか?• 信念 – 平均値は何かを表しているはず、という信念 𝑋1 + 𝑋2 + 𝑋3 + ⋯ + 𝑋100 𝑥= 100
  16. 16. 確率事象• 確率 – あるできごとが起きたり起きなかったりするものに対 して、起きる度合い。• 事象 – できごとみたいなもの。現象。• 確率事象 – あるできごとが起きたり起きなかったりする現象。
  17. 17. 確率事象• 一番シンプルなものを考える – 状態が2つ • コインの表と裏 数値へマッピング (数式、数値で表現) X=1 ←コイン(X)が表(1)という意味 X=0 ←コイン(X)が裏(0)という意味表:P(コイン=表)裏:P(コイン=裏) P(X=1) ←コインが表の確率 P(X=0) ←コインが裏の確率
  18. 18. なぜ数式で表現するのか?• 数式は厳密に考えられる• 数式は世界共通語• 話し言葉よりも数式で表現した方がシンプルになると きもある• テキストに記述されている数式をまねして、手で書い てなぞっていくと、少しずつ慣れてくる• 統計学は数式(数学)を道具として活用している• 基本は足し算、引き算、掛け算、割り算で理解できる ので慣れることが必要• P, pは確率(probabilityのp)、変数はX, x, Y, yなどを使う• f(x)のfは関数(function)のf
  19. 19. 用語への慣れ• 変数 – いろいろな数値が入る入れ物みたいなもの – X、Yなどで表現する• 確率変数 – 数値の入れ物が確率的な振る舞い(起きたり起こらなかったり)をする 変数• 関数 – 関数f(x)という箱にxを入力するとyが出力されるようなイメージ。ある 値を入力するとある値が出力される箱(仕組み、メカニズム、モデル) のようなもの。• モデル – メカニズムを表現した数式や言葉を指す• 分布 – 確率変数の振る舞い、あらかじめ知られているメカニズム、モデルの ようなもの
  20. 20. コインの表と裏P(X=1)>=0 ←コインが表の確率はゼロ以上P(X=0)>=0 ←コインが裏の確率はゼロ以上P(X=1)+P(X=0)=1 ←表と裏の確率の和は1P(X=1)=p ←表の確率をpP(X=0)=1-P(X=1)=1-p ←裏の確率を1-pP(X1=1)=p, P(X2=1)=p ←1回目投げたら表、2回目投げたら表X1とX2は独立と仮定 ← 1回目と2回目は影響しあっていない 統計学では「独立」という前提が多いP(X1=1 かつ X2=1)=P(X1=1)×P(X2=1)← 1回目投げたら表、かつ2回目投げたら表になる確率
  21. 21. コインの表と裏(ベルヌーイ試行)ベルヌーイ試行:2つの値しか出ない確率事象の試みP(X=1)>=0P(X1=1, X2=1)=p×p 表×表P(X1=1, X2=0)=p×(1-p) 表×裏P(X1=0, X2=1)=(1-p)×p 裏×表P(X1=0, X2=0)=(1-p)^2 裏×裏P^2+p(1-p)+(1-p)p+(1-p)^2=1←上記4パターンの確率の合計は1
  22. 22. 幾何分布• コインを投げて、k回目で表が出る確率(k-1回 目までは裏が続く)• 裏、裏、裏、・・・、裏、表P(X=k)=(1-p)(1-p)・・・(1-p)p =(1-p)^(k-1)×p• 幾何分布とは成功するまでの確率分布を表 す
  23. 23. 二項分布• ベルヌーイ試行(コインの表と裏のように確率 変数が「0」か「1」の2値パターン)をN回行うと きの確率分布を表す
  24. 24. コインの表と裏を再考• コインの表が出る確率をpとする• 公平なコインであれば確率pは1/2であるとい えるのか?• 本当の確率pの値が分からない →データから推定する 何回目 0回目 1回目 2回目 3回目 コインの状態 - 表 表 表 確率p 1/2 1/2といえ る?

×