Weitere ähnliche Inhalte
Ähnlich wie Introduction to statistics (20)
Mehr von Kohta Ishikawa (11)
Kürzlich hochgeladen (11)
Introduction to statistics
- 2. ご注意
• この資料は個人的な知識をまとめたものです。作成者
の所属する組織とは一切関わりの無いものです。
• 内容は正確なものとなるよう努力していますが、作成
者の不勉強が無いとは言い切れません。不正確な内
容の発生、および本資料の内容を用いたことによるい
かなる損害についても、作成者はその責任を負いませ
ん。
• おかしな点や、改善点など、お気づきの際にはご指摘
いただけると幸いです。
2
- 3. この資料の目的と前提
目的 前提
•仕事上の問題解決を考える •平均や分散などの確率的
ときに統計学のことも頭に 計算を知っている
浮かぶようになる
•正規分布なども知っている
•統計学の全体像をイメージ
できるようになる •統計学についてとても詳しい
というわけではない
•必要な個別トピックの調査
検討にすんなり入れるよう •統計学についてきちんと
になる 勉強するのが面倒臭い
…となれたらお得ですね …という方
3
- 4. 概要
• 統計学とは何か?
– 統計学が扱う問題とその目的
• 確率モデルとパラメータ
– 統計学の基本的な道具とその使い方
• 回帰分析
– よく用いられるモデルとしての実例
• 検定
– 統計的検定の考え方
• モデル選択
– より進んだトピックとして
• ベイズ統計学の初歩
– 頻度主義統計学とは異なる世界を覗く
4
- 5. • 統計学とは何か?
• 確率モデルとパラメータ
• 回帰分析
• 検定
• モデル選択
• ベイズ統計学の初歩
5
- 7. 統計学とは何か?
• ランダムな現象をモデル化
– ノイズがある
– 非決定論的な現象 不確実性のモデル化
– 現象の背景がよくわからない
真の構造に近いと思われる確率モデルを
想定してデータに合わせ込む
統計学がやっているのはほとんどこれだけ
(だと思います)
7
- 8. • 統計学とは何か?
• 確率モデルとパラメータ
– 確率モデル
– 具体例 ~歪んだコイン投げ
– パラメータの推定量とその性質
– 最尤法(推定量の構成)
– 歪んだコイン投げの最尤推定
• 回帰分析
• 検定
• モデル選択
• ベイズ統計学の初歩
8
- 10. 確率モデルとパラメータ(母数)
• 具体例 歪んだコイン投げ
– 歪んでいて、表・裏の出る確率がよくわからないコイン
確率モデル データ
(H,H,T,H,T,H,T,T,…)
H・・・n回 T・・・N-n回
N回コイン投げをしたらHがn回出た
パラメータ
:表が出る確率
合わせ込んだパラメータ
表が出る確率は
裏が出る確率は
なぜこの合わせ込みが良いと言えるのか?
どうやって合わせ込むとこうなるのか?
10
- 11. 確率モデルとパラメータ(母数)
• 推定量とその性質
推定量
データXを使って真のパラメータ値θを推定したもの
はデータXの関数
データの具体的な値による
になったら嬉しい データは確率変数
も確率変数!
確率変数としての の
性質を調べる必要がある の平均や分散を知りたい
11
- 12. 確率モデルとパラメータ(母数)
• 具体例 歪んだコイン投げの推定量
:明らかにnの確率分布を考えれば良い
平均が真のパラメータ値
に一致
平均
不偏推定量
平均が真のパラメータ値に等しくなる推定量
(unbiased estimator)
推定したい各パラメータについて、不偏推定量を見つける
ことができれば、データから偏りの無い推定ができる
・実際に不偏推定量を見つけるのは簡単ではない。
・近似的不偏性で我慢することも多い。 12
- 13. 確率モデルとパラメータ(母数)
• 分散はどうなっているか? 平均値のまわりでバラツ
キがある
分散
ならバラツキはゼロとなる
一致推定量
無限にデータを集めれば推定量は (consistent estimator)
確率1で決まった値をとる
推定量が一致性を持っているなら、安心して大量のデータ
を集めてくればよい
・不偏性と一致性を兹ね備えた推定量を見つけることが目標となる
・一致性は大抵の場合満たされる(大数の法則、中心極限定理)
13
- 15. 確率モデルとパラメータ(母数)
• 不偏推定量の分散の性質
– 一般に、推定量の分散は小さければ小さいほど良い
• 分散が小さいなら真のパラメータからのズレが小さい
– ところが、一般に不偏推定量の分散は一定の下限値よ
り小さくすることができない(データ数固定の場合)
クラメール・ラオの下限
データXが与えられたとき、不偏推定量の分散について次の不等式が成り立つ
不偏推定量の中で最も分散が小さいもの 最小分散不偏推定量
15
- 16. 確率モデルとパラメータ(母数)
• 最尤法
推定量 はデータのどんな関数にすればいいのか?
今得られているデータXは、
最も得られる確率の高いデータが実現したもの
だと考える。
最尤法
今得られているデータXが実現する確率 を最大化
するようなパラメータを推定量とする。
16
- 17. 確率モデルとパラメータ(母数)
• 最尤法と最尤推定量
最尤推定量
はデータXを固定して
を の関数と見たもの
尤度関数
推定量を構成する方法は最尤法以外にも色々ある
最小二乗法、MAP推定、ベイズ推定、…
尤度関数はとても重要な量で、様々な場面で顔を出す
フィッシャー情報量、AIC(赤池情報量規準)、ベイズ統計…
17
- 19. 確率モデルとパラメータ(母数)
• 最尤法についての注意
– 最尤推定量は必ずしも不偏性、一致性を満たさない
• むしろバイアスが掛かりやすい性質がある
• AICなどによる推定量を用いて補正したりする
有名な例:正規分布モデルの分散の最尤推定量
は不偏推定量ではない!
分散の不偏推定量は
19
- 21. 回帰と線形モデル
• 回帰 -よく用いる確率モデルとして
– 回帰は確率モデルの枠組みから見ると少々特殊
回帰モデル
xが与えられたときのyの条件付き分布を
平均 、分散 の正規分布と想定
確率の乗法定理 パラメータ の合わせ込みに
xの分布の形は影響しない
xの分布は考えなくてよい
(適当に想定したことにする)
21
- 22. 回帰と線形モデル
• 何が線形?
– パラメータについて線形
• xについては線形でなくてもよい
全て線形モデル!
これを一般化するとカーネル法と呼ばれる一連の手法に繋がる
データについて非線形な構造を処理する一般的な方法
カーネル多変量解析、非線形SVM(カーネルマシン)、etc…
22
- 23. 回帰と線形モデル
• 最小二乗法と最小二乗推定量
最小二乗法
について非線形な場合は
の関数 となる。
– 最小二乗推定量は線形モデルなら最尤推定量に一致
– 最小分散不偏推定量になっている
– パラメータの任意の線形結合 について、
は最小分散不偏推定量(ガウス・マルコフの定理)
23
- 24. • 統計学とは何か?
• 確率モデルとパラメータ
• 回帰分析
• 検定
– 検定とは何か?(推定と検定の違い)
– 帰無仮説と対立仮説
– 検定のイメージ
– 検定統計量の構成
• モデル選択
• ベイズ統計学の初歩
24
- 25. 検定
• 検定は何をするのか?
推定
モデル 推定量を 確率モデルを想定し、
計算 データを使って推定量を求める
データ
検定
モデル 検定統計量
の分布関数 仮説の
帰無仮説 棄却判定
パラメータ値
に対する仮説 データ 検定統計量
25
- 26. 検定
• 検定における帰無仮説と対立仮説
帰無仮説
正しいのかどうかを確かめたい仮説
対立仮説
帰無仮説が正しくない時に成り立つ仮説
パラメータの1点を定める仮説:単純仮説 一般の複合仮説では、検定が
複雑になったり発見的な手段を
パラメータの範囲を定める仮説:複合仮説
用いる必要があったりする。
・帰無仮説が正しいときに対立仮説を採択する誤り 第1種の誤り
・対立仮説が正しいときに帰無仮説を採択する誤り 第2種の誤り
第1種の誤りの確率を一定以下に抑えつつ、第2種の誤りの確率を最小化したい
26
- 27. 検定 仮説が正しいとするとまず起こらない
はずのこと(棄却域)が起こるのは、
仮説が間違っているからだ! と考える
• 検定のイメージ
帰無仮説が正しい 対立仮説が正しい
時のtの分布関数 時のtの分布関数
適当な統計量
(例えばt統計量)
t
tの実現値 がこの範囲に
入っていたら帰無仮説を棄却 棄却域
棄却域は普通、帰無仮説が正しいときの統計量の分布関数に対して
裾側5%(有意水準5%)となるように定める。
27
- 28. 検定
• 検定統計量の構成
検定統計量の例:t統計量
分散未知の正規分布における平均値パラメータの検定
(μ0は平均パラメータの帰無仮説)
tは自由度(N-1)のt分布に従うことが分かっている
t分布に基づく検定を構成することができる
– 検定統計量の構成方法は無数にある
– どの統計量を使うかで検定の良さ(検出力)が変わる
28
- 29. 検定
• 最強力検定とネイマン・ピアソンの補題
最強力検定
対立仮説が成り立つとき、帰無仮説を棄却する
確率が最大となる検定方式
•単純帰無仮説を単純対立仮説に対して検定する問題の場合は、
ネイマン・ピアソンの補題により最強力検定を明示的に構成できる。
•一般の複合仮説の場合は、最強力検定を構成することは難しい。
尤度比検定などの(最強力検定とは限らないが)一般的に適用
できる手法を使う。
29
- 30. • 統計学とは何か?
• 確率モデルとパラメータ
• 回帰分析
• 検定
• モデル選択
– 回帰モデルの例
– 最尤法の限界
– AIC(赤池情報量規準)
• ベイズ統計学の初歩
30
- 31. モデル選択
• 色々なモデルの中でどれが一番良いのか判定したい
3
例:回帰モデルの次数 2.5 線形回帰モデル
2
1.5
1
いったい何次のモデルが 0.5
6次回帰モデル
一番妥当なのか? 0
0 0.2 0.4 0.6 0.8 1
オーバーフィッティング、過学習
素直な発想:最尤法の拡張
尤度が一番高いモデルを 常に最高次のモデルが
選べばいいのでは? 選ばれてしまう
31
- 32. モデル選択
• 最尤法の限界
別の
可能性
データ
×
実現 計算に使用
モデル データ 尤度関数
別の
可能性 データ
×
最尤法は実現データのみに着目してモデルを作る
モデルが吐く別のデータ(可能性)に対応できない
別のデータでは全く的外れでも、実現データに合って
さえいれば(尤度が高く)採用される。 汎化性能が低い
32
- 33. モデル選択
• 期待平均対数尤度 ーデータの「別の可能性」を考慮
期待平均対数尤度
真の分布でデータ 最大対数尤度(パラメータ値を
Xについて平均 最尤推定量としたときの対数尤度)
最大尤度をデータについて平均することで
『別の可能性』を考慮に入れる
でも実際は
データの真の分布がわからないので平均を計算できない
期待平均対数尤度の不偏推定量を考えたい!
33
- 35. モデル選択
• バイアス補正の効果
– 尤度最大で選んだ場合は、モデルの次数が大きいほど
良いとみなされる
– AIC最小(符号に注意!)で選んだ場合は、モデルの複
雑さが適度に補正される
AIC最小モデル
– 情報量基準
(Information Criterion)は
確率モデルの構成法により
AIC,TIC,BICなど様々ある
尤度最大モデル
(6次まで)
35
- 36. • 統計学とは何か?
• 確率モデルとパラメータ
• 回帰分析
• 検定
• モデル選択
• ベイズ統計学の初歩
作成者の力量不足により、ベイズの
– ベイズ統計学とは? 項目については表面的な色彩がより
強いものとなっています。
– ベイズの定理と事前分布 至らない点など、ご指摘頂ければ
– ベイズ推定 幸いです。
36
- 37. ベイズ統計学の初歩
• ベイズ統計学とは?
– 新しい!…わけではない(Thomas Bayes,1763)
– 「物事が起こる確率」だけではなく、「物事が起こったと
き、その原因の確率」を考える。
頻度主義的考え方
風邪を引いた人は
原因 結果 確率0.9で咳をする
風邪を引いた 咳をした
ベイズ的考え方
風邪のせい 咳をした
咳をした人が風邪を引いている
確率は0.8である
原因と結果の因果関係を
逆転して考える 37
- 38. ベイズ統計学の初歩
• 典型的な疑問点
– 風邪かどうかはもう決まっているので、確率も何もない
んじゃないか?
• (確率1で断定できるような)十分な情報があればその通り
です。
• 不確実性(確率)と不完全情報(情報が足りない)を同じ
に扱うという考え方です。(主観確率)
– 最尤法と同じじゃない?(「結果データが起こる確率」に
着目)
• 適当な前提の下で同じです。(事前分布が定数)
38
- 39. ベイズ統計学の初歩
:
• ベイズの定理と事前分布 Aが起こったという条件の下で
Bが起こる条件付き確率
ベイズの定理
原因(A)と結果(B)を入れ換えることができる
ただし、原因Aの確率分布 を知らなければならない
事前分布
事前分布は観察前に持っている経験や情報、信念を反映
・「経験的に、この人は0.3の確率で風邪を引いていそうだ」
・「情報が無いのでこのメールがSPAMかどうかは五分五分だ」39
- 41. ベイズ統計学の初歩
• ベイズ推定
– 色々な方法がある。
– 基本的には、ベイズ統計学で現れるのは推定量の単一
の値ではなく推定量の確率分布
頻度主義的 ベイズ的
単一の推定値が欲しい場合は
何らかの縮約をする必要がある
41
- 42. ベイズ統計学の初歩
• ベイズ推定
MAP推定
事後分布を最大化
事後分布の期待値
事後分布における
パラメータの期待値
その他にも、期待損失最小化などの方法がある
42
- 43. ベイズ統計学の初歩
• ベイズ的な考え方は何が嬉しいのか?
– モデルの不確実性を直接扱うことができる
• パラメータの(事前、事後)分布が不確実性を表現
– 柔軟なモデリングが可能
• 階層ベイズモデルなどを用いることで、より直観をストレ
ートにモデル化することができる(参考文献を参照)
• ベイズ的な考え方の問題点
– どこかで必ず事前分布を恣意的に決めなければならな
い(無情報量事前分布とかもあるが…)
– 計算が難しくなりがち
• ベイズの定理を用いる際に本質的に高次元の多重積分
が必要になる
…その他にも諸説があります 43
- 44. まとめ
• 統計学の基本的な考え方と、少しアドバンストなトピッ
クを眺めました。
• 実際は個々の項目について非常に複雑な発展的内容
があるものの、基本を押さえておけば何とか追える…
んじゃないかと思います。
• 確率過程や時系列解析、学習理論、情報理論との関
連など、ここでは全く触れなかった分野もたくさんあり
ます。
– でも基本は同じです!
確率モデルを考えて、データに合わせ込む
44
- 45. 参考文献
• 統計学全般
– 入門統計学/共立出版
• 学部1年の講義で買わされたもの。改めて読むと意外とわかりやす
い。初心者向け。ネイマン・ピアソン流の古典統計学で、ベイズ的なト
ピックはない。
– キーポイント確率・統計/岩波書店
• わかりやすいが範囲は基本的な内容のみで広くない。その割に中心
極限定理の証明が載っていたりする。
– 自然科学の統計学/東京大学出版会
• 記述は難しめだが、広範で深い記述。実験データ分析のトピックもあ
り実戦的(たぶん)。
– 入門数理統計学/培風館
• 統計学の理論的な背景をきちんと書いている割に、同様の他書に比
べわかりやすい。部分的にしか読んでいない。
45
- 46. 参考文献
• モデル選択
– 統計科学のフロンティア3「モデル選択」/岩波書店
• 情報量規準に基づくモデル選択がわかりやすい。後半はより情報理
論的な話が書いてある(と思われる)。
– 情報量統計学/共立出版
• モデル選択とその周辺。古い本だが、普通の本にはあまり載ってい
ないことが書いてあって面白い(と思う)。
– Model Selection and Multi-Model Inference/Springer
• 情報量規準と尤度比検定など、どういう状況で何を使うべきか、実践
的な基礎が書いてある(らしい)。
• 多変量解析
– 統計科学のフロンティア1「統計学の基礎」
• 多変量解析が簡潔にまとまっている。「統計学の基礎」とは言い難い
が…。
46
- 47. 参考文献
– カーネル多変量解析/岩波書店
• カーネル法を用いて非線形系に拡張された多変量解析の本。わかり
やすいらしい。
• ベイズ統計学
– 統計科学のフロンティア4「階層ベイズモデルとその周辺」
• ベイズモデルの便利さがわかりやすく理解できる。
• 数値計算
– 統計科学のフロンティア12「計算統計2 マルコフ連鎖モンテ
カルロ法とその周辺」
• サンプリングなどの数値的な手法が詳しく載っている。語り口が面白
い。
47