SlideShare ist ein Scribd-Unternehmen logo
1 von 21
CHAPTER 9
ARGUMENTS FROM
PROBABILITY MODELS
KOSUKE TAKEUCHI
ランダムなデータを扱うに
は
・これまでの解析では、簡単な関数を使って手作業で関数を探し、
関数のべき乗や係数を決定していた。

・正確にデータのモデルを作成するために、これからいくつかの
「標準的な」モデルを紹介していく。

・これから紹介するモデルは、あくまでも「典型的で」ランダム
なデータのみに当てはまる。したがって、一個のデータなど、
「狭い領域」のデータには適応できない。
CONTENTS
・The Binomal Distribution and Bernoulli Trials
(二項分布とベルヌーイ試行)
・The Gaussian Distribution and Central Limit Theorem
(ガウス分布と中心極限定理)
・Power-Law Distributions and Non-Normal Statistics
(冪分布と非正規なデータ分布に関する統計学)
・Other Distributions (その他の分布)
1.二項分布とベルヌーイ試
行

・ベルヌーイ試行は、「成功」と「失敗」の2つの事象を持つ。
・pが成功する確率で、1-pが失敗する確率

→ 単純なモデルだが、多くのデータについて当てはめる事ができ
る。
ベルヌーイ試行の例
1. コインを投げて、表が出たら「成功」。 p = 1/2
2. 公平なサイコロを投げて、1が出たら「成功」。 p = 1/6
2’. 1以外が出たら「成功」と定義しても良い。 p = 5/6
3. 壷にb個の黒い札とr個の赤い札がある。
壷から赤い札を引いたら「成功」。 p = r/(r+b)

4. 2枚のコインを投げて、2枚とも表なら「成功」。 p = 1/4
ベルヌーイ試行の結果は
二項分布の関数に従う。

P(k, n; p) = (nCk) × p^k × (1-p)^(n-k)
ただし、(nCk) = n! / k!(n-k)! : Combination
… k回成功、n-k回失敗する確率を表す。
平均値: μ = ∑k*P(k, N; p) = np
分散: σ = √np(1-p)

試行回数が多くなるにつれて、μ ~ n、 σ ~ √n に近づいていく 。
二項分布のグラフ
二項分布のビジネス応用
ベルヌーイ試行を繰り返すと、分布は「Mean-Field (平均場)」に近
づいていく。
→このモデルをコールセンターのスタッフ配置にも適応できる
例えば、1000件オーダーに対し、クレームを1件対処できる場合は(p
= 1/1000)、二項分布を使ってスタッフの配置を最適化できる。
k : クレーム対応に「成功する数」を変化させていくと、kが平均値
npのときに、クレーム対処の成功確率P(k, n; p)が最大になる。
→つまり、100万件のオーダーがくるなら、1,000件くらいのクレー
ムが
くることを前提としてスタッフを配置すればいい!
→分散を考えると、だいたい1,000±30くらいのクレームがくる可能
性大
2.ガウス分布と中心極限定理
・世の中の多くの分布は「ガウス分布」に従う。

p(x; μ, σ) = 1/√(2π)σ * exp(-1/2 * (x-μ)/σ) :いわゆるベル・カーブ
なぜ多くの分布はガウス分布に従うか??
→「中心極限定理」により証明可能(証明略)
証明の前提
1.

∀Xn; independent

2.

∀Xn ∈ (Common Distribution)

3.

μ, σ ≠ ±∞

→nが十分に大きい時、平均がxになる確率はガウス分布に従う
CENTRAL LIMIT THEOREM
ガウス分布を扱う際の注意
点
中心極限定理より、 P(平均値=x) → p(x; μ, σ/√n)
ただし、xは前提をクリアした分布の確率変数
したがって、データの数を10倍すると、分散は
1/√10≒30%減少する
逆に、ガウス分布の分散を10%減らしたい場合は
100倍のデータが必要になる
なぜガウス分布にモデル化するか?
・中心付近にデータが集まっているので、中心部分
に集中するだけでデータの性質がわかるから。
→つまり、重要なデータを中心付近に集めることで、
平均を見つめると私達の大切なデータの多くを見つ
めることができる
ただし、世の中は「Normal (尋常)」ではない!!
3.冪分布と非正規な分布
(例) ウェブサイトのアクセス情報
冪分布の特徴・例
・ガウス分布は、「外れ値」を無視して多数派に着目していた
→冪分布は外れ値である「ヘビーユーザー」にも着目する!
(経済界においては「20:80の法則..パレートの法則」の内、
20の方が多くの利益を生み出すから?)
・例えば、「地震の分布」、「本の厚み」、「紛争の規模」、
「砂の大きさ」、「太陽フレアのレベル」、「人口密度」、「富
の分布」など
・外れ値が大きいので、データを増やすとμは永遠に大きくなる
→中心極限定理が適応できない!
その他の分布モデル
1. 幾何分布

→ ベルヌーイ試行の狭義版
2. ポアソン分布
→ 二項分布の拡張版
3. 対数正規分布
→
GEOMETRIC DIST. (幾何分布)
・狭義の二項分布
p(k, p) = p(1-p)^(k-1)
: k回目に「成功」する確率
・μ = 1/p
・σ = √(1-p) / p
POISSON DIST. (ポアソン分布
)
・二項分布はn回の試行でk回「成功」する確率を扱った
→ポアソン分布は事象がλの割合で発生する場合、tの間隔でk回
事象が発生する確率を求めることが可能
p(k, t, λ) = (λt)^k/k! * exp(-λt)

μ = λt σ = √λt
ポアソン分布の応用例
(例) コールセンターで、電話が1時間あたり15件来るとする。
t分の間隔で何件くらい電話が来るか??
λ = 0.25 calls/minutes

t = 1のとき、P(k, 1, 0.25)の分布から、0~1件ほどしか電話はかか
らない
t = 3のとき、P(k, 3, 0.25)の分布から、3~4件ほど電話がかかって
くる可能性が高い
LOG-NORMAL DIST. (対数正規分布)
世の中のデータは完全に正規分布に従うわけではない。

例えば、ボクシングでは一瞬で試合が決まる場合は少ない。つま
り、数分で試合が決まるときの選手のレベルは高いか低い。

ただし、完全に弱者と強者の試合時間が対称に分布されているわ
けではなく、弱者同士のマッチは強者同士のマッチよりも早く終
る。
(弱者はガードが甘いので、すぐにノックアウトされてしまう)
したがって、分布は少々対称からずれる。
~μ = log(μ)とすると…

σ :カーブの形を決定する
μ :カーブの大きさを決定す
る
Chapter9

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (7)

201803NC
201803NC201803NC
201803NC
 
PRML輪読#8
PRML輪読#8PRML輪読#8
PRML輪読#8
 
多変量解析の一般化
多変量解析の一般化多変量解析の一般化
多変量解析の一般化
 
PRML輪読#10
PRML輪読#10PRML輪読#10
PRML輪読#10
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
 
PRML輪読#14
PRML輪読#14PRML輪読#14
PRML輪読#14
 

Mehr von Kousuke Takeuhi (7)

自己組織化ネットワークについて
自己組織化ネットワークについて自己組織化ネットワークについて
自己組織化ネットワークについて
 
Olearning-prml13
Olearning-prml13Olearning-prml13
Olearning-prml13
 
Olearning-prml8
Olearning-prml8Olearning-prml8
Olearning-prml8
 
Olearning-prml6
Olearning-prml6Olearning-prml6
Olearning-prml6
 
Olearning-prml4
Olearning-prml4Olearning-prml4
Olearning-prml4
 
Olearning-prml1
Olearning-prml1Olearning-prml1
Olearning-prml1
 
Data Analysis - Chapter two
Data Analysis - Chapter twoData Analysis - Chapter two
Data Analysis - Chapter two
 

Chapter9