SlideShare ist ein Scribd-Unternehmen logo
1 von 25
ベルヌーイ分布における
超パラメータ推定のための
経験ベイズ法の実装
VOYAGE GROUP 中野智文
自己紹介
 2001 名古屋工業大学 (教育への統計・機械学習の応用)
 2008 NTTレゾナント (検索ランキングアルゴリズム、
質問応答システムの開発)
 2014 VOYAGE GROUP (Web広告のデータ分析)
ベルヌーイ分布(二項分布)
二値(の個数)の確率変数
コインの表・裏(表が出た数)
単語の出現の有無(出現数)
CTR;クリックされるかされないか
確率の掛け算
確率1×確率2×確率3×・・・確率n
もし一箇所でも確率に0があると、
0となってしまう。
なぜ0になってしまうのか
確率を次のように見積もる
全体でM回のうち、n回現れたとき、確率rは
しかし、もし一回も現れなかったら、0となる。
スムージング
小さな数をαとβを分子と分母に加えてやる
例えば、
Mが大きな数のときは、αやβは無視される
はラプラススムージングとよばれる。
ところでMが0のとき、
例えば 最も多いtheでも出現率は20%程度
本研究の目的
• このパラメータを求めたい
超パラメータを推定
ベイズ統計では、このα、βは超パラメータとよばれる。
共役(きょうやく)事前分布を仮定することにより、
データより推定することが出来る。
ベイズの定理
ベイズの定理
事後確率
事前確
率
尤度
尤度
尤度
最尤推定
ゼロ頻度問題が解決
できない
最大化
共役事前分布と超パラメータ
事前確
率
尤度
最大化
共役事前分布
この超パラメータはど
のように求めるのか?
経験ベイズ法
訓練データの分布から共役事前分布の(超)パラメータを求めることを
経験ベイズ法という。
一般的には次の式の最大となる超パラメータを求めること
二項分布(ベルヌーイ分布)の経験ベイズ法
二項分布の経験ベイズ法の計算手法は既に提案
Click-through rate estimation for rare events in online
advertising
X Wang, W Li, Y Cui, R Zhang… - Online Multimedia …, 2010
http://www.cs.cmu.edu/%7Exuerui/papers/ctr.pdf
[PS] Estimating a Dirichlet distribution
T Minka - 2000 - vismod.media.mit.edu
http://www.msr-waypoint.com/en-us/um/people/minka/papers/dirichlet/minka-
dirichlet.pdf
※ψはディガンマ関数、I:インプ数、C:クリック数、α、βは、CTRである r の超パ
ラメータ
実装
※ digamma関数があるjuliaにて実装
問題点
論文では収束条件に1000とあるが、1,000回くらいでは全く
収束できなさそう。
それどころか、収束した様に見えても、初期パラメータを別
のところに設定すると、別の点に収束する気配。
丸め誤差に対応
更新式は
であり、次のような形
であるが、XとYが非常に近いとき、X/Yが1.0に丸められて
しまう。
そこで次のように式変形する。
ループの中でXとYの差を計算することで、丸められず更新
をすすめることが出来た。
修正版
考察
• 尤度や共役事前分布を決めるにあたって二項分布(ベルヌ
ーイ分布)を仮定したが、本来語彙は多項分布。
• 語彙の異なり語数が予め分かっていれば、多項分布の方が
望ましいかもしれない。
• トピックモデル推定などがこの推定に詳しい。
まとめ
• ベルヌーイ分布のベイズによるスムージングは分母と分子
に超パラメータを足すだけ
• 超パラメータは簡単な繰り返しプログラムで求めることが
出来るという話
• ただし実際には収束しないので、改造する必要があった
その他
ベータ分布の平均と分散に合わせる方法
β分布の平均μと分散σ^2は次の式で表される。
αとβを平均と分散で表すと、
maximaにて次を実行 solve([m=a/(a+b), s=a*b/(a+b)/(a+b)/(a+b+1)], [a,b]);
モーメント法による平均と分散
1次、2次モーメント作成
重み付きCTRにより作成
一次モーメント
二次モーメント
枠のidの集合
枠iのクリック数
枠iのインプ数
コメント・QA
• 前田先生コメント:beta-binomial などのこれまでの研究
を絡めて欲しい
• 前田先生コメント:具体的なデータはあったほうが良い
• 宮崎先生コメント:X-Yで誤差がおおきくなるのでは?

Weitere ähnliche Inhalte

Was ist angesagt?

グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知Yuya Takashina
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Yoshitaka Ushiku
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)Kota Matsui
 
心理学者のためのGlmm・階層ベイズ
心理学者のためのGlmm・階層ベイズ心理学者のためのGlmm・階層ベイズ
心理学者のためのGlmm・階層ベイズHiroshi Shimizu
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門joisino
 
データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析Seiichi Uchida
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定Akira Masuda
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシンShinya Shimizu
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデルYohei Sato
 
15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学Ken'ichi Matsui
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情Yuta Kikuchi
 
混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)Takao Yamanaka
 
階層ベイズと自由エネルギー
階層ベイズと自由エネルギー階層ベイズと自由エネルギー
階層ベイズと自由エネルギーHiroshi Shimizu
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明Haruka Ozaki
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)Takao Yamanaka
 
Stanコードの書き方 中級編
Stanコードの書き方 中級編Stanコードの書き方 中級編
Stanコードの書き方 中級編Hiroshi Shimizu
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向Motokawa Tetsuya
 
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章Hakky St
 

Was ist angesagt? (20)

グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM) 一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
 
心理学者のためのGlmm・階層ベイズ
心理学者のためのGlmm・階層ベイズ心理学者のためのGlmm・階層ベイズ
心理学者のためのGlmm・階層ベイズ
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデル
 
15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
 
混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)
 
階層ベイズと自由エネルギー
階層ベイズと自由エネルギー階層ベイズと自由エネルギー
階層ベイズと自由エネルギー
 
線形計画法入門
線形計画法入門線形計画法入門
線形計画法入門
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
Stanコードの書き方 中級編
Stanコードの書き方 中級編Stanコードの書き方 中級編
Stanコードの書き方 中級編
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章
 

Mehr von 智文 中野

ポアソン分布を仮定した 少頻度の信頼区間と経験ベイズ 〜大標本中の少頻度の信頼区間〜
ポアソン分布を仮定した 少頻度の信頼区間と経験ベイズ 〜大標本中の少頻度の信頼区間〜ポアソン分布を仮定した 少頻度の信頼区間と経験ベイズ 〜大標本中の少頻度の信頼区間〜
ポアソン分布を仮定した 少頻度の信頼区間と経験ベイズ 〜大標本中の少頻度の信頼区間〜智文 中野
 
ロケーションエンジンの紹介
ロケーションエンジンの紹介ロケーションエンジンの紹介
ロケーションエンジンの紹介智文 中野
 
ロバストモーメント法による超母数推定の語彙出現率への応用
ロバストモーメント法による超母数推定の語彙出現率への応用ロバストモーメント法による超母数推定の語彙出現率への応用
ロバストモーメント法による超母数推定の語彙出現率への応用智文 中野
 
モーメント法に基づく超パラメータのロバスト推定
モーメント法に基づく超パラメータのロバスト推定モーメント法に基づく超パラメータのロバスト推定
モーメント法に基づく超パラメータのロバスト推定智文 中野
 
Wilson score intervalを使った信頼区間の応用
Wilson score intervalを使った信頼区間の応用Wilson score intervalを使った信頼区間の応用
Wilson score intervalを使った信頼区間の応用智文 中野
 
6章 最適腕識別とA/Bテスト
6章 最適腕識別とA/Bテスト6章 最適腕識別とA/Bテスト
6章 最適腕識別とA/Bテスト智文 中野
 
ノンパラメトリックベイズ4章クラスタリング
ノンパラメトリックベイズ4章クラスタリングノンパラメトリックベイズ4章クラスタリング
ノンパラメトリックベイズ4章クラスタリング智文 中野
 
異常検知と変化検知 7章方向データの異常検知
異常検知と変化検知 7章方向データの異常検知異常検知と変化検知 7章方向データの異常検知
異常検知と変化検知 7章方向データの異常検知智文 中野
 
ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)
ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)
ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)智文 中野
 

Mehr von 智文 中野 (9)

ポアソン分布を仮定した 少頻度の信頼区間と経験ベイズ 〜大標本中の少頻度の信頼区間〜
ポアソン分布を仮定した 少頻度の信頼区間と経験ベイズ 〜大標本中の少頻度の信頼区間〜ポアソン分布を仮定した 少頻度の信頼区間と経験ベイズ 〜大標本中の少頻度の信頼区間〜
ポアソン分布を仮定した 少頻度の信頼区間と経験ベイズ 〜大標本中の少頻度の信頼区間〜
 
ロケーションエンジンの紹介
ロケーションエンジンの紹介ロケーションエンジンの紹介
ロケーションエンジンの紹介
 
ロバストモーメント法による超母数推定の語彙出現率への応用
ロバストモーメント法による超母数推定の語彙出現率への応用ロバストモーメント法による超母数推定の語彙出現率への応用
ロバストモーメント法による超母数推定の語彙出現率への応用
 
モーメント法に基づく超パラメータのロバスト推定
モーメント法に基づく超パラメータのロバスト推定モーメント法に基づく超パラメータのロバスト推定
モーメント法に基づく超パラメータのロバスト推定
 
Wilson score intervalを使った信頼区間の応用
Wilson score intervalを使った信頼区間の応用Wilson score intervalを使った信頼区間の応用
Wilson score intervalを使った信頼区間の応用
 
6章 最適腕識別とA/Bテスト
6章 最適腕識別とA/Bテスト6章 最適腕識別とA/Bテスト
6章 最適腕識別とA/Bテスト
 
ノンパラメトリックベイズ4章クラスタリング
ノンパラメトリックベイズ4章クラスタリングノンパラメトリックベイズ4章クラスタリング
ノンパラメトリックベイズ4章クラスタリング
 
異常検知と変化検知 7章方向データの異常検知
異常検知と変化検知 7章方向データの異常検知異常検知と変化検知 7章方向データの異常検知
異常検知と変化検知 7章方向データの異常検知
 
ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)
ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)
ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)
 

ベルヌーイ分布における超パラメータ推定のための経験ベイズ法

Hinweis der Redaktion

  1. r=\frac{n}{M}
  2. r = \frac{n+\alpha}{M+\beta} \alpha=1, \beta = 2
  3. \alpha=1, \beta = 2 r = \frac{\alpha}{\beta} = \frac{1}{2}
  4. p(r,D) = p(r|D)p(D) = p(r)p(D|r) p(r|D) = \frac{p(r)p(D|r)}{p(D)} p(D|r) = r^{n}(1-r)^{M-n} p(r) = C_1 \rho^{a}(1-\rho)^{b} p(r|D) = C_2 r^{n+\alpha}(1-r)^{M-n+\beta} \alpha, \beta
  5. p(D|r) = r^{n}(1-r)^{M-n} r=\frac{n}{M}
  6. p(r)p(D|r)=r^{\alpha}(1-r)^{\beta} r^{n}(1-r)^{M-n} =r^{n+\alpha}(1-r)^{M+\beta-n} r=\frac{n+\alpha}{M+\beta}
  7. L(\alpha, \beta) = \int_{A \times B} \prod_{d \in D} p(d ; r) p(r ; \alpha, \beta) dr
  8. \alpha' = \alpha \frac{X}{Y} \alpha' = \alpha \frac{X}{Y} \alpha' = \alpha + \alpha \frac{X-Y}{Y} = \alpha + \alpha\frac{\sum (x-y)}{\sum y}
  9. \alpha' = \alpha\frac{X}{Y} = \alpha + \alpha \frac{X-Y}{Y} = \alpha + \alpha\frac{\sum (x-y)}{\sum y}
  10. \mu = \frac{\alpha}{\alpha+\beta},\ \ \sigma^2 = \frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)} \alpha = -\frac{\mu\sigma^2+\mu^3-\mu^2}{\sigma^2} \beta = \frac{(\mu-1)\sigma^2+\mu^3-2\mu^2+\mu}{\sigma^2}
  11. \mu_1 = \frac{\sum_{i \in I}c_i}{\sum_{i\in I} v_i} \mu_2 = \frac{\sum_{i\in I}v_ir_i^2}{\sum_{i\in I}v_i} = \frac{\sum_{i\in I}c_i ^2 v_i^{-1}}{\sum_{i\in I}v_i} \mu_1 一次モーメント \mu_2 二次モーメント I 枠のid c_i 枠iのクリック数 v_i 枠iのインプ数