SlideShare ist ein Scribd-Unternehmen logo
1 von 19
Downloaden Sie, um offline zu lesen
[Zhu, Chen and Xing ICML2011]
Infinite SVM: a Dirichlet Process Mixture of
       Large-Margin Kernel Machines

                2011/07/16
     中谷秀洋 @ サイボウズ・ラボ株式会社
            @shuyo / id:n_shuyo
References
• [Blei & Jordan 06] Variational inference
  for Dirichlet process mixtures
• [Jaakkola, Meila & Jebara NIPS99]
  Maximum entropy discrimination
• [Kurihara, Welling & Teh IJCAI07]
  Collapsed variational Dirichlet process
  mixture models
• [Zhu & Xing JMLR09] Maximum entropy
  discrimination Markov networks
Infinite SVM (iSVM)
• (多クラス)SVM を DPM で混合化
• VB+リスク関数(相対エントロピー
  を含む)の最小化で推論
• ソフトマージンはslack変数で




• って書いてあるけど、[Zhu & Xing 09] + DPM
  という方が正しい気がする
Maximum Entropy
     Discrimination (MED)   [Jaakkola+ 99]

• 識別関数 + large margin に確率モデル
  を入れて、エントロピー最大原理で解く
 – パラメータに事前分布
 – 識別関数を logit で定義し、境界条件によっ
   て admissible set を記述
 – 事前分布P0から射影
   (相対エントロピー最小)
MED (1)
• 識別関数


• Minimum Relative Entropy(MRE)
  – 次の制約の下で、KL(P||P0) を最小化


  – marginに分布を入れて、ソフトマージン実現
                                        低い確率で
    • ������0 (������������ ) =   ������������ −������ 1−������������   誤判定を許す
                                                     ������������
                                            0    1
MED (2)
• 定理:MRE の解は次の形になる


 – ただし λ はラグランジュ乗数であり、
   J(λ)=-log Z(λ) の unique maximum
MED (3)
• MED は SVM を special case として含む
 – 識別関数
                             1
   • たとえば ������ ������ ������������ ∝ exp( ������( ������ ������ ������ − ������))とおく
                             2

 – θ~N(0,1), b は無情報事前分布
 – このとき J(λ) は次のようになる
iSVM のモデル (1)
• V, Z は Dirichlet Process
                             V~GEM(α)
                             ηは後述


                             点dが属する
                             コンポーネント
iSVM のモデル (2)
• X は指数型分布族、γはその共役事前分布
iSVM のモデル (3)
• ������ ∈ 1, ⋯ , ������ を使って識別関数を定義


    • Y には分布が入っていない
  – ηは(例えば)ガウス分布からサンプリング
予測ルール
• ベイズ予測
推論 / VBパート (1)
                                                     [Blei & Jordan 06]

• 独立性を仮定して事後分布を推定
 – ������ ������, ������, ������, ������ =
      ������
      ������=1  ������ ������������ ������ ������ ������������
                       ������=1
                                 ������
                                 ������=1 ������   ������������   ������−1
                                                  ������=1 ������   ������������
 – DPMのトピック数をT(=20)に制限
• vとγは通常のVBでそのまま推論できる
• zとηはできない
 – Yに分布が入っていないから
推論 / VBパート (2)
• 例:q(v)の推論
                     1          ������                                  ������
 – ������ ������������ = Multi ������������ , ⋯ , ������������ , ������ ������ =                   ������ ������������ とすると、

 – ln ������(������) = ������������    ������,������,������   ������������ ������ ������, ������, ������, ������, ������
   = ln ������0 ������ +         ������ ������������������ [ln ������(������������ |������)]    + ������������������������������.
                                                           ������
   ln ������(������������ ) =   ln ������0 ������ + ������ ������ ln ������������ +            ������=������+1 ������
                                                                      ������   ln 1 − ������������ +������������������������������
 – ������0 ������������ = Beta 1, ������ とおくと、
                                                ������
     • ������ ������������ = Beta(1 + ������ ������ , ������ +                    ������
                                                ������=������+1 ������ )

• q(γ) も同様に計算できる。
(参考)Collapsed variational DPM
                          [Kurihara, Welling & Teh IJCAI07]
• DPMをVBで解くには、トピック数をTで切り詰める
  – 単純に ������ ������������ = 1 = 1、それ以降の確率は強制的に0
• Collapsed VB DPM [Kurihara+ 07]はvを積分消去す
  ることで、切り詰めによる誤差を抑えている?
推論 / リスク最小化パート (1)
                                       たぶんq(z)の
• q(z)とq(η)を推定する                        間違い




                  = ������������(������(������, ������, ������)||������ ������, ������, ������ ������ )から
                  ������, ������の寄与分を除いたもの




          = KL(q(η)||p0(η|β)) + KL(q(z,v)||p(z,v|α))
推論 / リスク最小化パート (2)


                = 0 (if y is correct)
                                         [Zhu & Xing 09]
                = 2 (otherwise)
      F(y,xd)
                       margin
                           ∆
                       ≥ ������������ (������) for all y


                yd
推論 / リスク最小化パート (3)
• これを解くと、


 – p0 ������ = ������ ������0 , Σ0 , ������ ������������ = ������ ������������ , Σ0 とすると


                     1          ������
 – ������ ������������ = Multi ������������ , ⋯ , ������������ についても解くと
Experiments (1)
• 人工データ




 – MNL = Multinominal Logit
 – dpMNL = DP mixture of MNL (Shahbaba+
   JMLR09)
Experiments (2)
• images of 13 type animals (SIFT特徴量)




  – MMH = multiview method (Chen+ 2010)
  – kmeans+SVM = kmeans でクラスタリング+各ク
    ラスタを linear SVM

Weitere ähnliche Inhalte

Was ist angesagt?

パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰
sleipnir002
 
introductino to persistent homology and topological data analysis
introductino to persistent homology and topological data analysisintroductino to persistent homology and topological data analysis
introductino to persistent homology and topological data analysis
Tatsuki SHIMIZU
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン
Shinya Shimizu
 

Was ist angesagt? (19)

ロマ数16 simizut
ロマ数16 simizutロマ数16 simizut
ロマ数16 simizut
 
パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰
 
クラシックな機械学習の入門  5. サポートベクターマシン
クラシックな機械学習の入門  5. サポートベクターマシンクラシックな機械学習の入門  5. サポートベクターマシン
クラシックな機械学習の入門  5. サポートベクターマシン
 
Prml 4.3.5
Prml 4.3.5Prml 4.3.5
Prml 4.3.5
 
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
 
introductino to persistent homology and topological data analysis
introductino to persistent homology and topological data analysisintroductino to persistent homology and topological data analysis
introductino to persistent homology and topological data analysis
 
Python opt
Python optPython opt
Python opt
 
PRML chapter7
PRML chapter7PRML chapter7
PRML chapter7
 
PRML 第14章
PRML 第14章PRML 第14章
PRML 第14章
 
topology of musical data
topology of musical datatopology of musical data
topology of musical data
 
はじめてのパターン認識8章サポートベクトルマシン
はじめてのパターン認識8章サポートベクトルマシンはじめてのパターン認識8章サポートベクトルマシン
はじめてのパターン認識8章サポートベクトルマシン
 
Crfと素性テンプレート
Crfと素性テンプレートCrfと素性テンプレート
Crfと素性テンプレート
 
第4回MachineLearningのための数学塾資料(浅川)
第4回MachineLearningのための数学塾資料(浅川)第4回MachineLearningのための数学塾資料(浅川)
第4回MachineLearningのための数学塾資料(浅川)
 
TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~ん
TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~んTokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~ん
TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ~ん
 
第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン
 
PRML 第4章
PRML 第4章PRML 第4章
PRML 第4章
 
機械学習と深層学習の数理
機械学習と深層学習の数理機械学習と深層学習の数理
機械学習と深層学習の数理
 
パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)
 

Andere mochten auch

IKT Het nieuwewerven
IKT Het nieuwewervenIKT Het nieuwewerven
IKT Het nieuwewerven
Eric Kramer
 
It pathshala knowledge series february 2013 vol 2
It pathshala knowledge series february 2013 vol 2It pathshala knowledge series february 2013 vol 2
It pathshala knowledge series february 2013 vol 2
IT Pathshala
 

Andere mochten auch (7)

IKT Het nieuwewerven
IKT Het nieuwewervenIKT Het nieuwewerven
IKT Het nieuwewerven
 
Facebook Timeline für Seiten
Facebook Timeline für SeitenFacebook Timeline für Seiten
Facebook Timeline für Seiten
 
Poison[1]
Poison[1]Poison[1]
Poison[1]
 
Project Preparation Worksheet
Project Preparation WorksheetProject Preparation Worksheet
Project Preparation Worksheet
 
It pathshala knowledge series february 2013 vol 2
It pathshala knowledge series february 2013 vol 2It pathshala knowledge series february 2013 vol 2
It pathshala knowledge series february 2013 vol 2
 
Social Media and Search Engine Marketing For Business FEDA 20140401
 Social Media and Search Engine Marketing For Business FEDA 20140401 Social Media and Search Engine Marketing For Business FEDA 20140401
Social Media and Search Engine Marketing For Business FEDA 20140401
 
Presentatie Rocwb Leren In De 21e Eeuw
Presentatie Rocwb Leren In De 21e EeuwPresentatie Rocwb Leren In De 21e Eeuw
Presentatie Rocwb Leren In De 21e Eeuw
 

Ähnlich wie Infinite SVM - ICML 2011 読み会

Rでマンデルブロ集合
Rでマンデルブロ集合Rでマンデルブロ集合
Rでマンデルブロ集合
Yoshiteru Kamiyama
 
Icml yomikai 07_16
Icml yomikai 07_16Icml yomikai 07_16
Icml yomikai 07_16
Yo Ehara
 
Datamining 5th Knn
Datamining 5th KnnDatamining 5th Knn
Datamining 5th Knn
sesejun
 
Chap12 4 appendix_suhara
Chap12 4 appendix_suharaChap12 4 appendix_suhara
Chap12 4 appendix_suhara
sleepy_yoshi
 
Chap12 4 appendix_suhara
Chap12 4 appendix_suharaChap12 4 appendix_suhara
Chap12 4 appendix_suhara
sleepy_yoshi
 
Datamining 5th knn
Datamining 5th knnDatamining 5th knn
Datamining 5th knn
sesejun
 
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
Preferred Networks
 
はじめてのパターン認識 第8章 サポートベクトルマシン
はじめてのパターン認識 第8章 サポートベクトルマシンはじめてのパターン認識 第8章 サポートベクトルマシン
はじめてのパターン認識 第8章 サポートベクトルマシン
Motoya Wakiyama
 

Ähnlich wie Infinite SVM - ICML 2011 読み会 (20)

Deep Learning を実装する
Deep Learning を実装するDeep Learning を実装する
Deep Learning を実装する
 
お披露目会05/2010
お披露目会05/2010お披露目会05/2010
お披露目会05/2010
 
Icml2011 reading-sage
Icml2011 reading-sageIcml2011 reading-sage
Icml2011 reading-sage
 
凸最適化 〜 双対定理とソルバーCVXPYの紹介 〜
凸最適化 〜 双対定理とソルバーCVXPYの紹介 〜凸最適化 〜 双対定理とソルバーCVXPYの紹介 〜
凸最適化 〜 双対定理とソルバーCVXPYの紹介 〜
 
MMDs 12.3 SVM
MMDs 12.3 SVMMMDs 12.3 SVM
MMDs 12.3 SVM
 
Cv 14th
Cv 14thCv 14th
Cv 14th
 
Rでマンデルブロ集合
Rでマンデルブロ集合Rでマンデルブロ集合
Rでマンデルブロ集合
 
コンピュータービジョン最先端ガイド2 3.4ベクトルデータに対するカーネル法(SVM)
コンピュータービジョン最先端ガイド2 3.4ベクトルデータに対するカーネル法(SVM) コンピュータービジョン最先端ガイド2 3.4ベクトルデータに対するカーネル法(SVM)
コンピュータービジョン最先端ガイド2 3.4ベクトルデータに対するカーネル法(SVM)
 
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
 
Sparse models
Sparse modelsSparse models
Sparse models
 
Icml yomikai 07_16
Icml yomikai 07_16Icml yomikai 07_16
Icml yomikai 07_16
 
Datamining 5th Knn
Datamining 5th KnnDatamining 5th Knn
Datamining 5th Knn
 
Chap12 4 appendix_suhara
Chap12 4 appendix_suharaChap12 4 appendix_suhara
Chap12 4 appendix_suhara
 
Chap12 4 appendix_suhara
Chap12 4 appendix_suharaChap12 4 appendix_suhara
Chap12 4 appendix_suhara
 
Datamining 5th knn
Datamining 5th knnDatamining 5th knn
Datamining 5th knn
 
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
 
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習
 
Sec15 dynamic programming
Sec15 dynamic programmingSec15 dynamic programming
Sec15 dynamic programming
 
はじめてのパターン認識 第8章 サポートベクトルマシン
はじめてのパターン認識 第8章 サポートベクトルマシンはじめてのパターン認識 第8章 サポートベクトルマシン
はじめてのパターン認識 第8章 サポートベクトルマシン
 
NLPforml5
NLPforml5NLPforml5
NLPforml5
 

Mehr von Shuyo Nakatani

言語処理するのに Python でいいの? #PyDataTokyo
言語処理するのに Python でいいの? #PyDataTokyo言語処理するのに Python でいいの? #PyDataTokyo
言語処理するのに Python でいいの? #PyDataTokyo
Shuyo Nakatani
 
ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...
ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...
ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...
Shuyo Nakatani
 
猫に教えてもらうルベーグ可測
猫に教えてもらうルベーグ可測猫に教えてもらうルベーグ可測
猫に教えてもらうルベーグ可測
Shuyo Nakatani
 
どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013
どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013
どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013
Shuyo Nakatani
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
Shuyo Nakatani
 
数式を綺麗にプログラミングするコツ #spro2013
数式を綺麗にプログラミングするコツ #spro2013数式を綺麗にプログラミングするコツ #spro2013
数式を綺麗にプログラミングするコツ #spro2013
Shuyo Nakatani
 

Mehr von Shuyo Nakatani (20)

画像をテキストで検索したい!(OpenAI CLIP) - VRC-LT #15
画像をテキストで検索したい!(OpenAI CLIP) - VRC-LT #15画像をテキストで検索したい!(OpenAI CLIP) - VRC-LT #15
画像をテキストで検索したい!(OpenAI CLIP) - VRC-LT #15
 
Generative adversarial networks
Generative adversarial networksGenerative adversarial networks
Generative adversarial networks
 
無限関係モデル (続・わかりやすいパターン認識 13章)
無限関係モデル (続・わかりやすいパターン認識 13章)無限関係モデル (続・わかりやすいパターン認識 13章)
無限関係モデル (続・わかりやすいパターン認識 13章)
 
Memory Networks (End-to-End Memory Networks の Chainer 実装)
Memory Networks (End-to-End Memory Networks の Chainer 実装)Memory Networks (End-to-End Memory Networks の Chainer 実装)
Memory Networks (End-to-End Memory Networks の Chainer 実装)
 
人工知能と機械学習の違いって?
人工知能と機械学習の違いって?人工知能と機械学習の違いって?
人工知能と機械学習の違いって?
 
RとStanでクラウドセットアップ時間を分析してみたら #TokyoR
RとStanでクラウドセットアップ時間を分析してみたら #TokyoRRとStanでクラウドセットアップ時間を分析してみたら #TokyoR
RとStanでクラウドセットアップ時間を分析してみたら #TokyoR
 
ドラえもんでわかる統計的因果推論 #TokyoR
ドラえもんでわかる統計的因果推論 #TokyoRドラえもんでわかる統計的因果推論 #TokyoR
ドラえもんでわかる統計的因果推論 #TokyoR
 
[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...
[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...
[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...
 
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章
 
星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章
 
言語処理するのに Python でいいの? #PyDataTokyo
言語処理するのに Python でいいの? #PyDataTokyo言語処理するのに Python でいいの? #PyDataTokyo
言語処理するのに Python でいいの? #PyDataTokyo
 
Zipf? (ジップ則のひみつ?) #DSIRNLP
Zipf? (ジップ則のひみつ?) #DSIRNLPZipf? (ジップ則のひみつ?) #DSIRNLP
Zipf? (ジップ則のひみつ?) #DSIRNLP
 
ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...
ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...
ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...
 
ソーシャルメディアの多言語判定 #SoC2014
ソーシャルメディアの多言語判定 #SoC2014ソーシャルメディアの多言語判定 #SoC2014
ソーシャルメディアの多言語判定 #SoC2014
 
猫に教えてもらうルベーグ可測
猫に教えてもらうルベーグ可測猫に教えてもらうルベーグ可測
猫に教えてもらうルベーグ可測
 
アラビア語とペルシャ語の見分け方 #DSIRNLP 5
アラビア語とペルシャ語の見分け方 #DSIRNLP 5アラビア語とペルシャ語の見分け方 #DSIRNLP 5
アラビア語とペルシャ語の見分け方 #DSIRNLP 5
 
どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013
どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013
どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
数式を綺麗にプログラミングするコツ #spro2013
数式を綺麗にプログラミングするコツ #spro2013数式を綺麗にプログラミングするコツ #spro2013
数式を綺麗にプログラミングするコツ #spro2013
 
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門ノンパラベイズ入門の入門
ノンパラベイズ入門の入門
 

Infinite SVM - ICML 2011 読み会

  • 1. [Zhu, Chen and Xing ICML2011] Infinite SVM: a Dirichlet Process Mixture of Large-Margin Kernel Machines 2011/07/16 中谷秀洋 @ サイボウズ・ラボ株式会社 @shuyo / id:n_shuyo
  • 2. References • [Blei & Jordan 06] Variational inference for Dirichlet process mixtures • [Jaakkola, Meila & Jebara NIPS99] Maximum entropy discrimination • [Kurihara, Welling & Teh IJCAI07] Collapsed variational Dirichlet process mixture models • [Zhu & Xing JMLR09] Maximum entropy discrimination Markov networks
  • 3. Infinite SVM (iSVM) • (多クラス)SVM を DPM で混合化 • VB+リスク関数(相対エントロピー を含む)の最小化で推論 • ソフトマージンはslack変数で • って書いてあるけど、[Zhu & Xing 09] + DPM という方が正しい気がする
  • 4. Maximum Entropy Discrimination (MED) [Jaakkola+ 99] • 識別関数 + large margin に確率モデル を入れて、エントロピー最大原理で解く – パラメータに事前分布 – 識別関数を logit で定義し、境界条件によっ て admissible set を記述 – 事前分布P0から射影 (相対エントロピー最小)
  • 5. MED (1) • 識別関数 • Minimum Relative Entropy(MRE) – 次の制約の下で、KL(P||P0) を最小化 – marginに分布を入れて、ソフトマージン実現 低い確率で • ������0 (������������ ) = ������������ −������ 1−������������ 誤判定を許す ������������ 0 1
  • 6. MED (2) • 定理:MRE の解は次の形になる – ただし λ はラグランジュ乗数であり、 J(λ)=-log Z(λ) の unique maximum
  • 7. MED (3) • MED は SVM を special case として含む – 識別関数 1 • たとえば ������ ������ ������������ ∝ exp( ������( ������ ������ ������ − ������))とおく 2 – θ~N(0,1), b は無情報事前分布 – このとき J(λ) は次のようになる
  • 8. iSVM のモデル (1) • V, Z は Dirichlet Process V~GEM(α) ηは後述 点dが属する コンポーネント
  • 9. iSVM のモデル (2) • X は指数型分布族、γはその共役事前分布
  • 10. iSVM のモデル (3) • ������ ∈ 1, ⋯ , ������ を使って識別関数を定義 • Y には分布が入っていない – ηは(例えば)ガウス分布からサンプリング
  • 12. 推論 / VBパート (1) [Blei & Jordan 06] • 独立性を仮定して事後分布を推定 – ������ ������, ������, ������, ������ = ������ ������=1 ������ ������������ ������ ������ ������������ ������=1 ������ ������=1 ������ ������������ ������−1 ������=1 ������ ������������ – DPMのトピック数をT(=20)に制限 • vとγは通常のVBでそのまま推論できる • zとηはできない – Yに分布が入っていないから
  • 13. 推論 / VBパート (2) • 例:q(v)の推論 1 ������ ������ – ������ ������������ = Multi ������������ , ⋯ , ������������ , ������ ������ = ������ ������������ とすると、 – ln ������(������) = ������������ ������,������,������ ������������ ������ ������, ������, ������, ������, ������ = ln ������0 ������ + ������ ������������������ [ln ������(������������ |������)] + ������������������������������. ������ ln ������(������������ ) = ln ������0 ������ + ������ ������ ln ������������ + ������=������+1 ������ ������ ln 1 − ������������ +������������������������������ – ������0 ������������ = Beta 1, ������ とおくと、 ������ • ������ ������������ = Beta(1 + ������ ������ , ������ + ������ ������=������+1 ������ ) • q(γ) も同様に計算できる。
  • 14. (参考)Collapsed variational DPM [Kurihara, Welling & Teh IJCAI07] • DPMをVBで解くには、トピック数をTで切り詰める – 単純に ������ ������������ = 1 = 1、それ以降の確率は強制的に0 • Collapsed VB DPM [Kurihara+ 07]はvを積分消去す ることで、切り詰めによる誤差を抑えている?
  • 15. 推論 / リスク最小化パート (1) たぶんq(z)の • q(z)とq(η)を推定する 間違い = ������������(������(������, ������, ������)||������ ������, ������, ������ ������ )から ������, ������の寄与分を除いたもの = KL(q(η)||p0(η|β)) + KL(q(z,v)||p(z,v|α))
  • 16. 推論 / リスク最小化パート (2) = 0 (if y is correct) [Zhu & Xing 09] = 2 (otherwise) F(y,xd) margin ∆ ≥ ������������ (������) for all y yd
  • 17. 推論 / リスク最小化パート (3) • これを解くと、 – p0 ������ = ������ ������0 , Σ0 , ������ ������������ = ������ ������������ , Σ0 とすると 1 ������ – ������ ������������ = Multi ������������ , ⋯ , ������������ についても解くと
  • 18. Experiments (1) • 人工データ – MNL = Multinominal Logit – dpMNL = DP mixture of MNL (Shahbaba+ JMLR09)
  • 19. Experiments (2) • images of 13 type animals (SIFT特徴量) – MMH = multiview method (Chen+ 2010) – kmeans+SVM = kmeans でクラスタリング+各ク ラスタを linear SVM