Weitere ähnliche Inhalte
Ähnlich wie Infinite SVM - ICML 2011 読み会 (20)
Mehr von Shuyo Nakatani (20)
Infinite SVM - ICML 2011 読み会
- 1. [Zhu, Chen and Xing ICML2011]
Infinite SVM: a Dirichlet Process Mixture of
Large-Margin Kernel Machines
2011/07/16
中谷秀洋 @ サイボウズ・ラボ株式会社
@shuyo / id:n_shuyo
- 2. References
• [Blei & Jordan 06] Variational inference
for Dirichlet process mixtures
• [Jaakkola, Meila & Jebara NIPS99]
Maximum entropy discrimination
• [Kurihara, Welling & Teh IJCAI07]
Collapsed variational Dirichlet process
mixture models
• [Zhu & Xing JMLR09] Maximum entropy
discrimination Markov networks
- 3. Infinite SVM (iSVM)
• (多クラス)SVM を DPM で混合化
• VB+リスク関数(相対エントロピー
を含む)の最小化で推論
• ソフトマージンはslack変数で
• って書いてあるけど、[Zhu & Xing 09] + DPM
という方が正しい気がする
- 4. Maximum Entropy
Discrimination (MED) [Jaakkola+ 99]
• 識別関数 + large margin に確率モデル
を入れて、エントロピー最大原理で解く
– パラメータに事前分布
– 識別関数を logit で定義し、境界条件によっ
て admissible set を記述
– 事前分布P0から射影
(相対エントロピー最小)
- 5. MED (1)
• 識別関数
• Minimum Relative Entropy(MRE)
– 次の制約の下で、KL(P||P0) を最小化
– marginに分布を入れて、ソフトマージン実現
低い確率で
• ������0 (������������ ) = ������������ −������ 1−������������ 誤判定を許す
������������
0 1
- 6. MED (2)
• 定理:MRE の解は次の形になる
– ただし λ はラグランジュ乗数であり、
J(λ)=-log Z(λ) の unique maximum
- 7. MED (3)
• MED は SVM を special case として含む
– 識別関数
1
• たとえば ������ ������ ������������ ∝ exp( ������( ������ ������ ������ − ������))とおく
2
– θ~N(0,1), b は無情報事前分布
– このとき J(λ) は次のようになる
- 10. iSVM のモデル (3)
• ������ ∈ 1, ⋯ , ������ を使って識別関数を定義
• Y には分布が入っていない
– ηは(例えば)ガウス分布からサンプリング
- 12. 推論 / VBパート (1)
[Blei & Jordan 06]
• 独立性を仮定して事後分布を推定
– ������ ������, ������, ������, ������ =
������
������=1 ������ ������������ ������ ������ ������������
������=1
������
������=1 ������ ������������ ������−1
������=1 ������ ������������
– DPMのトピック数をT(=20)に制限
• vとγは通常のVBでそのまま推論できる
• zとηはできない
– Yに分布が入っていないから
- 13. 推論 / VBパート (2)
• 例:q(v)の推論
1 ������ ������
– ������ ������������ = Multi ������������ , ⋯ , ������������ , ������ ������ = ������ ������������ とすると、
– ln ������(������) = ������������ ������,������,������ ������������ ������ ������, ������, ������, ������, ������
= ln ������0 ������ + ������ ������������������ [ln ������(������������ |������)] + ������������������������������.
������
ln ������(������������ ) = ln ������0 ������ + ������ ������ ln ������������ + ������=������+1 ������
������ ln 1 − ������������ +������������������������������
– ������0 ������������ = Beta 1, ������ とおくと、
������
• ������ ������������ = Beta(1 + ������ ������ , ������ + ������
������=������+1 ������ )
• q(γ) も同様に計算できる。
- 14. (参考)Collapsed variational DPM
[Kurihara, Welling & Teh IJCAI07]
• DPMをVBで解くには、トピック数をTで切り詰める
– 単純に ������ ������������ = 1 = 1、それ以降の確率は強制的に0
• Collapsed VB DPM [Kurihara+ 07]はvを積分消去す
ることで、切り詰めによる誤差を抑えている?
- 15. 推論 / リスク最小化パート (1)
たぶんq(z)の
• q(z)とq(η)を推定する 間違い
= ������������(������(������, ������, ������)||������ ������, ������, ������ ������ )から
������, ������の寄与分を除いたもの
= KL(q(η)||p0(η|β)) + KL(q(z,v)||p(z,v|α))
- 16. 推論 / リスク最小化パート (2)
= 0 (if y is correct)
[Zhu & Xing 09]
= 2 (otherwise)
F(y,xd)
margin
∆
≥ ������������ (������) for all y
yd
- 17. 推論 / リスク最小化パート (3)
• これを解くと、
– p0 ������ = ������ ������0 , Σ0 , ������ ������������ = ������ ������������ , Σ0 とすると
1 ������
– ������ ������������ = Multi ������������ , ⋯ , ������������ についても解くと
- 19. Experiments (2)
• images of 13 type animals (SIFT特徴量)
– MMH = multiview method (Chen+ 2010)
– kmeans+SVM = kmeans でクラスタリング+各ク
ラスタを linear SVM