Weitere ähnliche Inhalte
Ähnlich wie Infinite SVM [改] - ICML 2011 読み会 (20)
Mehr von Shuyo Nakatani (20)
Infinite SVM [改] - ICML 2011 読み会
- 1. [改]
[Zhu, Chen and Xing ICML2011]
Infinite SVM: a Dirichlet Process Mixture of
Large-Margin Kernel Machines
2011/07/16-19
中谷秀洋 @ サイボウズ・ラボ株式会社
@shuyo / id:n_shuyo
- 2. References
• [Blei & Jordan 06] Variational inference
for Dirichlet process mixtures
• [Jaakkola, Meila & Jebara NIPS99]
Maximum entropy discrimination
• [Kurihara, Welling & Teh IJCAI07]
Collapsed variational Dirichlet process
mixture models
• [Zhu & Xing JMLR09] Maximum entropy
discrimination Markov networks
- 4. Infinite SVM (iSVM)
• 多クラス SVM を DPM で混合化
– DPM=Dirichlet Process Mixture
• データ点をクラスタリング
• クラスタ数を自動決定
– VBと「リスク関数+相対エントロピーの最小
化」を交互に行うことで推論
- 5. iSVM のモデル (1)
• Xd∈RM: データ点, Yd∈{1,...,L}: ラベル
• Zd∈{1,2,...}: Xdのコンポーネント
– Xdにどの識別器を使うか
- 6. iSVM のモデル (2)
• V, Z は Dirichlet Process に従う
V~GEM(α)
ηは後述
点dが属する
コンポーネント
- 8. iSVM のモデル (4)
Y には分布を
• ������ ∈ 1, ⋯ , ������ を使って識別関数を定義 入れない
– f(y, x) : 素性ベクトル
• ηi:i番目の識別器のパラメータ
– ηi~N(μ0,Σ0), β={μ0,Σ0}
- 11. 推論 / VBパート (1)
[Blei & Jordan 06]
• 独立性を仮定して事後分布を推定
– ������ ������, ������, ������, ������ =
������
������=1 ������ ������������ ������ ������ ������������
������=1
������
������=1 ������ ������������ ������−1
������=1 ������ ������������
– DPMのトピック数をT(=20)に制限
• vとγは通常のVBでそのまま推論できる
• zとηはできない
– Yに分布が入っていないから
- 12. 推論 / VBパート (2)
• 例:q(v)の推論
1 ������ ������
– ������ ������������ = Multi ������������ , ⋯ , ������������ , ������ ������ = ������ ������������ とすると、
– ln ������(������) = ������������ ������,������,������ ������������ ������ ������, ������, ������, ������, ������
= ln ������0 ������ + ������ ������������������ [ln ������(������������ |������)] + ������������������������������.
������
ln ������(������������ ) = ln ������0 ������ + ������ ������ ln ������������ + ������=������+1 ������
������ ln 1 − ������������ +������������������������������
– ������0 ������������ = Beta 1, ������ とおくと、
������
• ������ ������������ = Beta(1 + ������ ������ , ������ + ������
������=������+1 ������ )
• q(γ) も同様に計算できる。
- 13. (参考)Collapsed variational DPM
[Kurihara, Welling & Teh IJCAI07]
• DPMをVBで解くには、トピック数をTで切り詰める
– 単純に ������ ������������ = 1 = 1、それ以降の確率は強制的に0
• Collapsed VB DPM [Kurihara+ 07]はvを積分消去す
ることで、切り詰めによる誤差を抑えている?
- 14. 推論 / リスク最小化パート (1)
たぶんq(z)の
• q(z)とq(η)を推定する 間違い
= ������������(������(������, ������, ������)||������ ������, ������, ������ ������ )から
������, ������の寄与分を除いたもの
= KL(q(η)||p0(η|β)) + KL(q(z,v)||p(z,v|α))
- 15. 推論 / リスク最小化パート (2)
= 0 (if y is correct)
[Zhu & Xing 09]
= 2 (otherwise)
F(y,xd)
margin
∆
≥ ������������ (������) for all y
yd
- 16. 推論 / リスク最小化パート (3)
• これを解くと、
– p0 ������ = ������ ������0 , Σ0 , ������ ������������ = ������ ������������ , Σ0 とすると
1 ������
– ������ ������������ = Multi ������������ , ⋯ , ������������ についても解くと
- 18. Experiments (2)
• images of 13 type animals (SIFT特徴量)
生SVMと
あまり差がない
– MMH = multiview method (Chen+ 2010)
– kmeans+SVM = kmeans でクラスタリング+各クラス
タにて linear SVM
• 最高速&そこそこ精度がいいから、これでいいんじゃ(爆
- 19. [参考] Maximum Entropy
Discrimination (MED) [Jaakkola+ 99]
• 識別関数 + large margin に確率モデルを入
れるための一般的な枠組み
– 確率的手法と組み合わせるなどの拡張性
– 事前分布を入れられる
• アプリケーションに合わせた調整やロバスト性
• iSVM は MED の extension” とあるが……
- 21. MED (2)
• マージン ������
– このままでは誤判定が許されない
• 各点ごとにマージン������ = {������������ }を考える
• ������������ に誤判定を低確率で許す分布を入れる
– ������0 (������������ ) = ������������ −������ 1−������������ 低い確率で
誤判定を許す
������������
• decision rule をさらに周辺化 0 1
- 23. MED (4)
• 定理:MRE の解は次の形になる
– ただし λ はラグランジュ乗数であり、
J(λ)=-log Z(λ) の unique maximum
- 24. MED (5)
• MED は SVM を special case として含む
– 識別関数
1
• たとえば ������ ������ ������������ ∝ exp( ������( ������ ������ ������ − ������))とおく
2
– θ~N(0,1), b は無情報事前分布を入れる
– このとき J(λ) は次のようになる
- 25. MED vs iSVM
• MED は……
– 一般的な枠組み。SVM は special case
– 相対エントロピーを最小化
– マージンに分布を入れる
• iSVM は……
– SVMの混合化(ノンパラベイズ)
– VB と「リスク関数+相対エントロピーの最小化」を交互
に
– ソフトマージンはslack変数で
• iSVM は MED の拡張ではないと思う……
- 26. まとめというか感想
• コンポーネントに分割するのは筋が良い気がする
– データは多様体をなす(ローカルにはシンプルな構造)
– 分割により SVM の計算量も大幅に減らせる
• でも生SVMとあまり精度が変わらない
– 近似のせい? データのせい? コンポーネント数?
• どうしていきなりノンパラベイズ?
– 有限混合でもいいんでは?
– ディリクレ分布で ARD 効かせるとか
• VB 的近似も避けられるかもしれない