Infinite SVM [改] - ICML 2011 読み会

[改]

[Zhu, Chen and Xing ICML2011]
Infinite SVM: a Dirichlet Process Mixture of
Large-Margin Kernel Machines

2011/07/16-19
中谷秀洋 @ サイボウズ・ラボ株式会社
@shuyo / id:n_shuyo

References
• [Blei & Jordan 06] Variational inference
for Dirichlet process mixtures
• [Jaakkola, Meila & Jebara NIPS99]
Maximum entropy discrimination
• [Kurihara, Welling & Teh IJCAI07]
Collapsed variational Dirichlet process
mixture models
• [Zhu & Xing JMLR09] Maximum entropy
discrimination Markov networks

混合SVM
• データ空間は多様体をなす
– ローカルにはシンプルな構造
• クラスタに分類、コンポーネントごとにSVM
– シンプルな素性で済む
– 一度に扱うデータ数が減る→計算量が減る

Infinite SVM (iSVM)
• 多クラス SVM を DPM で混合化
– DPM=Dirichlet Process Mixture
• データ点をクラスタリング
• クラスタ数を自動決定
– VBと「リスク関数＋相対エントロピーの最小
化」を交互に行うことで推論

iSVM のモデル (1)
• Xd∈RM: データ点, Yd∈{1,...,L}: ラベル
• Zd∈{1,2,...}: Xdのコンポーネント
– Xdにどの識別器を使うか

• V, Z は Dirichlet Process に従う
V～GEM(α)
ηは後述

点dが属する
コンポーネント

• X は指数型分布族、γはその共役事前分布

Y には分布を
• �� ∈ 1, ⋯ , �� を使って識別関数を定義入れない

– f(y, x) : 素性ベクトル
• ηi:i番目の識別器のパラメータ
– ηi～N(μ0,Σ0), β={μ0,Σ0}

予測ルール
• 識別関数は F を事後分布で周辺化
– z, η の事後分布を q(z, η) とすると、入力 x
に対する予測値 y* は

推論
• 識別関数と確率モデルが混じっているの
で、単純な推論は出来ない
– 変分ベイズ(VB)
– リスク関数＋相対エントロピーの最小化
• を交互に行うことで推論を行う
– 収束は……保証されなさそうだなあ

推論 / VBパート (1)
[Blei & Jordan 06]

• 独立性を仮定して事後分布を推定
– �� , ��, ��, �� =
��
��=1 ��
��=1
��
��=1 �� −1
��=1 ��
– DPMのトピック数をT(=20)に制限
• vとγは通常のVBでそのまま推論できる
• zとηはできない
– Yに分布が入っていないから

推論 / VBパート (2)
• 例：q(v)の推論
1 ��
– �� = Multi �� , ⋯ , �� , �� = �� とすると、

– ln ��(��) = �� ,��,�� , ��, ��, ��, ��
= ln ��0 �� + �� [ln ��(�� |��)] + ��.
��
ln ��(�� ) = ln ��0 �� + �� ln �� + ��=��+1 ��
�� ln 1 − �� +��
– ��0 �� = Beta 1, �� とおくと、
��
• �� = Beta(1 + �� , �� + ��
��=��+1 �� )

• q(γ) も同様に計算できる。

(参考)Collapsed variational DPM
[Kurihara, Welling & Teh IJCAI07]
• DPMをVBで解くには、トピック数をTで切り詰める
– 単純に �� = 1 = 1、それ以降の確率は強制的に0
• Collapsed VB DPM [Kurihara+ 07]はvを積分消去す
ることで、切り詰めによる誤差を抑えている？

推論 / リスク最小化パート (1)
たぶんq(z)の
• q(z)とq(η)を推定する間違い

= ��(��(��, ��, ��)||�� , ��, �� )から
��, ��の寄与分を除いたもの

= KL(q(η)||p0(η|β)) + KL(q(z,v)||p(z,v|α))


= 0 (if y is correct)
[Zhu & Xing 09]
= 2 (otherwise)
F(y,xd)
margin
∆
≥ �� (��) for all y

yd

• これを解くと、

– p0 �� = �� 0 , Σ0 , �� = �� , Σ0 とすると

1 ��
– �� = Multi �� , ⋯ , �� についても解くと

Experiments (1)
• 人工データ

– MNL = Multinominal Logit
– dpMNL = DP mixture of MNL (Shahbaba+
JMLR09)

Experiments (2)
• images of 13 type animals (SIFT特徴量)

生SVMと
あまり差がない

– MMH = multiview method (Chen+ 2010)
– kmeans+SVM = kmeans でクラスタリング＋各クラス
タにて linear SVM
• 最高速＆そこそこ精度がいいから、これでいいんじゃ(爆

[参考] Maximum Entropy
Discrimination (MED) [Jaakkola+ 99]
• 識別関数 + large margin に確率モデルを入
れるための一般的な枠組み
– 確率的手法と組み合わせるなどの拡張性
– 事前分布を入れられる
• アプリケーションに合わせた調整やロバスト性

• iSVM は MED の extension” とあるが……

MED (1)
• 識別関数を以下のように定義

– Θ={θ1,θ-1,b} : パラメータ
• Θに分布を入れて、L を周辺化したものを
decision rule とする

MED (2)
• マージン ��

– このままでは誤判定が許されない
• 各点ごとにマージン�� = {�� }を考える
• �� に誤判定を低確率で許す分布を入れる
– ��0 (�� ) = �� −�� 1−�� 低い確率で
誤判定を許す
��
• decision rule をさらに周辺化 0 1

MED (3)
• Minimum Relative Entropy(MRE)
– 以下の制約の下、KL(P||P0) を最小化するΘ
を見つける

MED (4)
• 定理：MRE の解は次の形になる

– ただし λ はラグランジュ乗数であり、
J(λ)=-log Z(λ) の unique maximum

MED (5)
• MED は SVM を special case として含む
– 識別関数
1
• たとえば �� ∝ exp( ��( �� − ��))とおく
2

– θ～N(0,1), b は無情報事前分布を入れる
– このとき J(λ) は次のようになる

MED vs iSVM
• MED は……
– 一般的な枠組み。SVM は special case
– 相対エントロピーを最小化
– マージンに分布を入れる
• iSVM は……
– SVMの混合化(ノンパラベイズ)
– VB と「リスク関数＋相対エントロピーの最小化」を交互
に
– ソフトマージンはslack変数で
• iSVM は MED の拡張ではないと思う……

まとめというか感想
• コンポーネントに分割するのは筋が良い気がする
– データは多様体をなす(ローカルにはシンプルな構造)
– 分割により SVM の計算量も大幅に減らせる
• でも生SVMとあまり精度が変わらない
– 近似のせい？データのせい？コンポーネント数？
• どうしていきなりノンパラベイズ？
– 有限混合でもいいんでは？
– ディリクレ分布で ARD 効かせるとか
• VB 的近似も避けられるかもしれない

Infinite SVM [改] - ICML 2011 読み会

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (18)

Ähnlich wie Infinite SVM [改] - ICML 2011 読み会

Ähnlich wie Infinite SVM [改] - ICML 2011 読み会 (20)

Mehr von Shuyo Nakatani

Mehr von Shuyo Nakatani (20)

Infinite SVM [改] - ICML 2011 読み会