SlideShare ist ein Scribd-Unternehmen logo
1 von 18
Downloaden Sie, um offline zu lesen
Informa(on-­‐Theore(c	
  Metric	
  Learning	
  
Jason	
  V.	
  Davis,	
  Brian	
  Kulis,	
  	
  
Prateek	
  Jain,	
  Suvrit	
  Sra,	
  Inderjit	
  S.	
  Dhillon	
  
(ICML	
  2007	
  best	
  paper)	
suzukake weekend	
  reading	
  group	
  #2	
  
2013/04/20	
  	
  	
  紹介者	
  :	
  matsuda	
1	
13/04/20	
  17:42版
Metric	
  Learningとは何か	
[1	
  	
  0	
  
	
  0	
  	
  1]	
[2	
  	
  0	
  
	
  0	
  	
  1]	
①同クラスの事例間は近いほうが良い	
  
②異クラスの事例間は遠いほうが良い	
①	
②	
ユークリッド距離	
分類しやすい(・∀・)	
距離空間を歪める	
マハラノビス距離	
2
別の例(Large	
  Margin	
  Nearest	
  Neighbor)	
hYp://www.cse.wustl.edu/~kilian/code/page21/page21.html より	
3
問題設定	
•  マハラノビス距離を学習する	
  
–  特徴量同士の距離を表す行列を学習する	
  
–  カーネルでない事に注意(ただ,相互に関係はある(実は等価・・・))	
  
•  カーネル	
  :	
  「データ間」の距離	
  
•  マハラノビス	
  :	
  「特徴量間」の距離	
  
•  何のために?	
  
–  機械学習の前処理として組み込む	
  
•  典型的な例	
  :	
  k-­‐NN	
  
–  semi-­‐supervised	
  clustering	
  
–  特徴選択の一般化とも言えそう	
  
•  重み付け +	
  特徴量空間での回転	
4	
Prasanta	
  Chandra	
  Mahalanobis	
  
1893 1972
本論文のContribu(on	
•  Metric	
  Learning	
  を	
  LogDet	
  Divergence	
  の最適化
問題として定式化	
  
–  Bregman	
  Projec(onという手法に基づく効率的なアル
ゴリズムを導出	
  
–  高速 (	
  O(d2)	
  d:次元数	
  ),おおむね高精度	
  
•  カーネル学習との接続	
  
–  実際には等価な問題であることを示す	
  
•  拡張	
  (時間の都合上,ちょっと触れるだけ)	
  
–  カーネル化	
  
–  オンライン化	
  
•  Regret	
  Boundも示している	
5
マハラノビス距離とは	
x	
  	
  :	
  データ点を表すベクトル	
  
A	
  :	
  マハラノビス距離行列(正定値行列)	
  
Aが単位行列であれば,ユークリッド距離と一致	
  
1	
  0	
  
0	
  1	
2	
  0	
  
0	
  1	
2	
  1	
  
1	
  1	
6
制約の表現	
S	
  	
  :	
  近いと分かっているデータ点ペアの集合	
  
D	
  :	
  遠いと分かっているデータ点ペアの集合	
これらの条件を満たすようなマハラノビス距離行列	
  A	
  を学習する	
7
ユークリッド距離による正則化	
•  Metric	
  Learningにおける過去の研究において	
  
– ユークリッド距離は多くの場合,そこそこ上手くい
く,ということが知られている	
  
– ユークリッド距離からあまりかけ離れたくはない	
  
•  そのため,単位行列(ユークリッド距離)で正則
化をかけたい	
  
•  どうやって?	
  
A-­‐1	
  を共分散行列として持つ正規分布間の	
  
KLダイバージェンスを考える	
この論文の	
  
メインアイディア	
8
ユークリッド距離による正則化	
p(x;	
  A)	
  :	
  A-­‐1を共分散行列として持つ正規分布(平均は考えない)	
単位行列	
すると,解くべき最適化問題は以下のようになる	
9
LogDet	
  divergenceの導入	
さきほどの最適化問題は以下のように書ける	
制約を満たす解が無い場合もある	
  
	
  => スラック変数	
  ξ	
  を導入	
  	
  :	
  式	
  (4.5)	
  	
n	
  :	
  行列のサイズ	
平均が等しい多変量正規分布間のKLダイバージェンス :	
  LogDet	
  Divergence	
xTAx	
  =	
  tr(AxxT)	
  で書き換えてるだけ	
10
Bregman	
  Projec(onに基づく学習	
•  [Kulis+,	
  ICML’06]によりカーネル学習で用いられた手
法	
  
•  Algorithm	
  1はスラック変数を考慮しているため複雑
に見えるが,以下を繰り返しているだけ	
  
1.  制約を一個ピックアップする	
  
2.  制約を満たすように距離行列を修正する	
  
計算量:	
  
	
  それぞれの射影に	
  O(d2),	
  c個の制約を一巡するのにはO(cd2)	
  
	
  関連研究で必要とされていた半正定値計画,	
  固有値分解等をとかなくて良い	
  
	
  収束保証はなされていないが,実験的には高速(後述)	
 11	
制約の「方向」	
更新幅
Bregman	
  Projec(on(イメージ)	
制約1	
  
d(xi,xj)	
  =	
  u	
制約2	
  
d(xi,xj)	
  =	
  l	
β	
  :制約を満たす最小の更新幅(閉じた形で求まる)	
射影を繰り返すことで,すべての制約を満たすAに収束する※	
12	
この図は清水さんのスライド hYp://www.r.dl.itc.u-­‐tokyo.ac.jp/study_ml/pukiwiki/index.php?schedule%2F2008-­‐07-­‐24	
  にインスパイアされています	
制約1を満たす
空間	
制約2を満たす
空間	
※制約が三つ以上ある場合は,すべての制約を満たす点は一般には存在しない(スラック変数の出番)	
ココでmin	
  Dld(At,At+1)を担保
カーネル学習との関連	
X=	
  	
x1	
x2	
x3	
x4	
d次元	
距離行列A	
ー
行
列
K	
と書けば,見る方向が違うだけで問題は等価	
Metric	
  Learning	
 Kernel	
  Learning	
(Theorem	
  1:初等的に証明できる)	
両者は等価な計算であるゆえ:	
  
高次元少事例(or低次元多事例)	
  
の場合は O(min{n,d}2)	
  で計算可能	
  
[Jain+	
  JMLR	
  2012]	
  
事
例	
  
13
拡張(カーネル化/オンライン化)	
•  カーネル化 (Φ(・)	
  :	
  (高次元への)写像関数)	
  
•  オンライン化	
  
–  Algorithm	
  2 ( Regret	
  Boundも示されている	
  )	
  
–  詳細は割愛	
  
線形カーネル	
  (K	
  =	
  I)	
 学習された(距離行列のもとでの)カーネル	
新たなデータ点に対するカーネルは以下の式で計算できる	
  (σ:	
  A	
  –	
  I	
  の要素)	
14	
とおけば,Algorithm1がそのまま使える
実験結果(k-­‐NN)	
UCI	
  Dataset	
 Cralify	
  Dataset	
(baseline)	
 (baseline)	
ソフトウェアの自動サポートのための	
  
データセット	
  
Informa(on	
  Gainで20次元に次元削減	
分類アルゴリズム:4-­‐NN	
  
制約:	
  	
  
	
  20	
  c2	
  ペア	
  (	
  c	
  :	
  クラス数	
  )	
  
	
  をランダムに選択×5	
  trial	
15
実験(速度,	
  クラスタリング)	
HMRF-­‐Kmeans	
  :	
  [Basu+	
  KDD’04]	
  
	
  Must-­‐link,	
  Cannnot-­‐link制約を隠れ状態として持つクラスタリング	
 16
まとめ /	
  感想 /	
  私見	
•  Metric	
  Learningを,LogDetダイバージェンスの最適化として定式化	
  
–  カーネル学習と等価であることを示した,拡張:カーネル化,オンライン化	
  
•  盛りだくさんの内容!	
  
–  カーネル学習と距離学習という,漠然と関係ありそうなものを明確に接続していて爽快	
  
–  要素技術はカーネル学習[Kulis+	
  ICML’06]で使われているものの踏襲のようだ	
  
•  私見(間違っている可能性高し!)	
  
–  線形分離できない問題ができるようになるの? 	
  
•  → 単なる線形変換なのでならない. 適切にスケーリングされてない状況でerror	
  rate下げる効果はあるかも	
  
–  前処理せずSVMにかけるのとどっちがいいの? 	
  
•  → 多くのケースでだいたい同じくらいらしい(k-­‐NNが異様に効くような状況除く)	
  [要出典]	
  
–  マハラノビス距離行列A	
  の 非対角要素(回転)にはどんな意味があるの? 	
  
•  → どうなんでしょう・・・ カーネル行列Kの非対角要素には明らかに意味があるので,考えればわかるかも	
  
–  そもそも今さらkNNって・・・ 	
  
•  → 意外と強いっすよ.メモリに載れば+近傍探索が速ければ	
  
–  どういう時に使う? 	
  
•  → 教師データが部分的にしか無い,学習されたMetricそのものを他の用途に使いたい状況など	
  
–  そもそもそもそも,線形変換が意味を持つ状況が思いつかない・・・	
  
•  → 分類器が非線形な場合(k-­‐NNなど)は意味があるはず. 分類器が線形な場合は・・・誰か教えてください.	
  17
Further	
  Reading	
•  “Metric	
  and	
  Kernel	
  Learning	
  Using	
  a	
  Linear	
  Transforma(on”	
  [Jain+,	
  	
  
JMLR’12]	
  
–  本研究を含んだジャーナル,あんまり読んでない	
  
•  “Distance	
  Metric	
  Learning:	
  A	
  Comprehensive	
  Survey”	
  [Yang,	
  2006]	
  
–  サーベイ論文.ちょっと古いけど,基本的な考え方は分かりそう	
  
•  “Learning	
  Low-­‐Rank	
  Kernel	
  Matrices”[Kulis+,	
  ICML’06]	
  
–  同チームによるカーネル学習の論文,基本的なアイディアは同じ	
  
–  IBM井出さんによる分かりやすい解説スライドあり	
  
•  日本語で読めるもの	
  
–  清水さんのスライド	
  
–  イントロ的なところは首都大小町先生による解説もあり	
  
–  “計量学習を用いた画像検索エンジンとアニメ顔類似検索v3について”	
  
•  かっこいい!	
  
•  自然言語処理への応用例	
  
–  類義語獲得	
  [Shimizu+,	
  Coling’08]	
  
–  Sen(ment	
  Analysis	
  における Domain	
  Adapta(on	
  [Dhillton+,	
  Coling’12]	
  
–  語義曖昧性解消	
  [Sasaki	
  and	
  Shinnou,	
  SEMAPRO’12][佐々木,新納,	
  NLP’11]	
18

Weitere ähnliche Inhalte

Was ist angesagt?

Crfと素性テンプレート
Crfと素性テンプレートCrfと素性テンプレート
Crfと素性テンプレートKei Uchiumi
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイDeep Learning JP
 
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズムnishio
 
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)Takuma Yagi
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformercvpaper. challenge
 
2値分類・多クラス分類
2値分類・多クラス分類2値分類・多クラス分類
2値分類・多クラス分類t dev
 
バンディット問題について
バンディット問題についてバンディット問題について
バンディット問題についてjkomiyama
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual FeaturesARISE analytics
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...Deep Learning JP
 
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A SurveyDeep Learning JP
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知NU_I_TODALAB
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
グラフ構造データに対する深層学習〜創薬・材料科学への応用とその問題点〜 (第26回ステアラボ人工知能セミナー)
グラフ構造データに対する深層学習〜創薬・材料科学への応用とその問題点〜 (第26回ステアラボ人工知能セミナー)グラフ構造データに対する深層学習〜創薬・材料科学への応用とその問題点〜 (第26回ステアラボ人工知能セミナー)
グラフ構造データに対する深層学習〜創薬・材料科学への応用とその問題点〜 (第26回ステアラボ人工知能セミナー)STAIR Lab, Chiba Institute of Technology
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門joisino
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用Ryo Iwaki
 
スパースモデリング入門
スパースモデリング入門スパースモデリング入門
スパースモデリング入門Hideo Terada
 
研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有Naoaki Okazaki
 
プログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズムプログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズムTakuya Akiba
 
低ランク性および平滑性を用いたテンソル補完 (Tensor Completion based on Low-rank and Smooth Structu...
低ランク性および平滑性を用いたテンソル補完 (Tensor Completion based on Low-rank and Smooth Structu...低ランク性および平滑性を用いたテンソル補完 (Tensor Completion based on Low-rank and Smooth Structu...
低ランク性および平滑性を用いたテンソル補完 (Tensor Completion based on Low-rank and Smooth Structu...Tatsuya Yokota
 

Was ist angesagt? (20)

Crfと素性テンプレート
Crfと素性テンプレートCrfと素性テンプレート
Crfと素性テンプレート
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズム
 
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
2値分類・多クラス分類
2値分類・多クラス分類2値分類・多クラス分類
2値分類・多クラス分類
 
バンディット問題について
バンディット問題についてバンディット問題について
バンディット問題について
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
 
Prml 4.1.1
Prml 4.1.1Prml 4.1.1
Prml 4.1.1
 
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
グラフ構造データに対する深層学習〜創薬・材料科学への応用とその問題点〜 (第26回ステアラボ人工知能セミナー)
グラフ構造データに対する深層学習〜創薬・材料科学への応用とその問題点〜 (第26回ステアラボ人工知能セミナー)グラフ構造データに対する深層学習〜創薬・材料科学への応用とその問題点〜 (第26回ステアラボ人工知能セミナー)
グラフ構造データに対する深層学習〜創薬・材料科学への応用とその問題点〜 (第26回ステアラボ人工知能セミナー)
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
スパースモデリング入門
スパースモデリング入門スパースモデリング入門
スパースモデリング入門
 
研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有
 
プログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズムプログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズム
 
低ランク性および平滑性を用いたテンソル補完 (Tensor Completion based on Low-rank and Smooth Structu...
低ランク性および平滑性を用いたテンソル補完 (Tensor Completion based on Low-rank and Smooth Structu...低ランク性および平滑性を用いたテンソル補完 (Tensor Completion based on Low-rank and Smooth Structu...
低ランク性および平滑性を用いたテンソル補完 (Tensor Completion based on Low-rank and Smooth Structu...
 

Andere mochten auch

Metric learning ICML2010 tutorial
Metric learning  ICML2010 tutorialMetric learning  ICML2010 tutorial
Metric learning ICML2010 tutorialzukun
 
Improving neural networks by preventing co adaptation of feature detectors
Improving neural networks by preventing co adaptation of feature detectorsImproving neural networks by preventing co adaptation of feature detectors
Improving neural networks by preventing co adaptation of feature detectorsJunya Saito
 
Laplacian Pyramid of Generative Adversarial Networks (LAPGAN) - NIPS2015読み会 #...
Laplacian Pyramid of Generative Adversarial Networks (LAPGAN) - NIPS2015読み会 #...Laplacian Pyramid of Generative Adversarial Networks (LAPGAN) - NIPS2015読み会 #...
Laplacian Pyramid of Generative Adversarial Networks (LAPGAN) - NIPS2015読み会 #...Koichi Hamada
 
論文輪読: Deep neural networks are easily fooled: High confidence predictions for...
論文輪読: Deep neural networks are easily fooled: High confidence predictions for...論文輪読: Deep neural networks are easily fooled: High confidence predictions for...
論文輪読: Deep neural networks are easily fooled: High confidence predictions for...mmisono
 
Distance Metric Learning
Distance Metric LearningDistance Metric Learning
Distance Metric LearningSanghyuk Chun
 
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3Daiki Shimada
 
Image net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural NetworksImage net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural NetworksShingo Horiuchi
 
Deep Residual Learning (ILSVRC2015 winner)
Deep Residual Learning (ILSVRC2015 winner)Deep Residual Learning (ILSVRC2015 winner)
Deep Residual Learning (ILSVRC2015 winner)Hirokatsu Kataoka
 
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料tm_2648
 

Andere mochten auch (13)

認知距離学習器の説明
認知距離学習器の説明認知距離学習器の説明
認知距離学習器の説明
 
Metric learning ICML2010 tutorial
Metric learning  ICML2010 tutorialMetric learning  ICML2010 tutorial
Metric learning ICML2010 tutorial
 
Improving neural networks by preventing co adaptation of feature detectors
Improving neural networks by preventing co adaptation of feature detectorsImproving neural networks by preventing co adaptation of feature detectors
Improving neural networks by preventing co adaptation of feature detectors
 
An Introduction to Metric Learning for Clustering
An Introduction to Metric Learning for ClusteringAn Introduction to Metric Learning for Clustering
An Introduction to Metric Learning for Clustering
 
Laplacian Pyramid of Generative Adversarial Networks (LAPGAN) - NIPS2015読み会 #...
Laplacian Pyramid of Generative Adversarial Networks (LAPGAN) - NIPS2015読み会 #...Laplacian Pyramid of Generative Adversarial Networks (LAPGAN) - NIPS2015読み会 #...
Laplacian Pyramid of Generative Adversarial Networks (LAPGAN) - NIPS2015読み会 #...
 
論文輪読: Deep neural networks are easily fooled: High confidence predictions for...
論文輪読: Deep neural networks are easily fooled: High confidence predictions for...論文輪読: Deep neural networks are easily fooled: High confidence predictions for...
論文輪読: Deep neural networks are easily fooled: High confidence predictions for...
 
Distance Metric Learning
Distance Metric LearningDistance Metric Learning
Distance Metric Learning
 
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
 
Image net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural NetworksImage net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural Networks
 
Deep Residual Learning (ILSVRC2015 winner)
Deep Residual Learning (ILSVRC2015 winner)Deep Residual Learning (ILSVRC2015 winner)
Deep Residual Learning (ILSVRC2015 winner)
 
20150930
2015093020150930
20150930
 
MIRU2014 tutorial deeplearning
MIRU2014 tutorial deeplearningMIRU2014 tutorial deeplearning
MIRU2014 tutorial deeplearning
 
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料
 

Ähnlich wie Information-Theoretic Metric Learning

東京大学工学部計数工学科応用音響学 D2 Clustering
東京大学工学部計数工学科応用音響学 D2 Clustering東京大学工学部計数工学科応用音響学 D2 Clustering
東京大学工学部計数工学科応用音響学 D2 ClusteringHiroshi Ono
 
PRML 4.1 輪講スライド
PRML 4.1 輪講スライドPRML 4.1 輪講スライド
PRML 4.1 輪講スライドKawaAkimune
 
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011Preferred Networks
 
クラシックな機械学習の入門 4. 学習データと予測性能
クラシックな機械学習の入門  4.   学習データと予測性能クラシックな機械学習の入門  4.   学習データと予測性能
クラシックな機械学習の入門 4. 学習データと予測性能Hiroshi Nakagawa
 
Semi-supervised Active Learning Survey
Semi-supervised Active Learning SurveySemi-supervised Active Learning Survey
Semi-supervised Active Learning SurveyYo Ehara
 
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...Deep Learning JP
 
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)MLSE
 

Ähnlich wie Information-Theoretic Metric Learning (8)

東京大学工学部計数工学科応用音響学 D2 Clustering
東京大学工学部計数工学科応用音響学 D2 Clustering東京大学工学部計数工学科応用音響学 D2 Clustering
東京大学工学部計数工学科応用音響学 D2 Clustering
 
PRML 4.1 輪講スライド
PRML 4.1 輪講スライドPRML 4.1 輪講スライド
PRML 4.1 輪講スライド
 
20130605
2013060520130605
20130605
 
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
 
クラシックな機械学習の入門 4. 学習データと予測性能
クラシックな機械学習の入門  4.   学習データと予測性能クラシックな機械学習の入門  4.   学習データと予測性能
クラシックな機械学習の入門 4. 学習データと予測性能
 
Semi-supervised Active Learning Survey
Semi-supervised Active Learning SurveySemi-supervised Active Learning Survey
Semi-supervised Active Learning Survey
 
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
 
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
 

Mehr von Koji Matsuda

Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...Koji Matsuda
 
KB + Text => Great KB な論文を多読してみた
KB + Text => Great KB な論文を多読してみたKB + Text => Great KB な論文を多読してみた
KB + Text => Great KB な論文を多読してみたKoji Matsuda
 
Large-Scale Information Extraction from Textual Definitions through Deep Syn...
Large-Scale Information Extraction from Textual Definitions through Deep Syn...Large-Scale Information Extraction from Textual Definitions through Deep Syn...
Large-Scale Information Extraction from Textual Definitions through Deep Syn...Koji Matsuda
 
知識を紡ぐための言語処理と、 そのための言語資源
知識を紡ぐための言語処理と、そのための言語資源知識を紡ぐための言語処理と、そのための言語資源
知識を紡ぐための言語処理と、 そのための言語資源Koji Matsuda
 
「今日から使い切る」 ための GNU Parallel による並列処理入門
「今日から使い切る」ための GNU Parallelによる並列処理入門「今日から使い切る」ための GNU Parallelによる並列処理入門
「今日から使い切る」 ための GNU Parallel による並列処理入門Koji Matsuda
 
場所参照表現タグ付きコーパスの 構築と評価
場所参照表現タグ付きコーパスの構築と評価 場所参照表現タグ付きコーパスの構築と評価
場所参照表現タグ付きコーパスの 構築と評価 Koji Matsuda
 
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介Koji Matsuda
 
いまさら聞けない “モデル” の話 @DSIRNLP#5
いまさら聞けない “モデル” の話 @DSIRNLP#5いまさら聞けない “モデル” の話 @DSIRNLP#5
いまさら聞けない “モデル” の話 @DSIRNLP#5Koji Matsuda
 
Practical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architecturesPractical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architecturesKoji Matsuda
 
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk  : A Unified Approach forMeasuring Semantic Simil...Align, Disambiguate and Walk  : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...Koji Matsuda
 
Joint Modeling of a Matrix with Associated Text via Latent Binary Features
Joint Modeling of a Matrix with Associated Text via Latent Binary FeaturesJoint Modeling of a Matrix with Associated Text via Latent Binary Features
Joint Modeling of a Matrix with Associated Text via Latent Binary FeaturesKoji Matsuda
 
Vanishing Component Analysis
Vanishing Component AnalysisVanishing Component Analysis
Vanishing Component AnalysisKoji Matsuda
 
A Machine Learning Framework for Programming by Example
A Machine Learning Framework for Programming by ExampleA Machine Learning Framework for Programming by Example
A Machine Learning Framework for Programming by ExampleKoji Matsuda
 
Unified Expectation Maximization
Unified Expectation MaximizationUnified Expectation Maximization
Unified Expectation MaximizationKoji Matsuda
 
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)Koji Matsuda
 
研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節Koji Matsuda
 
研究室内PRML勉強会 8章1節
研究室内PRML勉強会 8章1節研究室内PRML勉強会 8章1節
研究室内PRML勉強会 8章1節Koji Matsuda
 
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)Koji Matsuda
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPKoji Matsuda
 

Mehr von Koji Matsuda (19)

Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
 
KB + Text => Great KB な論文を多読してみた
KB + Text => Great KB な論文を多読してみたKB + Text => Great KB な論文を多読してみた
KB + Text => Great KB な論文を多読してみた
 
Large-Scale Information Extraction from Textual Definitions through Deep Syn...
Large-Scale Information Extraction from Textual Definitions through Deep Syn...Large-Scale Information Extraction from Textual Definitions through Deep Syn...
Large-Scale Information Extraction from Textual Definitions through Deep Syn...
 
知識を紡ぐための言語処理と、 そのための言語資源
知識を紡ぐための言語処理と、そのための言語資源知識を紡ぐための言語処理と、そのための言語資源
知識を紡ぐための言語処理と、 そのための言語資源
 
「今日から使い切る」 ための GNU Parallel による並列処理入門
「今日から使い切る」ための GNU Parallelによる並列処理入門「今日から使い切る」ための GNU Parallelによる並列処理入門
「今日から使い切る」 ための GNU Parallel による並列処理入門
 
場所参照表現タグ付きコーパスの 構築と評価
場所参照表現タグ付きコーパスの構築と評価 場所参照表現タグ付きコーパスの構築と評価
場所参照表現タグ付きコーパスの 構築と評価
 
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
 
いまさら聞けない “モデル” の話 @DSIRNLP#5
いまさら聞けない “モデル” の話 @DSIRNLP#5いまさら聞けない “モデル” の話 @DSIRNLP#5
いまさら聞けない “モデル” の話 @DSIRNLP#5
 
Practical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architecturesPractical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architectures
 
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk  : A Unified Approach forMeasuring Semantic Simil...Align, Disambiguate and Walk  : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
 
Joint Modeling of a Matrix with Associated Text via Latent Binary Features
Joint Modeling of a Matrix with Associated Text via Latent Binary FeaturesJoint Modeling of a Matrix with Associated Text via Latent Binary Features
Joint Modeling of a Matrix with Associated Text via Latent Binary Features
 
Vanishing Component Analysis
Vanishing Component AnalysisVanishing Component Analysis
Vanishing Component Analysis
 
A Machine Learning Framework for Programming by Example
A Machine Learning Framework for Programming by ExampleA Machine Learning Framework for Programming by Example
A Machine Learning Framework for Programming by Example
 
Unified Expectation Maximization
Unified Expectation MaximizationUnified Expectation Maximization
Unified Expectation Maximization
 
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
 
研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節
 
研究室内PRML勉強会 8章1節
研究室内PRML勉強会 8章1節研究室内PRML勉強会 8章1節
研究室内PRML勉強会 8章1節
 
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
 

Information-Theoretic Metric Learning

  • 1. Informa(on-­‐Theore(c  Metric  Learning   Jason  V.  Davis,  Brian  Kulis,     Prateek  Jain,  Suvrit  Sra,  Inderjit  S.  Dhillon   (ICML  2007  best  paper) suzukake weekend  reading  group  #2   2013/04/20      紹介者  :  matsuda 1 13/04/20  17:42版
  • 2. Metric  Learningとは何か [1    0    0    1] [2    0    0    1] ①同クラスの事例間は近いほうが良い   ②異クラスの事例間は遠いほうが良い ① ② ユークリッド距離 分類しやすい(・∀・) 距離空間を歪める マハラノビス距離 2
  • 3. 別の例(Large  Margin  Nearest  Neighbor) hYp://www.cse.wustl.edu/~kilian/code/page21/page21.html より 3
  • 4. 問題設定 •  マハラノビス距離を学習する   –  特徴量同士の距離を表す行列を学習する   –  カーネルでない事に注意(ただ,相互に関係はある(実は等価・・・))   •  カーネル  :  「データ間」の距離   •  マハラノビス  :  「特徴量間」の距離   •  何のために?   –  機械学習の前処理として組み込む   •  典型的な例  :  k-­‐NN   –  semi-­‐supervised  clustering   –  特徴選択の一般化とも言えそう   •  重み付け +  特徴量空間での回転 4 Prasanta  Chandra  Mahalanobis   1893 1972
  • 5. 本論文のContribu(on •  Metric  Learning  を  LogDet  Divergence  の最適化 問題として定式化   –  Bregman  Projec(onという手法に基づく効率的なアル ゴリズムを導出   –  高速 (  O(d2)  d:次元数  ),おおむね高精度   •  カーネル学習との接続   –  実際には等価な問題であることを示す   •  拡張  (時間の都合上,ちょっと触れるだけ)   –  カーネル化   –  オンライン化   •  Regret  Boundも示している 5
  • 6. マハラノビス距離とは x    :  データ点を表すベクトル   A  :  マハラノビス距離行列(正定値行列)   Aが単位行列であれば,ユークリッド距離と一致   1  0   0  1 2  0   0  1 2  1   1  1 6
  • 7. 制約の表現 S    :  近いと分かっているデータ点ペアの集合   D  :  遠いと分かっているデータ点ペアの集合 これらの条件を満たすようなマハラノビス距離行列  A  を学習する 7
  • 8. ユークリッド距離による正則化 •  Metric  Learningにおける過去の研究において   – ユークリッド距離は多くの場合,そこそこ上手くい く,ということが知られている   – ユークリッド距離からあまりかけ離れたくはない   •  そのため,単位行列(ユークリッド距離)で正則 化をかけたい   •  どうやって?   A-­‐1  を共分散行列として持つ正規分布間の   KLダイバージェンスを考える この論文の   メインアイディア 8
  • 9. ユークリッド距離による正則化 p(x;  A)  :  A-­‐1を共分散行列として持つ正規分布(平均は考えない) 単位行列 すると,解くべき最適化問題は以下のようになる 9
  • 10. LogDet  divergenceの導入 さきほどの最適化問題は以下のように書ける 制約を満たす解が無い場合もある    => スラック変数  ξ  を導入    :  式  (4.5)   n  :  行列のサイズ 平均が等しい多変量正規分布間のKLダイバージェンス :  LogDet  Divergence xTAx  =  tr(AxxT)  で書き換えてるだけ 10
  • 11. Bregman  Projec(onに基づく学習 •  [Kulis+,  ICML’06]によりカーネル学習で用いられた手 法   •  Algorithm  1はスラック変数を考慮しているため複雑 に見えるが,以下を繰り返しているだけ   1.  制約を一個ピックアップする   2.  制約を満たすように距離行列を修正する   計算量:    それぞれの射影に  O(d2),  c個の制約を一巡するのにはO(cd2)    関連研究で必要とされていた半正定値計画,  固有値分解等をとかなくて良い    収束保証はなされていないが,実験的には高速(後述) 11 制約の「方向」 更新幅
  • 12. Bregman  Projec(on(イメージ) 制約1   d(xi,xj)  =  u 制約2   d(xi,xj)  =  l β  :制約を満たす最小の更新幅(閉じた形で求まる) 射影を繰り返すことで,すべての制約を満たすAに収束する※ 12 この図は清水さんのスライド hYp://www.r.dl.itc.u-­‐tokyo.ac.jp/study_ml/pukiwiki/index.php?schedule%2F2008-­‐07-­‐24  にインスパイアされています 制約1を満たす 空間 制約2を満たす 空間 ※制約が三つ以上ある場合は,すべての制約を満たす点は一般には存在しない(スラック変数の出番) ココでmin  Dld(At,At+1)を担保
  • 13. カーネル学習との関連 X=   x1 x2 x3 x4 d次元 距離行列A ー 行 列 K と書けば,見る方向が違うだけで問題は等価 Metric  Learning Kernel  Learning (Theorem  1:初等的に証明できる) 両者は等価な計算であるゆえ:   高次元少事例(or低次元多事例)   の場合は O(min{n,d}2)  で計算可能   [Jain+  JMLR  2012]   事 例   13
  • 14. 拡張(カーネル化/オンライン化) •  カーネル化 (Φ(・)  :  (高次元への)写像関数)   •  オンライン化   –  Algorithm  2 ( Regret  Boundも示されている  )   –  詳細は割愛   線形カーネル  (K  =  I) 学習された(距離行列のもとでの)カーネル 新たなデータ点に対するカーネルは以下の式で計算できる  (σ:  A  –  I  の要素) 14 とおけば,Algorithm1がそのまま使える
  • 15. 実験結果(k-­‐NN) UCI  Dataset Cralify  Dataset (baseline) (baseline) ソフトウェアの自動サポートのための   データセット   Informa(on  Gainで20次元に次元削減 分類アルゴリズム:4-­‐NN   制約:      20  c2  ペア  (  c  :  クラス数  )    をランダムに選択×5  trial 15
  • 16. 実験(速度,  クラスタリング) HMRF-­‐Kmeans  :  [Basu+  KDD’04]    Must-­‐link,  Cannnot-­‐link制約を隠れ状態として持つクラスタリング 16
  • 17. まとめ /  感想 /  私見 •  Metric  Learningを,LogDetダイバージェンスの最適化として定式化   –  カーネル学習と等価であることを示した,拡張:カーネル化,オンライン化   •  盛りだくさんの内容!   –  カーネル学習と距離学習という,漠然と関係ありそうなものを明確に接続していて爽快   –  要素技術はカーネル学習[Kulis+  ICML’06]で使われているものの踏襲のようだ   •  私見(間違っている可能性高し!)   –  線形分離できない問題ができるようになるの?    •  → 単なる線形変換なのでならない. 適切にスケーリングされてない状況でerror  rate下げる効果はあるかも   –  前処理せずSVMにかけるのとどっちがいいの?    •  → 多くのケースでだいたい同じくらいらしい(k-­‐NNが異様に効くような状況除く)  [要出典]   –  マハラノビス距離行列A  の 非対角要素(回転)にはどんな意味があるの?    •  → どうなんでしょう・・・ カーネル行列Kの非対角要素には明らかに意味があるので,考えればわかるかも   –  そもそも今さらkNNって・・・    •  → 意外と強いっすよ.メモリに載れば+近傍探索が速ければ   –  どういう時に使う?    •  → 教師データが部分的にしか無い,学習されたMetricそのものを他の用途に使いたい状況など   –  そもそもそもそも,線形変換が意味を持つ状況が思いつかない・・・   •  → 分類器が非線形な場合(k-­‐NNなど)は意味があるはず. 分類器が線形な場合は・・・誰か教えてください.  17
  • 18. Further  Reading •  “Metric  and  Kernel  Learning  Using  a  Linear  Transforma(on”  [Jain+,     JMLR’12]   –  本研究を含んだジャーナル,あんまり読んでない   •  “Distance  Metric  Learning:  A  Comprehensive  Survey”  [Yang,  2006]   –  サーベイ論文.ちょっと古いけど,基本的な考え方は分かりそう   •  “Learning  Low-­‐Rank  Kernel  Matrices”[Kulis+,  ICML’06]   –  同チームによるカーネル学習の論文,基本的なアイディアは同じ   –  IBM井出さんによる分かりやすい解説スライドあり   •  日本語で読めるもの   –  清水さんのスライド   –  イントロ的なところは首都大小町先生による解説もあり   –  “計量学習を用いた画像検索エンジンとアニメ顔類似検索v3について”   •  かっこいい!   •  自然言語処理への応用例   –  類義語獲得  [Shimizu+,  Coling’08]   –  Sen(ment  Analysis  における Domain  Adapta(on  [Dhillton+,  Coling’12]   –  語義曖昧性解消  [Sasaki  and  Shinnou,  SEMAPRO’12][佐々木,新納,  NLP’11] 18