SlideShare ist ein Scribd-Unternehmen logo
1 von 17
Downloaden Sie, um offline zu lesen
第二回 北大クラスタリングセミナー 
S. E. Schaeffer, Comput. Sci. Rev. 1, 27 (2007) 
4.2. Cluster fitness measures 
4.2.2. Cut-based measures 
発表者永幡裕@小松崎研
4.2Cluster fitness measures 
4.2Cluster fitness measures 
•4.2.1Density measures 푘≤푛,휉∈0,1に対して頂点数푆=푘、密度훿푆=휉の 部分グラフ푆⊆푉はどれか?(훿푆=1のときクリーク問題) 
•4.2.2Cut-based measures クラスターの質、部分グラフの独立性 最も重要な手法が最小コンダクタンスカット ※コミュニティ検出などが目的 
2
Conductance 
•重み付き無向グラフ퐺=푉,퐸に対して 훷푆= 푤푆,푆푐 min푤푆,푉,푆푐,푉 =max 푤푆,푆푐 푤푆푐,푉 , 푤푆푐,푆 푤푆,푉 
•最小コンダクタンスカットmin 푆⊆푉 훷푆 →コミュニティ検出、(MRF上での)画像分割、 ほぼ不変集合、マルコフ連鎖の混合時間… 
※Markov 連鎖 푝푡,훥푡푆,푆푐 푝푡,훥푡푆푐,푉 = 푝푡,훥푡푆,푆푐 푝푡푆푐=푝훥푡푆푆푐푡 
3 
푆 
푆c
なんでConductance? 
•上下限を定めるCheeger不等式がある[1] 
•Cheeger不等式とは 同名のリーマン幾何におけるLaplace 演算子に対する不等式に由来 vertex expansionに対するCheeger不等式はN. Alonによって示された[2] その後F. Chung によって重みつき無効グラフのLaplacianに対するCheeger不等 式[1]が示される。(有効グラフでも示せる[3]) 2ℎ퐺≤휆2≤ ℎ퐺2 2Cheeger’sconstant ℎ퐺≔min 푆⊆푉 훷푆 Graph Laplacian: ℒ=퐸−퐷 12푃퐷− 12The second smallest Laplacianeigenvalue: 휆2 
4 
[1]F.Chung,inComb.PaulErdősisEighty,vol.2editedbyD.Miklós,V.T.Sós,andT. Szőnyi(JánosBolyaiMathematicalSociety,Budapest,1996),pp.157–172. 
[2]N.Alon,Combinatorica6,83(1986). 
[3]F.Chung,Ann.Comb.9,1(2005).
Variance of Conductance 
•Normalized cut e.g.[1] (almost invariant cut[2]) 푤푆,푆푐 푤푆푐,푉 + 푤푆푐,푆 푤푆,푉 
•Expansion e.g.[2] 푤푆,푆푐 min푆,푆푐 
•Cut ratio e.g.[3] 푤푐푆,푆푐 푤푑푆,푆푐 
5 
[1]J. Shi and J. Malik, IEEE Trans. Pattern Anal. Mach. Intell. 22, 888 (2000) 
[2]R. Kannan, S. Vempala, and A. Vetta, J. ACM 51, 497 (2004). 
[3]D. W. Matulaand F. Shahrokhi, Discret. Appl. Math. 27, 113 (1990)
なんでCluster fitness measure? 
NP完全またはNP困難である場合がほとんど 
→最適解を求めるのは指数時間かかる 
最少コンダクタンスカットはNP困難 
J. Šíma and S. Schaeffer, in SOFSEM 2006 Theory Pract. Comput. Sci., edited by J. 
Wiedermann, G. Tel, J. Pokorný, M. Bieliková, and J. Štuller (Springer Berlin Heidelberg, 
2006), pp. 530–537. 
正則グリッドグラフのNcutはNP完全 
Papadimitrou 97またはJ. Shi and J. Malik, IEEE Trans. Pattern Anal. Mach. Intell. 22, 888 
(2000) 
풇-balanced bipartition ( 푽 ≤ 풇 푺 ) 
D. Wagner and F. Wagner, in Math. Found. Comput. Sci. 1993, edited by A. M. 
Borzyszkowski and S. Sokołowski (Springer Berlin Heidelberg, Berlin, Heidelberg, 1993), pp. 
744–750. 
6
ヒューリスティックス 
最少コンダクタンスカットのヒューリスティックス 
ラプラシアンℒ=퐸−퐷 12풫퐷− 12の二番目に小さい固有値をもつ固有ベクトル 
푣1=푣11,푣12,…,푣1푁を次の様に並べ直す 푣1= 푣1푖1,푣1푖2,…,푣1푖푁s.t. 푣1푖1≤푣1푖2≤⋯≤푣1푖푁。 ヒューリスティックスはこの順序(または符号)を用いて表される ℎapprox퐺=min 푘 푝퐶푘,퐶푘 푐 min푝퐶푘,푝퐶푘 푐s.t.퐶푘=푖1,…,푖푘 →Cheerger不等式の導出に由来 
Normalized cut のヒューリスティックス D−W푦=휆퐷푦 
の一般化固有値問題。ここで 
W=푤푖,푗=푤푗,푖, D=diag 푗푤푖,푗 
→푦∈−1,1なら最少のNormalizedcut
ここからが論文紹介 
紹介するのは R. Kannan, S. Vempala, and A. Vetta, J. ACM51, 497 (2004). ヒューリスティックスに、クラスタリングの誤りに対する保証を与えるというもの。 
著者のRavindranKannan(Microsoft)はKnuth賞(2011)とFulkerson賞(1991)を受賞している 
一番読みにくい論文だから紹介(結果が正しければとても重要な論文) 
定理3.1Approximate Cluster algorithm の値の良さ 
系4.2Spectral algorithm の値の良さ 
定理4.3Spectral algorithmでブロック対格化する際に誤る列の数 
その前に、マルコフ連鎖の定義と重要な性質を確認
Approximate Cluster algorithm の値の良さ 
Approximate Cluster algorithmFind a cut that approximates the minimum conductance cut in G. Recurseon the pieces induced by the cut. 
ただしℎapprox.≤퐾ℎ퐺휈 でℎ퐺を見積もるものとする。 휶,흐-clustering 
クラスタ間の枝の重みの総和:휖푤푉,푉/2 
終了条件1: 훼6log 푛휖≤ℎapprox 
終了条件2:푤퐶,푉< 휖푤푉,푉푛퐶⊂푉は得られたクラスタ 
定理3.1훼,휖-clusteringをApproximate Cluster algorithmで繰り 返し用いると 훼 6퐾log 푛 휖 휈 ,12퐾+2휖휈log 푛 휖 −clusteringになる
やっていること
Spectral algorithm の値の良さ 
Spectral algorithmNormalize 퐴and find its 2nd right eigenvector 푣. Find the best ratio cut wrt푣. Recurseon the pieces induced by the cut. 
ただしℎapprox.≤2ℎ퐺 12でℎ퐺を見積もるものとする。 
系4.2 훼,휖-clusteringをSpectral algorithmで繰り返し用いると 
定理4.3 
W≔푤푖,푗=A+Bとする。퐴は푘個のブロックからなるブロック対格行列でブロックの 大きさの最大はO 푛푘、列の和は1、BはAの摂動で휆푘+1퐴+퐵≤훿≤ 12 であるとき、Spectral algorithm はO훿2푛列誤る。 훼272log2푛 휖 ,20휖log 푛 휖 −clusteringになる
この論文の問題点① 
系4.2までは、ヒューリスティックスで求まるコンダクタンスの値がどれだけ最小値に近い かで評価していた。 
→コンダクタンスは劣モジュラ関数ではないので、この評価の仕方は不適切 
The 2ndmin-cond. cut 
The 1stmin-cond. cut 
휙does not satisfy discrete convexity=휙is not sub-modular function 
sub-modular function: 휙1⋎2+휙1⋎3≥휙1+휙1⋎2⋎3 
0.188 
0.316 
1.000 
0.463 
≤ 
+ 
+ 
← Lazy random work
この論文の問題点② 
定理4.3でやっていることは(理解が正しければ)、上位k個固有値に対する固有 ベクトルで、対角項だけと非対角項を考慮した場合の差が一定割合以上行けば「誤り」 とよんでいる。 
→それっぽい基準だけど、コンダクタンスとどう関係あるのかよくわからない 
W≔푤푖,푗=A+Bとする。 퐴は푘個のブロックのブロック対格行列でブロックの大きさの最大はO 푛푘、列の和は1 
푋푘=푣1퐴,…,푣푘퐴 
=푌푘푈+퐹 
푌푘=푣1퐵,…,푣푘퐵 
퐶=퐴푋푘 
行列퐶,푌푘푈の푖番目の列ベクトルをそれぞれ푐푖,푦푖とするとき 푐푖−푦푖≥ 푦푖 9 
なら푖列は誤っている(disordered) とする。
appendix 
14
グラフラプラシアン 
•Graph Laplacianfor reversible Markov chain: ℒ=퐸−퐷 12풫퐷− 12,퐷≔diag휋 
•퐷 12풫퐷− 12は対称行列。なので固有ベクトルは実数。 휋푖푝푗푖=휋푗푝푖푗(reversible Markov chain) ⇔휋푖 12푝푗푖휋푗 12=휋푗 12푝푖푗휋푖 12 
•固有ベクトルに퐷 12がかかる 풫=퐷− 12퐷 12풫퐷− 12퐷 12 
15
Cheegerの不等式 
•Cheeger 不等式 2ℎ퐺≤휆2≤ ℎ퐺2 2Cheeger’s定数(最少コンダクタンスカット) ℎ퐺≔min 푆⊆푉 훷푆 二番目に小さいラプラシアン固有値: 휆2 
16
ヒューリスティックス 
最少コンダクタンスカットのヒューリスティックス 
ラプラシアンℒ=퐸−퐷 12풫퐷− 12の二番目に小さい固有値をもつ固有ベクトル 
푣1=푣11,푣12,…,푣1푁を次の様に並べ直す 푣1= 푣1푖1, 푣1푖2,…, 푣1푖푁s.t. 푣1푖1≤ 푣1푖2≤⋯≤ 푣1푖푁。 ヒューリスティックスはこの順序(または符号)を用いて表される ℎapprox퐺=min 푘 푝퐶푘,퐶푘 푐 min푝퐶푘,푝퐶푘 푐s.t.퐶푘=푖1,…,푖푘 →Cheerger不等式の導出に由来 휆2≤ ℎ퐺2 2の導出で出てきた

Weitere ähnliche Inhalte

Andere mochten auch

Television
TelevisionTelevision
Televisionnujaen
 
Мария Леонтьева - Парки и общественные пространства в РТ
Мария Леонтьева - Парки и общественные пространства в РТМария Леонтьева - Парки и общественные пространства в РТ
Мария Леонтьева - Парки и общественные пространства в РТAnna Odintsova
 
Process of effective service provision
Process of effective service  provisionProcess of effective service  provision
Process of effective service provisionEssay Lounge
 
Татьяна Прокофьева - Kazan Urban Forum
Татьяна Прокофьева - Kazan Urban ForumТатьяна Прокофьева - Kazan Urban Forum
Татьяна Прокофьева - Kazan Urban ForumAnna Odintsova
 
北大クラスタリング・セミナー6
北大クラスタリング・セミナー6北大クラスタリング・セミナー6
北大クラスタリング・セミナー6Yutaka Nagahata
 
Sop 001-001test
Sop 001-001testSop 001-001test
Sop 001-001testmartinkcl
 
Apostila mecânica dos solos i usp
Apostila mecânica dos solos i   uspApostila mecânica dos solos i   usp
Apostila mecânica dos solos i uspFellipe Lousada
 

Andere mochten auch (10)

Television
TelevisionTelevision
Television
 
Juz 01
Juz 01Juz 01
Juz 01
 
Resume
ResumeResume
Resume
 
Мария Леонтьева - Парки и общественные пространства в РТ
Мария Леонтьева - Парки и общественные пространства в РТМария Леонтьева - Парки и общественные пространства в РТ
Мария Леонтьева - Парки и общественные пространства в РТ
 
Process of effective service provision
Process of effective service  provisionProcess of effective service  provision
Process of effective service provision
 
Татьяна Прокофьева - Kazan Urban Forum
Татьяна Прокофьева - Kazan Urban ForumТатьяна Прокофьева - Kazan Urban Forum
Татьяна Прокофьева - Kazan Urban Forum
 
北大クラスタリング・セミナー6
北大クラスタリング・セミナー6北大クラスタリング・セミナー6
北大クラスタリング・セミナー6
 
Lesson 02.2
Lesson 02.2Lesson 02.2
Lesson 02.2
 
Sop 001-001test
Sop 001-001testSop 001-001test
Sop 001-001test
 
Apostila mecânica dos solos i usp
Apostila mecânica dos solos i   uspApostila mecânica dos solos i   usp
Apostila mecânica dos solos i usp
 

Ähnlich wie 第二回北大クラスタリングセミナー 永幡

(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)Morpho, Inc.
 
PRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデルPRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデルShohei Okada
 
[PRML] パターン認識と機械学習(第1章:序論)
[PRML] パターン認識と機械学習(第1章:序論)[PRML] パターン認識と機械学習(第1章:序論)
[PRML] パターン認識と機械学習(第1章:序論)Ryosuke Sasaki
 
クラスタリングについて
クラスタリングについてクラスタリングについて
クラスタリングについてArien Kakkowara
 
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)ryotat
 
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】Naoki Hayashi
 
3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)Toru Tamaki
 
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...Deep Learning JP
 
東京大学工学部計数工学科応用音響学 D2 Clustering
東京大学工学部計数工学科応用音響学 D2 Clustering東京大学工学部計数工学科応用音響学 D2 Clustering
東京大学工学部計数工学科応用音響学 D2 ClusteringHiroshi Ono
 
Improving Coreference Resolution by Learning Entity-Level Distributed Represe...
Improving Coreference Resolution by Learning Entity-Level Distributed Represe...Improving Coreference Resolution by Learning Entity-Level Distributed Represe...
Improving Coreference Resolution by Learning Entity-Level Distributed Represe...Yuichiroh Matsubayashi
 
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1hirokazutanaka
 
医用画像における解剖学的ランドマークの検出、定義および応用
医用画像における解剖学的ランドマークの検出、定義および応用医用画像における解剖学的ランドマークの検出、定義および応用
医用画像における解剖学的ランドマークの検出、定義および応用Shouhei Hanaoka
 
混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)Takao Yamanaka
 

Ähnlich wie 第二回北大クラスタリングセミナー 永幡 (15)

(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
 
PRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデルPRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデル
 
[PRML] パターン認識と機械学習(第1章:序論)
[PRML] パターン認識と機械学習(第1章:序論)[PRML] パターン認識と機械学習(第1章:序論)
[PRML] パターン認識と機械学習(第1章:序論)
 
Dive into XGBoost.pdf
Dive into XGBoost.pdfDive into XGBoost.pdf
Dive into XGBoost.pdf
 
クラスタリングについて
クラスタリングについてクラスタリングについて
クラスタリングについて
 
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
 
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
 
3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)
 
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
 
東京大学工学部計数工学科応用音響学 D2 Clustering
東京大学工学部計数工学科応用音響学 D2 Clustering東京大学工学部計数工学科応用音響学 D2 Clustering
東京大学工学部計数工学科応用音響学 D2 Clustering
 
Improving Coreference Resolution by Learning Entity-Level Distributed Represe...
Improving Coreference Resolution by Learning Entity-Level Distributed Represe...Improving Coreference Resolution by Learning Entity-Level Distributed Represe...
Improving Coreference Resolution by Learning Entity-Level Distributed Represe...
 
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
 
大規模凸最適化問題に対する勾配法
大規模凸最適化問題に対する勾配法大規模凸最適化問題に対する勾配法
大規模凸最適化問題に対する勾配法
 
医用画像における解剖学的ランドマークの検出、定義および応用
医用画像における解剖学的ランドマークの検出、定義および応用医用画像における解剖学的ランドマークの検出、定義および応用
医用画像における解剖学的ランドマークの検出、定義および応用
 
混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)
 

第二回北大クラスタリングセミナー 永幡

  • 1. 第二回 北大クラスタリングセミナー S. E. Schaeffer, Comput. Sci. Rev. 1, 27 (2007) 4.2. Cluster fitness measures 4.2.2. Cut-based measures 発表者永幡裕@小松崎研
  • 2. 4.2Cluster fitness measures 4.2Cluster fitness measures •4.2.1Density measures 푘≤푛,휉∈0,1に対して頂点数푆=푘、密度훿푆=휉の 部分グラフ푆⊆푉はどれか?(훿푆=1のときクリーク問題) •4.2.2Cut-based measures クラスターの質、部分グラフの独立性 最も重要な手法が最小コンダクタンスカット ※コミュニティ検出などが目的 2
  • 3. Conductance •重み付き無向グラフ퐺=푉,퐸に対して 훷푆= 푤푆,푆푐 min푤푆,푉,푆푐,푉 =max 푤푆,푆푐 푤푆푐,푉 , 푤푆푐,푆 푤푆,푉 •最小コンダクタンスカットmin 푆⊆푉 훷푆 →コミュニティ検出、(MRF上での)画像分割、 ほぼ不変集合、マルコフ連鎖の混合時間… ※Markov 連鎖 푝푡,훥푡푆,푆푐 푝푡,훥푡푆푐,푉 = 푝푡,훥푡푆,푆푐 푝푡푆푐=푝훥푡푆푆푐푡 3 푆 푆c
  • 4. なんでConductance? •上下限を定めるCheeger不等式がある[1] •Cheeger不等式とは 同名のリーマン幾何におけるLaplace 演算子に対する不等式に由来 vertex expansionに対するCheeger不等式はN. Alonによって示された[2] その後F. Chung によって重みつき無効グラフのLaplacianに対するCheeger不等 式[1]が示される。(有効グラフでも示せる[3]) 2ℎ퐺≤휆2≤ ℎ퐺2 2Cheeger’sconstant ℎ퐺≔min 푆⊆푉 훷푆 Graph Laplacian: ℒ=퐸−퐷 12푃퐷− 12The second smallest Laplacianeigenvalue: 휆2 4 [1]F.Chung,inComb.PaulErdősisEighty,vol.2editedbyD.Miklós,V.T.Sós,andT. Szőnyi(JánosBolyaiMathematicalSociety,Budapest,1996),pp.157–172. [2]N.Alon,Combinatorica6,83(1986). [3]F.Chung,Ann.Comb.9,1(2005).
  • 5. Variance of Conductance •Normalized cut e.g.[1] (almost invariant cut[2]) 푤푆,푆푐 푤푆푐,푉 + 푤푆푐,푆 푤푆,푉 •Expansion e.g.[2] 푤푆,푆푐 min푆,푆푐 •Cut ratio e.g.[3] 푤푐푆,푆푐 푤푑푆,푆푐 5 [1]J. Shi and J. Malik, IEEE Trans. Pattern Anal. Mach. Intell. 22, 888 (2000) [2]R. Kannan, S. Vempala, and A. Vetta, J. ACM 51, 497 (2004). [3]D. W. Matulaand F. Shahrokhi, Discret. Appl. Math. 27, 113 (1990)
  • 6. なんでCluster fitness measure? NP完全またはNP困難である場合がほとんど →最適解を求めるのは指数時間かかる 最少コンダクタンスカットはNP困難 J. Šíma and S. Schaeffer, in SOFSEM 2006 Theory Pract. Comput. Sci., edited by J. Wiedermann, G. Tel, J. Pokorný, M. Bieliková, and J. Štuller (Springer Berlin Heidelberg, 2006), pp. 530–537. 正則グリッドグラフのNcutはNP完全 Papadimitrou 97またはJ. Shi and J. Malik, IEEE Trans. Pattern Anal. Mach. Intell. 22, 888 (2000) 풇-balanced bipartition ( 푽 ≤ 풇 푺 ) D. Wagner and F. Wagner, in Math. Found. Comput. Sci. 1993, edited by A. M. Borzyszkowski and S. Sokołowski (Springer Berlin Heidelberg, Berlin, Heidelberg, 1993), pp. 744–750. 6
  • 7. ヒューリスティックス 最少コンダクタンスカットのヒューリスティックス ラプラシアンℒ=퐸−퐷 12풫퐷− 12の二番目に小さい固有値をもつ固有ベクトル 푣1=푣11,푣12,…,푣1푁を次の様に並べ直す 푣1= 푣1푖1,푣1푖2,…,푣1푖푁s.t. 푣1푖1≤푣1푖2≤⋯≤푣1푖푁。 ヒューリスティックスはこの順序(または符号)を用いて表される ℎapprox퐺=min 푘 푝퐶푘,퐶푘 푐 min푝퐶푘,푝퐶푘 푐s.t.퐶푘=푖1,…,푖푘 →Cheerger不等式の導出に由来 Normalized cut のヒューリスティックス D−W푦=휆퐷푦 の一般化固有値問題。ここで W=푤푖,푗=푤푗,푖, D=diag 푗푤푖,푗 →푦∈−1,1なら最少のNormalizedcut
  • 8. ここからが論文紹介 紹介するのは R. Kannan, S. Vempala, and A. Vetta, J. ACM51, 497 (2004). ヒューリスティックスに、クラスタリングの誤りに対する保証を与えるというもの。 著者のRavindranKannan(Microsoft)はKnuth賞(2011)とFulkerson賞(1991)を受賞している 一番読みにくい論文だから紹介(結果が正しければとても重要な論文) 定理3.1Approximate Cluster algorithm の値の良さ 系4.2Spectral algorithm の値の良さ 定理4.3Spectral algorithmでブロック対格化する際に誤る列の数 その前に、マルコフ連鎖の定義と重要な性質を確認
  • 9. Approximate Cluster algorithm の値の良さ Approximate Cluster algorithmFind a cut that approximates the minimum conductance cut in G. Recurseon the pieces induced by the cut. ただしℎapprox.≤퐾ℎ퐺휈 でℎ퐺を見積もるものとする。 휶,흐-clustering クラスタ間の枝の重みの総和:휖푤푉,푉/2 終了条件1: 훼6log 푛휖≤ℎapprox 終了条件2:푤퐶,푉< 휖푤푉,푉푛퐶⊂푉は得られたクラスタ 定理3.1훼,휖-clusteringをApproximate Cluster algorithmで繰り 返し用いると 훼 6퐾log 푛 휖 휈 ,12퐾+2휖휈log 푛 휖 −clusteringになる
  • 11. Spectral algorithm の値の良さ Spectral algorithmNormalize 퐴and find its 2nd right eigenvector 푣. Find the best ratio cut wrt푣. Recurseon the pieces induced by the cut. ただしℎapprox.≤2ℎ퐺 12でℎ퐺を見積もるものとする。 系4.2 훼,휖-clusteringをSpectral algorithmで繰り返し用いると 定理4.3 W≔푤푖,푗=A+Bとする。퐴は푘個のブロックからなるブロック対格行列でブロックの 大きさの最大はO 푛푘、列の和は1、BはAの摂動で휆푘+1퐴+퐵≤훿≤ 12 であるとき、Spectral algorithm はO훿2푛列誤る。 훼272log2푛 휖 ,20휖log 푛 휖 −clusteringになる
  • 12. この論文の問題点① 系4.2までは、ヒューリスティックスで求まるコンダクタンスの値がどれだけ最小値に近い かで評価していた。 →コンダクタンスは劣モジュラ関数ではないので、この評価の仕方は不適切 The 2ndmin-cond. cut The 1stmin-cond. cut 휙does not satisfy discrete convexity=휙is not sub-modular function sub-modular function: 휙1⋎2+휙1⋎3≥휙1+휙1⋎2⋎3 0.188 0.316 1.000 0.463 ≤ + + ← Lazy random work
  • 13. この論文の問題点② 定理4.3でやっていることは(理解が正しければ)、上位k個固有値に対する固有 ベクトルで、対角項だけと非対角項を考慮した場合の差が一定割合以上行けば「誤り」 とよんでいる。 →それっぽい基準だけど、コンダクタンスとどう関係あるのかよくわからない W≔푤푖,푗=A+Bとする。 퐴は푘個のブロックのブロック対格行列でブロックの大きさの最大はO 푛푘、列の和は1 푋푘=푣1퐴,…,푣푘퐴 =푌푘푈+퐹 푌푘=푣1퐵,…,푣푘퐵 퐶=퐴푋푘 行列퐶,푌푘푈の푖番目の列ベクトルをそれぞれ푐푖,푦푖とするとき 푐푖−푦푖≥ 푦푖 9 なら푖列は誤っている(disordered) とする。
  • 15. グラフラプラシアン •Graph Laplacianfor reversible Markov chain: ℒ=퐸−퐷 12풫퐷− 12,퐷≔diag휋 •퐷 12풫퐷− 12は対称行列。なので固有ベクトルは実数。 휋푖푝푗푖=휋푗푝푖푗(reversible Markov chain) ⇔휋푖 12푝푗푖휋푗 12=휋푗 12푝푖푗휋푖 12 •固有ベクトルに퐷 12がかかる 풫=퐷− 12퐷 12풫퐷− 12퐷 12 15
  • 16. Cheegerの不等式 •Cheeger 不等式 2ℎ퐺≤휆2≤ ℎ퐺2 2Cheeger’s定数(最少コンダクタンスカット) ℎ퐺≔min 푆⊆푉 훷푆 二番目に小さいラプラシアン固有値: 휆2 16
  • 17. ヒューリスティックス 最少コンダクタンスカットのヒューリスティックス ラプラシアンℒ=퐸−퐷 12풫퐷− 12の二番目に小さい固有値をもつ固有ベクトル 푣1=푣11,푣12,…,푣1푁を次の様に並べ直す 푣1= 푣1푖1, 푣1푖2,…, 푣1푖푁s.t. 푣1푖1≤ 푣1푖2≤⋯≤ 푣1푖푁。 ヒューリスティックスはこの順序(または符号)を用いて表される ℎapprox퐺=min 푘 푝퐶푘,퐶푘 푐 min푝퐶푘,푝퐶푘 푐s.t.퐶푘=푖1,…,푖푘 →Cheerger不等式の導出に由来 휆2≤ ℎ퐺2 2の導出で出てきた