Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Presentation Tisic 2011
1. Pr´sentation de quelques m´thodes et applications de
e e
clustering de graphes
Etienne Cˆme,
o
etienne.come@ifsttar.fr
8 D´cembre 2011
e
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 1 / 68
2. Outline
1 Introduction
Graphes
Probl´matique de la recherche de communaut´
e e
2 Clustering de graphes, quelques m´thodes
e
Mod`le de m´lange d’Erdos Renyi
e e
Maximisation de la modularit´e
Clustering spectral
3 Extraction locale de communaut´ e
Probl´matique
e
Solutions existantes
Noise cluster model
Exp´rimentation : extraction de communaut´s de blogs
e e
4 Clustering hi´rarchique / multi-´chelles
e e
Probl´matique
e
Clustering spectral sur graphes orient´s
e
Extension hi´rarchique
e
Exp´rimentation : Identification d’aires urbaines
e
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 2 / 68
3. Introduction Graphes
Introduction, graphes
Graphe
Deux ´l´ments G = {V , E } :
ee
V : nœuds ou sommets
E : liens, arcs (orient´) ou arˆtes (non-orient´)
e e e
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 3 / 68
4. Introduction Graphes
Introduction, graphes
Plusieurs repr´sentations
e
Matrice d’adjacence A :
Aij = 1, si i ∼ j
A:
Aij = 0, sinon.
liste d’adjacence
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 4 / 68
5. Introduction Graphes
Introduction, graphes
Plusieurs variations
orient´ / non orient´
e e
valu´ / non valu´
e e
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 5 / 68
6. Introduction Graphes
Introduction, graphes
Plusieurs variations
orient´ / non orient´
e e
valu´ / non valu´
e e
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 6 / 68
7. Introduction Graphes
Introduction, graphes
Plusieurs variations
orient´ / non orient´
e e
valu´ / non valu´
e e
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 7 / 68
8. Introduction Graphes
Introduction, graphes
Beaucoup de domaines d’application
r´seaux routiers, biologiques, sociaux, ....
e
analyse de donn´es dans R p en utilisant un noyau Gaussien ou k − ppv
e
...
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 8 / 68
9. Introduction Graphes
Introduction, graphes
Beaucoup de domaines d’application
r´seaux routiers, biologiques, sociaux, ....
e
analyse de donn´es dans R p en utilisant un noyau Gaussien ou k − ppv
e
...
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 9 / 68
10. Introduction Graphes
Introduction, graphes
Beaucoup de domaines d’application
r´seaux routiers, biologiques, sociaux, ....
e
analyse de donn´es dans R p en utilisant un noyau Gaussien ou k − ppv
e
...
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 10 / 68
11. Introduction Graphes
Introduction, graphes
Beaucoup de domaines d’application
r´seaux routiers, biologiques, sociaux, ....
e
analyse de donn´es dans R p en utilisant un noyau Gaussien ou k − ppv
e
...
1
2
3
4
8
6
4
2
0
−2
−4
−6
−8
−6 −4 −2 0 2 4 6 8 10 −8 −6 −4 −2 0 2 4 6 8
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 11 / 68
12. Introduction Graphes
Introduction, graphes
Beaucoup de domaines d’application
r´seaux routiers, biologiques, sociaux, ....
e
analyse de donn´es dans R p en utilisant un noyau Gaussien ou k − ppv
e
...
100
200
300
400
500
600
700
800
900
1000
100 200 300 400 500 600 700 800 900 1000
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 12 / 68
13. Introduction Graphes
Introduction, graphes
Beaucoup de domaines d’application
r´seaux routiers, biologiques, sociaux, ....
e
analyse de donn´es dans R p en utilisant un noyau Gaussien ou k − ppv
e
...
100
200
300
400
500
600
700
800
900
1000
100 200 300 400 500 600 700 800 900 1000
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 13 / 68
14. Introduction Probl´matique de la recherche de communaut´
e e
Probl´matique
e
”A community could be loosely described as a collection of vertices within
a graph that are densely connected amongst themselves while being
loosely connected to the rest of the graph.”
regrouper les nœuds d’un graphe dans diff´rents groupes ou clusters
e
⇒ de mani`re ` ”maximiser la connectivit´ intra-cluster et/ou
e a e
minimiser la connectivit´ inter-cluster”.
e
Rmq : le nombre de clusters peut ˆtre connu ou inconnu.
e
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 14 / 68
15. Clustering de graphes, quelques m´thodes
e Mod`le de m´lange d’Erdos Renyi
e e
Mod`le de m´lange d’Erdos Renyi
e e
Variables :
Xij ∈ {0, 1} variable binaire encodant la pr´sence ou l’absence d’un
e
liens entre i et j :
1, si il existe un liens entre i et j
xij = (1)
0, sinon.
Zj ∈ {1, . . . , K } sont des variables latentes, d´crivant l’appartenance
e
de j ` un des K clusters possibles :
a
zj = k, si j appartient au cluster k. (2)
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 15 / 68
16. Clustering de graphes, quelques m´thodes
e Mod`le de m´lange d’Erdos Renyi
e e
Mod`le de m´lange d’Erdos Renyi
e e
Mod`le g´n´ratif :
e e e
1 tirer le groupe de chaque noeud suivant les proportions γ
2 ajouter un lien entre i et j avec une probabilit´ πkl si i appartient au
e
cluster k et j appartient au cluster l.
i.i.d
Zj ∼ M(1, γ), ∀j ∈ {1, . . . , N} (3)
i.i.d
Xij |Zi = k, Zj = l ∼ B(πkl ), ∀i, j ∈ {1, . . . , N}, (4)
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 16 / 68
17. Clustering de graphes, quelques m´thodes
e Mod`le de m´lange d’Erdos Renyi
e e
Mod`le de m´lange d’Erdos Renyi
e e
Param`tres :
e
γ : proportions, exemple γ = (0.1, 0.2, 0.6, 0.1)
π : matrice de liens, exemple :
0.1 0.01 0.01 0.005
0.005 0.2 0.01 0.01
π= 0.005 0.001 0.1 0.01 .
0.005 0.001 0.01 0.3
Recherche de communaut´ :
e
α1
α2
π= ,
α3
α4
avec α >> .
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 17 / 68
18. Clustering de graphes, quelques m´thodes
e Mod`le de m´lange d’Erdos Renyi
e e
Mod`le de m´lange d’Erdos Renyi
e e
Optimization :
Strat´gie altern´e de type EM...
e e
! mais probl`me plus compliqu´ que EM classique (pas d’ind´pendance
e e e
conditionnellement aux donn´es observ´es)
e e
approche variationnelle
CEM, online CEM
...
Remarques
permet une mod´lisation assez fine (pas limit´ ` la recherche de
e ea
communaut´)e
k doit ˆtre fix´ ou choisi par balayage
e e
assez lourd en temps de calcul (difficile de traiter des gros graphes)
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 18 / 68
19. Clustering de graphes, quelques m´thodes
e Maximisation de la modularit´
e
Maximisation de la modularit´
e
D´finition du crit`re
e e
La modularit´ Q est ´gale ` la somme des connectivit´s intra-cluster
e e a e
moins la connectivit´ intra-cluster attendue sous hypoth`se uniforme.
e e
ki kj
Q= (Aij − )δ(zi , zj ),
m
i=j
avec ki = N Aij le degr´ du nœud i et m =
j=1 e N
j=1 kj , zi le num´ro de
e
cluster du noeud i et δ la fonction de Kronecker.
Remarques
permet de travailler sans un nombre de clusters pr´d´fini.
e e
assez l´ger en temps de calcul.
e
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 19 / 68
20. Clustering de graphes, quelques m´thodes
e Maximisation de la modularit´
e
Maximisation de la modularit´
e
Optimisation
R´cuit Simul´
e e
Optimisation gloutonne Louvain
...
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 20 / 68
21. Clustering de graphes, quelques m´thodes
e Clustering spectral
Clustering spectral r´cursif sur graphe orient´/valu´
e e e
L, matrice Laplacienne (graphes non orient´s) :
e
L=D −A (5)
! f t Lf = i∼j (fi − fj )2 (Mesure de r´gularit´ de f sur L)
e e
L, matrice Laplacienne normalis´e (graphes non orient´s) :
e e
L = D −1/2 LD −1/2 = I − D −1/2 AD 1/2 (6)
Propri´t´s :
ee
1 L et L ´tant sym´triques, leurs valeurs propres sont r´elles et non
e e e
n´gatives.
e
2 0 = λ0 <= λ1 <= ... <= λn−1 .
3 Nombre de composante connexe de G = multiplicit´ de la valeur
e
propre 0.
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 21 / 68
22. Clustering de graphes, quelques m´thodes
e Clustering spectral
D´finitions : coupe S, volume vol, ...
e
S
Coupe
S
Coupe :
¯
V = {S ∪ S} (7)
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 22 / 68
23. Clustering de graphes, quelques m´thodes
e Clustering spectral
D´finitions : coupe S, volume vol, ...
e
S
Coupe
S
Volume d’un noeud :
vol v = Av ,u (8)
u
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 23 / 68
24. Clustering de graphes, quelques m´thodes
e Clustering spectral
D´finitions : coupe S, volume vol, ...
e
S
Coupe
S
Volume d’un ensemble de noeuds :
vol S = vol v (9)
v ∈S
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 24 / 68
25. Clustering de graphes, quelques m´thodes
e Clustering spectral
D´finition : coupe S, volume vol, ...
e
S
Coupe
S
Volume d’une coupe :
vol δS = Au,v (10)
¯
u∈S,v ∈S
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 25 / 68
26. Clustering de graphes, quelques m´thodes
e Clustering spectral
Crit`res de coupes
e
Ration Cut :
¯ vol δS
RatioCut(S, S) = ¯ , (11)
|S|.|S|
¯
o` |S| et |S| sont respectivement les nombres de sommets de S et de S.
u ¯
Le probl`me de minimisation pour trouver la solution approxim´e se r´sout
e e e
` partir de la matrice laplacienne L et de son second plus petit vecteur
a
propre(cf. [HK92]).
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 26 / 68
27. Clustering de graphes, quelques m´thodes
e Clustering spectral
Crit`res de coupes
e
Conductance ou constante de Cheeger :
vol δS
φG (S) = ¯ (12)
min(vol S, vol S)
On peut aussi d´finir la conductance d’un graphe :
e
φG = min φG (S) (13)
S⊂V
In´galit´ de cheeeger :
e e
φ2
G
≤ λ1 ≤ 2φG (14)
2
Ces in´galit´s permettent de consid´rer la solution relˆch´e obtenue `
e e e a e a
partir de la matrice laplacienne normalis´e, comme le montre Chung dans
e
[Chu07].
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 27 / 68
28. Clustering de graphes, quelques m´thodes
e Clustering spectral
Crit`res de coupes
e
Normalized Cut :
1 1
ncut(S) = vol δS(+ ¯) (15)
vol S vol S
La solution relˆch´e de la minimisation de ce crit`re se trouve ` partir de
a e e a
la matrice laplacienne normalis´e L et de son second plus petit vecteur
e
propre (cf. [SM00]).
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 28 / 68
29. Clustering de graphes, quelques m´thodes
e Clustering spectral
Algorithme de recherche coupe optimale
1 Calcul de la matrice L ou L du graphe G (on suppose ici que le
graphe est fortement connexe)
2 Calcul du vecteur propre v1 associ´ ` la seconde plus petite valeur
ea
propre λ1
3 Tri du vecteur v1 pour obtenir une permutation p de la matrice L ou L
4 Calcul du crit`re de coupe sur chaque coupe possible de la matrice Lp
e
ou Lp apr`s permutation
e
5 Choix de la coupe I qui minimise le crit`re parmi les n − 1 coupes
e
possibles
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 29 / 68
30. Extraction locale de communaut´
e
Extraction locale de communaut´
e
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 30 / 68
31. Extraction locale de communaut´
e Probl´matique
e
Introduction
Motivations Extraction de communaut´
e
Extraire une communaut´ en partant d’un ensemble de graines
e
Algorithme ”On line”, complexit´ ∼ taille de la communaut´
e e
Solution : Noise cluster model
Mod`le g´n´ratif simple
e e e
Une communaut´ environn´e par du bruit
e e
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 31 / 68
32. Extraction locale de communaut´
e Probl´matique
e
Introduction, (exemple jouet)
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 32 / 68
33. Extraction locale de communaut´
e Probl´matique
e
Introduction, (graphe clustering)
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 33 / 68
34. Extraction locale de communaut´
e Probl´matique
e
Introduction, (graines)
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 34 / 68
35. Extraction locale de communaut´
e Probl´matique
e
Introduction, (extraction d’une communaut´)
e
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 35 / 68
36. Extraction locale de communaut´
e Probl´matique
e
Introduction, (community extraction)
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 36 / 68
37. Extraction locale de communaut´
e Probl´matique
e
Avantages
les graines permettent d’avoir un focus pour analyser le graphe
meilleure complexit´
e
exploration du graphe complet ´vit´e
e e
moins de probl`me avec des tailles de communaut´s diff´rentes
e e e
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 37 / 68
38. Extraction locale de communaut´
e Solutions existantes
Solutions existantes au probl`me de l’extraction
e
Bagrow & al [BB05]
Parcours en largeur d’abord du graph en partant d’une graine ;
jusqu’a ce que le taux d’expansion tombe en-dessous d’un seuil
pr´d´fini. (i.e. la proportion de liens trouv´s au niveau courant qui ne
e e e
m`nent pas ` des noeuds d´j` connus)
e a ea
Probl`mes
e
Uniquement une graˆ
ıne
Tous les noeuds d’un niveau sont inclus.
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 38 / 68
39. Extraction locale de communaut´
e Solutions existantes
Solutions existantes au probl`me de l’extraction
e
Clauset [Cla05]
optimisation gloutonne ` partir d’une graine d’un crit`re ”modularit´
a e e
locale” Qloc ;
fronti`re B : ensemble des noeuds ayant un voisin encore inconnu ;
e
”modularit´ locale” : nombre de liens entre B et l’ensemble des
e
noeuds connus C diviser par le nombre total de liens ayant au moins
une extr´mit´ dans B.
e e
i∈C,j∈B Bij + i∈B,j∈C Bij
Qloc = , (16)
i,j Bij
avec Bij = 1 si i j et l’un ou l’autre des noeuds appartient ` B.
a
Probl`mes
e
Ne peut prendre en compte qu’une graˆ
ıne
d´finition et choix du crit`re d’arrˆt
e e e
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 39 / 68
40. Extraction locale de communaut´
e Solutions existantes
Solutions existantes au probl`me de l’extraction
e
Autres solutions
[AL06] marche al´atoire et conductance
e
[SG10] optimisation combinatoire
Probl`me
e
complexit´ d´pend de la taille du graphe.
e e
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 40 / 68
41. Extraction locale de communaut´
e Noise cluster model
Noise cluster model
D´finition du mod`le
e e
i.i.d
Zi ∼ B(γ), ∀i ∈ {1, . . . , N}, (17)
i.i.d
Xij |Zi × Zj = 1 ∼ B(α), ∀i, j ∈ {1, . . . , N}, (18)
i.i.d
Xij |Zi × Zj = 0 ∼ B(β), ∀i, j ∈ {1, . . . , N}, (19)
avec zi = 1, si i appartient ` la communaut´ et 0 sinon.
a e
α β
π= ,
β β
avec α >> β.
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 41 / 68
42. Extraction locale de communaut´
e Noise cluster model
Notations :
Taille de la communaut´ :
e
Nc = zi
i
Degr´s :
e
djin = xij , djout = xji , dj = (xij + xji )
i:zi =1 i:zi =1 i:zi =1
Probabilit´ a posteriori :
e
pjin = P(Zj = 1|Xij = xij , Zi = zi , ∀i ∈ {1, . . . , N}),
pjout = P(Zj = 1|Xji = xji , Zi = zi , ∀i ∈ {1, . . . , N}),
pjin,out = P(Zj = 1|Xij = xij , Xji = xji , Zi = zi , ∀i ∈ {1, . . . , N}),
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 42 / 68
43. Extraction locale de communaut´
e Noise cluster model
Simplifications :
Avec ce mod`le les probabilit´s a posteriori se simplifient :
e e
param`tres (α, β, γ) ;
e
nombre de liens avec la communaut´ (djin , djout , djin,out ) ;
e
taille de la communaut´ (Nc) ;
e
Exemple pour pjin
in in
αdj × (1 − α)(Nc−dj ) × γ
pjin = in in in in
αdj × (1 − α)(Nc−dj ) × γ + β dj × (1 − β)(Nc−dj ) × (1 − γ)
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 43 / 68
44. Extraction locale de communaut´
e Noise cluster model
Test d’appartenance ` la communaut´
a e
Test d’appartenance ` la communaut´ : seuil sur le nombre de liens avec
a e
les membres de la communaut´.
e
{pjin > s} ⇔ {djin > dmin }, (20)
with
log s × (1 − β)Nc × (1 − γ) − log (1 − s) × (1 − α)Nc × γ
dmin =
log (α × (1 − β)) − log ((1 − α) × β)
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 44 / 68
45. Extraction locale de communaut´
e Noise cluster model
alpha=0.1,beta=0.001,gamma=0.05,Nc=200
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
0.8
pc
0.4
q
0.0
qqqq
0 10 20 30 40 50
din
alpha=0.1,beta=0.001,gamma=0.05
10
8
dmin
6
4
2
0 100 200 300 400
Nc
Fig.: (haut) valeur de pjin en fonction de djin avec α = 0.1, β = 0.001, γ = 0.05
et Nc = 200 ; (bas) ´volution du seuil dmin par rapport ` Nc avec α = 0.1,
e a
β = 0.001, γ = 0.05 et s = 0.5.
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 45 / 68
46. Extraction locale de communaut´
e Noise cluster model
Apprentissage des param`tres ”CEM on line”[ZAM08]
e
Vraisemblance classifiante :
Lc (X, Z, θ) = zi log(γ) + (1 − zi ) log(1 − γ)
i i
+ zi × zj × xij log(α) + zi × zj (1 − ×xij ) log(1 − α)
i,j:i=j i,j:i=j
+ (1 − zi × zj ) × xij log(β) + (1 − zi × zj ) × (1 − xij ) log(1 − β)
i,j:i=j i,j:i=j
avec Z = {z1 , . . . , zN }, X = {xij : i = j, i, j ∈ {1, . . . , N}}, et θ = (γ, α, β)
le vecteur de param`tres.
e
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 46 / 68
47. Extraction locale de communaut´
e Noise cluster model
Apprentissage des param`tres ”CEM on line”[ZAM08]
e
Si la partition Z = {z1 , . . . , zN } est connue, les param`tres maximisant la
e
vraisemblance classifiante sont donn´es par :
e
Nc
γ =
ˆ , (21)
N
N
1
α =
ˆ 2
(zi × zj )xij , (22)
Nc
i,j=1, i=j
N
ˆ 1
β = (1 − zi × zj )xij , (23)
Nc × (N + Nc )
¯
i,j=1, i=j
avec Nc = N − Nc .
¯
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 47 / 68
48. Extraction locale de communaut´
e Noise cluster model
Proc´dure d’extraction propos´e
e e
Algorithme
Coupl´ un algorithme de parcours de graphe en largeur (en partant des
e
graines) avec la proc´dure suivante,
e
Pour chaque noeuds travers´ :
e
1 utiliser le test d’appartenance d´finit pr´c´demment (20) pour
e e e
l’ajouter ou non ` la communaut´
a e
2 mettre ` jour les param`tres (21, 22, 23), en utilisant la partition
a e
courante
Jusqu’` ce qu’aucun noeud ne passe le test d’appartenance.
a
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 48 / 68
49. Extraction locale de communaut´
e Exp´rimentation : extraction de communaut´s de blogs
e e
Exp´rimentation : extraction de communaut´s de blogs
e e
Protocole :
crawler multi-thread utilisant l’algorithme pr´c´dent ;
e e
graˆ
ınes : classement de blogs pour diff´rentes cat´gories ( URLs
e e
http ://www.wikio.com)
100 ou 50 graines pour 4 communaut´s test :
e
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 49 / 68
50. Extraction locale de communaut´
e Exp´rimentation : extraction de communaut´s de blogs
e e
Extraction de communaut´s de blogs
e
Illustration (fr) Scrapbooking (fr) Cuisine(fr) Politics (en)
α
ˆ 0.01829 0.02955 0.03846 0.02004
ˆ
β 0.00094 0.00232 0.00209 0.00068
ˆ α
β/ˆ 0.05139 0.07851 0.05434 0.03393
Nc 1 360 701 622 1 808
N 37 101 13 467 16 364 84 702
dia 8 8 6 7
apl 3.059 2.749 2.71 3.014
e e ˆ ˆ
Tab.: Param`tres estim´es α, β et statistiques descriptives des communaut´s
e
extraites : dia diam`tre, apl longueur moyen des chemin entre membres de la
e
communaut´. e
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 50 / 68
51. Extraction locale de communaut´
e Exp´rimentation : extraction de communaut´s de blogs
e e
Extraction de communaut´s de blogs
e
Community Precision Vocabulary extracted
Illustration (fr) 99% (animation 34.37%, drawing 28.96%,
illustration 25.30%, sketches 24.55%,
world 20.31%,...)
Scrapbooking (fr) 98% (scrap 84.16%, scrapbooking 58.24%,
tampons 47.71%, scrapper 29.58%,
embellissements 22.53%,...)
Cooking (fr) 100% (cuisine 83.72%, recettes 79.45%, re-
cette 73.81%, chocolat 68.73%, sucre
64.14%,...)
Politics (en) 96% (senate 28.78%, conservatives
21.12%, pundit 20.11%, terrorism
19.76%, congressional 19.25%,...)
Tab.: Analyse du contenue. Pr´cision ´valu´e sur 100 blogs au hasard,
e e e
vocabulaire repr´sentatif de la communaut´.
e e
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 51 / 68
52. Extraction locale de communaut´
e Exp´rimentation : extraction de communaut´s de blogs
e e
Fig.: Illustration (fr).
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 52 / 68
53. Extraction locale de communaut´
e Exp´rimentation : extraction de communaut´s de blogs
e e
Fig.: Scrapbooking (fr).
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 53 / 68
54. Extraction locale de communaut´
e Exp´rimentation : extraction de communaut´s de blogs
e e
Fig.: Cuisine (fr).
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 54 / 68
55. Extraction locale de communaut´
e Exp´rimentation : extraction de communaut´s de blogs
e e
Fig.: Cuisine (fr).
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 55 / 68
56. Extraction locale de communaut´
e Exp´rimentation : extraction de communaut´s de blogs
e e
Fig.: Politics (en).
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 56 / 68
57. Extraction locale de communaut´
e Exp´rimentation : extraction de communaut´s de blogs
e e
Fig.: Politics (en).
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 57 / 68
58. Extraction locale de communaut´
e Exp´rimentation : extraction de communaut´s de blogs
e e
Conclusion
Conclusion
approche gloutonne simple ;
complexit´ ∼ taille de la communaut´ ;
e e
extraction de communaut´s de blogs
e
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 58 / 68
59. Clustering hi´rarchique / multi-´chelles
e e
Clustering
hi´rarchique / multi-´chelles
e e
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 59 / 68
60. Clustering hi´rarchique / multi-´chelles
e e Probl´matique
e
Probl´matique
e
Introduction
Analyse de graphe pr´sentant diff´rentes ´chelles d’analyse pertinentes :
e e e
R´gionales, Aire urbaines, ...
e
Piste ´tudi´e
e e
Mise en relation des pˆles urbains ´l´mentaires grˆce ` des donn´es
o ee a a e
relatives au transport :
flux (domicile-travail/´cole et autres)
e
infrastructures (transports en commun et individuels)
Traitement sous forme de graphe, aspect multi-´chelle et hi´rarchique.
e e
Recherche de communaut´s, clustering de graphe :
e
clustering spectral r´cursif [Gleich06,Chung05]
e
maximisation de la modularit´ hi´rarchique [Newman04]
e e
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 60 / 68
61. Clustering hi´rarchique / multi-´chelles
e e Clustering spectral sur graphes orient´s
e
Extension aux graphes orient´s
e
Matrice laplacienne normalis´e dirig´e :
e e
1
L = L(G ) = I − (Π1/2 PΠ−1/2 + Π−1/2 PΠ1/2 ),
˜ (24)
2
o` P est la matrice de transition associ´ ` G ; Π est la matrice diagonale
u ea
form´e par π la distribution stationnaire de la marche al´atoire.
e e
Avantages :
extension des notions de coupe, volumes ...
permet de se ramener ` une matrice sym´trique
a e
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 61 / 68
62. Clustering hi´rarchique / multi-´chelles
e e Extension hi´rarchique
e
Extension aux graphes orient´s
e
Algorithme de clustering hi´rarchique
e
1 Calcul de la matrice laplacienne dirig´e L du graphe G
e
2 S´paration de G en composantes connexes et application des ´tapes
e e
suivantes sur chaque composante
3 Calcul du vecteur propre v1 associ´ ` la seconde plus petite valeur
ea
propre
4 Tri du vecteur v1 pour obtenir une permutation p1 de la matrice L
5 Calcul du crit`re ncut, ou ϕ sur la matrice Lp1 apr`s permutation
e e
6 Choix de la coupe I qui minimise le crit`re choisi sur Lp1
e
7 Application r´cursive des ´tapes 2 ` 7 sur les partitions engendr´es
e e a e
par la coupe I , tant que les partitions obtenues sont de taille
sup´rieure ` p (la taille minimale d´finie initialement).
e a e
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 62 / 68
63. Clustering hi´rarchique / multi-´chelles
e e Exp´rimentation : Identification d’aires urbaines
e
Exp´rimentation : Identification d’aires urbaines
e
Donn´es
e
Matrice OD (domicile/travail, INSEE) = Graphe orient´ valu´.
e e
37 948 communes=communes, 1 560 058 arcs.
Fig.: Matrice d’adjacence ordonn´e al´atoirement.
e e
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 63 / 68
64. Clustering hi´rarchique / multi-´chelles
e e Exp´rimentation : Identification d’aires urbaines
e
Exp´rimentation : Identification d’aires urbaines
e
Donn´es
e
Matrice OD (domicile/travail, INSEE) = Graphe orient´ valu´.
e e
37 948 communes=communes, 1 560 058 arcs.
Fig.: Matrice d’adjacence ordonn´e par clustering spectral.
e
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 64 / 68
65. Clustering hi´rarchique / multi-´chelles
e e Exp´rimentation : Identification d’aires urbaines
e
Exp´rimentation : Identification d’aires urbaines
e
Région Nord-Est de la France :
Champagne-Ardenne
Alsace
Lorraine
Franche-Comté
(+département de l'Aisne)
Flux transfrontaliers :
Belgique, Luxembourg,
Allemagne, Suisse
Fig.: Imbrication des structures de communes sur la matrice WS apr`s permutation.
e
Premier niveau : cluster de communes du Nord-Est de la France
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 65 / 68
66. Clustering hi´rarchique / multi-´chelles
e e Exp´rimentation : Identification d’aires urbaines
e
Exp´rimentation : Identification d’aires urbaines
e
Région Est de la France :
Alsace
Franche-Comté
(+départements Haute-Marne
et Vosges)
Flux transfrontaliers :
Allemagne, Suisse
Fig.: Imbrication des structures de communes sur la matrice WS apr`s permutation.
e
Deuxi`me niveau : cluster de communes de l’Est de la France (zoom sur le 1er niveau)
e
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 66 / 68
67. Clustering hi´rarchique / multi-´chelles
e e Exp´rimentation : Identification d’aires urbaines
e
Exp´rimentation : Identification d’aires urbaines
e
Régions Est :
Centrée certaines communes du Doubs :
Cantons de Morteau, Montbenoit,
Russey, Vercel, Pierrefontaine les Varans,
Clerval
Et de certaines communes Suisse
au Nord de Neuchâtel
Fig.: Imbrication des structures de communes sur la matrice WS apr`s permutation.
e
Troisi`me niveau : cluster de communes du Doubs (zoom sur le 2`me niveau)
e e
Cˆme, E. (IFSTTAR)
o Clustering de graph 8 D´cembre 2011
e 67 / 68
68. Clustering hi´rarchique / multi-´chelles
e e Exp´rimentation : Identification d’aires urbaines
e
R. Andersen and K. Lang.
Communities from seed sets.
In Proceedings of the 15th International Conference on World Wide Web, pages 223–232.
ACM Press, 2006.
J.P. Bagrow and E.M. Bollt.
A local method for detecting communities.
Phys Rev E Stat Nonlin Soft Matter Phys, 72(4) :046108, 2005.
F. Chung.
Four proofs for the cheeger inequality and graph partition algorithms.
In Proceedings of ICCM, volume 2, pages 751–772, 2007.
A. Clauset.
Finding local community structure in networks.
Phys Rev E Stat Nonlin Soft Matter Phys, 72(2) :026132, 2005.
L. Hagen and A.B. Kahng.
New spectral methods for ratio cut partitioning and clustering.
11(9) :1074–1085, 1992.
M. Sozio and A. Gionis.
The community-search problem and how to plan a successful cocktail party.
In Proceedings of the 16th ACM SIGKDD Conference On Knowledge Discovery and Data
Mining (KDD), pages –, 2010.
J. Shi and J. Malik.
Normalized cuts and image segmentation.
22(8) E. (IFSTTAR)2000.
Cˆme, :888–905,
o Clustering de graph 8 D´cembre 2011
e 68 / 68