Slides in french about a method of detetction of communities in an information network (graph with numeric attributes on the edges) using modularity and interclass inertia.
Présentation en français ici: http://www.canalc2.tv/video.asp?idvideo=11672
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
ToTeM : une méthode de détection de communautés adaptée à la fouille de réseaux d’information
1. ToTeM : une m´ethode de d´etection de communaut´es
adapt´ee `a la fouille de r´eseaux d’information
DAVID COMBE
C. LARGERON, E. EGYED-ZSIGMOND *, M. GERY
Laboratoire Hubert Curien, Universit´e de Saint-´Etienne
*LIRIS, Universit´e de Lyon
11 Avril 2013
david.combe@univ-st-etienne.fr
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 1 / 24
2. Plan
1 Contexte
2 Formalisation du probl`eme
3 La m´ethode ToTeM
4 Exp´erimentations
5 Conclusion
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 2 / 24
3. Contexte
Plan
1 Contexte
2 Formalisation du probl`eme
3 La m´ethode ToTeM
4 Exp´erimentations
5 Conclusion
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 3 / 24
4. Contexte
Fouille de r´eseaux sociaux
Web 2.0 : Myspace, Facebook, Twitter, LinkedIn, Instagram, etc
Regain d’int´erˆet pour l’analyse des r´eseaux sociaux
R´eseau social [Wasserman et al., 1994]
”Finite set or sets of entities and the relation or relations defined on them”
R´eseau d’information [Han et al., 2011]
Les entit´es et les relations sont d´ecrites par des informations : poids,
´etiquettes, attributs
D´etection de communaut´es dans un graphe `a attributs
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 4 / 24
5. Formalisation du probl`eme
Plan
1 Contexte
2 Formalisation du probl`eme
3 La m´ethode ToTeM
4 Exp´erimentations
5 Conclusion
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 5 / 24
6. Formalisation du probl`eme
D´etection de communaut´es dans un r´eseau social
Etant donn´e un r´eseau social repr´esent´e par un graphe G = (V, E) o`u
V : l’ensemble fini des sommets de G
E ⊂ V × V : l’ensemble des arˆetes de G
A : matrice d’adjacence de G
il s’agit de d´efinir une partition P = {C1, . . . , Cr} de V en r classes :
k∈{1,...,r} Ck = V
Ck ∩ Cl = ∅, ∀ 1 ≤ k < l ≤ r
Ck = ∅, ∀k ∈ {1, . . . , r}
telle que
les sommets `a l’int´erieur d’une mˆeme classe soient fortement connect´es
les sommets de classes diff´erentes soient peu connect´es
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 6 / 24
7. Formalisation du probl`eme
D´etection de communaut´es dans un r´eseau social
Etant donn´e un r´eseau social repr´esent´e par un graphe G = (V, E) o`u
V : l’ensemble fini des sommets de G
E ⊂ V × V : l’ensemble des arˆetes de G
A : matrice d’adjacence de G
il s’agit de d´efinir une partition P = {C1, . . . , Cr} de V en r classes :
k∈{1,...,r} Ck = V
Ck ∩ Cl = ∅, ∀ 1 ≤ k < l ≤ r
Ck = ∅, ∀k ∈ {1, . . . , r}
telle que
les sommets `a l’int´erieur d’une mˆeme classe soient fortement connect´es
les sommets de classes diff´erentes soient peu connect´es
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 6 / 24
8. Formalisation du probl`eme
Exemple de communaut´es dans un graphe
Figure : Un graphe et ses trois communaut´es
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 7 / 24
9. Formalisation du probl`eme
D´etection de communaut´es dans un r´eseau d’information
Graphe avec attributs [Zhou et al., 2009]
Etant donn´e G = (V, E) dont tout sommet est associ´e `a un vecteur
d’attributs
il s’agit de d´efinir une partition P = {C1, . . . , Cr} de V en r classes telle que
les sommets `a l’int´erieur d’une mˆeme classe soient fortement connect´es
et soient proches en termes d’attributs
les sommets de classes diff´erentes soient peu connect´es
et soient diff´erents en termes d’attributs
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 8 / 24
10. Formalisation du probl`eme
D´etection de communaut´es dans un r´eseau d’information
Graphe avec attributs [Zhou et al., 2009]
Etant donn´e G = (V, E) dont tout sommet est associ´e `a un vecteur
d’attributs
il s’agit de d´efinir une partition P = {C1, . . . , Cr} de V en r classes telle que
les sommets `a l’int´erieur d’une mˆeme classe soient fortement connect´es
et soient proches en termes d’attributs
les sommets de classes diff´erentes soient peu connect´es
et soient diff´erents en termes d’attributs
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 8 / 24
11. Formalisation du probl`eme
Exemple de r´eseau d’information
[1]
[2]
[9]
[11]
[28]
[30]
[22] [24]
[23]
Figure : Un r´eseau d’information avec ses attributs num´eriques (non orient´e,
´eventuellement valu´e)
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 9 / 24
12. Formalisation du probl`eme
Approches m´ethodologiques
Exploitation des attributs puis des relations : enrichissement du graphe
Valuation des arˆetes `a l’aide des attributs [K. Steinhaeuser et al., 2008]
Ajout de sommets et d’arˆetes bas´es sur les attributs [Y.H. Zhou et al., 2009]
Exploitation des relations puis des attributs
Regroupement des communaut´es en fonction des attributs [Li et al., 2008]
Exploitation conjointe des relations et des attributs
NetScan, JointClust : K-means avec des contraintes de connexion des
classes [M. Ester et al.,2006, F. Moser et al. 2007]
Extension de Louvain [V.D. Blondel, J.L. Guillaume, R. Lambiotte, E.
Lefevre, 2008]
• Utilisation de la notion d’entopie, J.D. Cruz Gomez, C. Bothorel, F. Poulet,
2011
• Combinaison de similarit´es locales, T.A. Dang et E. Viennet, 2012
• ToTeM, Combe et al. 2013 (EGC)
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 10 / 24
13. La m´ethode ToTeM
Plan
1 Contexte
2 Formalisation du probl`eme
3 La m´ethode ToTeM
4 Exp´erimentations
5 Conclusion
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 11 / 24
14. La m´ethode ToTeM
Qualit´e d’une partition P
Modularit´e : qualit´e de P par rapport aux liens [Newman et Girvan, 2004]
Q(P) =
1
2M
(i,i )∈V×V
Aii −
ki · ki
2M
· δ(ci, ci ) (1)
o`u M est la somme des poids des liens, ki est le degr´e du sommet i et δ est la
fonction de Kronecker.
Inertie inter-classes : qualit´e de P par rapport aux attributs
IB(P) =
l=1,r
ml gl − g
2
(2)
o`u gl est le centre de gravit´e et ml le poids de la classe Cl.
Crit`ere global :
CG(P) =
IB(P)
|P| · I(V)
· Q(P) (3)
o`u I(V) est l’inertie des attributs des sommets de V
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 12 / 24
15. La m´ethode ToTeM
Qualit´e d’une partition P
Modularit´e : qualit´e de P par rapport aux liens [Newman et Girvan, 2004]
Q(P) =
1
2M
(i,i )∈V×V
Aii −
ki · ki
2M
· δ(ci, ci ) (1)
o`u M est la somme des poids des liens, ki est le degr´e du sommet i et δ est la
fonction de Kronecker.
Inertie inter-classes : qualit´e de P par rapport aux attributs
IB(P) =
l=1,r
ml gl − g
2
(2)
o`u gl est le centre de gravit´e et ml le poids de la classe Cl.
Crit`ere global :
CG(P) =
IB(P)
|P| · I(V)
· Q(P) (3)
o`u I(V) est l’inertie des attributs des sommets de V
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 12 / 24
16. La m´ethode ToTeM
Qualit´e d’une partition P
Modularit´e : qualit´e de P par rapport aux liens [Newman et Girvan, 2004]
Q(P) =
1
2M
(i,i )∈V×V
Aii −
ki · ki
2M
· δ(ci, ci ) (1)
o`u M est la somme des poids des liens, ki est le degr´e du sommet i et δ est la
fonction de Kronecker.
Inertie inter-classes : qualit´e de P par rapport aux attributs
IB(P) =
l=1,r
ml gl − g
2
(2)
o`u gl est le centre de gravit´e et ml le poids de la classe Cl.
Crit`ere global :
CG(P) =
IB(P)
|P| · I(V)
· Q(P) (3)
o`u I(V) est l’inertie des attributs des sommets de V
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 12 / 24
17. La m´ethode ToTeM
Algorithme ToTeM
Initialisation : chaque sommet constitue une communaut´e
[1]
[2]
[9]
[11]
[28]
[30]
[22] [24]
[23]
Figure : Initialisation
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 13 / 24
18. La m´ethode ToTeM
Algorithme ToTeM
Phase it´erative :
R´ep´eter
Pour tout sommet i, ins´erer i dans la communaut´e voisine qui maximise le
crit`ere global
jusqu’`a ce qu’un maximum local soit atteint
[1]
[2]
[9]
[11]
[28]
[30]
[22] [24]
[23]
?
?
?
[1]
[2]
[9]
[11]
[28]
[30]
[22] [24]
[23]
mD=3
gD=23
mB=2
gB=10
mA=2
gA=1,5
mC=2
gC=29
mX: masse de la communauté X
gX: centre de gravité de la communauté X
A
B
D
C
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 14 / 24
19. La m´ethode ToTeM
Algorithme ToTeM
Phase de fusion
Construction d’un nouveau graphe G = (V , E ) `a partir de la partition
P
Chaque sommet v de G correspond `a une classe C de P
La valuation de l’arˆete entre deux sommets vx et vy de G est la somme des
valuations entre les sommets des classes correspondantes
Le vecteur d’attributs associ´e `a v est le centre de gravit´e de C
Le poids du sommet est celui de la classe
[1]
[2]
[9]
[11]
[28]
[30]
[22] [24]
[23]
mD=3
gD=23
mB=2
gB=10
mA=2
gA=1,5
mC=2
gC=29
mX: masse de la communauté X
gX: centre de gravité de la communauté X
A
B
D
C
mD=3
gD=23
MC=2
gC=29
MA=2
gA=1,5
mB=2
gB=10
A
B
C
D
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 15 / 24
23. Exp´erimentations
R´esultats
ToTeM Louvain K-means
Nombre de classes 3 4 (3)
Taux de biens class´es 0.9595 0.8383 0.9696
NMI 0.8612 0.7844 0.9061
Qualit´e par rapport aux liens
Mod 0.6119 0.6219 0.5979
silhouette-Liens 0.4672 0.4784 0.4640
Qualit´e par rapport aux attributs
Varinter 657.57 650.56 658.89
silhouette-Attributs 0.7978 0.7789 0.7998
Table : R´esultats sur le graphe
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 19 / 24
25. Conclusion
Contributions
D´etection de communaut´es dans un graphe `a attributs `a valeurs r´eelles
ToTeM : bas´e sur l’optimisation d’un crit`ere global tenant compte de la
taille des classes
R´esultats encourageants sur jeux artificiels
Perspectives
Application sur des donn´ees r´eelles
Passage `a l’´echelle
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 21 / 24
26. Conclusion
R´ef´erences (1/2)
[K. Steinhaeuser et al., 2008] Steinhaeuser, K., & Chawla, N. V. (2008).
Community detection in a large real-world social network. Social
Computing, Behavioral Modeling, and Prediction, 168-175.
[Y.H. Zhou et al., 2009] Zhou, Y., Cheng, H., & Yu, J. X. (2009). Graph
clustering based on structural/attribute similarities. Proceedings of the
VLDB Endowment, 2(1), 718-729.
[Li et al., 2008] Li, H., Nie, Z., Lee, W.-C. W., Giles, C. L., & Wen, J.-R.
(2008). Scalable Community Discovery on Textual Data with Relations.
Proceedings of the 17th ACM conference on Information and knowledge
management (pp. 1203-1212).
[M. Ester et al.,2006] Ester, M., Ge, R., Gao, B. J., Hu, Z., &
Ben-Moshe, B. (2006). Joint Cluster Analysis of Attribute Data and
Relationship Data: the Connected k-Center Problem. SIAM
International Conference on Data Mining (pp. 25-46). ACM Press.
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 22 / 24
27. Conclusion
R´ef´erences (2/2)
[F. Moser et al., 2007] Moser, F., Ge, R., & Ester, M. (2007). Joint Cluster Analysis of
Attribute and Relationship Data Without A-Priori Specification of the Number of
Clusters. Proceedings of the 13th ACM SIGKDD international conference on
Knowledge discovery and data mining (p. 510).
[V.D. Blondel et al., 2008] Blondel, V. D., Guillaume, J.-L., Lambiotte, R., & Lefebvre,
E. (2008). Fast unfolding of communities in large networks. Journal of Statistical
Mechanics: Theory and Experiment.
[Newman et al., 2004] Newman, M., & Girvan, M. (2004). Finding and evaluating
community structure in networks. Physical review E, 69(2), 1-16.
[Combe et al., 2013] Combe, D., Largeron, C., Egyed-Zsigmond, E., & G´ery, M. (2013).
ToTeM: une m´ethode de d´etection de communaut´es adapt´ee aux r´eseaux d’information.
Extraction et gestion des connaissances (EGC 2013) (pp. 305-310).
[Wasserman et al., 1994] Wasserman, S., & Faust, K. (1994). Social network analysis:
Methods and applications. Cambridge University Press.
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 23 / 24
28. Merci pour votre attention...des questions ? 1
1
Ce travail est partiellement soutenu par St-Etienne Metropole
(http://www.agglo-st-etienne.fr/ et la r´egion Rhˆone Alpes
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 24 / 24