SlideShare ist ein Scribd-Unternehmen logo
1 von 28
ToTeM : une m´ethode de d´etection de communaut´es
adapt´ee `a la fouille de r´eseaux d’information
Laboratoire Hubert Curien, Universit´e de Saint-´Etienne
*LIRIS, Universit´e de Lyon
11 Avril 2013
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 1 / 24
1 Contexte
2 Formalisation du probl`eme
3 La m´ethode ToTeM
4 Exp´erimentations
5 Conclusion
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 2 / 24
1 Contexte
2 Formalisation du probl`eme
3 La m´ethode ToTeM
4 Exp´erimentations
5 Conclusion
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 3 / 24
Fouille de r´eseaux sociaux
Web 2.0 : Myspace, Facebook, Twitter, LinkedIn, Instagram, etc
Regain d’int´erˆet pour l’analyse des r´eseaux sociaux
R´eseau social [Wasserman et al., 1994]
”Finite set or sets of entities and the relation or relations defined on them”
R´eseau d’information [Han et al., 2011]
Les entit´es et les relations sont d´ecrites par des informations : poids,
´etiquettes, attributs
D´etection de communaut´es dans un graphe `a attributs
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 4 / 24
Formalisation du probl`eme
1 Contexte
2 Formalisation du probl`eme
3 La m´ethode ToTeM
4 Exp´erimentations
5 Conclusion
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 5 / 24
Formalisation du probl`eme
D´etection de communaut´es dans un r´eseau social
Etant donn´e un r´eseau social repr´esent´e par un graphe G = (V, E) o`u
V : l’ensemble fini des sommets de G
E ⊂ V × V : l’ensemble des arˆetes de G
A : matrice d’adjacence de G
il s’agit de d´efinir une partition P = {C1, . . . , Cr} de V en r classes :
k∈{1,...,r} Ck = V
Ck ∩ Cl = ∅, ∀ 1 ≤ k < l ≤ r
Ck = ∅, ∀k ∈ {1, . . . , r}
telle que
les sommets `a l’int´erieur d’une mˆeme classe soient fortement connect´es
les sommets de classes diff´erentes soient peu connect´es
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 6 / 24
Formalisation du probl`eme
D´etection de communaut´es dans un r´eseau social
Etant donn´e un r´eseau social repr´esent´e par un graphe G = (V, E) o`u
V : l’ensemble fini des sommets de G
E ⊂ V × V : l’ensemble des arˆetes de G
A : matrice d’adjacence de G
il s’agit de d´efinir une partition P = {C1, . . . , Cr} de V en r classes :
k∈{1,...,r} Ck = V
Ck ∩ Cl = ∅, ∀ 1 ≤ k < l ≤ r
Ck = ∅, ∀k ∈ {1, . . . , r}
telle que
les sommets `a l’int´erieur d’une mˆeme classe soient fortement connect´es
les sommets de classes diff´erentes soient peu connect´es
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 6 / 24
Formalisation du probl`eme
Exemple de communaut´es dans un graphe
Figure : Un graphe et ses trois communaut´es
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 7 / 24
Formalisation du probl`eme
D´etection de communaut´es dans un r´eseau d’information
Graphe avec attributs [Zhou et al., 2009]
Etant donn´e G = (V, E) dont tout sommet est associ´e `a un vecteur
il s’agit de d´efinir une partition P = {C1, . . . , Cr} de V en r classes telle que
les sommets `a l’int´erieur d’une mˆeme classe soient fortement connect´es
et soient proches en termes d’attributs
les sommets de classes diff´erentes soient peu connect´es
et soient diff´erents en termes d’attributs
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 8 / 24
Formalisation du probl`eme
D´etection de communaut´es dans un r´eseau d’information
Graphe avec attributs [Zhou et al., 2009]
Etant donn´e G = (V, E) dont tout sommet est associ´e `a un vecteur
il s’agit de d´efinir une partition P = {C1, . . . , Cr} de V en r classes telle que
les sommets `a l’int´erieur d’une mˆeme classe soient fortement connect´es
et soient proches en termes d’attributs
les sommets de classes diff´erentes soient peu connect´es
et soient diff´erents en termes d’attributs
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 8 / 24
Formalisation du probl`eme
Exemple de r´eseau d’information
[22] [24]
Figure : Un r´eseau d’information avec ses attributs num´eriques (non orient´e,
´eventuellement valu´e)
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 9 / 24
Formalisation du probl`eme
Approches m´ethodologiques
Exploitation des attributs puis des relations : enrichissement du graphe
Valuation des arˆetes `a l’aide des attributs [K. Steinhaeuser et al., 2008]
Ajout de sommets et d’arˆetes bas´es sur les attributs [Y.H. Zhou et al., 2009]
Exploitation des relations puis des attributs
Regroupement des communaut´es en fonction des attributs [Li et al., 2008]
Exploitation conjointe des relations et des attributs
NetScan, JointClust : K-means avec des contraintes de connexion des
classes [M. Ester et al.,2006, F. Moser et al. 2007]
Extension de Louvain [V.D. Blondel, J.L. Guillaume, R. Lambiotte, E.
Lefevre, 2008]
• Utilisation de la notion d’entopie, J.D. Cruz Gomez, C. Bothorel, F. Poulet,
• Combinaison de similarit´es locales, T.A. Dang et E. Viennet, 2012
• ToTeM, Combe et al. 2013 (EGC)
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 10 / 24
La m´ethode ToTeM
1 Contexte
2 Formalisation du probl`eme
3 La m´ethode ToTeM
4 Exp´erimentations
5 Conclusion
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 11 / 24
La m´ethode ToTeM
Qualit´e d’une partition P
Modularit´e : qualit´e de P par rapport aux liens [Newman et Girvan, 2004]
Q(P) =
(i,i )∈V×V
Aii −
ki · ki
· δ(ci, ci ) (1)
o`u M est la somme des poids des liens, ki est le degr´e du sommet i et δ est la
fonction de Kronecker.
Inertie inter-classes : qualit´e de P par rapport aux attributs
IB(P) =
ml gl − g
o`u gl est le centre de gravit´e et ml le poids de la classe Cl.
Crit`ere global :
CG(P) =
|P| · I(V)
· Q(P) (3)
o`u I(V) est l’inertie des attributs des sommets de V
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 12 / 24
La m´ethode ToTeM
Qualit´e d’une partition P
Modularit´e : qualit´e de P par rapport aux liens [Newman et Girvan, 2004]
Q(P) =
(i,i )∈V×V
Aii −
ki · ki
· δ(ci, ci ) (1)
o`u M est la somme des poids des liens, ki est le degr´e du sommet i et δ est la
fonction de Kronecker.
Inertie inter-classes : qualit´e de P par rapport aux attributs
IB(P) =
ml gl − g
o`u gl est le centre de gravit´e et ml le poids de la classe Cl.
Crit`ere global :
CG(P) =
|P| · I(V)
· Q(P) (3)
o`u I(V) est l’inertie des attributs des sommets de V
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 12 / 24
La m´ethode ToTeM
Qualit´e d’une partition P
Modularit´e : qualit´e de P par rapport aux liens [Newman et Girvan, 2004]
Q(P) =
(i,i )∈V×V
Aii −
ki · ki
· δ(ci, ci ) (1)
o`u M est la somme des poids des liens, ki est le degr´e du sommet i et δ est la
fonction de Kronecker.
Inertie inter-classes : qualit´e de P par rapport aux attributs
IB(P) =
ml gl − g
o`u gl est le centre de gravit´e et ml le poids de la classe Cl.
Crit`ere global :
CG(P) =
|P| · I(V)
· Q(P) (3)
o`u I(V) est l’inertie des attributs des sommets de V
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 12 / 24
La m´ethode ToTeM
Algorithme ToTeM
Initialisation : chaque sommet constitue une communaut´e
[22] [24]
Figure : Initialisation
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 13 / 24
La m´ethode ToTeM
Algorithme ToTeM
Phase it´erative :
Pour tout sommet i, ins´erer i dans la communaut´e voisine qui maximise le
crit`ere global
jusqu’`a ce qu’un maximum local soit atteint
[22] [24]
[22] [24]
mX: masse de la communauté X
gX: centre de gravité de la communauté X
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 14 / 24
La m´ethode ToTeM
Algorithme ToTeM
Phase de fusion
Construction d’un nouveau graphe G = (V , E ) `a partir de la partition
Chaque sommet v de G correspond `a une classe C de P
La valuation de l’arˆete entre deux sommets vx et vy de G est la somme des
valuations entre les sommets des classes correspondantes
Le vecteur d’attributs associ´e `a v est le centre de gravit´e de C
Le poids du sommet est celui de la classe
[22] [24]
mX: masse de la communauté X
gX: centre de gravité de la communauté X
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 15 / 24
1 Contexte
2 Formalisation du probl`eme
3 La m´ethode ToTeM
4 Exp´erimentations
5 Conclusion
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 16 / 24
G´en´eration `a l’aide d’un mod`ele de graphe `a attributs [Dang et al. 2012]
|C1| = |C2| = |C3| = 33 NC1(10, 7) NC2(40, 7) NC3(70, 7)
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 17 / 24
Application de ToTeM
Application de la m´ethode de Louvain
Application des K-means
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 18 / 24
ToTeM Louvain K-means
Nombre de classes 3 4 (3)
Taux de biens class´es 0.9595 0.8383 0.9696
NMI 0.8612 0.7844 0.9061
Qualit´e par rapport aux liens
Mod 0.6119 0.6219 0.5979
silhouette-Liens 0.4672 0.4784 0.4640
Qualit´e par rapport aux attributs
Varinter 657.57 650.56 658.89
silhouette-Attributs 0.7978 0.7789 0.7998
Table : R´esultats sur le graphe
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 19 / 24
1 Contexte
2 Formalisation du probl`eme
3 La m´ethode ToTeM
4 Exp´erimentations
5 Conclusion
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 20 / 24
D´etection de communaut´es dans un graphe `a attributs `a valeurs r´eelles
ToTeM : bas´e sur l’optimisation d’un crit`ere global tenant compte de la
taille des classes
R´esultats encourageants sur jeux artificiels
Application sur des donn´ees r´eelles
Passage `a l’´echelle
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 21 / 24
R´ef´erences (1/2)
[K. Steinhaeuser et al., 2008] Steinhaeuser, K., & Chawla, N. V. (2008).
Community detection in a large real-world social network. Social
Computing, Behavioral Modeling, and Prediction, 168-175.
[Y.H. Zhou et al., 2009] Zhou, Y., Cheng, H., & Yu, J. X. (2009). Graph
clustering based on structural/attribute similarities. Proceedings of the
VLDB Endowment, 2(1), 718-729.
[Li et al., 2008] Li, H., Nie, Z., Lee, W.-C. W., Giles, C. L., & Wen, J.-R.
(2008). Scalable Community Discovery on Textual Data with Relations.
Proceedings of the 17th ACM conference on Information and knowledge
management (pp. 1203-1212).
[M. Ester et al.,2006] Ester, M., Ge, R., Gao, B. J., Hu, Z., &
Ben-Moshe, B. (2006). Joint Cluster Analysis of Attribute Data and
Relationship Data: the Connected k-Center Problem. SIAM
International Conference on Data Mining (pp. 25-46). ACM Press.
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 22 / 24
R´ef´erences (2/2)
[F. Moser et al., 2007] Moser, F., Ge, R., & Ester, M. (2007). Joint Cluster Analysis of
Attribute and Relationship Data Without A-Priori Specification of the Number of
Clusters. Proceedings of the 13th ACM SIGKDD international conference on
Knowledge discovery and data mining (p. 510).
[V.D. Blondel et al., 2008] Blondel, V. D., Guillaume, J.-L., Lambiotte, R., & Lefebvre,
E. (2008). Fast unfolding of communities in large networks. Journal of Statistical
Mechanics: Theory and Experiment.
[Newman et al., 2004] Newman, M., & Girvan, M. (2004). Finding and evaluating
community structure in networks. Physical review E, 69(2), 1-16.
[Combe et al., 2013] Combe, D., Largeron, C., Egyed-Zsigmond, E., & G´ery, M. (2013).
ToTeM: une m´ethode de d´etection de communaut´es adapt´ee aux r´eseaux d’information.
Extraction et gestion des connaissances (EGC 2013) (pp. 305-310).
[Wasserman et al., 1994] Wasserman, S., & Faust, K. (1994). Social network analysis:
Methods and applications. Cambridge University Press.
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 23 / 24
Merci pour votre attention...des questions ? 1
Ce travail est partiellement soutenu par St-Etienne Metropole
( et la r´egion Rhˆone Alpes
DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 24 / 24

Weitere ähnliche Inhalte

Kürzlich hochgeladen

Principe de fonctionnement d'un moteur 4 temps
Principe de fonctionnement d'un moteur 4 tempsPrincipe de fonctionnement d'un moteur 4 temps
Principe de fonctionnement d'un moteur 4 tempsRajiAbdelghani
Presentation de la plateforme Moodle - avril 2024
Presentation de la plateforme Moodle - avril 2024Presentation de la plateforme Moodle - avril 2024
Presentation de la plateforme Moodle - avril 2024Gilles Le Page
Cours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSETCours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSETMedBechir
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdfBibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdfBibdoc 37
Bibdoc 2024 - Ecologie du livre et creation de badge.pdf
Bibdoc 2024 - Ecologie du livre et creation de badge.pdfBibdoc 2024 - Ecologie du livre et creation de badge.pdf
Bibdoc 2024 - Ecologie du livre et creation de badge.pdfBibdoc 37
PIE-A2-P4-support stagiaires sept 22-validé.pdf
PIE-A2-P4-support stagiaires sept 22-validé.pdfPIE-A2-P4-support stagiaires sept 22-validé.pdf
PIE-A2-P4-support stagiaires sept 22-validé.pdfRiDaHAziz
Zotero avancé - support de formation doctorants SHS 2024
Zotero avancé - support de formation doctorants SHS 2024Zotero avancé - support de formation doctorants SHS 2024
Zotero avancé - support de formation doctorants SHS 2024Alain Marois
PIE-A2-P 5- Supports stagiaires.pptx.pdf
PIE-A2-P 5- Supports stagiaires.pptx.pdfPIE-A2-P 5- Supports stagiaires.pptx.pdf
PIE-A2-P 5- Supports stagiaires.pptx.pdfRiDaHAziz
Bernard Réquichot.pptx Peintre français
Bernard Réquichot.pptx   Peintre françaisBernard Réquichot.pptx   Peintre français
Bernard Réquichot.pptx Peintre françaisTxaruka
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .
Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .Txaruka
Cours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSETCours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSETMedBechir
Le Lean sur une ligne de production : Formation et mise en application directe
Le Lean sur une ligne de production : Formation et mise en application directeLe Lean sur une ligne de production : Formation et mise en application directe
Le Lean sur une ligne de production : Formation et mise en application directeXL Groupe

Kürzlich hochgeladen (19)

Principe de fonctionnement d'un moteur 4 temps
Principe de fonctionnement d'un moteur 4 tempsPrincipe de fonctionnement d'un moteur 4 temps
Principe de fonctionnement d'un moteur 4 temps
DO PALÁCIO À ASSEMBLEIA                 .DO PALÁCIO À ASSEMBLEIA                 .
Presentation de la plateforme Moodle - avril 2024
Presentation de la plateforme Moodle - avril 2024Presentation de la plateforme Moodle - avril 2024
Presentation de la plateforme Moodle - avril 2024
Cours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSETCours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSET
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdfBibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
Bibdoc 2024 - Ecologie du livre et creation de badge.pdf
Bibdoc 2024 - Ecologie du livre et creation de badge.pdfBibdoc 2024 - Ecologie du livre et creation de badge.pdf
Bibdoc 2024 - Ecologie du livre et creation de badge.pdf
PIE-A2-P4-support stagiaires sept 22-validé.pdf
PIE-A2-P4-support stagiaires sept 22-validé.pdfPIE-A2-P4-support stagiaires sept 22-validé.pdf
PIE-A2-P4-support stagiaires sept 22-validé.pdf
Zotero avancé - support de formation doctorants SHS 2024
Zotero avancé - support de formation doctorants SHS 2024Zotero avancé - support de formation doctorants SHS 2024
Zotero avancé - support de formation doctorants SHS 2024
PIE-A2-P 5- Supports stagiaires.pptx.pdf
PIE-A2-P 5- Supports stagiaires.pptx.pdfPIE-A2-P 5- Supports stagiaires.pptx.pdf
PIE-A2-P 5- Supports stagiaires.pptx.pdf
Bernard Réquichot.pptx Peintre français
Bernard Réquichot.pptx   Peintre françaisBernard Réquichot.pptx   Peintre français
Bernard Réquichot.pptx Peintre français
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .
Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .
Cours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSETCours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSET
Le Lean sur une ligne de production : Formation et mise en application directe
Le Lean sur une ligne de production : Formation et mise en application directeLe Lean sur une ligne de production : Formation et mise en application directe
Le Lean sur une ligne de production : Formation et mise en application directe


2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36

Empfohlen (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...

ToTeM : une méthode de détection de communautés adaptée à la fouille de réseaux d’information

  • 1. ToTeM : une m´ethode de d´etection de communaut´es adapt´ee `a la fouille de r´eseaux d’information DAVID COMBE C. LARGERON, E. EGYED-ZSIGMOND *, M. GERY Laboratoire Hubert Curien, Universit´e de Saint-´Etienne *LIRIS, Universit´e de Lyon 11 Avril 2013 DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 1 / 24
  • 2. Plan 1 Contexte 2 Formalisation du probl`eme 3 La m´ethode ToTeM 4 Exp´erimentations 5 Conclusion DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 2 / 24
  • 3. Contexte Plan 1 Contexte 2 Formalisation du probl`eme 3 La m´ethode ToTeM 4 Exp´erimentations 5 Conclusion DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 3 / 24
  • 4. Contexte Fouille de r´eseaux sociaux Web 2.0 : Myspace, Facebook, Twitter, LinkedIn, Instagram, etc Regain d’int´erˆet pour l’analyse des r´eseaux sociaux R´eseau social [Wasserman et al., 1994] ”Finite set or sets of entities and the relation or relations defined on them” R´eseau d’information [Han et al., 2011] Les entit´es et les relations sont d´ecrites par des informations : poids, ´etiquettes, attributs D´etection de communaut´es dans un graphe `a attributs DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 4 / 24
  • 5. Formalisation du probl`eme Plan 1 Contexte 2 Formalisation du probl`eme 3 La m´ethode ToTeM 4 Exp´erimentations 5 Conclusion DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 5 / 24
  • 6. Formalisation du probl`eme D´etection de communaut´es dans un r´eseau social Etant donn´e un r´eseau social repr´esent´e par un graphe G = (V, E) o`u V : l’ensemble fini des sommets de G E ⊂ V × V : l’ensemble des arˆetes de G A : matrice d’adjacence de G il s’agit de d´efinir une partition P = {C1, . . . , Cr} de V en r classes : k∈{1,...,r} Ck = V Ck ∩ Cl = ∅, ∀ 1 ≤ k < l ≤ r Ck = ∅, ∀k ∈ {1, . . . , r} telle que les sommets `a l’int´erieur d’une mˆeme classe soient fortement connect´es les sommets de classes diff´erentes soient peu connect´es DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 6 / 24
  • 7. Formalisation du probl`eme D´etection de communaut´es dans un r´eseau social Etant donn´e un r´eseau social repr´esent´e par un graphe G = (V, E) o`u V : l’ensemble fini des sommets de G E ⊂ V × V : l’ensemble des arˆetes de G A : matrice d’adjacence de G il s’agit de d´efinir une partition P = {C1, . . . , Cr} de V en r classes : k∈{1,...,r} Ck = V Ck ∩ Cl = ∅, ∀ 1 ≤ k < l ≤ r Ck = ∅, ∀k ∈ {1, . . . , r} telle que les sommets `a l’int´erieur d’une mˆeme classe soient fortement connect´es les sommets de classes diff´erentes soient peu connect´es DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 6 / 24
  • 8. Formalisation du probl`eme Exemple de communaut´es dans un graphe Figure : Un graphe et ses trois communaut´es DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 7 / 24
  • 9. Formalisation du probl`eme D´etection de communaut´es dans un r´eseau d’information Graphe avec attributs [Zhou et al., 2009] Etant donn´e G = (V, E) dont tout sommet est associ´e `a un vecteur d’attributs il s’agit de d´efinir une partition P = {C1, . . . , Cr} de V en r classes telle que les sommets `a l’int´erieur d’une mˆeme classe soient fortement connect´es et soient proches en termes d’attributs les sommets de classes diff´erentes soient peu connect´es et soient diff´erents en termes d’attributs DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 8 / 24
  • 10. Formalisation du probl`eme D´etection de communaut´es dans un r´eseau d’information Graphe avec attributs [Zhou et al., 2009] Etant donn´e G = (V, E) dont tout sommet est associ´e `a un vecteur d’attributs il s’agit de d´efinir une partition P = {C1, . . . , Cr} de V en r classes telle que les sommets `a l’int´erieur d’une mˆeme classe soient fortement connect´es et soient proches en termes d’attributs les sommets de classes diff´erentes soient peu connect´es et soient diff´erents en termes d’attributs DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 8 / 24
  • 11. Formalisation du probl`eme Exemple de r´eseau d’information [1] [2] [9] [11] [28] [30] [22] [24] [23] Figure : Un r´eseau d’information avec ses attributs num´eriques (non orient´e, ´eventuellement valu´e) DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 9 / 24
  • 12. Formalisation du probl`eme Approches m´ethodologiques Exploitation des attributs puis des relations : enrichissement du graphe Valuation des arˆetes `a l’aide des attributs [K. Steinhaeuser et al., 2008] Ajout de sommets et d’arˆetes bas´es sur les attributs [Y.H. Zhou et al., 2009] Exploitation des relations puis des attributs Regroupement des communaut´es en fonction des attributs [Li et al., 2008] Exploitation conjointe des relations et des attributs NetScan, JointClust : K-means avec des contraintes de connexion des classes [M. Ester et al.,2006, F. Moser et al. 2007] Extension de Louvain [V.D. Blondel, J.L. Guillaume, R. Lambiotte, E. Lefevre, 2008] • Utilisation de la notion d’entopie, J.D. Cruz Gomez, C. Bothorel, F. Poulet, 2011 • Combinaison de similarit´es locales, T.A. Dang et E. Viennet, 2012 • ToTeM, Combe et al. 2013 (EGC) DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 10 / 24
  • 13. La m´ethode ToTeM Plan 1 Contexte 2 Formalisation du probl`eme 3 La m´ethode ToTeM 4 Exp´erimentations 5 Conclusion DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 11 / 24
  • 14. La m´ethode ToTeM Qualit´e d’une partition P Modularit´e : qualit´e de P par rapport aux liens [Newman et Girvan, 2004] Q(P) = 1 2M (i,i )∈V×V Aii − ki · ki 2M · δ(ci, ci ) (1) o`u M est la somme des poids des liens, ki est le degr´e du sommet i et δ est la fonction de Kronecker. Inertie inter-classes : qualit´e de P par rapport aux attributs IB(P) = l=1,r ml gl − g 2 (2) o`u gl est le centre de gravit´e et ml le poids de la classe Cl. Crit`ere global : CG(P) = IB(P) |P| · I(V) · Q(P) (3) o`u I(V) est l’inertie des attributs des sommets de V DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 12 / 24
  • 15. La m´ethode ToTeM Qualit´e d’une partition P Modularit´e : qualit´e de P par rapport aux liens [Newman et Girvan, 2004] Q(P) = 1 2M (i,i )∈V×V Aii − ki · ki 2M · δ(ci, ci ) (1) o`u M est la somme des poids des liens, ki est le degr´e du sommet i et δ est la fonction de Kronecker. Inertie inter-classes : qualit´e de P par rapport aux attributs IB(P) = l=1,r ml gl − g 2 (2) o`u gl est le centre de gravit´e et ml le poids de la classe Cl. Crit`ere global : CG(P) = IB(P) |P| · I(V) · Q(P) (3) o`u I(V) est l’inertie des attributs des sommets de V DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 12 / 24
  • 16. La m´ethode ToTeM Qualit´e d’une partition P Modularit´e : qualit´e de P par rapport aux liens [Newman et Girvan, 2004] Q(P) = 1 2M (i,i )∈V×V Aii − ki · ki 2M · δ(ci, ci ) (1) o`u M est la somme des poids des liens, ki est le degr´e du sommet i et δ est la fonction de Kronecker. Inertie inter-classes : qualit´e de P par rapport aux attributs IB(P) = l=1,r ml gl − g 2 (2) o`u gl est le centre de gravit´e et ml le poids de la classe Cl. Crit`ere global : CG(P) = IB(P) |P| · I(V) · Q(P) (3) o`u I(V) est l’inertie des attributs des sommets de V DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 12 / 24
  • 17. La m´ethode ToTeM Algorithme ToTeM Initialisation : chaque sommet constitue une communaut´e [1] [2] [9] [11] [28] [30] [22] [24] [23] Figure : Initialisation DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 13 / 24
  • 18. La m´ethode ToTeM Algorithme ToTeM Phase it´erative : R´ep´eter Pour tout sommet i, ins´erer i dans la communaut´e voisine qui maximise le crit`ere global jusqu’`a ce qu’un maximum local soit atteint [1] [2] [9] [11] [28] [30] [22] [24] [23] ? ? ? [1] [2] [9] [11] [28] [30] [22] [24] [23] mD=3 gD=23 mB=2 gB=10 mA=2 gA=1,5 mC=2 gC=29 mX: masse de la communauté X gX: centre de gravité de la communauté X A B D C DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 14 / 24
  • 19. La m´ethode ToTeM Algorithme ToTeM Phase de fusion Construction d’un nouveau graphe G = (V , E ) `a partir de la partition P Chaque sommet v de G correspond `a une classe C de P La valuation de l’arˆete entre deux sommets vx et vy de G est la somme des valuations entre les sommets des classes correspondantes Le vecteur d’attributs associ´e `a v est le centre de gravit´e de C Le poids du sommet est celui de la classe [1] [2] [9] [11] [28] [30] [22] [24] [23] mD=3 gD=23 mB=2 gB=10 mA=2 gA=1,5 mC=2 gC=29 mX: masse de la communauté X gX: centre de gravité de la communauté X A B D C mD=3 gD=23 MC=2 gC=29 MA=2 gA=1,5 mB=2 gB=10 A B C D DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 15 / 24
  • 20. Exp´erimentations Plan 1 Contexte 2 Formalisation du probl`eme 3 La m´ethode ToTeM 4 Exp´erimentations 5 Conclusion DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 16 / 24
  • 21. Exp´erimentations Donn´ees G´en´eration `a l’aide d’un mod`ele de graphe `a attributs [Dang et al. 2012] |C1| = |C2| = |C3| = 33 NC1(10, 7) NC2(40, 7) NC3(70, 7) DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 17 / 24
  • 22. Exp´erimentations R´esultats Application de ToTeM Application de la m´ethode de Louvain Application des K-means DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 18 / 24
  • 23. Exp´erimentations R´esultats ToTeM Louvain K-means Nombre de classes 3 4 (3) Taux de biens class´es 0.9595 0.8383 0.9696 NMI 0.8612 0.7844 0.9061 Qualit´e par rapport aux liens Mod 0.6119 0.6219 0.5979 silhouette-Liens 0.4672 0.4784 0.4640 Qualit´e par rapport aux attributs Varinter 657.57 650.56 658.89 silhouette-Attributs 0.7978 0.7789 0.7998 Table : R´esultats sur le graphe DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 19 / 24
  • 24. Conclusion Plan 1 Contexte 2 Formalisation du probl`eme 3 La m´ethode ToTeM 4 Exp´erimentations 5 Conclusion DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 20 / 24
  • 25. Conclusion Contributions D´etection de communaut´es dans un graphe `a attributs `a valeurs r´eelles ToTeM : bas´e sur l’optimisation d’un crit`ere global tenant compte de la taille des classes R´esultats encourageants sur jeux artificiels Perspectives Application sur des donn´ees r´eelles Passage `a l’´echelle DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 21 / 24
  • 26. Conclusion R´ef´erences (1/2) [K. Steinhaeuser et al., 2008] Steinhaeuser, K., & Chawla, N. V. (2008). Community detection in a large real-world social network. Social Computing, Behavioral Modeling, and Prediction, 168-175. [Y.H. Zhou et al., 2009] Zhou, Y., Cheng, H., & Yu, J. X. (2009). Graph clustering based on structural/attribute similarities. Proceedings of the VLDB Endowment, 2(1), 718-729. [Li et al., 2008] Li, H., Nie, Z., Lee, W.-C. W., Giles, C. L., & Wen, J.-R. (2008). Scalable Community Discovery on Textual Data with Relations. Proceedings of the 17th ACM conference on Information and knowledge management (pp. 1203-1212). [M. Ester et al.,2006] Ester, M., Ge, R., Gao, B. J., Hu, Z., & Ben-Moshe, B. (2006). Joint Cluster Analysis of Attribute Data and Relationship Data: the Connected k-Center Problem. SIAM International Conference on Data Mining (pp. 25-46). ACM Press. DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 22 / 24
  • 27. Conclusion R´ef´erences (2/2) [F. Moser et al., 2007] Moser, F., Ge, R., & Ester, M. (2007). Joint Cluster Analysis of Attribute and Relationship Data Without A-Priori Specification of the Number of Clusters. Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining (p. 510). [V.D. Blondel et al., 2008] Blondel, V. D., Guillaume, J.-L., Lambiotte, R., & Lefebvre, E. (2008). Fast unfolding of communities in large networks. Journal of Statistical Mechanics: Theory and Experiment. [Newman et al., 2004] Newman, M., & Girvan, M. (2004). Finding and evaluating community structure in networks. Physical review E, 69(2), 1-16. [Combe et al., 2013] Combe, D., Largeron, C., Egyed-Zsigmond, E., & G´ery, M. (2013). ToTeM: une m´ethode de d´etection de communaut´es adapt´ee aux r´eseaux d’information. Extraction et gestion des connaissances (EGC 2013) (pp. 305-310). [Wasserman et al., 1994] Wasserman, S., & Faust, K. (1994). Social network analysis: Methods and applications. Cambridge University Press. DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 23 / 24
  • 28. Merci pour votre attention...des questions ? 1 1 Ce travail est partiellement soutenu par St-Etienne Metropole ( et la r´egion Rhˆone Alpes DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 24 / 24