SlideShare une entreprise Scribd logo
1  sur  45
Télécharger pour lire hors ligne
Laboratoire ERIC 
Université Lumière Lyon 2 
Diffusion de l’information 
dans les médias sociaux 
Modélisation et analyse 
Thèse de doctorat présentée et soutenue publiquement 
par Adrien Guille 
le 25 novembre 2014 
Discipline : Informatique 
Université : Université Lumière Lyon 2 
École doctorale : Informatique et Mathématiques (InfoMaths, ED 512) 
Laboratoire : Entrepôts, Représentation & Ingénierie des Connaissances (ERIC, EA 3083) 
Directeur : Djamel Zighed 
Co-directrice : Cécile Favre
Laboratoire ERIC 
Université Lumière Lyon 2 
Introduction 
Pourquoi étudier les médias sociaux ? 
• Manière nouvelle de produire, diffuser et consommer l’information 
• Utilisateurs producteurs et consommateurs d’information 
• Vecteurs d’information efficaces 
• e.g. élection de Barack Obama [Hughes09] 
• e.g. Printemps arabe [Howard11] 
• Apparition d’un phénomène de surcharge informationnelle 
• Cette thèse s’intéresse au phénomène de diffusion de l’information dans 
les médias sociaux 
• Objectif : fournir des moyens de modélisation et d’analyse 
Page 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 
2
Laboratoire ERIC 
Université Lumière Lyon 2 
Introduction 
Médias sociaux et diffusion de l’information 
• Deux fonctionnalités essentielles 
• Publication de messages sur une page de profil 
• Connexion à d’autres utilisateurs afin de suivre leurs publications 
• Influence sociale 
• Diffusion de l’information 
• Le média social type : Twitter 
• Propositions génériques 
• Expérimentations sur Twitter 
Page 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
• Accès aux données 
• 500·106 utilisateurs 
• 20·109 abonnements 
3 
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
Laboratoire ERIC 
Université Lumière Lyon 2 
jŸj k 
jŸj kà 
Introduction 
Travaux de recherche menés dans cette thèse 
• Problématiques et contributions 
• Quels éléments d’information retiennent l’attention des utilisateurs ? 
• Algorithme pour détecter automatiquement les évènements significatifs 
• Comment et pourquoi un élément d’information donné se diffuse-t-il ? 
• Modèle pour prévoir la diffusion de l’information 
• Quels utilisateurs peuvent influencer la diffusion d’un élément d’information ? 
• Logiciel pour l’analyse de l’influence par rapport aux évènements 
• Approche 
• Fouille des données issues des médias sociaux 
Page 
ÁÁÊ 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 

 

 
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 
4 
Y’Q[NYkI[EI 
G’KpJ[IZI[jh 
/j]EX<OI 
GIh 
G][[KIh 
+gKdgjQ][IjZ[QdkYjQ][GIhG][[KIh 
IrjI[hQ][h 
Zd]gjGIG][[KIh¥ZIhhOIhIjgKhIk¦ 
/$9 
k 
kà 
kÄ 
 
 
 
™ 
jŸj kÄ 
KjdIÂ 
KjdIÃ 
KjdIÄ 
KjdIÅ 
ÁÂÉ 
ÁÁÆ 
ÁÃ 
ÁÅ 
ÁÁÅ 
ÁÂà 
ÁÃà ÁÂÂ
!O¿¿
!O¿¿ 
  
gdPIGIh 
KpJ[IZI[jh 
gdPIGIh 
gIG][G[EIh 
gdPIGIh 
KpJ[IZI[jh 
p[jYNkhQ][GIhKpJ[IZI[jhGkdYQfkKh dgJhYNkhQ][ 
/KYIEjQ][ +gKŸjgQjIZI[j 0g[hN]gZjQ][ 
rdY]gjQ][GIh 
G][[KIh 
[jIgdgKjjQ][ 
][[KIh pYkjQ][ 
DgkjIh 

][[Qh 
Ÿh[EI 
][[KIhEQDYIh ][[KIhdgKŸjgQjKIh 
][[KIh 
jg[hN]gZKIh 
!]jQNh
Laboratoire ERIC 
Université Lumière Lyon 2 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
Première contribution 
Détecter les évènements 
significatifs dans les 
médias sociaux 
Soutenance de thèse - 25 novembre 2014 Adrien Guille
Laboratoire ERIC 
Université Lumière Lyon 2 
Détecter les évènements 
Introduction 
• Comment détecter automatiquement les évènements significatifs à partir 
des médias sociaux ? 
• Évènements significatifs : potentiellement traités par les médias traditionnels 
[McMinn13] 
• Messages liés noyés par des messages sans rapport, i.e. bruit 
• Analyse de l’évolution temporelle des thématiques [Leskovec09] 
• On suppose que les thématiques «saillantes» signalent les évènements 
Page 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
[Kleinberg02] 
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 
6
Laboratoire ERIC 
Université Lumière Lyon 2 
Détecter les évènements 
État de l’art et proposition 
• Approches existantes 
• Pondération statistique des termes [Shamma11, Benhardus13] 
• Modélisation probabiliste des thématiques latentes [Lau12, Yuheng12] 
• Classification non supervisée des termes [Weng11, Li12, Parikh13] 
• Limitations des approches existantes 
• Durée des évènements fixée à l’avance [Romero11] 
• Prise en compte du contenu textuel uniquement 
• Proposition 
• Estimer dynamiquement la durée de chaque évènement 
• Exploiter l’aspect social du flux de messages via les mentions 
Page 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
• Mention : lien dynamique inséré dans un message 
7 
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
Laboratoire ERIC 
Université Lumière Lyon 2 
Détecter les évènements 
Méthode proposée 
• MABED : Mention-Anomaly-Based Event Detection 
Page 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 
8 
 
 
 
 
 
 
 
 
• Entrée 
• Un corpus de messages partitionné 
en n tranches temporelles 
• Sortie 
• Les k évènements aux k plus fortes 
magnitudes d’impact 
• Définitions 
• Évènement : une thématique 
saillante et une valeur Mag traduisant 
sa magnitude d’impact 
• Thématique saillante : un intervalle 
temporel I, un terme principal t, un 
ensemble pondéré S de mots liés
Laboratoire ERIC 
Université Lumière Lyon 2 
Détecter les évènements 
Méthode proposée 
• MABED : Mention-Anomaly-Based Event Detection 
Page 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 
8 
 
 
 
 
 
 
 
 
• Entrée 
• Un corpus de messages partitionné 
en n tranches temporelles 
• Sortie 
• Les k évènements aux k plus fortes 
magnitudes d’impact 
• Définitions 
• Évènement : une thématique 
saillante et une valeur Mag traduisant 
sa magnitude d’impact 
• Thématique saillante : un intervalle 
temporel I, un terme principal t, un 
ensemble pondéré S de mots liés
2005). Par conséquent nous pouvons écrire : 
l’échelle et s’adapte donc facilement à la taille du vocabulaire. 
peut être approximée par une loi normale, c’est-à-dire : 
est la probabilité Laboratoire ERIC 
qu’un message contienne le mot t et au moins une men-tion, 
Université Lumière Lyon 2 
que soit la tranche temporelle. Comme le nombre de messages Ni est 
le contexte des médias sociaux, nous pouvons raisonnablement supposer 
peut être approximée par une loi normale, c’est-à-dire : 
Calcul de la magnitude d’impact. La magnitude d’impact, associé à l’intervalle I = [a; b] et au mot principal t est Elle correspond à l’aire algébrique sous la fonction [liés à des évènements et spécifiques à une période temporelle particulière auront 
tendance à avoir des valeurs d’anomalie positives élevées durant cette période. Au 
contraire, les mots récurrents (i.e. triviaux) qui ne sont pas liés à un évènement auront 
des valeurs d’anomalie qui divergeront peu par rapport à l’espérance. Par ailleurs, 
contrairement à des approches plus sophistiquées comme par exemple la modélisation 
des fréquences à l’aide de mixtures gaussiennes, cette formulation passe facilement à 
l’échelle et s’adapte donc facilement à la taille du vocabulaire. 
Détecter les évènements 
Méthode proposée : phase I 
• Mesurer l’anomalie 
P(Ni 
@t)⇠N (Nip@t,Nip@t(1− p@t)). 
• Par rapport à la fréquence de création de mention à la tranche temporelle i 
• Pour chaque mot t 
découle que la quantité espérée de messages contenant le mot t et au moins 
mention à la ième tranche temporelle est : 
!O¥¦ 
Calcul de la magnitude d’impact. La magnitude d’impact, Mag, d’un évènement 
Q 
associé à l’intervalle I = [a; b] et au mot principal t est donnée par la formule ci-dessous. 
Or, nous avons montré précédemment que la magnitude décrit par le mot principal t et l’intervalle I = [a; b] correspond ³XGPNQ 
E[t|i] = Nip@t, où p@t = N@t/N. 
Elle correspond à l’aire algébrique sous la fonction d’anomalie sur l’intervalle 
nous définissons l’anomalie dans la fréquence de création de mentions liée 
la ième tranche temporelle comme suit : 
• Détecter les évènement à partir de l’anomalie 
• Trouver l’intervalle qui maximise l’anomalie 
• Pour tous les mots 
D 
cette formulation, l’anomalie est positive uniquement lorsque la fréquence 
création de mentions est strictement supérieure à l’espérance. Les mots 
Page 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
anomalie(t, i) = Ni 
@t − E[t|i]. 
 D 
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 
9 
P(Ni 
@t) = 
✓ 
Ni 
Ni 
@t 
◆ 
pNi 
@t 
@t (1− p@t)Ni−Ni 
@t , 
p@t est la probabilité qu’un message contienne le mot t et au moins une men-tion, 
quelle que soit la tranche temporelle. Comme le nombre de messages Ni est 
dans le contexte des médias sociaux, nous pouvons raisonnablement supposer 
@t) peut être approximée par une loi normale, c’est-à-dire : 
P(Ni 
@t)⇠N (Nip@t,Nip@t(1− p@t)). 
découle que la quantité espérée de messages contenant le mot t et au moins 
mention à la ième tranche temporelle est : 
E[t|i] = Nip@t, où p@t = N@t/N. 
Enfin, nous définissons l’anomalie dans la fréquence de création de mentions liée 
à la ième tranche temporelle comme suit : 
anomalie(t, i) = Ni 
@t − E[t|i]. 
cette formulation, l’anomalie est positive uniquement lorsque la fréquence 
de création de mentions est strictement supérieure à l’espérance. Les mots 
59 
P(Ni 
@t)⇠N (Nip@t,Nip@t(1− p@t)). 
découle que la quantité espérée de messages contenant le mot t et au moins 
à la ième tranche temporelle est : 
E[t|i] = Nip@t, où p@t = N@t/N. 
nous définissons l’anomalie dans la fréquence de création de mentions liée 
ième tranche temporelle comme suit : 
anomalie(t, i) = Ni 
@t − E[t|i]. 
cette formulation, l’anomalie est positive uniquement lorsque la fréquence 
création de mentions est strictement supérieure à l’espérance. Les mots 
59 
3.3. Méthode proposée 
évènements et spécifiques à une période temporelle particulière auront 
avoir des valeurs d’anomalie positives élevées durant cette période. Au 
mots récurrents (i.e. triviaux) qui ne sont pas liés à un évènement auront 
d’anomalie qui divergeront peu par rapport à l’espérance. Par ailleurs, 
contrairement à des approches plus sophistiquées comme par exemple la modélisation 
fréquences à l’aide de mixtures gaussiennes, cette formulation passe facilement à 
s’adapte donc facilement à la taille du vocabulaire. 
de la magnitude d’impact. La magnitude d’impact, Mag, d’un évènement 
l’intervalle I = [a; b] et au mot principal t est donnée par la formule ci-dessous. 
correspond à l’aire algébrique sous la fonction d’anomalie sur l’intervalle 
Mag(t, I) = 
Zb 
a 
anomalie(t, i)di 
= 
Xb 
i=a 
anomalie(t, i) 
[a; b]. 
Mag(t, I) = 
Zb 
a 
anomalie(t, i)di 
= 
Xb 
i=a 
anomalie(t, i) 
L’aire algébrique est obtenue en intégrant la fonction discrète d’anomalie, ce qui 
revient dans ce cas à une somme. 
a; b]. 
Mag(t, I) = 
Zb 
a 
anomalie(t, i)di 
= 
Xb 
i=a 
anomalie(t, i) 
L’aire algébrique est obtenue en intégrant la fonction discrète revient dans ce cas à une somme. 
Identification des évènements. Pour chaque mot t 2 V@, l’intervalle qui maximise la magnitude d’impact, c’est-I = argmax 
I 
Mag(t, I). 
¥XGPNQ¦ 
Þ§ŽD¨ 
NQ[[EK XGPNQ 
 D 
XGPNQ 
ZjgQEIGIh 
E]]EEkgI[EIh 
 
 
 
XGPNQ 
NQ[[EK 
q 
!O 
 
NQ[[EK 
hgX]vs 
Q 
Q 
hgX]vs 
q 
+ - +
Laboratoire ERIC 
Université Lumière Lyon 2 
Détecter les évènements 
Méthode proposée : phase II 
• Identifier les mots décrivant au mieux les évènements 
 
Q 
³XGPNQ 
D 
XGPNQ 
ZjgQEIGIh 
E]]EEkgI[EIh 
 
!O¥¦ 
NQ[[EK 
Q 
• Identification des mots candidats selon la cooccurrence 
• Sélection selon l’intensité de la corrélation entre leur fréquence 
• Mesurée selon le coefficient de Erdem [Erdem12] 
• Comparée à un seuil θ 
• Générer la liste des k évènements ayant eu le plus grand impact 
• Construction de la liste à l’aide du graphe des évènements 
 ¥XGPNQ¦ 
 
D 
NQ[[EK !O¥¦ 
 XGPNQ 
ZjgQEIGIh 
E]]EEkgI[EIh 
EZdO[I 
D 
Q 
• Détection des évènements redondants selon 
• La connectivité des mots principaux 
• Le recouvrement des intervalles temporels, seuil σ 
• Modélisation des redondances avec un second graphe 
• Fusion des évènements dupliqués via l’analyse des composantes connexes 
10 
Page 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
!O 
XGPNQ 
ÃÁÁÈ 
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 
!Ç 
q 
³XGPNQ 
 D 
¥XGPNQ¦ 
Þ§ŽD¨ 
NQ[[EK XGPNQ 
ÃÁÁÈ 
 D 
XGPNQ 
ZjgQEIGIh 
E]]EEkgI[EIh 
 
 
 
XGPNQ 
NQ[[EK 
q 
!O 
 
EZdO[I 
NQ[[EK 
Q 
Q 
hgX]vs 
EdQjY 
!Ç 
Q[pQjK 
q 
³XGPNQ 
 D 
¥XGPNQ¦ 
Þ§ŽD¨ 
NQ[[EK XGPNQ 
ÃÁÁÈ 
 
 
 
XGPNQ 
NQ[[EK 
!O 
 
EZdO[I 
NQ[[EK 
Q 
Q 
hgX]vs 
EdQjY 
!Ç 
Q[pQjK 
q
Laboratoire ERIC 
Université Lumière Lyon 2 
Détecter les évènements 
Expérimentations 
• Protocole 
• Deux corpus : Cen (1,5·106 tweets [Yang11]) et Cfr (2·106 tweets [ANR ImagiWeb]) 
• Méthodes comparées : TS [Benhardus13] ET [Parikh13] et α-MABED 
• Juges humains : 2 juges humains évaluent les top 40 évènements (κ = 0.72) 
• Métriques d’évaluation : Précision, rappel, F-mesure, DERate [Li12], temps de calcul 
• Évaluation quantitative 
• MABED est la méthode la plus performante en terme de précision et de F-mesure 
• Gain moyen concernant la F-mesure de 17,2% par rapport à α-MABED 
• Gain plus important pour le corpus le plus bruité, Cen 
Page 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 
11 
3.4. Expérimentations 
Corpus : Cen 
Méthode Précision F-mesure DERate Temps de calcul 
MABED 0,775 0,682 0,193 96s 
↵-MABED 0,625 0,571 0,160 126s 
ET 0,575 0,575 0 3480s 
TS2 0,600 0,514 0,250 80s 
TS3 0,375 0,281 0,4 82s 
Corpus : Cf r 
Méthode Précision F-mesure DERate Temps de calcul 
MABED 0,825 0,825 0 88s 
↵-MABED 0,725 0,712 0,025 113s 
ET 0,700 0.674 0,071 4620s 
TS2 0,725 0,671 0,138 69s 
TS3 0,700 0,616 0,214 74s 
TABLE 3.4 – Performances des cinq méthodes sur les deux corpus. 
3.4. Expérimentations 
Corpus : Cen 
Méthode Précision F-mesure DERate Temps de calcul 
MABED 0,775 0,682 0,193 96s 
↵-MABED 0,625 0,571 0,160 126s 
ET 0,575 0,575 0 3480s 
TS2 0,600 0,514 0,250 80s 
TS3 0,375 0,281 0,4 82s 
Corpus : Cf r 
Méthode Précision F-mesure DERate Temps de calcul 
MABED 0,825 0,825 0 88s 
↵-MABED 0,725 0,712 0,025 113s 
ET 0,700 0.674 0,071 4620s 
TS2 0,725 0,671 0,138 69s 
TS3 0,700 0,616 0,214 74s 
TABLE 3.4 – Performances des cinq méthodes sur les deux corpus. 
compte le comportement des utilisateurs des médias sociaux en matière de création 
de mentions permet une détection plus robuste des évènements à partir d’un flux tweets bruité. Le DERate révèle que MABED n’a dédoublé aucun évènement signifi-catif 
parmi ceux détectés dans Cf r, mais que – en dépit de la gestion explicite de redondance par le troisième composant – 6 (DERate = 0, 193) des 31 (P = 0, 775) 
évènements significatifs détectés dans Cen sont redondants. Ce DERate reste toutefois
Laboratoire ERIC 
Université Lumière Lyon 2 
Détecter les évènements 
Expérimentations 
 D 
 D 
• Évaluation qualitative 
• Extrait de la liste d’évènements détectés par MABED dans Cen 
Page 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
NQ[[EK • Graphe des redondances Graphe des évènements 
Évènement #8 
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 
12 
# Intervalle Thématique 
1 du 25 09h30 thanksgiving, turkey : hope (0.72), happy (0.71) 
au 28 06h30 Les twittos célèbrent Thanksgiving 
2 du 25 09h30 thankful : happy (0.77), thanksgiving (0.71) 
au 27 09h00 Lié à l’évènement # 1 
3 du 10 16h00 veterans : served (0.80), country (0.78), military (0.73), happy (0.72) 
au 12 08h00 Commémoration du 11 novembre, « Veterans Day » 
4 du 26 13h00 black : friday (0.95), amazon (0.75) 
au 28 10h30 Les twittos discutent des offres proposées par Amazon la veille du « Black Friday » 
5 du 07 13h30 hcr, bill, health, house, vote : reform (0.92), passed (0.91), passes (0.88) 
au 09 04h30 La Chambre des représentants des États-Unis adopte la réforme de santé 
6 du 05 19h30 hood, fort : ft (0.92), shooting (0.83), news (0.78), army (0.75), forthood (0.73) 
au 08 09h00 Une fusillade a lieu dans l’enceinte de la base militaire américaine de Fort Hood 
7 du 19 04h30 chrome : os (0.95), google (0.87), desktop (0.71) 
au 21 02h30 Google rend public le code source de Chrome OS pour PC 
8 du 27 18h00 tiger, woods : accident (0.91), car (0.88), crash (0.88), injured (0.80) 
au 29 05h00 Tiger Woods est victime d’un accident de la route 
9 du 28 22h30 tweetie, 2.1, app : retweets (0.93), store (0.90), native (0.89), geotagging (0.88) 
au 30 23h30 L’application Tweetie sort sur l’apple store et inclut de nouvelles fonctions, e.g. retweets 
10 du 29 17h00 monday, cyber : deals (0.84), pro (0.75) 
au 30 23h30 Les twittos partagent les offres commerciales high-tech du « Cyber Monday » 
11 du 10 01h00 linkedin : synced (0.86), updates (0.84), status (0.83), twitter (0.71) 
au 12 03h00 Linkedin permet à ses utilisateurs de synchroniser leurs statuts avec Twitter 
12 du 04 17h00 yankees, series : win (0.84), won (0.84), fans (0.78), phillies (0.73), york (0.72) 
au 06 05h30 Les Yankees, l’équipe de baseball de New York remporte laWorld Series face aux Philies 
13 du 15 09h00 obama : chinese (0.75), barack (0.72), twitter (0.72), china (0.70) 
au 17 23h30 Lors d’une visite en Chine, Barack Obama admet n’avoir jamais utilisé Twitter 
14 du 25 10h00 holiday : shopping (0.72) 
au 26 10h00 Les twittos réagissent par rapport au « Black Friday », un jour férié dédié au shopping 
15 du 19 21h30 oprah, end : talk (0.81), show (0.79), 2011 (0.73), winfrey (0.71) 
au 21 16h00 Oprah Winfrey annonce la fin de son talk-show en septembre 2011 
16 du 07 11h30 healthcare, reform : house (0.91), bill (0.88), passes (0.83), vote (0.83) 
au 09 05h00 Lié à l’évènement #5 
17 du 11 03h30 facebook : app (0.74), twitter (0.73) 
au 13 08h30 Pas d’évènement correspondant 
XGPNQ 
ÃÁÁÈ 
XGPNQ 
ZjgQEIGIh 
E]]EEkgI[EIh 
 
 
 
XGPNQ 
NQ[[EK 
q 
!O 
EZdO[I 
NQ[[EK 
Q 
Q 
hgX]vs 
EdQjY 
!Ç 
Q[pQjK 
q 
dd jqIIjQI 
Р
P]]G N]gj 
Z][Gs EsDIg jQOIg q]]Gh 
EEQGI[j jQOIg 
q]]Gh 
EghP 
Eg 
gdPIGIhgIG][G[EIh gdPIGIhKpJ[IZI[jh 
p[jNkhQ][ 
EEQGI[j jQOIg 
q]]Gh 
EghP 
Q[WkgIG 
NQ[[EK XGPNQ 
ÃÁÁÈ 
XGPNQ 
ZjgQEIGIh 
E]]EEkgI[EIh 
 
 
 
XGPNQ 
NQ[[EK 
q 
!O 
EZdO[I 
NQ[[EK 
Q 
Q 
hgX]vs 
EdQjY 
!Ç 
Q[pQjK 
q 
dd jqIIjQI 
Р
P]]G N]gj 
Z][Gs EsDIg jQOIg q]]Gh 
EEQGI[j jQOIg 
q]]Gh 
EghP 
Eg 
gdPIGIhgIG][G[EIh gdPIGIhKpJ[IZI[jh 
p[jNkhQ][ 
EEQGI[j jQOIg 
q]]Gh 
EghP 
Eg 
Q[WkgIG
Laboratoire ERIC 
Université Lumière Lyon 2 
Détecter les évènements 
Expérimentations 
 D 
 D 
• Évaluation qualitative 
• Extrait de la liste d’évènements détectés par MABED dans Cen 
Page 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
NQ[[EK • Graphe des redondances Graphe des évènements 
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 
12 
# Intervalle Thématique 
1 du 25 09h30 thanksgiving, turkey : hope (0.72), happy (0.71) 
au 28 06h30 Les twittos célèbrent Thanksgiving 
2 du 25 09h30 thankful : happy (0.77), thanksgiving (0.71) 
au 27 09h00 Lié à l’évènement # 1 
3 du 10 16h00 veterans : served (0.80), country (0.78), military (0.73), happy (0.72) 
au 12 08h00 Commémoration du 11 novembre, « Veterans Day » 
4 du 26 13h00 black : friday (0.95), amazon (0.75) 
au 28 10h30 Les twittos discutent des offres proposées par Amazon la veille du « Black Friday » 
5 du 07 13h30 hcr, bill, health, house, vote : reform (0.92), passed (0.91), passes (0.88) 
au 09 04h30 La Chambre des représentants des États-Unis adopte la réforme de santé 
6 du 05 19h30 hood, fort : ft (0.92), shooting (0.83), news (0.78), army (0.75), forthood (0.73) 
au 08 09h00 Une fusillade a lieu dans l’enceinte de la base militaire américaine de Fort Hood 
7 du 19 04h30 chrome : os (0.95), google (0.87), desktop (0.71) 
au 21 02h30 Google rend public le code source de Chrome OS pour PC 
8 du 27 18h00 tiger, woods : accident (0.91), car (0.88), crash (0.88), injured (0.80) 
au 29 05h00 Tiger Woods est victime d’un accident de la route 
9 du 28 22h30 tweetie, 2.1, app : retweets (0.93), store (0.90), native (0.89), geotagging (0.88) 
au 30 23h30 L’application Tweetie sort sur l’apple store et inclut de nouvelles fonctions, e.g. retweets 
10 du 29 17h00 monday, cyber : deals (0.84), pro (0.75) 
au 30 23h30 Les twittos partagent les offres commerciales high-tech du « Cyber Monday » 
11 du 10 01h00 linkedin : synced (0.86), updates (0.84), status (0.83), twitter (0.71) 
au 12 03h00 Linkedin permet à ses utilisateurs de synchroniser leurs statuts avec Twitter 
12 du 04 17h00 yankees, series : win (0.84), won (0.84), fans (0.78), phillies (0.73), york (0.72) 
au 06 05h30 Les Yankees, l’équipe de baseball de New York remporte laWorld Series face aux Philies 
13 du 15 09h00 obama : chinese (0.75), barack (0.72), twitter (0.72), china (0.70) 
au 17 23h30 Lors d’une visite en Chine, Barack Obama admet n’avoir jamais utilisé Twitter 
14 du 25 10h00 holiday : shopping (0.72) 
au 26 10h00 Les twittos réagissent par rapport au « Black Friday », un jour férié dédié au shopping 
15 du 19 21h30 oprah, end : talk (0.81), show (0.79), 2011 (0.73), winfrey (0.71) 
au 21 16h00 Oprah Winfrey annonce la fin de son talk-show en septembre 2011 
16 du 07 11h30 healthcare, reform : house (0.91), bill (0.88), passes (0.83), vote (0.83) 
au 09 05h00 Lié à l’évènement #5 
17 du 11 03h30 facebook : app (0.74), twitter (0.73) 
au 13 08h30 Pas d’évènement correspondant 
XGPNQ 
ÃÁÁÈ 
XGPNQ 
ZjgQEIGIh 
E]]EEkgI[EIh 
 
 
 
XGPNQ 
NQ[[EK 
q 
!O 
EZdO[I 
NQ[[EK 
Q 
Q 
hgX]vs 
EdQjY 
!Ç 
Q[pQjK 
q 
dd jqIIjQI 
Р
P]]G N]gj 
Z][Gs EsDIg jQOIg q]]Gh 
EEQGI[j jQOIg 
q]]Gh 
EghP 
Eg 
gdPIGIhgIG][G[EIh gdPIGIhKpJ[IZI[jh 
p[jNkhQ][ 
EEQGI[j jQOIg 
q]]Gh 
EghP 
Eg 
Q[WkgIG 
NQ[[EK XGPNQ 
ÃÁÁÈ 
XGPNQ 
ZjgQEIGIh 
E]]EEkgI[EIh 
 
 
 
XGPNQ 
NQ[[EK 
q 
!O 
EZdO[I 
NQ[[EK 
Q 
Q 
hgX]vs 
EdQjY 
!Ç 
Q[pQjK 
q 
dd jqIIjQI 
Р
P]]G N]gj 
Z][Gs EsDIg jQOIg q]]Gh 
EEQGI[j jQOIg 
q]]Gh 
EghP 
Eg 
gdPIGIhgIG][G[EIh gdPIGIhKpJ[IZI[jh 
p[jNkhQ][ 
EEQGI[j jQOIg 
q]]Gh 
EghP 
Eg 
Q[WkgIG 
jQOIg 
EEQGI[j q]]Gh 
q]]Gh 
EghP 
gdPIGIhKpJ[IZI[jh 
dgJhNkhQ][ 
Évènement #8
Laboratoire ERIC 
Université Lumière Lyon 2 
Détecter les évènements 
Expérimentations 
 D 
• Évaluation qualitative 
• Extrait de la liste d’évènements détectés par MABED dans Cen 
Page 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
NQ[[EK • Graphe des redondances Graphe des évènements 
Évènement #8 
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 
12 
# Intervalle Thématique 
1 du 25 09h30 thanksgiving, turkey : hope (0.72), happy (0.71) 
au 28 06h30 Les twittos célèbrent Thanksgiving 
2 du 25 09h30 thankful : happy (0.77), thanksgiving (0.71) 
au 27 09h00 Lié à l’évènement # 1 
3 du 10 16h00 veterans : served (0.80), country (0.78), military (0.73), happy (0.72) 
au 12 08h00 Commémoration du 11 novembre, « Veterans Day » 
4 du 26 13h00 black : friday (0.95), amazon (0.75) 
au 28 10h30 Les twittos discutent des offres proposées par Amazon la veille du « Black Friday » 
5 du 07 13h30 hcr, bill, health, house, vote : reform (0.92), passed (0.91), passes (0.88) 
au 09 04h30 La Chambre des représentants des États-Unis adopte la réforme de santé 
6 du 05 19h30 hood, fort : ft (0.92), shooting (0.83), news (0.78), army (0.75), forthood (0.73) 
au 08 09h00 Une fusillade a lieu dans l’enceinte de la base militaire américaine de Fort Hood 
7 du 19 04h30 chrome : os (0.95), google (0.87), desktop (0.71) 
au 21 02h30 Google rend public le code source de Chrome OS pour PC 
8 du 27 18h00 tiger, woods : accident (0.91), car (0.88), crash (0.88), injured (0.80) 
au 29 05h00 Tiger Woods est victime d’un accident de la route 
9 du 28 22h30 tweetie, 2.1, app : retweets (0.93), store (0.90), native (0.89), geotagging (0.88) 
au 30 23h30 L’application Tweetie sort sur l’apple store et inclut de nouvelles fonctions, e.g. retweets 
10 du 29 17h00 monday, cyber : deals (0.84), pro (0.75) 
au 30 23h30 Les twittos partagent les offres commerciales high-tech du « Cyber Monday » 
11 du 10 01h00 linkedin : synced (0.86), updates (0.84), status (0.83), twitter (0.71) 
au 12 03h00 Linkedin permet à ses utilisateurs de synchroniser leurs statuts avec Twitter 
12 du 04 17h00 yankees, series : win (0.84), won (0.84), fans (0.78), phillies (0.73), york (0.72) 
au 06 05h30 Les Yankees, l’équipe de baseball de New York remporte laWorld Series face aux Philies 
13 du 15 09h00 obama : chinese (0.75), barack (0.72), twitter (0.72), china (0.70) 
au 17 23h30 Lors d’une visite en Chine, Barack Obama admet n’avoir jamais utilisé Twitter 
14 du 25 10h00 holiday : shopping (0.72) 
au 26 10h00 Les twittos réagissent par rapport au « Black Friday », un jour férié dédié au shopping 
15 du 19 21h30 oprah, end : talk (0.81), show (0.79), 2011 (0.73), winfrey (0.71) 
au 21 16h00 Oprah Winfrey annonce la fin de son talk-show en septembre 2011 
16 du 07 11h30 healthcare, reform : house (0.91), bill (0.88), passes (0.83), vote (0.83) 
au 09 05h00 Lié à l’évènement #5 
17 du 11 03h30 facebook : app (0.74), twitter (0.73) 
au 13 08h30 Pas d’évènement correspondant 
XGPNQ 
ÃÁÁÈ 
XGPNQ 
ZjgQEIGIh 
E]]EEkgI[EIh 
 
 
 
XGPNQ 
NQ[[EK 
q 
!O 
EZdO[I 
NQ[[EK 
Q 
Q 
hgX]vs 
EdQjY 
!Ç 
Q[pQjK 
q 
dd jqIIjQI 
Р
P]]G N]gj 
Z][Gs EsDIg jQOIg q]]Gh 
EEQGI[j jQOIg 
q]]Gh 
EghP 
Eg 
gdPIGIhgIG][G[EIh gdPIGIhKpJ[IZI[jh 
p[jNkhQ][ 
EEQGI[j jQOIg 
q]]Gh 
EghP 
Eg 
Q[WkgIG
Laboratoire ERIC 
Université Lumière Lyon 2 
Détecter les évènements 
Expérimentations 
 D 
 D 
• Évaluation qualitative 
• Extrait de la liste d’évènements détectés par MABED dans Cen 
Page 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
NQ[[EK • Graphe des redondances Graphe des évènements 
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 
12 
# Intervalle Thématique 
1 du 25 09h30 thanksgiving, turkey : hope (0.72), happy (0.71) 
au 28 06h30 Les twittos célèbrent Thanksgiving 
2 du 25 09h30 thankful : happy (0.77), thanksgiving (0.71) 
au 27 09h00 Lié à l’évènement # 1 
3 du 10 16h00 veterans : served (0.80), country (0.78), military (0.73), happy (0.72) 
au 12 08h00 Commémoration du 11 novembre, « Veterans Day » 
4 du 26 13h00 black : friday (0.95), amazon (0.75) 
au 28 10h30 Les twittos discutent des offres proposées par Amazon la veille du « Black Friday » 
5 du 07 13h30 hcr, bill, health, house, vote : reform (0.92), passed (0.91), passes (0.88) 
au 09 04h30 La Chambre des représentants des États-Unis adopte la réforme de santé 
6 du 05 19h30 hood, fort : ft (0.92), shooting (0.83), news (0.78), army (0.75), forthood (0.73) 
au 08 09h00 Une fusillade a lieu dans l’enceinte de la base militaire américaine de Fort Hood 
7 du 19 04h30 chrome : os (0.95), google (0.87), desktop (0.71) 
au 21 02h30 Google rend public le code source de Chrome OS pour PC 
8 du 27 18h00 tiger, woods : accident (0.91), car (0.88), crash (0.88), injured (0.80) 
au 29 05h00 Tiger Woods est victime d’un accident de la route 
9 du 28 22h30 tweetie, 2.1, app : retweets (0.93), store (0.90), native (0.89), geotagging (0.88) 
au 30 23h30 L’application Tweetie sort sur l’apple store et inclut de nouvelles fonctions, e.g. retweets 
10 du 29 17h00 monday, cyber : deals (0.84), pro (0.75) 
au 30 23h30 Les twittos partagent les offres commerciales high-tech du « Cyber Monday » 
11 du 10 01h00 linkedin : synced (0.86), updates (0.84), status (0.83), twitter (0.71) 
au 12 03h00 Linkedin permet à ses utilisateurs de synchroniser leurs statuts avec Twitter 
12 du 04 17h00 yankees, series : win (0.84), won (0.84), fans (0.78), phillies (0.73), york (0.72) 
au 06 05h30 Les Yankees, l’équipe de baseball de New York remporte laWorld Series face aux Philies 
13 du 15 09h00 obama : chinese (0.75), barack (0.72), twitter (0.72), china (0.70) 
au 17 23h30 Lors d’une visite en Chine, Barack Obama admet n’avoir jamais utilisé Twitter 
14 du 25 10h00 holiday : shopping (0.72) 
au 26 10h00 Les twittos réagissent par rapport au « Black Friday », un jour férié dédié au shopping 
15 du 19 21h30 oprah, end : talk (0.81), show (0.79), 2011 (0.73), winfrey (0.71) 
au 21 16h00 Oprah Winfrey annonce la fin de son talk-show en septembre 2011 
16 du 07 11h30 healthcare, reform : house (0.91), bill (0.88), passes (0.83), vote (0.83) 
au 09 05h00 Lié à l’évènement #5 
17 du 11 03h30 facebook : app (0.74), twitter (0.73) 
au 13 08h30 Pas d’évènement correspondant 
XGPNQ 
ÃÁÁÈ 
XGPNQ 
ZjgQEIGIh 
E]]EEkgI[EIh 
 
 
 
XGPNQ 
NQ[[EK 
q 
!O 
EZdO[I 
NQ[[EK 
Q 
Q 
hgX]vs 
EdQjY 
!Ç 
Q[pQjK 
q 
dd jqIIjQI 
Р
P]]G N]gj 
Z][Gs EsDIg jQOIg q]]Gh 
EEQGI[j jQOIg 
q]]Gh 
EghP 
Eg 
gdPIGIhgIG][G[EIh gdPIGIhKpJ[IZI[jh 
p[jNkhQ][ 
EEQGI[j jQOIg 
q]]Gh 
EghP 
Eg 
Q[WkgIG 
XGPNQ 
ÃÁÁÈ 
 
XGPNQ 
NQ[[EK 
q 
!O 
EZdO[I 
Q 
Q 
hgX]vs 
EdQjY 
!Ç 
Q[pQjK 
q 
N]gj 
EEQGI[j jQOIg 
q]]Gh 
EghP 
Eg 
gdPIGIhKpJ[IZI[jh 
p[jNkhQ][ 
EEQGI[j jQOIg 
q]]Gh 
EghP 
Eg 
Q[WkgIG 
jQOIg 
EEQGI[j q]]Gh 
q]]Gh 
EghP 
Eg 
gdPIGIhKpJ[IZI[jh 
dgJhNkhQ][ 
Q[WkgIG 
Évènement #8
Laboratoire ERIC 
Université Lumière Lyon 2 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
Seconde contribution 
Modéliser et prévoir la 
diffusion de l’information 
dans les médias sociaux 
Soutenance de thèse - 25 novembre 2014 Adrien Guille
Laboratoire ERIC 
Université Lumière Lyon 2 
Modéliser et prévoir la diffusion 
Introduction 
• Comment modéliser et prévoir la diffusion de l’information dans les 
médias sociaux ? 
• Tâche ardue en raison de l’intrication entre 
• Les dynamiques humaines 
• Les structures sociales 
• On en sait encore peu à propos des facteurs qui gouvernent la diffusion de 
Page 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
l’information 
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 
14 
™ 
?
Laboratoire ERIC 
Université Lumière Lyon 2 
Modéliser et prévoir la diffusion 
État de l’art et proposition 
• Approches existantes 
• Modélisation ignorant la structure du réseau [Leskovec07, Yang10, Wang12] 
• Modélisation basée sur la structure du réseau [Saito10, Galuba10, Motoda11] 
• Limitations des approches existantes 
• Perte d’information en ignorant la structure du réseau [Katona11] 
• Estimation coûteuse des paramètres des modèles basés sur le réseau 
• Modèles prédictifs mais pas explicatifs 
• Proposition 
• Modèle basé sur la structure du réseau 
• Formulation des paramètres comme des fonctions de caractéristiques observables 
Page 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
des utilisateurs 
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 
15
Laboratoire ERIC 
Université Lumière Lyon 2 
Modéliser et prévoir la diffusion 
Méthode proposée 
• T-BASIC : Time-Based ASynchronous Independent Cascades 
• Entrée 
• Structure du réseau 
• Activité passée des utilisateurs 
• Thématique à étudier 
Page 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
• Décrite par un mot principal et un 
dÂÃ¥j¦ 
d¥j¦ dÃÄ¥j¦ ÄÂ 
IhjIrd]hK= 
 
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 
16 
ensemble de mots liés 
• Ensemble d’utilisateurs initiant la 
diffusion de la thématique 
• Sortie 
• Série temporelle traduisant l’évolution 
du nombre d’utilisateurs relayant 
l’information décrite par la thématique 
kà 
kÄ 
ˆÂà 
ˆÄà 
ˆÄ 
ˆÃÄ 
dÄÃ¥j¦ 
hjQZIgYIh 
dg]DDQYQjKhGI 
GQNNkhQ][IjYIh 
GKYQhGI 
jg[hZQhhQ][ 
/ 
jIZdh 
Q[NYkI[EK 
YKOI[GI 
YKOI[GI 
j 
k 
+gKp]QgY 
GQNNkhQ][=dgjQg 
G’k[I[hIZDYI/ 
G’kjQYQhjIkgh 
Q[QjQYIZI[j 
Q[N]gZKh 
.
/+.!0./ 
 
+.6/$ 1/$
Laboratoire ERIC 
Université Lumière Lyon 2 
Modéliser et prévoir la diffusion 
Méthode proposée 
• T-BASIC : Time-Based ASynchronous Independent Cascades 
• Entrée 
• Structure du réseau 
• Activité passée des utilisateurs 
• Thématique à étudier 
Page 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
• Décrite par un mot principal et un 
dÂÃ¥j¦ 
d¥j¦ dÃÄ¥j¦ ÄÂ 
IhjIrd]hK= 
 
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 
16 
ensemble de mots liés 
• Ensemble d’utilisateurs initiant la 
diffusion de la thématique 
• Sortie 
• Série temporelle traduisant l’évolution 
du nombre d’utilisateurs relayant 
l’information décrite par la thématique 
kà 
kÄ 
ˆÂà 
ˆÄà 
ˆÄ 
ˆÃÄ 
dÄÃ¥j¦ 
hjQZIgYIh 
dg]DDQYQjKhGI 
GQNNkhQ][IjYIh 
GKYQhGI 
jg[hZQhhQ][ 
/ 
jIZdh 
Q[NYkI[EK 
YKOI[GI 
YKOI[GI 
j 
k 
+gKp]QgY 
GQNNkhQ][=dgjQg 
G’k[I[hIZDYI/ 
G’kjQYQhjIkgh 
Q[QjQYIZI[j 
Q[N]gZKh 
.
/+.!0./ 
 
+.6/$ 1/$
Laboratoire ERIC 
Université Lumière Lyon 2 
Modéliser et prévoir la diffusion 
Méthode proposée : description du modèle 
• Modèle probabiliste 
• Extension du modèle AsIC [Saito10] 
• Deux paramètres pour chaque lien (ux →uy) 
• pux,uy(t) ∈ [0;1] : probabilité que l’utilisateur uy 
• Déroulement de la prévision 
• Ensemble S d’utilisateurs initialement activés 
• Un utilisateur uy nouvellement activé à l’instant t 
Page 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
influence ux à l’instant t 
• μux,uy  0 : délai après lequel ux publie un message 
si uy l’a influencé 
influence ses voisins inactifs ux avec la probabilité 
pux,uy(t) 
• En cas de succès, ux devient actif en t+μux,uy 
dÂÃ¥j¦ 
dÂÃ¥j¦ 
d¥j¦ dÃÄ¥j¦ ÄÂ 
d¥j¦ dÃÄ¥j¦ ÄÂ 
IhjIrd]hK= 
IhjIrd]hK= 
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 
17 
kà 
kÄ 
ˆÂà 
ˆÄà 
ˆÄ 
ˆÃÄ 
dÄÃ¥j¦ 
/ 
jIZdh 
Q[NYkI[EK 
YKOI[GI 
YKOI[GI 
j 
k 
kà 
kÄ 
ˆÂà 
ˆÄà 
ˆÄ 
ˆÃÄ 
dÄÃ¥j¦ 
/ 
jIZdh 
Q[NYkI[EK 
YKOI[GI 
YKOI[GI 
j 
kÂ
pux,— Deuxièmement, l’utilisateur uz est exposé aux messages publiés par uy, c’est-à- 
Laboratoire ERIC 
Université Lumière Lyon 2 
dire qu’il n’apparaît pas dans la séquence d’activation ; 
instance positive : (vt y 
dire qu’il appartient à l’ensemble  uy, l’ensemble des voisins entrants de uy 
dans G. 
Modéliser et prévoir la diffusion 
Méthode proposée : estimation des paramètres 
• Caractérisation des paires d’utilisateurs 
Ainsi, pour un utilisateur uz satisfaisant ces conditions, nous construisons une ins-tance 
négative : (vt y 
, 0). Au final, nous obtenons un jeu de données équilibré à 
uz,uy4.3. Méthode proposée 
partir duquel nous pouvons estimer la fonction f . La figure 4.6 illustre ce processus : 
les noeuds u1, u2 et u3 ont relayé l’information décrite par une thématique T respec-tivement 
4.3. Méthode proposée 
4.3. Méthode 4.3. Méthode proposée 
FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(particulièrement, nous définissons g de la façon suivante, de sorte que transmission minimum soit d’une heure : 
yi = 1, nous créons l’instance suivante (Ac(ux),ux,uy), où ux,uy est délai de transmission entre uy et ux exprimé en heures. Autrement dit, pour 
chaque paire d’utilisateurs (ux,uy) identifiée lors de la construction du jeu • Vecteur v de en 13 t1, attributs t2 et t3, tandis ∈ [0;que 1] les : aspects noeuds u4 sociaux, et u5 n’ont thématiques pas relayé l’information. 
et temporels 
• Formulation Estimation et estimation des paramètres des de paramètres 
f. Nous définissons la probabilité pux,uy(t) – la 
• probabilité que l’utilisateur uy influence ux à un instant t à propos d’une théma-tique 
Probabilité de diffusion : fonction sigmoïde d’une combinaison linéaire de v 
donnée – comme une fonction du vecteur d’attributs les décrivant, c’est-à-dire : 
FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la fonction f . 
FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la fonction degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). particulièrement, nous définissons g de la façon suivante, de sorte que le délai transmission minimum soit d’une heure : 
• Maximisation de la vraisemblance 
degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). Plus 
particulièrement, nous définissons g de la façon suivante, de sorte que le délai de 
transmission minimum soit d’une heure : 
linéaire construit à partir de la fonction f . 
• Délai de transmission : fonction du degré d’activité de ux 
c’est-à-dire : μux,uy = g(Ac(ux)). Plus 
façon suivante, de sorte que le délai de 
Page 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
g(Ac(ux)) = 
( 
( 
w0 g(+ w1Ac(ux) si w0 ux)) + w1Ac(ux)  1, 
Ac(1 = 
sinon. 
( 
w0 + w1Ac(si ux) w0 + si w1Ac(w0 + ux) w1Ac( 1, 
ux)  1, 
1 sinon. 
g(Ac(ux)) = 
1 sinon. 
Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé 
Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé 
Pour estimer les paramètres w0 et w1, nous construisons un jeu de données de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites variables • Minimisation du critère des moindres carrés 
bw = argmin 
de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux 
variables (xi , zi), selon le principe suivant : 
de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux 
variables (xi , zi), (selon xi , zi), le selon principe le principe suivant suivant : 
: 
g( g( 
yi = 1, nous créons l’instance suivante (Ac(ux),ux,uy), où délai de transmission entre uy et ux exprimé en heures. Autrement chaque paire d’utilisateurs (ux,uy) identifiée lors de la construction — Pour chaque instance (vi , yi) de D décrite par un vecteur vi = vux,uy et telle 
— Pour chaque instance (vi , yi) de D décrite par un vecteur vi = vux,uy et que — Pour chaque instance (vi , yi) de D décrite par un vecteur vi = vux,que / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 
18 
uy(t) = f (vt 
ux,uy). Comme nous souhaitons que cette fonction soit interprétable et 
nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion, 
nous proposons d’exprimer f comme une fonction monotone à valeurs dans 
[0; 1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme 
P13 
w0 + 
j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions 
le vecteur v de sorte à avoir v0 = 1, ce qui nous permet de la ré-écrire comme 
le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients 
w permet de quantifier l’impact, négatif ou positif, des différents attributs sur 
la probabilité de diffusion de l’information entre deux utilisateurs. Plusieurs formes 
paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la 
fonction sigmoïde et définissons donc f de la manière suivante : 
f (v) = 
exp(w · v) 
1+exp(w · v) 
. 
110 
pux,uy(t) = f (vt 
ux,uy). Comme nous souhaitons que cette fonction soit interprétable et 
nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion, 
nous proposons d’exprimer f comme une fonction monotone à valeurs dans 
[0; 1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme 
P13 
w0 + 
j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions 
le vecteur v de sorte à avoir v0 = 1, ce qui nous permet de la ré-écrire comme 
le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients 
w permet de quantifier l’impact, négatif ou positif, des différents attributs sur 
la probabilité de diffusion de l’information entre deux utilisateurs. Plusieurs formes 
paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la 
fonction sigmoïde et définissons donc f de la manière suivante : 
f (v) = 
exp(w · v) 
1+exp(w · v) 
. 
bw = argmax 
w 
L(D,wwb),= argmax 
w 
`(D,w). 
4.3. Méthode proposée 
FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la fonction f . 
degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). Plus 
particulièrement, nous définissons g de la façon suivante, de sorte que le délai de 
transmission minimum soit d’une heure : 
ux)) = 
( 
w0 + w1Ac(ux) si w0 + w1Ac(ux)  1, 
1 sinon. 
Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé 
de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux 
variables (xi , zi), selon le principe suivant : 
— Pour chaque instance (vi , yi) de D décrite par un vecteur vi = vux,uy et telle 
que yi = 1, nous créons l’instance suivante (Ac(ux),uy), où est le 
ux) si w0 + w1Ac(ux)  1, 
sinon. 
w0,w1 
Xm 
i=1 
(zi − w0 − w1xi)2. 
ux,uy, 1). Les valeurs des attributs Re(ux) et Re(uy) – qui me-surent 
la réceptivité des utilisateurs – sont mesurées en t y, c’est-à-dire au moment 
de la journée où uy a relayé l’information. Les attributs Th(ux) et Th(uy) sont quant 
à eux évalués pour le terme principal de la thématique T. Par ailleurs, pour chaque 
paire (ux,uy) identifiée à partir de la séquence d’activation liée à la thématique T, 
nous choisissons un utilisateur uz, tel que : 
— Premièrement, l’utilisateur uz n’a pas relayé l’information décrite par T, c’est-à- 
dire qu’il n’apparaît pas dans la séquence d’activation ; 
— Deuxièmement, l’utilisateur uz est exposé aux messages publiés par uy, c’est-à- 
dire qu’il appartient à l’ensemble  uy, l’ensemble des voisins entrants de uy 
dans G. 
Ainsi, pour un utilisateur uz satisfaisant ces conditions, nous construisons une ins-tance 
négative : (vt y 
uz,uy, 0). Au final, nous obtenons un jeu de données équilibré à 
partir duquel nous pouvons estimer la fonction f . La figure 4.6 illustre ce processus : 
les noeuds u1, u2 et u3 ont relayé l’information décrite par une thématique T respec-tivement 
en t1, t2 et t3, tandis que les noeuds u4 et u5 n’ont pas relayé l’information. 
Estimation des paramètres de f. Nous définissons la probabilité pux,uy(t) – la 
probabilité que l’utilisateur uy influence ux à un instant t à propos d’une théma-tique 
donnée – comme une fonction du vecteur d’attributs les décrivant, c’est-à-dire : 
pux,uy(t) = f (vt 
ux,uy). Comme nous souhaitons que cette fonction soit interprétable et 
nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion, 
nous proposons d’exprimer f comme une fonction monotone à valeurs dans 
[0; 1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme 
P13 
w0 + 
j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions 
le vecteur v de sorte à avoir v0 = 1, ce qui nous permet de la ré-écrire comme 
le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients 
w permet de quantifier l’impact, négatif ou positif, des différents attributs sur 
la probabilité de diffusion de l’information entre deux utilisateurs. Plusieurs formes 
paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la 
fonction sigmoïde et définissons donc f de la manière suivante : 
f (v) = 
exp(w · v) 
1+exp(w · v) 
. 
110 
4.3. Méthode proposée 
instance positive : (vt y 
ux,uy, 1). Les valeurs des attributs Re(ux) et Re(uy) – qui me-surent 
la réceptivité des utilisateurs – sont mesurées en t y, c’est-à-dire au moment 
de la journée où uy a relayé l’information. Les attributs Th(ux) et Th(uy) sont quant 
à eux évalués pour le terme principal de la thématique T. Par ailleurs, pour chaque 
paire (ux,uy) identifiée à partir de la séquence d’activation liée à la thématique T, 
nous choisissons un utilisateur uz, tel que : 
— Premièrement, l’utilisateur uz n’a pas relayé l’information décrite par T, c’est-à- 
dire qu’il n’apparaît pas dans la séquence d’activation ; 
— Deuxièmement, l’utilisateur uz est exposé aux messages publiés par uy, c’est-à- 
dire qu’il appartient à l’ensemble  uy, l’ensemble des voisins entrants de uy 
dans G. 
Ainsi, pour un utilisateur uz satisfaisant ces conditions, nous construisons une ins-tance 
négative : (vt y 
uz,uy, 0). Au final, nous obtenons un jeu de données équilibré à 
partir duquel nous pouvons estimer la fonction f . La figure 4.6 illustre ce processus : 
les noeuds u1, u2 et u3 ont relayé l’information décrite par une thématique T respec-tivement 
en t1, t2 et t3, tandis que les noeuds u4 et u5 n’ont pas relayé l’information. 
Estimation des paramètres de f. Nous définissons la probabilité pux,uy(t) – la 
probabilité que l’utilisateur uy influence ux à un instant t à propos d’une théma-tique 
donnée – comme une fonction du vecteur d’attributs les décrivant, c’est-à-dire : 
pux,uy(t) = f (vt 
ux,uy). Comme nous souhaitons que cette fonction soit interprétable et 
nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion, 
nous proposons d’exprimer f comme une fonction monotone à valeurs dans 
[0; 1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme 
P13 
w0 + 
j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions 
le vecteur v de sorte à avoir v0 = 1, ce qui nous permet la ré-écrire comme 
le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients 
w permet de quantifier l’impact, négatif ou positif, des différents attributs sur 
la probabilité de diffusion de l’information entre deux utilisateurs. Plusieurs formes 
paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la 
fonction sigmoïde et définissons donc f de la manière suivante : 
f (v) = 
exp(w · v) 
1+exp(w · v) 
. 
110 
) = f ) = f ) = f 
f ( f ( 
4.3. Méthode proposée 
FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la fonction f . 
degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). Plus 
particulièrement, nous définissons g de la façon suivante, de sorte que le délai de 
transmission minimum soit d’une heure : 
g(Ac(ux)) = 
( 
w0 + w1Ac(ux) si w0 + w1Ac(ux)  1, 
1 sinon. 
Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé 
de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux 
variables (xi , zi), selon le principe suivant : 
— Pour chaque instance (vi , yi) de D décrite par un vecteur vi = vux,uy et telle 
que yi = 1, nous créons l’instance suivante (Ac(ux),ux,uy), où ux,uy est le 
délai de transmission entre uy et ux exprimé en heures. Autrement dit, pour 
chaque paire d’utilisateurs (ux,uy) identifiée lors de la construction du jeu de 
que yi = 1, nous créons l’instance suivante (Ac(ux),ux,uy), où ux,uy est le 
délai de transmission entre uy et ux exprimé en heures. Autrement dit, pour 
chaque paire d’utilisateurs (ux,uy) identifiée lors de la construction du jeu de 
g( g( 
g(
degré d’activité pux,de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). Plus 
particulièrement, nous définissons g de la façon suivante, de sorte que le délai de 
transmission minimum soit d’une heure : 
— Deuxièmement, l’utilisateur uz est exposé aux messages publiés par uy, c’est-à- 
Laboratoire ERIC 
Université Lumière Lyon 2 
dire qu’il n’apparaît pas dans la séquence d’activation ; 
instance positive : (vt y 
ux,uy, 1). Les valeurs des attributs Re(ux) et Re(uy) – qui me-surent 
la réceptivité des utilisateurs – sont mesurées en t y, c’est-à-dire au moment 
dire qu’il appartient à l’ensemble  uy, l’ensemble des voisins entrants de uy 
dans G. 
de la journée où uy a relayé l’information. Les attributs Th(ux) et Th(uy) sont quant 
à eux évalués pour le terme principal de la thématique T. Par ailleurs, pour chaque 
paire (ux,uy) identifiée à partir de la séquence d’activation liée à la thématique T, 
nous choisissons un utilisateur uz, tel que : 
Modéliser et prévoir la diffusion 
Méthode proposée ( 
w0 w1Ac(ux) : estimation + si w0 + w1Ac(ux) des 1, 
paramètres 
 1 sinon. 
• Caractérisation des paires d’utilisateurs 
Ainsi, pour un utilisateur uz satisfaisant ces conditions, nous construisons une ins-tance 
— Premièrement, l’utilisateur uz n’a pas relayé l’information décrite par T, c’est-à- 
négative : (vt y 
, 0). Au final, nous obtenons un jeu de données équilibré à 
uz,uyg(Ac(ux)) = 
4.3. Méthode proposée 
dire qu’il n’apparaît pas dans la séquence d’activation ; 
— Deuxièmement, l’utilisateur uz est exposé aux messages publiés par uy, c’est-à- 
partir duquel nous pouvons estimer la fonction f . La figure 4.6 illustre ce processus : 
les noeuds u1, u2 et u3 ont relayé l’information décrite par une thématique T respec-tivement 
4.3. Méthode proposée 
4.3. Méthode FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(particulièrement, nous définissons g de la façon suivante, de sorte que transmission minimum soit d’une heure : 
yi = 1, nous créons l’instance suivante (Ac(ux),ux,uy), où ux,uy est délai de transmission entre uy et ux exprimé en heures. Autrement dit, pour 
chaque paire d’utilisateurs (ux,uy) identifiée lors de la construction du jeu dire qu’il appartient à l’ensemble  uy, l’ensemble des voisins entrants de uy 
dans G. 
Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé 
D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux 
Ainsi, pour un utilisateur uz satisfaisant ces conditions, nous construisons une ins-tance 
4.3. Méthode proposée 
• Vecteur v de en 13 t1, attributs t2 et t3, tandis ∈ [0;que 1] négative les : aspects noeuds : (vt y 
u4 sociaux, et u5 n’ont thématiques pas relayé l’information. 
et temporels 
• Formulation et estimation des paramètres 
• Probabilité de diffusion : fonction sigmoïde d’une combinaison linéaire de v 
variables (xi , zi), selon le principe suivant : 
uz,uy, 0). Au final, nous obtenons un jeu de données équilibré à 
partir duquel nous pouvons estimer la fonction f . La figure 4.6 illustre ce processus : 
les noeuds u1, u2 et u3 ont relayé l’information décrite par une thématique T respec-tivement 
Estimation des paramètres de f. Nous définissons la probabilité pux,uy(t) – la 
en t1, t2 et t3, tandis que les noeuds u4 et u5 n’ont pas relayé l’information. 
— Pour chaque instance (vi , yi) de D décrite par un vecteur vi = vux,uy et telle 
probabilité que l’utilisateur uy influence ux à un instant t à propos d’une théma-tique 
4.3. Méthode proposée 
4.3. Méthode 4.3. Méthode proposée 
proposée 
yi = 1, nous créons l’instance suivante (Ac(ux),ux,uy), où délai de transmission entre uy et ux exprimé en heures. Autrement chaque paire d’utilisateurs (ux,uy) identifiée lors de la construction Estimation des paramètres de f. Nous définissons la probabilité pux,uy(t) – la 
que yi = 1, nous créons l’instance suivante (Ac(ux),ux,uy), où ux,uy est le 
délai de transmission entre uy et ux exprimé en heures. Autrement dit, pour 
chaque paire d’utilisateurs (ux,uy) identifiée lors de la construction du jeu de 
données D et entre lesquels l’information s’est diffusée (cf. figure 4.6), nous 
créons une instance de D0 décrite par le délai de transmission observé, et le 
degré d’activité de l’utilisateur ux qui a été influencé par uy. 
probabilité que l’utilisateur uy influence ux à un instant t à propos d’une théma-tique 
donnée – comme une fonction du vecteur d’attributs les décrivant, c’est-à-dire : 
FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la fonction f . 
FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la fonction degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). particulièrement, nous définissons g de la façon suivante, de sorte que le délai transmission minimum soit d’une heure : 
degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). Plus 
particulièrement, nous définissons g de la façon suivante, de sorte que le délai de 
transmission minimum soit d’une heure : 
linéaire construit à partir de la fonction f . 
donnée – comme une fonction du vecteur d’attributs les décrivant, c’est-à-dire : 
pux,uy(t) = f (vt 
ux,uy). Comme nous souhaitons que cette fonction soit interprétable et 
nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion, 
nous proposons d’exprimer f comme une fonction monotone à valeurs dans 
[0; 1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme 
P13 
w0 + 
j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions 
le vecteur v de sorte à avoir v0 = 1, ce qui nous permet de la ré-écrire comme 
4.3. Méthode proposée 
4.3. Méthode proposée 
le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients 
w permet de quantifier l’impact, négatif ou positif, des différents attributs sur 
• Délai de transmission : fonction du degré d’activité de ux 
la probabilité de diffusion de l’information entre deux utilisateurs. Plusieurs formes 
paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la 
fonction sigmoïde et définissons donc f de la manière suivante : 
Nous proposons FIGURE d’estimer 4.7 – Représentation les paramètres du classifieur w linéaire = {w0,construit w1} à selon partir de la la méthode fonction f . 
des 
FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la fonction f . 
FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la fonction f . 
( 
( 
w0 + w1Ac(ux) si w0 + w1Ac(ux)  1, 
1 sinon. 
moindres carrés (Cornillon et Matzner-Løber, 2007), i.e. en minimisant la somme des 
c’est-à-dire : Plus 
carrés des différences μux,entre uy les = délais g(Ac(de ux)). transmission observés et les délais prédits, le 
critère façon des moindres suivante, carrés de sorte étant que le suivant le délai : 
de 
Page 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(ux)). Plus 
particulièrement, nous définissons g de la façon suivante, de sorte que le délai de 
transmission minimum soit d’une heure : 
degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). Plus 
particulièrement, nous définissons g de la façon suivante, de sorte que le délai de 
transmission minimum soit d’une heure : 
FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la fonction f . 
FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la fonction f . 
degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). Plus 
particulièrement, nous définissons g de la façon suivante, de sorte que le délai de 
transmission minimum soit d’une heure : 
degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). Plus 
particulièrement, nous définissons g de la façon suivante, de sorte que le délai de 
transmission minimum soit d’une heure : 
( 
w0 + w1Ac(ux) si w0 + w1Ac(ux)  1, 
1 sinon. 
bw = argmin 
g(Ac(ux)) = 
f (v) = 
g(Ac(ux)) = 
( 
w0 + w1Ac(si ux) w0 + si w1Ac(w0 + ux) w1Ac( 1, 
ux)  1, 
1 sinon. 
g(Ac(ux)) = 
1 sinon. 
degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). Plus 
particulièrement, nous définissons g de la façon suivante, de sorte que le délai de 
transmission minimum soit d’une heure : 
Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé 
Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé 
Pour estimer les paramètres w0 et w1, nous construisons un jeu de données de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites variables de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux 
variables (xi , zi), selon le principe suivant : 
de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux 
variables (xi , zi), selon le principe suivant : 
( 
w0 + w1Ac(ux) si w0 + w1Ac(ux)  1, 
1 sinon. 
( 
w0 + w1Ac(ux) si w0 + w1Ac(ux)  1, 
1 sinon. 
(xi , zi), selon le principe suivant : 
g(Ac(ux)) = 
g(Ac(ux)) = 
( 
w0 + w1Ac(ux) si w0 + w1Ac(ux)  1, 
1 sinon. 
— Pour chaque instance (vi , yi) de D décrite par un vecteur vi = vux,uy et telle 
— Pour chaque instance (vi , yi) de D décrite par un vecteur vi = vux,uy et que — Pour chaque instance (vi , yi) de D décrite par un vecteur vi = vux,que g(Ac(ux)) = 
Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé 
Pour estimer les paramètres w0 w1, nous construisons un jeu de données dérivé 
Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé 
g(Ac(ux)) = 
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 
18 
uy(t) = f (vt 
ux,uy). Comme nous souhaitons que cette fonction soit interprétable et 
nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion, 
nous proposons d’exprimer f comme une fonction monotone à valeurs dans 
[0; 1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme 
P13 
w0 + 
j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions 
le vecteur v de sorte à avoir v0 = 1, ce qui nous permet de la ré-écrire comme 
le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients 
w permet de quantifier l’impact, négatif ou positif, des différents attributs sur 
la probabilité de diffusion de l’information entre deux utilisateurs. Plusieurs formes 
paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la 
fonction sigmoïde et définissons donc f de la manière suivante : 
f (v) = 
exp(w · v) 
1+exp(w · v) 
. 
110 
pux,uy(t) = f (vt 
ux,uy). Comme nous souhaitons que cette fonction soit interprétable et 
nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion, 
nous proposons d’exprimer f comme une fonction monotone à valeurs dans 
[0; 1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme 
P13 
w0 + 
j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions 
le vecteur v de sorte à avoir v0 = 1, ce qui nous permet de la ré-écrire comme 
le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients 
w permet de quantifier l’impact, négatif ou positif, des différents attributs sur 
la probabilité de diffusion de l’information entre deux utilisateurs. Plusieurs formes 
paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la 
fonction sigmoïde et définissons donc f de la manière suivante : 
f (v) = 
exp(w · v) 
1+exp(w · v) 
. 
P(Y = yi |vi) = P(Y = 1|vi)yi (1− P(Y = 1|vi))1−yi . 
en supposant l’indépendance entre les instances du jeu de données D, nous 
la vraisemblance du vecteur w pour le jeu de données D (i.e. P(D|w)) 
suit : 
L(D,w) = 
Yn 
i=1 
P(Y = yi |vi) 
= 
Yn 
i=1 
P(Y = 1|vi)yi (1− P(Y = 1|vi))1−yi 
= 
Yn 
i=1 
✓ 
exp(w · vi) 
1+exp(w · vi) 
◆yi ✓ 
1− 
exp(w · vi) 
1+exp(w · vi) 
◆1−yi 
Estimer le vecteur w s’apparente donc au problème d’optimisation qui consiste à 
la vraisemblance du jeu de données D : 
bw = argmax 
w 
L(D,w), 
se fait en dérivant L(D,w) par rapport à w. Or, le logarithme naturel étant 
fonction strictement croissante, maximiser L(D,w) équivaut par conséquent à 
111 
4.3. Méthode proposée 
maximiser la log-vraisemblance, `(D,w) – dont la dérivation est plus simple. Nous 
avons donc le problème d’optimisation suivant, équivalent au précédent : 
bw = argmax 
w 
`(D,w). 
Nous exprimons la log-vraisemblance comme suit : 
`(D,w) = ln 
Yn 
i=1 
✓ 
exp(w · vi) 
1+exp(w · vi) 
◆yi ✓ 
1 
exp(w · vi) 
1+exp(w · vi) 
◆1yi 
! 
= 
Xn 
i=1 
Ç 
yi ln 
✓ 
exp(w · vi) 
1+exp(w · vi) 
◆ 
+(1 yi) ln 
✓ 
1 
exp(w · vi) 
1+exp(w · vi) 
◆1yi 
å 
. 
En exploitant le fait que : 
expw · vi 
1 
4.3. Méthode proposée 
FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la fonction f . 
degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). Plus 
particulièrement, nous définissons g de la façon suivante, de sorte que le délai de 
transmission minimum soit d’une heure : 
ux)) = 
( 
w0 + w1Ac(ux) si w0 + w1Ac(ux)  1, 
1 sinon. 
Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé 
de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux 
variables (xi , zi), selon le principe suivant : 
— Pour chaque instance (vi , yi) de D décrite par un vecteur vi = vux,uy et telle 
que yi = 1, nous créons l’instance suivante (Ac(ux),uy), où est le 
ux) si w0 + w1Ac(ux)  1, 
sinon. 
w0,w1 
Xm 
i=1 
(zi − w0 − w1xi)2. 
• Maximisation de la vraisemblance 
• Minimisation du critère des moindres carrés 
exp(w · v) 
1+exp(w · v) 
. 
110 
4.3. Méthode proposée 
instance positive : (vt y 
ux,uy, 1). Les valeurs des attributs Re(ux) et Re(uy) – qui me-surent 
la réceptivité des utilisateurs – sont mesurées en t y, c’est-à-dire au moment 
de la journée où uy a relayé l’information. Les attributs Th(ux) et Th(uy) sont quant 
à eux évalués pour le terme principal de la thématique T. Par ailleurs, pour chaque 
paire (ux,uy) identifiée à partir de la séquence d’activation liée à la thématique T, 
nous choisissons un utilisateur uz, tel que : 
— Premièrement, l’utilisateur uz n’a pas relayé l’information décrite par T, c’est-à- 
dire qu’il n’apparaît pas dans la séquence d’activation ; 
— Deuxièmement, l’utilisateur uz est exposé aux messages publiés par uy, c’est-à- 
dire qu’il appartient à l’ensemble  uy, l’ensemble des voisins entrants de uy 
dans G. 
Ainsi, pour un utilisateur uz satisfaisant ces conditions, nous construisons une ins-tance 
négative : (vt y 
uz,uy, 0). Au final, nous obtenons un jeu de données équilibré à 
partir duquel nous pouvons estimer la fonction f . La figure 4.6 illustre ce processus : 
les noeuds u1, u2 et u3 ont relayé l’information décrite par une thématique T respec-tivement 
en t1, t2 et t3, tandis que les noeuds u4 et u5 n’ont pas relayé l’information. 
Estimation des paramètres de f. Nous définissons la probabilité pux,uy(t) – la 
probabilité que l’utilisateur uy influence ux à un instant t à propos d’une théma-tique 
donnée – comme une fonction du vecteur d’attributs les décrivant, c’est-à-dire : 
pux,uy(t) = f (vt 
ux,uy). Comme nous souhaitons que cette fonction soit interprétable et 
nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion, 
nous proposons d’exprimer f comme une fonction monotone à valeurs dans 
[0; 1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme 
P13 
w0 + 
j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions 
le vecteur v de sorte à avoir v0 = 1, ce qui nous permet la ré-écrire comme 
le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients 
w permet de quantifier l’impact, négatif ou positif, des différents attributs sur 
la probabilité de diffusion de l’information entre deux utilisateurs. Plusieurs formes 
paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la 
fonction sigmoïde et définissons donc f de la manière suivante : 
f (v) = 
exp(w · v) 
1+exp(w · v) 
. 
110 
4.3. Méthode proposée 
instance positive : (vt y 
ux,uy, 1). Les valeurs des attributs Re(ux) et Re(– qui me-surent 
la réceptivité des utilisateurs – sont mesurées en t y, c’est-à-dire au moment 
de la journée où uy a relayé l’information. Les attributs Th(ux) et Th(uy) sont quant 
à eux évalués pour le terme principal de la thématique T. Par ailleurs, pour chaque 
paire (ux,uy) identifiée à partir de la séquence d’activation liée à la thématique T, 
nous choisissons un utilisateur uz, tel que : 
— Premièrement, l’utilisateur uz n’a pas relayé l’information décrite par T, c’est-à- 
dire qu’il n’apparaît pas dans la séquence d’activation ; 
— Deuxièmement, l’utilisateur uz est exposé aux messages publiés par uy, c’est-à- 
dire qu’il appartient à l’ensemble  uy, l’ensemble des voisins entrants de uy 
dans G. 
Ainsi, pour un utilisateur uz satisfaisant ces conditions, nous construisons une ins-tance 
négative : (vt y 
uz,uy, 0). Au final, nous obtenons un jeu de données équilibré à 
partir duquel nous pouvons estimer la fonction f . La figure 4.6 illustre ce processus : 
les noeuds u1, u2 et u3 ont relayé l’information décrite par une thématique T respec-tivement 
en t1, t2 et t3, tandis que les noeuds u4 et u5 n’ont pas relayé l’information. 
Estimation des paramètres de f. Nous définissons la probabilité pux,uy(t) – la 
probabilité que l’utilisateur uy influence ux à un instant t à propos d’une théma-tique 
donnée – comme une fonction du vecteur d’attributs les décrivant, c’est-à-dire : 
pux,uy(t) = f (vt 
ux,uy). Comme nous souhaitons que cette fonction soit interprétable et 
nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion, 
nous proposons d’exprimer f comme une fonction monotone à valeurs dans 
[0; 1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme 
P13 
w0 + 
j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions 
le vecteur v de sorte à avoir v0 = 1, ce qui nous permet de la ré-écrire comme 
le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients 
w permet de quantifier l’impact, négatif ou positif, des différents attributs sur 
la probabilité de diffusion de l’information entre deux utilisateurs. Plusieurs formes 
paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la 
fonction sigmoïde et définissons donc f de la manière suivante : 
f (v) = 
exp(w · v) 
1+exp(w · v) 
. 
110 
4.3. Méthode proposée 
instance positive : (vt y 
ux,uy, 1). Les valeurs des attributs Re(ux) et Re(uy) – qui me-surent 
la réceptivité des utilisateurs – sont mesurées en t y, c’est-à-dire au moment 
de la journée où uy a relayé l’information. Les attributs Th(ux) et Th(uy) sont quant 
à eux évalués pour le terme principal de la thématique T. Par ailleurs, pour chaque 
paire (ux,uy) identifiée à partir de la séquence d’activation liée à la thématique T, 
nous choisissons un utilisateur uz, tel que : 
— Premièrement, l’utilisateur uz n’a pas relayé l’information décrite par T, c’est-à- 
dire qu’il n’apparaît pas dans la séquence d’activation ; 
— Deuxièmement, l’utilisateur uz est exposé aux messages publiés par uy, c’est-à- 
dire qu’il appartient à l’ensemble  uy, l’ensemble des voisins entrants de uy 
dans G. 
Ainsi, pour un utilisateur uz satisfaisant ces conditions, nous construisons une ins-tance 
négative : (vt y 
uz,uy, 0). Au final, nous obtenons un jeu de données équilibré à 
partir duquel nous pouvons estimer la fonction f . La figure 4.6 illustre ce processus : 
les noeuds u1, u2 et u3 ont relayé l’information décrite par une thématique T respec-tivement 
en t1, t2 et t3, tandis que les noeuds u4 et u5 n’ont pas relayé l’information. 
Estimation des paramètres de f. Nous définissons la probabilité pux,uy(t) – la 
probabilité que l’utilisateur uy influence ux à un instant t à propos d’une théma-tique 
donnée – comme une fonction du vecteur d’attributs les décrivant, c’est-à-dire : 
pux,uy(t) = f (vt 
ux,uy). Comme nous souhaitons que cette fonction soit interprétable et 
nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion, 
nous proposons d’exprimer f comme une fonction monotone à valeurs dans 
[0; 1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme 
P13 
w0 + 
j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions 
le vecteur v de sorte à avoir v0 = 1, ce qui nous permet de la ré-écrire comme 
le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients 
w permet de quantifier l’impact, négatif ou positif, des différents attributs sur 
la probabilité de diffusion de l’information entre deux utilisateurs. Plusieurs formes 
paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la 
fonction sigmoïde et définissons donc f de la manière suivante : 
f (v) = 
exp(w · v) 
1+exp(w · v) 
. 
110 
4.3. Méthode proposée 
instance positive : (vt y 
ux,uy, 1). Les valeurs des attributs Re(ux) et Re(uy) – qui me-surent 
la réceptivité des utilisateurs – sont mesurées en t y, c’est-à-dire au moment 
de la journée où uy a relayé l’information. Les attributs Th(ux) et Th(uy) sont quant 
à eux évalués pour le terme principal de la thématique T. Par ailleurs, pour chaque 
paire (ux,uy) identifiée à partir de séquence d’activation liée à la thématique T, 
nous choisissons un utilisateur uz, tel que : 
— Premièrement, l’utilisateur uz n’a pas relayé l’information décrite par T, c’est-à- 
dire qu’il n’apparaît pas dans la séquence d’activation ; 
— Deuxièmement, l’utilisateur uz est exposé aux messages publiés par uy, c’est-à- 
dire qu’il appartient à l’ensemble  uy, l’ensemble des voisins entrants de uy 
dans G. 
Ainsi, pour un utilisateur uz satisfaisant ces conditions, nous construisons une ins-tance 
négative : (vt y 
uz,uy, 0). Au final, nous obtenons un jeu de données équilibré à 
partir duquel nous pouvons estimer la fonction f . La figure 4.6 illustre ce processus : 
les noeuds u1, u2 et u3 ont relayé l’information décrite par une thématique T respec-tivement 
en t1, t2 et t3, tandis que les noeuds u4 et u5 n’ont pas relayé l’information. 
Estimation des paramètres de f. Nous définissons la probabilité pux,uy(t) – la 
probabilité que l’utilisateur uy influence ux à un instant t à propos d’une théma-tique 
donnée – comme une fonction du vecteur d’attributs les décrivant, c’est-à-dire : 
pux,uy(t) = f (vt 
ux,uy). Comme nous souhaitons que cette fonction soit interprétable et 
nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion, 
nous proposons d’exprimer f comme une fonction monotone à valeurs dans 
[0; 1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme 
P13 
w0 + 
j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions 
le vecteur v de sorte à avoir v0 = 1, ce qui nous permet de la ré-écrire comme 
le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients 
w permet de quantifier l’impact, négatif ou positif, des différents attributs sur 
la probabilité de diffusion l’information entre deux utilisateurs. Plusieurs formes 
paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la 
fonction sigmoïde et définissons donc f de la manière suivante : 
f (v) = 
exp(w · v) 
1+exp(w · v) 
. 
110 
4.3. Méthode proposée 
instance positive : (vt y 
ux,uy, 1). Les valeurs des attributs Re(ux) et Re(uy) – qui me-surent 
la réceptivité des utilisateurs – sont mesurées en t y, c’est-à-dire au moment 
de la journée où uy a relayé l’information. Les attributs Th(ux) et Th(uy) sont quant 
à eux évalués pour le terme principal de la thématique T. Par ailleurs, pour chaque 
paire (ux,uy) identifiée à partir de la séquence d’activation liée à la thématique T, 
nous choisissons un utilisateur uz, tel que : 
— Premièrement, l’utilisateur uz n’a pas relayé l’information décrite par T, c’est-à- 
dire qu’il n’apparaît pas dans la séquence d’activation ; 
— Deuxièmement, l’utilisateur uz est exposé aux messages publiés par uy, c’est-à- 
dire qu’il appartient à l’ensemble  uy, l’ensemble des voisins entrants de uy 
dans G. 
Ainsi, pour un utilisateur uz satisfaisant ces conditions, nous construisons une ins-tance 
négative : (vt y 
uz,uy, 0). Au final, nous obtenons un jeu de données équilibré à 
partir duquel nous pouvons estimer la fonction f . La figure 4.6 illustre ce processus : 
les noeuds u1, u2 et u3 ont relayé l’information décrite par une thématique T respec-tivement 
en t1, t2 et t3, tandis que les noeuds u4 et u5 n’ont pas relayé l’information. 
Estimation des paramètres de f. Nous définissons la probabilité pux,uy(t) – la 
probabilité que l’utilisateur uy influence ux à un instant t à propos d’une théma-tique 
donnée – comme une fonction du vecteur d’attributs les décrivant, c’est-à-dire : 
pux,uy(t) = f (vt 
ux,uy). Comme nous souhaitons que cette fonction soit interprétable et 
nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion, 
nous proposons d’exprimer f comme une fonction monotone à valeurs dans 
[0; 1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme 
P13 
w0 + 
j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions 
le vecteur v de sorte à avoir v0 = 1, ce qui nous permet de la ré-écrire comme 
le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients 
w permet de quantifier l’impact, négatif ou positif, des différents attributs sur 
la probabilité de diffusion de l’information entre deux utilisateurs. Plusieurs formes 
paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la 
fonction sigmoïde et définissons donc f de la manière suivante : 
f (v) = 
exp(w · v) 
1+exp(w · v) 
. 
110 
4.3. Méthode proposée 
instance positive : (vt y 
ux,uy, 1). Les valeurs des attributs Re(ux) et Re(uy) – qui me-surent 
la réceptivité des utilisateurs – sont mesurées en t y, c’est-à-dire au moment 
de la journée où uy a relayé l’information. Les attributs Th(ux) et Th(uy) sont quant 
à eux évalués pour le terme principal de la thématique T. Par ailleurs, pour chaque 
paire (ux,uy) identifiée à partir de la séquence d’activation liée à la thématique T, 
nous choisissons un utilisateur uz, tel que : 
— Premièrement, l’utilisateur uz n’a pas relayé l’information décrite par T, c’est-à- 
dire qu’il n’apparaît pas dans la séquence d’activation ; 
— Deuxièmement, l’utilisateur uz est exposé aux messages publiés par uy, c’est-à- 
dire qu’il appartient à l’ensemble  uy, l’ensemble des voisins entrants de uy 
dans G. 
Ainsi, pour un utilisateur uz satisfaisant ces conditions, nous construisons une ins-tance 
négative : (vt y 
uz,uy, 0). Au final, nous obtenons un jeu de données équilibré à 
partir duquel nous pouvons estimer la fonction f . La figure 4.6 illustre ce processus : 
les noeuds u1, u2 et u3 ont relayé l’information décrite par une thématique T respec-tivement 
en t1, t2 et t3, tandis que les noeuds u4 et u5 n’ont pas relayé l’information. 
Estimation des paramètres de f. Nous définissons la probabilité pux,uy(t) – la 
probabilité que l’utilisateur uy influence ux à un instant t à propos d’une théma-tique 
donnée – comme une fonction du vecteur d’attributs les décrivant, c’est-à-dire : 
pux,uy(t) = f (vt 
ux,uy). Comme nous souhaitons que cette fonction soit interprétable et 
nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion, 
nous proposons d’exprimer f comme une fonction monotone à valeurs dans 
[0;1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme 
P13 
w0 + 
j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions 
le vecteur v de sorte à avoir v0 = 1, ce qui nous permet de la ré-écrire comme 
le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients 
w permet de quantifier l’impact, négatif positif, des différents attributs sur 
la probabilité de diffusion de l’information entre deux utilisateurs. Plusieurs formes 
paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la 
fonction sigmoïde et définissons donc f de la manière suivante : 
f (v) = 
exp(w · v) 
1+exp(w · v) 
. 
110 
4.3. Méthode proposée 
FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la fonction f . 
degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). Plus 
particulièrement, nous définissons g de la façon suivante, de sorte que le délai de 
transmission minimum soit d’une heure : 
g(Ac(ux)) = 
( 
w0 + w1Ac(ux) si w0 + w1Ac(ux)  1, 
1 sinon. 
Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé 
de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux 
variables (xi , zi), selon le principe suivant : 
— Pour chaque instance (vi , yi) de D décrite par un vecteur vi = vux,uy et telle 
que yi = 1, nous créons l’instance suivante (Ac(ux),ux,uy), où ux,uy est le 
délai de transmission entre uy et ux exprimé en heures. Autrement dit, pour 
chaque paire d’utilisateurs (ux,uy) identifiée lors de la construction du jeu de 
que yi = 1, nous créons l’instance suivante (Ac(ux),ux,uy), où ux,uy est le 
délai de transmission entre uy et ux exprimé en heures. Autrement dit, pour 
chaque paire d’utilisateurs (ux,uy) identifiée lors de la construction du jeu de 
Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé 
de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux 
de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux 
g(Ac(ux)) = 
( 
w0 + w1Ac(ux) si w0 + w1Ac(ux)  1, 
1 sinon. 
Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé 
de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux 
variables (xi , zi), selon le principe suivant : 
de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux 
variables (xi , zi), selon le principe suivant : 
de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux
Laboratoire ERIC 
Université Lumière Lyon 2 
Modéliser et prévoir la diffusion 
Expérimentations 
• Protocole 
• Réseau : 5,7·106 abonnements pour 52·103 utilisateurs de Twitter [Kwak10] 
• Trois corpus : C1 (oct. 09) C2 (nov. 09) C3 (déc. 09), au total 4·106 tweets [Yang11] 
• Jeux de données d’apprentissage : construits à l’aide de C1 et C2 , et MABED 
• Jeux de données de test : construits à l’aide de C2 et C3 , et MABED 
• Évaluation de la procédure d’estimation des probabilités de diffusion 
• Classifieur h basé sur f avec un seuil θ = 0,5 
• Classifieurs courants 
Page 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
™ 
• Classifieur à vaste marge 
• Classifieur bayésien naïf 
™ 
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 
19 
Modéliser et prédire la diffusion de l’information 
Métrique (h | f,✓ ) SVM-l SVM-g SVM-p2 SVM-p3 Bayésien naïf 
Précision 0,700 0,712 0,712 0,721 0,688 0,708 
Rappel 0,822 0,799 0,798 0,755 0,692 0,777 
F-mesure 0,756 0,753 0,753 0,738 0,690 0,741 
TABLE 4.4 – Performances des six classifieurs sur le jeu de données Dtest.
Laboratoire ERIC 
Université Lumière Lyon 2 
Modéliser et prévoir la diffusion 
Expérimentations 
• Évaluation de T-BASIC pour la prévision de la diffusion 
• Méthodes comparées : One-time-lag Predictor [Yang10] et αT-BASIC 
• Données : 30 séries temporelles extraites à l’aide de MABED 
• Métrique d’évaluation : erreur relative par rapport au volume [Yang10] 
• Réduction de l’erreur par rapport au One-time-lag Predictor 
• Analyse de l’effet des caractéristiques des utilisateurs (ux →uy) 
• Taux de mention (aspect social) 
• Rôle (aspect social) 
• Thématique 
• Réceptivité (aspect temporel) 
• Degré d’activité (aspect social) 
Page 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
• 21,2% pour T-BASIC et 14,3% pour αT-BASIC 
Tm=1 
Tm=0 
Ro=1 
Ro=0 
effet négatif effet positif 
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 
20 
Modéliser et prédire la diffusion de l’information 
10−2 10−1 100 101 102 
Th(T)=1 
Th(T)=0 
Re(t)=1 
Re(t)=0 
Ac=1 
Ac=0 
attribut variant pour ux 
attribut variant pour uy 
FIGURE 4.10 – Rapports de cotes pour différents attributs, mesurés par rapport aux
Laboratoire ERIC 
Université Lumière Lyon 2 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
Troisième contribution 
Un logiciel libre pour la 
fouille des données issues 
des médias sociaux 
Soutenance de thèse - 25 novembre 2014 Adrien Guille
Laboratoire ERIC 
Université Lumière Lyon 2 
Un logiciel libre pour la fouille des données issues des médias sociaux 
Introduction 
• Comment identifier les utilisateurs influents par rapport à la diffusion de 
l’information dans les médias sociaux ? 
• Besoin de nombreux acteurs de la sociétés, e.g. entreprises, services 
• Scénario de base 
• Détecter des évènements puis identifier les utilisateurs influant par rapport à 
Page 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
gouvernementaux, journalistes 
• Marketing viral 
• Sécurité 
• Investigation journalistique 
• etc. 
ces évènements 
• Éventuellement agir en conséquence 
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 
22
Laboratoire ERIC 
Université Lumière Lyon 2 
Un logiciel libre pour la fouille des données issues des médias sociaux 
État de l’art et proposition 
• Logiciels existants 
• Prototypes fermés pour la détection d’évènements [Bernstein10, Marcus11, Lee13] 
• Logiciels libres pour l’analyse de l’influence [Gephi, Tulip, SNAP] 
• Limitations des logiciels existants 
• Fossé entre détection d’évènements et analyse de l’influence 
• Proposition 
• Analyse conjointe des évènements et de l’influence 
• Identification des utilisateurs influents par rapport aux évènements détectés 
• Logiciel libre 
• Autonome (interface utilisateur) ou bibliothèque (interface de programmation) 
Page 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 
23
Laboratoire ERIC 
Université Lumière Lyon 2 
Un logiciel libre pour la fouille des données issues des médias sociaux 
Logiciel proposé 
• SONDY : SOcial Network DYnamics 
• Publics visés 
• Non-experts : interface utilisateur avancée et visualisations adaptées 
• Chercheurs du domaine : interface de programmation et import d’algorithmes 
• Architecture 
• Quatre services : import/préparation des données, détection d’évènements, 
Page 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
analyse de l’influence, import d’algorithmes 
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 
24 
Į ș 
ȕ ࢥ
Laboratoire ERIC 
Université Lumière Lyon 2 
Un logiciel libre pour la fouille des données issues des médias sociaux 
SONDY : import et préparation des données 
• Import 
• Deux fichiers CSV 
• Corpus de messages 
• Réseau social 
• Pré-traitement 
• Partitionnement du corpus de messages 
• Segmentation du texte 
• Racinisation 
• Lemmatisation 
• Filtrage 
• Sélection d’une sous-période de temps 
• Suppression des mots vides 
Page 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 
25
Laboratoire ERIC 
Université Lumière Lyon 2 
Un logiciel libre pour la fouille des données issues des médias sociaux 
SONDY : détection et visualisation des évènements 
• Algorithmes implémentés 
• Peaky Topics [Shamma11] 
• Persistent Conversations [Shamma11] 
• Trending Score [Benhardus13] 
• EDCoW [Weng11] 
• ET [Parikh13] 
• Pont vers On-line LDA 
• MABED 
• Visualisations 
• Liste des évènements 
• Courbe de fréquence et MACD [Lu12] 
• Liste des messages liés aux évènements 
• Frise chronologique 
Page 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 
26
Laboratoire ERIC 
Université Lumière Lyon 2 
Un logiciel libre pour la fouille des données issues des médias sociaux 
SONDY : analyse et visualisation de l’influence 
• Algorithmes implémentés 
• Page Rank [Page98] 
• Décomposition en k couches [Kitsak10] 
• Log-décomposition en k couches 
[Brown11] 
• Centralité d’intermédiarité [Freeman77] 
• Capitalistes sociaux [Dugué14] 
• Visualisations 
• Distribution des rangs des utilisateurs 
• Coloration du réseau social 
• Liste des messages des utilisateurs 
• Séquence d’activation 
Page 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 
27
Laboratoire ERIC 
Université Lumière Lyon 2 
Un logiciel libre pour la fouille des données issues des médias sociaux 
Scénario d’utilisation : non-expert 
• Analyser les évènements liés à la société Google 
Page 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 
28
Laboratoire ERIC 
Université Lumière Lyon 2 
Un logiciel libre pour la fouille des données issues des médias sociaux 
Scénario d’utilisation : non-expert 
• Analyser les évènements liés à la société Google 
Page 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 
28
Laboratoire ERIC 
Université Lumière Lyon 2 
Un logiciel libre pour la fouille des données issues des médias sociaux 
Scénario d’utilisation : non-expert 
• Analyser les évènements liés à la société Google 
Page 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 
28
Laboratoire ERIC 
Université Lumière Lyon 2 
Un logiciel libre pour la fouille des données issues des médias sociaux 
Scénario d’utilisation : non-expert 
• Analyser les évènements liés à la société Google 
Page 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 
28
Laboratoire ERIC 
Université Lumière Lyon 2 
Un logiciel libre pour la fouille des données issues des médias sociaux 
Scénario d’utilisation : non-expert 
• Analyser les évènements liés à la société Google 
Page 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 
28
Laboratoire ERIC 
Université Lumière Lyon 2 
Un logiciel libre pour la fouille des données issues des médias sociaux 
Scénario d’utilisation : non-expert 
• Identifier les utilisateurs influant à propos de la société Google 
Page 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 
29
Laboratoire ERIC 
Université Lumière Lyon 2 
Un logiciel libre pour la fouille des données issues des médias sociaux 
Scénario d’utilisation : non-expert 
• Identifier les utilisateurs influant à propos de la société Google 
Page 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 
29
Laboratoire ERIC 
Université Lumière Lyon 2 
Un logiciel libre pour la fouille des données issues des médias sociaux 
Scénario d’utilisation : chercheur du domaine 
• Utilisation de l’interface de programmation de SONDY 
• Pour automatiser des expérimentations 
• Pour réutiliser les méthodes implémentées dans un autre programme 
Page 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 
30 
import fr.ericlab.sondy.*; 
import org.apache.commons.io.FileUtils; 
public class Programme { 
public static void main(String[] args) { 
AppVariables state; 
DataManipulation dataManipulation; 
// import d’un jeu de données 
dataManipulation.importDataset(messages.csv,network.csv, 
Nom,Description optionnelle,state); 
// préparation du jeu de données 
dataManipulation.prepareStream(60,English,false,state); 
// chargement de la méthode MABED 
EventDetectionAlgorithm mabed = (EventDetectionAlgorithm) 
Class.forName(MABED).newInstance(state); 
for(double i = 0.2; i = 1; i += 0.1){ 
// variation du paramètre sigma de la méthode 
mabed.sigma = i; 
mabed.k = 40; 
mabed.theta = 0.7 
mabed.p = 10; 
mabed.apply(); 
EventDetectionResults results = mabed.getResults(); 
// écriture des résultats 
FileUtils.write(chemin,results); 
} 
} 
}
Laboratoire ERIC 
Université Lumière Lyon 2 
Conclusion 
Résultats obtenus 
• MABED : détection efficace des évènements significatifs 
• Considérer les mentions dans les messages 
• T-BASIC : modélisation explicative du phénomène de diffusion 
• Les caractéristiques sociales, thématiques et temporelles des utilisateurs 
• SONDY : analyse de l’influence par rapport aux évènements 
• Accessibilité de l’interface utilisateur par des non-experts 
• Grâce notamment à des visualisations adaptées 
• Accessibilité de l’interface de programmation 
• e.g. implémentation d’un algorithme par des étudiants de master 
Page 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
• Conduit à une détection plus précise des évènements significatifs 
• Avec une plus grande robustesse en présence de bruit 
• Influent de diverses façons sur le phénomène de diffusion 
• Notamment les caractéristiques des utilisateurs subissant l’influence 
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 
31
Laboratoire ERIC 
Université Lumière Lyon 2 
Conclusion 
Perspectives de travail 
• Globalement 
• Diversifier les sources de données 
• MABED 
• Caractériser plus précisément les interactions (e.g. re-tweets, localisations) 
• Faire le lien entre détection d’évènements et détection de communautés 
• T-BASIC 
• Relaxer certaines hypothèses 
• SONDY 
• Adapter le logiciel aux données volumineuses 
Page 
Diffusion de l’information dans les médias sociaux 
Modélisation et analyse 
• Propositions génériques mais interprétation des résultats liée aux données 
• Ne plus considérer la seule influence interne au réseau étudié 
• Ne plus considérer indépendamment les processus de diffusion simultanés 
• Faciliter l’implémentation d’algorithmes parallèles voire distribués 
/ 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 
32

Contenu connexe

Similaire à Diffusion de l'information dans les médias sociaux : modélisation et analyse

Intervention lorient 31 mars 2017
Intervention lorient 31 mars 2017Intervention lorient 31 mars 2017
Intervention lorient 31 mars 2017nuguen
 
Boite à outils apprenti journaliste
Boite à outils apprenti journalisteBoite à outils apprenti journaliste
Boite à outils apprenti journalisteeloxgo
 
Présentation-R-Barre-Jne 30ans-des-urfist
Présentation-R-Barre-Jne 30ans-des-urfistPrésentation-R-Barre-Jne 30ans-des-urfist
Présentation-R-Barre-Jne 30ans-des-urfistURFIST de Paris
 
Comment démocratiser vos études sur les réseaux sociaux ? Un Webinar présenté...
Comment démocratiser vos études sur les réseaux sociaux ? Un Webinar présenté...Comment démocratiser vos études sur les réseaux sociaux ? Un Webinar présenté...
Comment démocratiser vos études sur les réseaux sociaux ? Un Webinar présenté...The Metrics Factory
 
Image : filière ingénieur de 2e année
Image : filière ingénieur de 2e annéeImage : filière ingénieur de 2e année
Image : filière ingénieur de 2e annéeTélécom Paris
 
Data Analyse pas à pas avec R
Data Analyse pas à pas avec RData Analyse pas à pas avec R
Data Analyse pas à pas avec RAmar LAKEL, PhD
 
Pertinence a Priori Basée sur la Diversité et la Temporalité des Signaux Sociaux
Pertinence a Priori Basée sur la Diversité et la Temporalité des Signaux SociauxPertinence a Priori Basée sur la Diversité et la Temporalité des Signaux Sociaux
Pertinence a Priori Basée sur la Diversité et la Temporalité des Signaux SociauxIsmail BADACHE
 
OpenData : au-delà des publications, le partage des données de la recherche e...
OpenData : au-delà des publications, le partage des données de la recherche e...OpenData : au-delà des publications, le partage des données de la recherche e...
OpenData : au-delà des publications, le partage des données de la recherche e...Thierry Chanier
 
Communication, délibération et mouvements sociaux. L'espace public à l'épreuv...
Communication, délibération et mouvements sociaux. L'espace public à l'épreuv...Communication, délibération et mouvements sociaux. L'espace public à l'épreuv...
Communication, délibération et mouvements sociaux. L'espace public à l'épreuv...Mikaël Chambru
 
Propos sur les Big Data.pdf
Propos sur les Big Data.pdfPropos sur les Big Data.pdf
Propos sur les Big Data.pdfMichel Bruley
 
JE USAGIS - Rennes 2016 : Matthieu Noucher
JE USAGIS - Rennes 2016 : Matthieu NoucherJE USAGIS - Rennes 2016 : Matthieu Noucher
JE USAGIS - Rennes 2016 : Matthieu Nouchergeo_in_geo
 
Mcm module 3b(fr)
Mcm   module 3b(fr)Mcm   module 3b(fr)
Mcm module 3b(fr)websule
 

Similaire à Diffusion de l'information dans les médias sociaux : modélisation et analyse (20)

Intervention lorient 31 mars 2017
Intervention lorient 31 mars 2017Intervention lorient 31 mars 2017
Intervention lorient 31 mars 2017
 
Présentation d'Atelier Open data 2014
Présentation d'Atelier Open data 2014Présentation d'Atelier Open data 2014
Présentation d'Atelier Open data 2014
 
Boite à outils apprenti journaliste
Boite à outils apprenti journalisteBoite à outils apprenti journaliste
Boite à outils apprenti journaliste
 
La boîte à outils de l'apprenti journaliste
La boîte à outils de l'apprenti journalisteLa boîte à outils de l'apprenti journaliste
La boîte à outils de l'apprenti journaliste
 
Veille
VeilleVeille
Veille
 
Présentation-R-Barre-Jne 30ans-des-urfist
Présentation-R-Barre-Jne 30ans-des-urfistPrésentation-R-Barre-Jne 30ans-des-urfist
Présentation-R-Barre-Jne 30ans-des-urfist
 
Comment démocratiser vos études sur les réseaux sociaux ? Un Webinar présenté...
Comment démocratiser vos études sur les réseaux sociaux ? Un Webinar présenté...Comment démocratiser vos études sur les réseaux sociaux ? Un Webinar présenté...
Comment démocratiser vos études sur les réseaux sociaux ? Un Webinar présenté...
 
Image : filière ingénieur de 2e année
Image : filière ingénieur de 2e annéeImage : filière ingénieur de 2e année
Image : filière ingénieur de 2e année
 
Data Analyse
Data AnalyseData Analyse
Data Analyse
 
Data Analyse pas à pas avec R
Data Analyse pas à pas avec RData Analyse pas à pas avec R
Data Analyse pas à pas avec R
 
Pertinence a Priori Basée sur la Diversité et la Temporalité des Signaux Sociaux
Pertinence a Priori Basée sur la Diversité et la Temporalité des Signaux SociauxPertinence a Priori Basée sur la Diversité et la Temporalité des Signaux Sociaux
Pertinence a Priori Basée sur la Diversité et la Temporalité des Signaux Sociaux
 
Aseck communication
Aseck communicationAseck communication
Aseck communication
 
Introduction au Web
Introduction au WebIntroduction au Web
Introduction au Web
 
OpenData : au-delà des publications, le partage des données de la recherche e...
OpenData : au-delà des publications, le partage des données de la recherche e...OpenData : au-delà des publications, le partage des données de la recherche e...
OpenData : au-delà des publications, le partage des données de la recherche e...
 
Communication, délibération et mouvements sociaux. L'espace public à l'épreuv...
Communication, délibération et mouvements sociaux. L'espace public à l'épreuv...Communication, délibération et mouvements sociaux. L'espace public à l'épreuv...
Communication, délibération et mouvements sociaux. L'espace public à l'épreuv...
 
Module 6 : Analyses multi-incidents
Module 6 : Analyses multi-incidentsModule 6 : Analyses multi-incidents
Module 6 : Analyses multi-incidents
 
Propos sur les Big Data.pdf
Propos sur les Big Data.pdfPropos sur les Big Data.pdf
Propos sur les Big Data.pdf
 
Indexation et ri
Indexation et riIndexation et ri
Indexation et ri
 
JE USAGIS - Rennes 2016 : Matthieu Noucher
JE USAGIS - Rennes 2016 : Matthieu NoucherJE USAGIS - Rennes 2016 : Matthieu Noucher
JE USAGIS - Rennes 2016 : Matthieu Noucher
 
Mcm module 3b(fr)
Mcm   module 3b(fr)Mcm   module 3b(fr)
Mcm module 3b(fr)
 

Diffusion de l'information dans les médias sociaux : modélisation et analyse

  • 1. Laboratoire ERIC Université Lumière Lyon 2 Diffusion de l’information dans les médias sociaux Modélisation et analyse Thèse de doctorat présentée et soutenue publiquement par Adrien Guille le 25 novembre 2014 Discipline : Informatique Université : Université Lumière Lyon 2 École doctorale : Informatique et Mathématiques (InfoMaths, ED 512) Laboratoire : Entrepôts, Représentation & Ingénierie des Connaissances (ERIC, EA 3083) Directeur : Djamel Zighed Co-directrice : Cécile Favre
  • 2. Laboratoire ERIC Université Lumière Lyon 2 Introduction Pourquoi étudier les médias sociaux ? • Manière nouvelle de produire, diffuser et consommer l’information • Utilisateurs producteurs et consommateurs d’information • Vecteurs d’information efficaces • e.g. élection de Barack Obama [Hughes09] • e.g. Printemps arabe [Howard11] • Apparition d’un phénomène de surcharge informationnelle • Cette thèse s’intéresse au phénomène de diffusion de l’information dans les médias sociaux • Objectif : fournir des moyens de modélisation et d’analyse Page Diffusion de l’information dans les médias sociaux Modélisation et analyse / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 2
  • 3. Laboratoire ERIC Université Lumière Lyon 2 Introduction Médias sociaux et diffusion de l’information • Deux fonctionnalités essentielles • Publication de messages sur une page de profil • Connexion à d’autres utilisateurs afin de suivre leurs publications • Influence sociale • Diffusion de l’information • Le média social type : Twitter • Propositions génériques • Expérimentations sur Twitter Page Diffusion de l’information dans les médias sociaux Modélisation et analyse • Accès aux données • 500·106 utilisateurs • 20·109 abonnements 3 / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
  • 4. Laboratoire ERIC Université Lumière Lyon 2 jŸj k jŸj kà Introduction Travaux de recherche menés dans cette thèse • Problématiques et contributions • Quels éléments d’information retiennent l’attention des utilisateurs ? • Algorithme pour détecter automatiquement les évènements significatifs • Comment et pourquoi un élément d’information donné se diffuse-t-il ? • Modèle pour prévoir la diffusion de l’information • Quels utilisateurs peuvent influencer la diffusion d’un élément d’information ? • Logiciel pour l’analyse de l’influence par rapport aux évènements • Approche • Fouille des données issues des médias sociaux Page ÁÁÊ Diffusion de l’information dans les médias sociaux Modélisation et analyse / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 4 Y’Q[NYkI[EI G’KpJ[IZI[jh /j]EX<OI GIh G][[KIh +gKdgjQ][IjZ[QdkYjQ][GIhG][[KIh IrjI[hQ][h Zd]gjGIG][[KIh¥ZIhhOIhIjgKhIk¦ /$9 k kà kÄ ™ jŸj kÄ KjdI KjdIà KjdIÄ KjdIÅ ÁÂÉ ÁÁÆ ÁÃ ÁÅ ÁÁÅ ÁÂà ÁÃà ÁÂÂ
  • 6. !O¿¿ gdPIGIh KpJ[IZI[jh gdPIGIh gIG][G[EIh gdPIGIh KpJ[IZI[jh p[jYNkhQ][GIhKpJ[IZI[jhGkdYQfkKh dgJhYNkhQ][ /KYIEjQ][ +gKŸjgQjIZI[j 0g[hN]gZjQ][ rdY]gjQ][GIh G][[KIh [jIgdgKjjQ][ ][[KIh pYkjQ][ DgkjIh ][[Qh Ÿh[EI ][[KIhEQDYIh ][[KIhdgKŸjgQjKIh ][[KIh jg[hN]gZKIh !]jQNh
  • 7. Laboratoire ERIC Université Lumière Lyon 2 Diffusion de l’information dans les médias sociaux Modélisation et analyse Première contribution Détecter les évènements significatifs dans les médias sociaux Soutenance de thèse - 25 novembre 2014 Adrien Guille
  • 8. Laboratoire ERIC Université Lumière Lyon 2 Détecter les évènements Introduction • Comment détecter automatiquement les évènements significatifs à partir des médias sociaux ? • Évènements significatifs : potentiellement traités par les médias traditionnels [McMinn13] • Messages liés noyés par des messages sans rapport, i.e. bruit • Analyse de l’évolution temporelle des thématiques [Leskovec09] • On suppose que les thématiques «saillantes» signalent les évènements Page Diffusion de l’information dans les médias sociaux Modélisation et analyse [Kleinberg02] / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 6
  • 9. Laboratoire ERIC Université Lumière Lyon 2 Détecter les évènements État de l’art et proposition • Approches existantes • Pondération statistique des termes [Shamma11, Benhardus13] • Modélisation probabiliste des thématiques latentes [Lau12, Yuheng12] • Classification non supervisée des termes [Weng11, Li12, Parikh13] • Limitations des approches existantes • Durée des évènements fixée à l’avance [Romero11] • Prise en compte du contenu textuel uniquement • Proposition • Estimer dynamiquement la durée de chaque évènement • Exploiter l’aspect social du flux de messages via les mentions Page Diffusion de l’information dans les médias sociaux Modélisation et analyse • Mention : lien dynamique inséré dans un message 7 / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille
  • 10. Laboratoire ERIC Université Lumière Lyon 2 Détecter les évènements Méthode proposée • MABED : Mention-Anomaly-Based Event Detection Page Diffusion de l’information dans les médias sociaux Modélisation et analyse / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 8 • Entrée • Un corpus de messages partitionné en n tranches temporelles • Sortie • Les k évènements aux k plus fortes magnitudes d’impact • Définitions • Évènement : une thématique saillante et une valeur Mag traduisant sa magnitude d’impact • Thématique saillante : un intervalle temporel I, un terme principal t, un ensemble pondéré S de mots liés
  • 11. Laboratoire ERIC Université Lumière Lyon 2 Détecter les évènements Méthode proposée • MABED : Mention-Anomaly-Based Event Detection Page Diffusion de l’information dans les médias sociaux Modélisation et analyse / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 8 • Entrée • Un corpus de messages partitionné en n tranches temporelles • Sortie • Les k évènements aux k plus fortes magnitudes d’impact • Définitions • Évènement : une thématique saillante et une valeur Mag traduisant sa magnitude d’impact • Thématique saillante : un intervalle temporel I, un terme principal t, un ensemble pondéré S de mots liés
  • 12. 2005). Par conséquent nous pouvons écrire : l’échelle et s’adapte donc facilement à la taille du vocabulaire. peut être approximée par une loi normale, c’est-à-dire : est la probabilité Laboratoire ERIC qu’un message contienne le mot t et au moins une men-tion, Université Lumière Lyon 2 que soit la tranche temporelle. Comme le nombre de messages Ni est le contexte des médias sociaux, nous pouvons raisonnablement supposer peut être approximée par une loi normale, c’est-à-dire : Calcul de la magnitude d’impact. La magnitude d’impact, associé à l’intervalle I = [a; b] et au mot principal t est Elle correspond à l’aire algébrique sous la fonction [liés à des évènements et spécifiques à une période temporelle particulière auront tendance à avoir des valeurs d’anomalie positives élevées durant cette période. Au contraire, les mots récurrents (i.e. triviaux) qui ne sont pas liés à un évènement auront des valeurs d’anomalie qui divergeront peu par rapport à l’espérance. Par ailleurs, contrairement à des approches plus sophistiquées comme par exemple la modélisation des fréquences à l’aide de mixtures gaussiennes, cette formulation passe facilement à l’échelle et s’adapte donc facilement à la taille du vocabulaire. Détecter les évènements Méthode proposée : phase I • Mesurer l’anomalie P(Ni @t)⇠N (Nip@t,Nip@t(1− p@t)). • Par rapport à la fréquence de création de mention à la tranche temporelle i • Pour chaque mot t découle que la quantité espérée de messages contenant le mot t et au moins mention à la ième tranche temporelle est : !O¥¦ Calcul de la magnitude d’impact. La magnitude d’impact, Mag, d’un évènement Q associé à l’intervalle I = [a; b] et au mot principal t est donnée par la formule ci-dessous. Or, nous avons montré précédemment que la magnitude décrit par le mot principal t et l’intervalle I = [a; b] correspond ³XGPNQ E[t|i] = Nip@t, où p@t = N@t/N. Elle correspond à l’aire algébrique sous la fonction d’anomalie sur l’intervalle nous définissons l’anomalie dans la fréquence de création de mentions liée la ième tranche temporelle comme suit : • Détecter les évènement à partir de l’anomalie • Trouver l’intervalle qui maximise l’anomalie • Pour tous les mots D cette formulation, l’anomalie est positive uniquement lorsque la fréquence création de mentions est strictement supérieure à l’espérance. Les mots Page Diffusion de l’information dans les médias sociaux Modélisation et analyse anomalie(t, i) = Ni @t − E[t|i]. D / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 9 P(Ni @t) = ✓ Ni Ni @t ◆ pNi @t @t (1− p@t)Ni−Ni @t , p@t est la probabilité qu’un message contienne le mot t et au moins une men-tion, quelle que soit la tranche temporelle. Comme le nombre de messages Ni est dans le contexte des médias sociaux, nous pouvons raisonnablement supposer @t) peut être approximée par une loi normale, c’est-à-dire : P(Ni @t)⇠N (Nip@t,Nip@t(1− p@t)). découle que la quantité espérée de messages contenant le mot t et au moins mention à la ième tranche temporelle est : E[t|i] = Nip@t, où p@t = N@t/N. Enfin, nous définissons l’anomalie dans la fréquence de création de mentions liée à la ième tranche temporelle comme suit : anomalie(t, i) = Ni @t − E[t|i]. cette formulation, l’anomalie est positive uniquement lorsque la fréquence de création de mentions est strictement supérieure à l’espérance. Les mots 59 P(Ni @t)⇠N (Nip@t,Nip@t(1− p@t)). découle que la quantité espérée de messages contenant le mot t et au moins à la ième tranche temporelle est : E[t|i] = Nip@t, où p@t = N@t/N. nous définissons l’anomalie dans la fréquence de création de mentions liée ième tranche temporelle comme suit : anomalie(t, i) = Ni @t − E[t|i]. cette formulation, l’anomalie est positive uniquement lorsque la fréquence création de mentions est strictement supérieure à l’espérance. Les mots 59 3.3. Méthode proposée évènements et spécifiques à une période temporelle particulière auront avoir des valeurs d’anomalie positives élevées durant cette période. Au mots récurrents (i.e. triviaux) qui ne sont pas liés à un évènement auront d’anomalie qui divergeront peu par rapport à l’espérance. Par ailleurs, contrairement à des approches plus sophistiquées comme par exemple la modélisation fréquences à l’aide de mixtures gaussiennes, cette formulation passe facilement à s’adapte donc facilement à la taille du vocabulaire. de la magnitude d’impact. La magnitude d’impact, Mag, d’un évènement l’intervalle I = [a; b] et au mot principal t est donnée par la formule ci-dessous. correspond à l’aire algébrique sous la fonction d’anomalie sur l’intervalle Mag(t, I) = Zb a anomalie(t, i)di = Xb i=a anomalie(t, i) [a; b]. Mag(t, I) = Zb a anomalie(t, i)di = Xb i=a anomalie(t, i) L’aire algébrique est obtenue en intégrant la fonction discrète d’anomalie, ce qui revient dans ce cas à une somme. a; b]. Mag(t, I) = Zb a anomalie(t, i)di = Xb i=a anomalie(t, i) L’aire algébrique est obtenue en intégrant la fonction discrète revient dans ce cas à une somme. Identification des évènements. Pour chaque mot t 2 V@, l’intervalle qui maximise la magnitude d’impact, c’est-I = argmax I Mag(t, I). ¥XGPNQ¦ Þ§ŽD¨ NQ[[EK XGPNQ D XGPNQ ZjgQEIGIh E]]EEkgI[EIh XGPNQ NQ[[EK q !O NQ[[EK hgX]vs Q Q hgX]vs q + - +
  • 13. Laboratoire ERIC Université Lumière Lyon 2 Détecter les évènements Méthode proposée : phase II • Identifier les mots décrivant au mieux les évènements Q ³XGPNQ D XGPNQ ZjgQEIGIh E]]EEkgI[EIh !O¥¦ NQ[[EK Q • Identification des mots candidats selon la cooccurrence • Sélection selon l’intensité de la corrélation entre leur fréquence • Mesurée selon le coefficient de Erdem [Erdem12] • Comparée à un seuil θ • Générer la liste des k évènements ayant eu le plus grand impact • Construction de la liste à l’aide du graphe des évènements ¥XGPNQ¦ D NQ[[EK !O¥¦ XGPNQ ZjgQEIGIh E]]EEkgI[EIh EZdO[I D Q • Détection des évènements redondants selon • La connectivité des mots principaux • Le recouvrement des intervalles temporels, seuil σ • Modélisation des redondances avec un second graphe • Fusion des évènements dupliqués via l’analyse des composantes connexes 10 Page Diffusion de l’information dans les médias sociaux Modélisation et analyse !O XGPNQ ÃÁÁÈ / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille !Ç q ³XGPNQ D ¥XGPNQ¦ Þ§ŽD¨ NQ[[EK XGPNQ ÃÁÁÈ D XGPNQ ZjgQEIGIh E]]EEkgI[EIh XGPNQ NQ[[EK q !O EZdO[I NQ[[EK Q Q hgX]vs EdQjY !Ç Q[pQjK q ³XGPNQ D ¥XGPNQ¦ Þ§ŽD¨ NQ[[EK XGPNQ ÃÁÁÈ XGPNQ NQ[[EK !O EZdO[I NQ[[EK Q Q hgX]vs EdQjY !Ç Q[pQjK q
  • 14. Laboratoire ERIC Université Lumière Lyon 2 Détecter les évènements Expérimentations • Protocole • Deux corpus : Cen (1,5·106 tweets [Yang11]) et Cfr (2·106 tweets [ANR ImagiWeb]) • Méthodes comparées : TS [Benhardus13] ET [Parikh13] et α-MABED • Juges humains : 2 juges humains évaluent les top 40 évènements (κ = 0.72) • Métriques d’évaluation : Précision, rappel, F-mesure, DERate [Li12], temps de calcul • Évaluation quantitative • MABED est la méthode la plus performante en terme de précision et de F-mesure • Gain moyen concernant la F-mesure de 17,2% par rapport à α-MABED • Gain plus important pour le corpus le plus bruité, Cen Page Diffusion de l’information dans les médias sociaux Modélisation et analyse / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 11 3.4. Expérimentations Corpus : Cen Méthode Précision F-mesure DERate Temps de calcul MABED 0,775 0,682 0,193 96s ↵-MABED 0,625 0,571 0,160 126s ET 0,575 0,575 0 3480s TS2 0,600 0,514 0,250 80s TS3 0,375 0,281 0,4 82s Corpus : Cf r Méthode Précision F-mesure DERate Temps de calcul MABED 0,825 0,825 0 88s ↵-MABED 0,725 0,712 0,025 113s ET 0,700 0.674 0,071 4620s TS2 0,725 0,671 0,138 69s TS3 0,700 0,616 0,214 74s TABLE 3.4 – Performances des cinq méthodes sur les deux corpus. 3.4. Expérimentations Corpus : Cen Méthode Précision F-mesure DERate Temps de calcul MABED 0,775 0,682 0,193 96s ↵-MABED 0,625 0,571 0,160 126s ET 0,575 0,575 0 3480s TS2 0,600 0,514 0,250 80s TS3 0,375 0,281 0,4 82s Corpus : Cf r Méthode Précision F-mesure DERate Temps de calcul MABED 0,825 0,825 0 88s ↵-MABED 0,725 0,712 0,025 113s ET 0,700 0.674 0,071 4620s TS2 0,725 0,671 0,138 69s TS3 0,700 0,616 0,214 74s TABLE 3.4 – Performances des cinq méthodes sur les deux corpus. compte le comportement des utilisateurs des médias sociaux en matière de création de mentions permet une détection plus robuste des évènements à partir d’un flux tweets bruité. Le DERate révèle que MABED n’a dédoublé aucun évènement signifi-catif parmi ceux détectés dans Cf r, mais que – en dépit de la gestion explicite de redondance par le troisième composant – 6 (DERate = 0, 193) des 31 (P = 0, 775) évènements significatifs détectés dans Cen sont redondants. Ce DERate reste toutefois
  • 15. Laboratoire ERIC Université Lumière Lyon 2 Détecter les évènements Expérimentations D D • Évaluation qualitative • Extrait de la liste d’évènements détectés par MABED dans Cen Page Diffusion de l’information dans les médias sociaux Modélisation et analyse NQ[[EK • Graphe des redondances Graphe des évènements Évènement #8 / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 12 # Intervalle Thématique 1 du 25 09h30 thanksgiving, turkey : hope (0.72), happy (0.71) au 28 06h30 Les twittos célèbrent Thanksgiving 2 du 25 09h30 thankful : happy (0.77), thanksgiving (0.71) au 27 09h00 Lié à l’évènement # 1 3 du 10 16h00 veterans : served (0.80), country (0.78), military (0.73), happy (0.72) au 12 08h00 Commémoration du 11 novembre, « Veterans Day » 4 du 26 13h00 black : friday (0.95), amazon (0.75) au 28 10h30 Les twittos discutent des offres proposées par Amazon la veille du « Black Friday » 5 du 07 13h30 hcr, bill, health, house, vote : reform (0.92), passed (0.91), passes (0.88) au 09 04h30 La Chambre des représentants des États-Unis adopte la réforme de santé 6 du 05 19h30 hood, fort : ft (0.92), shooting (0.83), news (0.78), army (0.75), forthood (0.73) au 08 09h00 Une fusillade a lieu dans l’enceinte de la base militaire américaine de Fort Hood 7 du 19 04h30 chrome : os (0.95), google (0.87), desktop (0.71) au 21 02h30 Google rend public le code source de Chrome OS pour PC 8 du 27 18h00 tiger, woods : accident (0.91), car (0.88), crash (0.88), injured (0.80) au 29 05h00 Tiger Woods est victime d’un accident de la route 9 du 28 22h30 tweetie, 2.1, app : retweets (0.93), store (0.90), native (0.89), geotagging (0.88) au 30 23h30 L’application Tweetie sort sur l’apple store et inclut de nouvelles fonctions, e.g. retweets 10 du 29 17h00 monday, cyber : deals (0.84), pro (0.75) au 30 23h30 Les twittos partagent les offres commerciales high-tech du « Cyber Monday » 11 du 10 01h00 linkedin : synced (0.86), updates (0.84), status (0.83), twitter (0.71) au 12 03h00 Linkedin permet à ses utilisateurs de synchroniser leurs statuts avec Twitter 12 du 04 17h00 yankees, series : win (0.84), won (0.84), fans (0.78), phillies (0.73), york (0.72) au 06 05h30 Les Yankees, l’équipe de baseball de New York remporte laWorld Series face aux Philies 13 du 15 09h00 obama : chinese (0.75), barack (0.72), twitter (0.72), china (0.70) au 17 23h30 Lors d’une visite en Chine, Barack Obama admet n’avoir jamais utilisé Twitter 14 du 25 10h00 holiday : shopping (0.72) au 26 10h00 Les twittos réagissent par rapport au « Black Friday », un jour férié dédié au shopping 15 du 19 21h30 oprah, end : talk (0.81), show (0.79), 2011 (0.73), winfrey (0.71) au 21 16h00 Oprah Winfrey annonce la fin de son talk-show en septembre 2011 16 du 07 11h30 healthcare, reform : house (0.91), bill (0.88), passes (0.83), vote (0.83) au 09 05h00 Lié à l’évènement #5 17 du 11 03h30 facebook : app (0.74), twitter (0.73) au 13 08h30 Pas d’évènement correspondant XGPNQ ÃÁÁÈ XGPNQ ZjgQEIGIh E]]EEkgI[EIh XGPNQ NQ[[EK q !O EZdO[I NQ[[EK Q Q hgX]vs EdQjY !Ç Q[pQjK q dd jqIIjQI РP]]G N]gj Z][Gs EsDIg jQOIg q]]Gh EEQGI[j jQOIg q]]Gh EghP Eg gdPIGIhgIG][G[EIh gdPIGIhKpJ[IZI[jh p[jNkhQ][ EEQGI[j jQOIg q]]Gh EghP Q[WkgIG NQ[[EK XGPNQ ÃÁÁÈ XGPNQ ZjgQEIGIh E]]EEkgI[EIh XGPNQ NQ[[EK q !O EZdO[I NQ[[EK Q Q hgX]vs EdQjY !Ç Q[pQjK q dd jqIIjQI РP]]G N]gj Z][Gs EsDIg jQOIg q]]Gh EEQGI[j jQOIg q]]Gh EghP Eg gdPIGIhgIG][G[EIh gdPIGIhKpJ[IZI[jh p[jNkhQ][ EEQGI[j jQOIg q]]Gh EghP Eg Q[WkgIG
  • 16. Laboratoire ERIC Université Lumière Lyon 2 Détecter les évènements Expérimentations D D • Évaluation qualitative • Extrait de la liste d’évènements détectés par MABED dans Cen Page Diffusion de l’information dans les médias sociaux Modélisation et analyse NQ[[EK • Graphe des redondances Graphe des évènements / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 12 # Intervalle Thématique 1 du 25 09h30 thanksgiving, turkey : hope (0.72), happy (0.71) au 28 06h30 Les twittos célèbrent Thanksgiving 2 du 25 09h30 thankful : happy (0.77), thanksgiving (0.71) au 27 09h00 Lié à l’évènement # 1 3 du 10 16h00 veterans : served (0.80), country (0.78), military (0.73), happy (0.72) au 12 08h00 Commémoration du 11 novembre, « Veterans Day » 4 du 26 13h00 black : friday (0.95), amazon (0.75) au 28 10h30 Les twittos discutent des offres proposées par Amazon la veille du « Black Friday » 5 du 07 13h30 hcr, bill, health, house, vote : reform (0.92), passed (0.91), passes (0.88) au 09 04h30 La Chambre des représentants des États-Unis adopte la réforme de santé 6 du 05 19h30 hood, fort : ft (0.92), shooting (0.83), news (0.78), army (0.75), forthood (0.73) au 08 09h00 Une fusillade a lieu dans l’enceinte de la base militaire américaine de Fort Hood 7 du 19 04h30 chrome : os (0.95), google (0.87), desktop (0.71) au 21 02h30 Google rend public le code source de Chrome OS pour PC 8 du 27 18h00 tiger, woods : accident (0.91), car (0.88), crash (0.88), injured (0.80) au 29 05h00 Tiger Woods est victime d’un accident de la route 9 du 28 22h30 tweetie, 2.1, app : retweets (0.93), store (0.90), native (0.89), geotagging (0.88) au 30 23h30 L’application Tweetie sort sur l’apple store et inclut de nouvelles fonctions, e.g. retweets 10 du 29 17h00 monday, cyber : deals (0.84), pro (0.75) au 30 23h30 Les twittos partagent les offres commerciales high-tech du « Cyber Monday » 11 du 10 01h00 linkedin : synced (0.86), updates (0.84), status (0.83), twitter (0.71) au 12 03h00 Linkedin permet à ses utilisateurs de synchroniser leurs statuts avec Twitter 12 du 04 17h00 yankees, series : win (0.84), won (0.84), fans (0.78), phillies (0.73), york (0.72) au 06 05h30 Les Yankees, l’équipe de baseball de New York remporte laWorld Series face aux Philies 13 du 15 09h00 obama : chinese (0.75), barack (0.72), twitter (0.72), china (0.70) au 17 23h30 Lors d’une visite en Chine, Barack Obama admet n’avoir jamais utilisé Twitter 14 du 25 10h00 holiday : shopping (0.72) au 26 10h00 Les twittos réagissent par rapport au « Black Friday », un jour férié dédié au shopping 15 du 19 21h30 oprah, end : talk (0.81), show (0.79), 2011 (0.73), winfrey (0.71) au 21 16h00 Oprah Winfrey annonce la fin de son talk-show en septembre 2011 16 du 07 11h30 healthcare, reform : house (0.91), bill (0.88), passes (0.83), vote (0.83) au 09 05h00 Lié à l’évènement #5 17 du 11 03h30 facebook : app (0.74), twitter (0.73) au 13 08h30 Pas d’évènement correspondant XGPNQ ÃÁÁÈ XGPNQ ZjgQEIGIh E]]EEkgI[EIh XGPNQ NQ[[EK q !O EZdO[I NQ[[EK Q Q hgX]vs EdQjY !Ç Q[pQjK q dd jqIIjQI РP]]G N]gj Z][Gs EsDIg jQOIg q]]Gh EEQGI[j jQOIg q]]Gh EghP Eg gdPIGIhgIG][G[EIh gdPIGIhKpJ[IZI[jh p[jNkhQ][ EEQGI[j jQOIg q]]Gh EghP Eg Q[WkgIG NQ[[EK XGPNQ ÃÁÁÈ XGPNQ ZjgQEIGIh E]]EEkgI[EIh XGPNQ NQ[[EK q !O EZdO[I NQ[[EK Q Q hgX]vs EdQjY !Ç Q[pQjK q dd jqIIjQI РP]]G N]gj Z][Gs EsDIg jQOIg q]]Gh EEQGI[j jQOIg q]]Gh EghP Eg gdPIGIhgIG][G[EIh gdPIGIhKpJ[IZI[jh p[jNkhQ][ EEQGI[j jQOIg q]]Gh EghP Eg Q[WkgIG jQOIg EEQGI[j q]]Gh q]]Gh EghP gdPIGIhKpJ[IZI[jh dgJhNkhQ][ Évènement #8
  • 17. Laboratoire ERIC Université Lumière Lyon 2 Détecter les évènements Expérimentations D • Évaluation qualitative • Extrait de la liste d’évènements détectés par MABED dans Cen Page Diffusion de l’information dans les médias sociaux Modélisation et analyse NQ[[EK • Graphe des redondances Graphe des évènements Évènement #8 / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 12 # Intervalle Thématique 1 du 25 09h30 thanksgiving, turkey : hope (0.72), happy (0.71) au 28 06h30 Les twittos célèbrent Thanksgiving 2 du 25 09h30 thankful : happy (0.77), thanksgiving (0.71) au 27 09h00 Lié à l’évènement # 1 3 du 10 16h00 veterans : served (0.80), country (0.78), military (0.73), happy (0.72) au 12 08h00 Commémoration du 11 novembre, « Veterans Day » 4 du 26 13h00 black : friday (0.95), amazon (0.75) au 28 10h30 Les twittos discutent des offres proposées par Amazon la veille du « Black Friday » 5 du 07 13h30 hcr, bill, health, house, vote : reform (0.92), passed (0.91), passes (0.88) au 09 04h30 La Chambre des représentants des États-Unis adopte la réforme de santé 6 du 05 19h30 hood, fort : ft (0.92), shooting (0.83), news (0.78), army (0.75), forthood (0.73) au 08 09h00 Une fusillade a lieu dans l’enceinte de la base militaire américaine de Fort Hood 7 du 19 04h30 chrome : os (0.95), google (0.87), desktop (0.71) au 21 02h30 Google rend public le code source de Chrome OS pour PC 8 du 27 18h00 tiger, woods : accident (0.91), car (0.88), crash (0.88), injured (0.80) au 29 05h00 Tiger Woods est victime d’un accident de la route 9 du 28 22h30 tweetie, 2.1, app : retweets (0.93), store (0.90), native (0.89), geotagging (0.88) au 30 23h30 L’application Tweetie sort sur l’apple store et inclut de nouvelles fonctions, e.g. retweets 10 du 29 17h00 monday, cyber : deals (0.84), pro (0.75) au 30 23h30 Les twittos partagent les offres commerciales high-tech du « Cyber Monday » 11 du 10 01h00 linkedin : synced (0.86), updates (0.84), status (0.83), twitter (0.71) au 12 03h00 Linkedin permet à ses utilisateurs de synchroniser leurs statuts avec Twitter 12 du 04 17h00 yankees, series : win (0.84), won (0.84), fans (0.78), phillies (0.73), york (0.72) au 06 05h30 Les Yankees, l’équipe de baseball de New York remporte laWorld Series face aux Philies 13 du 15 09h00 obama : chinese (0.75), barack (0.72), twitter (0.72), china (0.70) au 17 23h30 Lors d’une visite en Chine, Barack Obama admet n’avoir jamais utilisé Twitter 14 du 25 10h00 holiday : shopping (0.72) au 26 10h00 Les twittos réagissent par rapport au « Black Friday », un jour férié dédié au shopping 15 du 19 21h30 oprah, end : talk (0.81), show (0.79), 2011 (0.73), winfrey (0.71) au 21 16h00 Oprah Winfrey annonce la fin de son talk-show en septembre 2011 16 du 07 11h30 healthcare, reform : house (0.91), bill (0.88), passes (0.83), vote (0.83) au 09 05h00 Lié à l’évènement #5 17 du 11 03h30 facebook : app (0.74), twitter (0.73) au 13 08h30 Pas d’évènement correspondant XGPNQ ÃÁÁÈ XGPNQ ZjgQEIGIh E]]EEkgI[EIh XGPNQ NQ[[EK q !O EZdO[I NQ[[EK Q Q hgX]vs EdQjY !Ç Q[pQjK q dd jqIIjQI РP]]G N]gj Z][Gs EsDIg jQOIg q]]Gh EEQGI[j jQOIg q]]Gh EghP Eg gdPIGIhgIG][G[EIh gdPIGIhKpJ[IZI[jh p[jNkhQ][ EEQGI[j jQOIg q]]Gh EghP Eg Q[WkgIG
  • 18. Laboratoire ERIC Université Lumière Lyon 2 Détecter les évènements Expérimentations D D • Évaluation qualitative • Extrait de la liste d’évènements détectés par MABED dans Cen Page Diffusion de l’information dans les médias sociaux Modélisation et analyse NQ[[EK • Graphe des redondances Graphe des évènements / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 12 # Intervalle Thématique 1 du 25 09h30 thanksgiving, turkey : hope (0.72), happy (0.71) au 28 06h30 Les twittos célèbrent Thanksgiving 2 du 25 09h30 thankful : happy (0.77), thanksgiving (0.71) au 27 09h00 Lié à l’évènement # 1 3 du 10 16h00 veterans : served (0.80), country (0.78), military (0.73), happy (0.72) au 12 08h00 Commémoration du 11 novembre, « Veterans Day » 4 du 26 13h00 black : friday (0.95), amazon (0.75) au 28 10h30 Les twittos discutent des offres proposées par Amazon la veille du « Black Friday » 5 du 07 13h30 hcr, bill, health, house, vote : reform (0.92), passed (0.91), passes (0.88) au 09 04h30 La Chambre des représentants des États-Unis adopte la réforme de santé 6 du 05 19h30 hood, fort : ft (0.92), shooting (0.83), news (0.78), army (0.75), forthood (0.73) au 08 09h00 Une fusillade a lieu dans l’enceinte de la base militaire américaine de Fort Hood 7 du 19 04h30 chrome : os (0.95), google (0.87), desktop (0.71) au 21 02h30 Google rend public le code source de Chrome OS pour PC 8 du 27 18h00 tiger, woods : accident (0.91), car (0.88), crash (0.88), injured (0.80) au 29 05h00 Tiger Woods est victime d’un accident de la route 9 du 28 22h30 tweetie, 2.1, app : retweets (0.93), store (0.90), native (0.89), geotagging (0.88) au 30 23h30 L’application Tweetie sort sur l’apple store et inclut de nouvelles fonctions, e.g. retweets 10 du 29 17h00 monday, cyber : deals (0.84), pro (0.75) au 30 23h30 Les twittos partagent les offres commerciales high-tech du « Cyber Monday » 11 du 10 01h00 linkedin : synced (0.86), updates (0.84), status (0.83), twitter (0.71) au 12 03h00 Linkedin permet à ses utilisateurs de synchroniser leurs statuts avec Twitter 12 du 04 17h00 yankees, series : win (0.84), won (0.84), fans (0.78), phillies (0.73), york (0.72) au 06 05h30 Les Yankees, l’équipe de baseball de New York remporte laWorld Series face aux Philies 13 du 15 09h00 obama : chinese (0.75), barack (0.72), twitter (0.72), china (0.70) au 17 23h30 Lors d’une visite en Chine, Barack Obama admet n’avoir jamais utilisé Twitter 14 du 25 10h00 holiday : shopping (0.72) au 26 10h00 Les twittos réagissent par rapport au « Black Friday », un jour férié dédié au shopping 15 du 19 21h30 oprah, end : talk (0.81), show (0.79), 2011 (0.73), winfrey (0.71) au 21 16h00 Oprah Winfrey annonce la fin de son talk-show en septembre 2011 16 du 07 11h30 healthcare, reform : house (0.91), bill (0.88), passes (0.83), vote (0.83) au 09 05h00 Lié à l’évènement #5 17 du 11 03h30 facebook : app (0.74), twitter (0.73) au 13 08h30 Pas d’évènement correspondant XGPNQ ÃÁÁÈ XGPNQ ZjgQEIGIh E]]EEkgI[EIh XGPNQ NQ[[EK q !O EZdO[I NQ[[EK Q Q hgX]vs EdQjY !Ç Q[pQjK q dd jqIIjQI РP]]G N]gj Z][Gs EsDIg jQOIg q]]Gh EEQGI[j jQOIg q]]Gh EghP Eg gdPIGIhgIG][G[EIh gdPIGIhKpJ[IZI[jh p[jNkhQ][ EEQGI[j jQOIg q]]Gh EghP Eg Q[WkgIG XGPNQ ÃÁÁÈ XGPNQ NQ[[EK q !O EZdO[I Q Q hgX]vs EdQjY !Ç Q[pQjK q N]gj EEQGI[j jQOIg q]]Gh EghP Eg gdPIGIhKpJ[IZI[jh p[jNkhQ][ EEQGI[j jQOIg q]]Gh EghP Eg Q[WkgIG jQOIg EEQGI[j q]]Gh q]]Gh EghP Eg gdPIGIhKpJ[IZI[jh dgJhNkhQ][ Q[WkgIG Évènement #8
  • 19. Laboratoire ERIC Université Lumière Lyon 2 Diffusion de l’information dans les médias sociaux Modélisation et analyse Seconde contribution Modéliser et prévoir la diffusion de l’information dans les médias sociaux Soutenance de thèse - 25 novembre 2014 Adrien Guille
  • 20. Laboratoire ERIC Université Lumière Lyon 2 Modéliser et prévoir la diffusion Introduction • Comment modéliser et prévoir la diffusion de l’information dans les médias sociaux ? • Tâche ardue en raison de l’intrication entre • Les dynamiques humaines • Les structures sociales • On en sait encore peu à propos des facteurs qui gouvernent la diffusion de Page Diffusion de l’information dans les médias sociaux Modélisation et analyse l’information / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 14 ™ ?
  • 21. Laboratoire ERIC Université Lumière Lyon 2 Modéliser et prévoir la diffusion État de l’art et proposition • Approches existantes • Modélisation ignorant la structure du réseau [Leskovec07, Yang10, Wang12] • Modélisation basée sur la structure du réseau [Saito10, Galuba10, Motoda11] • Limitations des approches existantes • Perte d’information en ignorant la structure du réseau [Katona11] • Estimation coûteuse des paramètres des modèles basés sur le réseau • Modèles prédictifs mais pas explicatifs • Proposition • Modèle basé sur la structure du réseau • Formulation des paramètres comme des fonctions de caractéristiques observables Page Diffusion de l’information dans les médias sociaux Modélisation et analyse des utilisateurs / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 15
  • 22. Laboratoire ERIC Université Lumière Lyon 2 Modéliser et prévoir la diffusion Méthode proposée • T-BASIC : Time-Based ASynchronous Independent Cascades • Entrée • Structure du réseau • Activité passée des utilisateurs • Thématique à étudier Page Diffusion de l’information dans les médias sociaux Modélisation et analyse • Décrite par un mot principal et un dÂÃ¥j¦ d¥j¦ dÃÄ¥j¦ Ä IhjIrd]hK= / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 16 ensemble de mots liés • Ensemble d’utilisateurs initiant la diffusion de la thématique • Sortie • Série temporelle traduisant l’évolution du nombre d’utilisateurs relayant l’information décrite par la thématique kà kÄ ˆÂà ˆÄà ˆÄ ˆÃÄ dÄÃ¥j¦ hjQZIgYIh dg]DDQYQjKhGI GQNNkhQ][IjYIh GKYQhGI jg[hZQhhQ][ / jIZdh Q[NYkI[EK YKOI[GI YKOI[GI j k +gKp]QgY GQNNkhQ][=dgjQg G’k[I[hIZDYI/ G’kjQYQhjIkgh Q[QjQYIZI[j Q[N]gZKh . /+.!0./ +.6/$ 1/$
  • 23. Laboratoire ERIC Université Lumière Lyon 2 Modéliser et prévoir la diffusion Méthode proposée • T-BASIC : Time-Based ASynchronous Independent Cascades • Entrée • Structure du réseau • Activité passée des utilisateurs • Thématique à étudier Page Diffusion de l’information dans les médias sociaux Modélisation et analyse • Décrite par un mot principal et un dÂÃ¥j¦ d¥j¦ dÃÄ¥j¦ Ä IhjIrd]hK= / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 16 ensemble de mots liés • Ensemble d’utilisateurs initiant la diffusion de la thématique • Sortie • Série temporelle traduisant l’évolution du nombre d’utilisateurs relayant l’information décrite par la thématique kà kÄ ˆÂà ˆÄà ˆÄ ˆÃÄ dÄÃ¥j¦ hjQZIgYIh dg]DDQYQjKhGI GQNNkhQ][IjYIh GKYQhGI jg[hZQhhQ][ / jIZdh Q[NYkI[EK YKOI[GI YKOI[GI j k +gKp]QgY GQNNkhQ][=dgjQg G’k[I[hIZDYI/ G’kjQYQhjIkgh Q[QjQYIZI[j Q[N]gZKh . /+.!0./ +.6/$ 1/$
  • 24. Laboratoire ERIC Université Lumière Lyon 2 Modéliser et prévoir la diffusion Méthode proposée : description du modèle • Modèle probabiliste • Extension du modèle AsIC [Saito10] • Deux paramètres pour chaque lien (ux →uy) • pux,uy(t) ∈ [0;1] : probabilité que l’utilisateur uy • Déroulement de la prévision • Ensemble S d’utilisateurs initialement activés • Un utilisateur uy nouvellement activé à l’instant t Page Diffusion de l’information dans les médias sociaux Modélisation et analyse influence ux à l’instant t • μux,uy 0 : délai après lequel ux publie un message si uy l’a influencé influence ses voisins inactifs ux avec la probabilité pux,uy(t) • En cas de succès, ux devient actif en t+μux,uy dÂÃ¥j¦ dÂÃ¥j¦ d¥j¦ dÃÄ¥j¦ Ä d¥j¦ dÃÄ¥j¦ Ä IhjIrd]hK= IhjIrd]hK= / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 17 kà kÄ ˆÂà ˆÄà ˆÄ ˆÃÄ dÄÃ¥j¦ / jIZdh Q[NYkI[EK YKOI[GI YKOI[GI j k kà kÄ ˆÂà ˆÄà ˆÄ ˆÃÄ dÄÃ¥j¦ / jIZdh Q[NYkI[EK YKOI[GI YKOI[GI j kÂ
  • 25. pux,— Deuxièmement, l’utilisateur uz est exposé aux messages publiés par uy, c’est-à- Laboratoire ERIC Université Lumière Lyon 2 dire qu’il n’apparaît pas dans la séquence d’activation ; instance positive : (vt y dire qu’il appartient à l’ensemble uy, l’ensemble des voisins entrants de uy dans G. Modéliser et prévoir la diffusion Méthode proposée : estimation des paramètres • Caractérisation des paires d’utilisateurs Ainsi, pour un utilisateur uz satisfaisant ces conditions, nous construisons une ins-tance négative : (vt y , 0). Au final, nous obtenons un jeu de données équilibré à uz,uy4.3. Méthode proposée partir duquel nous pouvons estimer la fonction f . La figure 4.6 illustre ce processus : les noeuds u1, u2 et u3 ont relayé l’information décrite par une thématique T respec-tivement 4.3. Méthode proposée 4.3. Méthode 4.3. Méthode proposée FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(particulièrement, nous définissons g de la façon suivante, de sorte que transmission minimum soit d’une heure : yi = 1, nous créons l’instance suivante (Ac(ux),ux,uy), où ux,uy est délai de transmission entre uy et ux exprimé en heures. Autrement dit, pour chaque paire d’utilisateurs (ux,uy) identifiée lors de la construction du jeu • Vecteur v de en 13 t1, attributs t2 et t3, tandis ∈ [0;que 1] les : aspects noeuds u4 sociaux, et u5 n’ont thématiques pas relayé l’information. et temporels • Formulation Estimation et estimation des paramètres des de paramètres f. Nous définissons la probabilité pux,uy(t) – la • probabilité que l’utilisateur uy influence ux à un instant t à propos d’une théma-tique Probabilité de diffusion : fonction sigmoïde d’une combinaison linéaire de v donnée – comme une fonction du vecteur d’attributs les décrivant, c’est-à-dire : FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la fonction f . FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la fonction degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). particulièrement, nous définissons g de la façon suivante, de sorte que le délai transmission minimum soit d’une heure : • Maximisation de la vraisemblance degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). Plus particulièrement, nous définissons g de la façon suivante, de sorte que le délai de transmission minimum soit d’une heure : linéaire construit à partir de la fonction f . • Délai de transmission : fonction du degré d’activité de ux c’est-à-dire : μux,uy = g(Ac(ux)). Plus façon suivante, de sorte que le délai de Page Diffusion de l’information dans les médias sociaux Modélisation et analyse g(Ac(ux)) = ( ( w0 g(+ w1Ac(ux) si w0 ux)) + w1Ac(ux) 1, Ac(1 = sinon. ( w0 + w1Ac(si ux) w0 + si w1Ac(w0 + ux) w1Ac( 1, ux) 1, 1 sinon. g(Ac(ux)) = 1 sinon. Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé Pour estimer les paramètres w0 et w1, nous construisons un jeu de données de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites variables • Minimisation du critère des moindres carrés bw = argmin de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux variables (xi , zi), selon le principe suivant : de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux variables (xi , zi), (selon xi , zi), le selon principe le principe suivant suivant : : g( g( yi = 1, nous créons l’instance suivante (Ac(ux),ux,uy), où délai de transmission entre uy et ux exprimé en heures. Autrement chaque paire d’utilisateurs (ux,uy) identifiée lors de la construction — Pour chaque instance (vi , yi) de D décrite par un vecteur vi = vux,uy et telle — Pour chaque instance (vi , yi) de D décrite par un vecteur vi = vux,uy et que — Pour chaque instance (vi , yi) de D décrite par un vecteur vi = vux,que / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 18 uy(t) = f (vt ux,uy). Comme nous souhaitons que cette fonction soit interprétable et nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion, nous proposons d’exprimer f comme une fonction monotone à valeurs dans [0; 1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme P13 w0 + j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions le vecteur v de sorte à avoir v0 = 1, ce qui nous permet de la ré-écrire comme le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients w permet de quantifier l’impact, négatif ou positif, des différents attributs sur la probabilité de diffusion de l’information entre deux utilisateurs. Plusieurs formes paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la fonction sigmoïde et définissons donc f de la manière suivante : f (v) = exp(w · v) 1+exp(w · v) . 110 pux,uy(t) = f (vt ux,uy). Comme nous souhaitons que cette fonction soit interprétable et nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion, nous proposons d’exprimer f comme une fonction monotone à valeurs dans [0; 1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme P13 w0 + j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions le vecteur v de sorte à avoir v0 = 1, ce qui nous permet de la ré-écrire comme le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients w permet de quantifier l’impact, négatif ou positif, des différents attributs sur la probabilité de diffusion de l’information entre deux utilisateurs. Plusieurs formes paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la fonction sigmoïde et définissons donc f de la manière suivante : f (v) = exp(w · v) 1+exp(w · v) . bw = argmax w L(D,wwb),= argmax w `(D,w). 4.3. Méthode proposée FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la fonction f . degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). Plus particulièrement, nous définissons g de la façon suivante, de sorte que le délai de transmission minimum soit d’une heure : ux)) = ( w0 + w1Ac(ux) si w0 + w1Ac(ux) 1, 1 sinon. Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux variables (xi , zi), selon le principe suivant : — Pour chaque instance (vi , yi) de D décrite par un vecteur vi = vux,uy et telle que yi = 1, nous créons l’instance suivante (Ac(ux),uy), où est le ux) si w0 + w1Ac(ux) 1, sinon. w0,w1 Xm i=1 (zi − w0 − w1xi)2. ux,uy, 1). Les valeurs des attributs Re(ux) et Re(uy) – qui me-surent la réceptivité des utilisateurs – sont mesurées en t y, c’est-à-dire au moment de la journée où uy a relayé l’information. Les attributs Th(ux) et Th(uy) sont quant à eux évalués pour le terme principal de la thématique T. Par ailleurs, pour chaque paire (ux,uy) identifiée à partir de la séquence d’activation liée à la thématique T, nous choisissons un utilisateur uz, tel que : — Premièrement, l’utilisateur uz n’a pas relayé l’information décrite par T, c’est-à- dire qu’il n’apparaît pas dans la séquence d’activation ; — Deuxièmement, l’utilisateur uz est exposé aux messages publiés par uy, c’est-à- dire qu’il appartient à l’ensemble uy, l’ensemble des voisins entrants de uy dans G. Ainsi, pour un utilisateur uz satisfaisant ces conditions, nous construisons une ins-tance négative : (vt y uz,uy, 0). Au final, nous obtenons un jeu de données équilibré à partir duquel nous pouvons estimer la fonction f . La figure 4.6 illustre ce processus : les noeuds u1, u2 et u3 ont relayé l’information décrite par une thématique T respec-tivement en t1, t2 et t3, tandis que les noeuds u4 et u5 n’ont pas relayé l’information. Estimation des paramètres de f. Nous définissons la probabilité pux,uy(t) – la probabilité que l’utilisateur uy influence ux à un instant t à propos d’une théma-tique donnée – comme une fonction du vecteur d’attributs les décrivant, c’est-à-dire : pux,uy(t) = f (vt ux,uy). Comme nous souhaitons que cette fonction soit interprétable et nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion, nous proposons d’exprimer f comme une fonction monotone à valeurs dans [0; 1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme P13 w0 + j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions le vecteur v de sorte à avoir v0 = 1, ce qui nous permet de la ré-écrire comme le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients w permet de quantifier l’impact, négatif ou positif, des différents attributs sur la probabilité de diffusion de l’information entre deux utilisateurs. Plusieurs formes paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la fonction sigmoïde et définissons donc f de la manière suivante : f (v) = exp(w · v) 1+exp(w · v) . 110 4.3. Méthode proposée instance positive : (vt y ux,uy, 1). Les valeurs des attributs Re(ux) et Re(uy) – qui me-surent la réceptivité des utilisateurs – sont mesurées en t y, c’est-à-dire au moment de la journée où uy a relayé l’information. Les attributs Th(ux) et Th(uy) sont quant à eux évalués pour le terme principal de la thématique T. Par ailleurs, pour chaque paire (ux,uy) identifiée à partir de la séquence d’activation liée à la thématique T, nous choisissons un utilisateur uz, tel que : — Premièrement, l’utilisateur uz n’a pas relayé l’information décrite par T, c’est-à- dire qu’il n’apparaît pas dans la séquence d’activation ; — Deuxièmement, l’utilisateur uz est exposé aux messages publiés par uy, c’est-à- dire qu’il appartient à l’ensemble uy, l’ensemble des voisins entrants de uy dans G. Ainsi, pour un utilisateur uz satisfaisant ces conditions, nous construisons une ins-tance négative : (vt y uz,uy, 0). Au final, nous obtenons un jeu de données équilibré à partir duquel nous pouvons estimer la fonction f . La figure 4.6 illustre ce processus : les noeuds u1, u2 et u3 ont relayé l’information décrite par une thématique T respec-tivement en t1, t2 et t3, tandis que les noeuds u4 et u5 n’ont pas relayé l’information. Estimation des paramètres de f. Nous définissons la probabilité pux,uy(t) – la probabilité que l’utilisateur uy influence ux à un instant t à propos d’une théma-tique donnée – comme une fonction du vecteur d’attributs les décrivant, c’est-à-dire : pux,uy(t) = f (vt ux,uy). Comme nous souhaitons que cette fonction soit interprétable et nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion, nous proposons d’exprimer f comme une fonction monotone à valeurs dans [0; 1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme P13 w0 + j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions le vecteur v de sorte à avoir v0 = 1, ce qui nous permet la ré-écrire comme le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients w permet de quantifier l’impact, négatif ou positif, des différents attributs sur la probabilité de diffusion de l’information entre deux utilisateurs. Plusieurs formes paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la fonction sigmoïde et définissons donc f de la manière suivante : f (v) = exp(w · v) 1+exp(w · v) . 110 ) = f ) = f ) = f f ( f ( 4.3. Méthode proposée FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la fonction f . degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). Plus particulièrement, nous définissons g de la façon suivante, de sorte que le délai de transmission minimum soit d’une heure : g(Ac(ux)) = ( w0 + w1Ac(ux) si w0 + w1Ac(ux) 1, 1 sinon. Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux variables (xi , zi), selon le principe suivant : — Pour chaque instance (vi , yi) de D décrite par un vecteur vi = vux,uy et telle que yi = 1, nous créons l’instance suivante (Ac(ux),ux,uy), où ux,uy est le délai de transmission entre uy et ux exprimé en heures. Autrement dit, pour chaque paire d’utilisateurs (ux,uy) identifiée lors de la construction du jeu de que yi = 1, nous créons l’instance suivante (Ac(ux),ux,uy), où ux,uy est le délai de transmission entre uy et ux exprimé en heures. Autrement dit, pour chaque paire d’utilisateurs (ux,uy) identifiée lors de la construction du jeu de g( g( g(
  • 26. degré d’activité pux,de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). Plus particulièrement, nous définissons g de la façon suivante, de sorte que le délai de transmission minimum soit d’une heure : — Deuxièmement, l’utilisateur uz est exposé aux messages publiés par uy, c’est-à- Laboratoire ERIC Université Lumière Lyon 2 dire qu’il n’apparaît pas dans la séquence d’activation ; instance positive : (vt y ux,uy, 1). Les valeurs des attributs Re(ux) et Re(uy) – qui me-surent la réceptivité des utilisateurs – sont mesurées en t y, c’est-à-dire au moment dire qu’il appartient à l’ensemble uy, l’ensemble des voisins entrants de uy dans G. de la journée où uy a relayé l’information. Les attributs Th(ux) et Th(uy) sont quant à eux évalués pour le terme principal de la thématique T. Par ailleurs, pour chaque paire (ux,uy) identifiée à partir de la séquence d’activation liée à la thématique T, nous choisissons un utilisateur uz, tel que : Modéliser et prévoir la diffusion Méthode proposée ( w0 w1Ac(ux) : estimation + si w0 + w1Ac(ux) des 1, paramètres 1 sinon. • Caractérisation des paires d’utilisateurs Ainsi, pour un utilisateur uz satisfaisant ces conditions, nous construisons une ins-tance — Premièrement, l’utilisateur uz n’a pas relayé l’information décrite par T, c’est-à- négative : (vt y , 0). Au final, nous obtenons un jeu de données équilibré à uz,uyg(Ac(ux)) = 4.3. Méthode proposée dire qu’il n’apparaît pas dans la séquence d’activation ; — Deuxièmement, l’utilisateur uz est exposé aux messages publiés par uy, c’est-à- partir duquel nous pouvons estimer la fonction f . La figure 4.6 illustre ce processus : les noeuds u1, u2 et u3 ont relayé l’information décrite par une thématique T respec-tivement 4.3. Méthode proposée 4.3. Méthode FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(particulièrement, nous définissons g de la façon suivante, de sorte que transmission minimum soit d’une heure : yi = 1, nous créons l’instance suivante (Ac(ux),ux,uy), où ux,uy est délai de transmission entre uy et ux exprimé en heures. Autrement dit, pour chaque paire d’utilisateurs (ux,uy) identifiée lors de la construction du jeu dire qu’il appartient à l’ensemble uy, l’ensemble des voisins entrants de uy dans G. Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux Ainsi, pour un utilisateur uz satisfaisant ces conditions, nous construisons une ins-tance 4.3. Méthode proposée • Vecteur v de en 13 t1, attributs t2 et t3, tandis ∈ [0;que 1] négative les : aspects noeuds : (vt y u4 sociaux, et u5 n’ont thématiques pas relayé l’information. et temporels • Formulation et estimation des paramètres • Probabilité de diffusion : fonction sigmoïde d’une combinaison linéaire de v variables (xi , zi), selon le principe suivant : uz,uy, 0). Au final, nous obtenons un jeu de données équilibré à partir duquel nous pouvons estimer la fonction f . La figure 4.6 illustre ce processus : les noeuds u1, u2 et u3 ont relayé l’information décrite par une thématique T respec-tivement Estimation des paramètres de f. Nous définissons la probabilité pux,uy(t) – la en t1, t2 et t3, tandis que les noeuds u4 et u5 n’ont pas relayé l’information. — Pour chaque instance (vi , yi) de D décrite par un vecteur vi = vux,uy et telle probabilité que l’utilisateur uy influence ux à un instant t à propos d’une théma-tique 4.3. Méthode proposée 4.3. Méthode 4.3. Méthode proposée proposée yi = 1, nous créons l’instance suivante (Ac(ux),ux,uy), où délai de transmission entre uy et ux exprimé en heures. Autrement chaque paire d’utilisateurs (ux,uy) identifiée lors de la construction Estimation des paramètres de f. Nous définissons la probabilité pux,uy(t) – la que yi = 1, nous créons l’instance suivante (Ac(ux),ux,uy), où ux,uy est le délai de transmission entre uy et ux exprimé en heures. Autrement dit, pour chaque paire d’utilisateurs (ux,uy) identifiée lors de la construction du jeu de données D et entre lesquels l’information s’est diffusée (cf. figure 4.6), nous créons une instance de D0 décrite par le délai de transmission observé, et le degré d’activité de l’utilisateur ux qui a été influencé par uy. probabilité que l’utilisateur uy influence ux à un instant t à propos d’une théma-tique donnée – comme une fonction du vecteur d’attributs les décrivant, c’est-à-dire : FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la fonction f . FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la fonction degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). particulièrement, nous définissons g de la façon suivante, de sorte que le délai transmission minimum soit d’une heure : degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). Plus particulièrement, nous définissons g de la façon suivante, de sorte que le délai de transmission minimum soit d’une heure : linéaire construit à partir de la fonction f . donnée – comme une fonction du vecteur d’attributs les décrivant, c’est-à-dire : pux,uy(t) = f (vt ux,uy). Comme nous souhaitons que cette fonction soit interprétable et nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion, nous proposons d’exprimer f comme une fonction monotone à valeurs dans [0; 1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme P13 w0 + j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions le vecteur v de sorte à avoir v0 = 1, ce qui nous permet de la ré-écrire comme 4.3. Méthode proposée 4.3. Méthode proposée le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients w permet de quantifier l’impact, négatif ou positif, des différents attributs sur • Délai de transmission : fonction du degré d’activité de ux la probabilité de diffusion de l’information entre deux utilisateurs. Plusieurs formes paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la fonction sigmoïde et définissons donc f de la manière suivante : Nous proposons FIGURE d’estimer 4.7 – Représentation les paramètres du classifieur w linéaire = {w0,construit w1} à selon partir de la la méthode fonction f . des FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la fonction f . FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la fonction f . ( ( w0 + w1Ac(ux) si w0 + w1Ac(ux) 1, 1 sinon. moindres carrés (Cornillon et Matzner-Løber, 2007), i.e. en minimisant la somme des c’est-à-dire : Plus carrés des différences μux,entre uy les = délais g(Ac(de ux)). transmission observés et les délais prédits, le critère façon des moindres suivante, carrés de sorte étant que le suivant le délai : de Page Diffusion de l’information dans les médias sociaux Modélisation et analyse degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(ux)). Plus particulièrement, nous définissons g de la façon suivante, de sorte que le délai de transmission minimum soit d’une heure : degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). Plus particulièrement, nous définissons g de la façon suivante, de sorte que le délai de transmission minimum soit d’une heure : FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la fonction f . FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la fonction f . degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). Plus particulièrement, nous définissons g de la façon suivante, de sorte que le délai de transmission minimum soit d’une heure : degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). Plus particulièrement, nous définissons g de la façon suivante, de sorte que le délai de transmission minimum soit d’une heure : ( w0 + w1Ac(ux) si w0 + w1Ac(ux) 1, 1 sinon. bw = argmin g(Ac(ux)) = f (v) = g(Ac(ux)) = ( w0 + w1Ac(si ux) w0 + si w1Ac(w0 + ux) w1Ac( 1, ux) 1, 1 sinon. g(Ac(ux)) = 1 sinon. degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). Plus particulièrement, nous définissons g de la façon suivante, de sorte que le délai de transmission minimum soit d’une heure : Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé Pour estimer les paramètres w0 et w1, nous construisons un jeu de données de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites variables de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux variables (xi , zi), selon le principe suivant : de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux variables (xi , zi), selon le principe suivant : ( w0 + w1Ac(ux) si w0 + w1Ac(ux) 1, 1 sinon. ( w0 + w1Ac(ux) si w0 + w1Ac(ux) 1, 1 sinon. (xi , zi), selon le principe suivant : g(Ac(ux)) = g(Ac(ux)) = ( w0 + w1Ac(ux) si w0 + w1Ac(ux) 1, 1 sinon. — Pour chaque instance (vi , yi) de D décrite par un vecteur vi = vux,uy et telle — Pour chaque instance (vi , yi) de D décrite par un vecteur vi = vux,uy et que — Pour chaque instance (vi , yi) de D décrite par un vecteur vi = vux,que g(Ac(ux)) = Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé Pour estimer les paramètres w0 w1, nous construisons un jeu de données dérivé Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé g(Ac(ux)) = / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 18 uy(t) = f (vt ux,uy). Comme nous souhaitons que cette fonction soit interprétable et nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion, nous proposons d’exprimer f comme une fonction monotone à valeurs dans [0; 1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme P13 w0 + j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions le vecteur v de sorte à avoir v0 = 1, ce qui nous permet de la ré-écrire comme le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients w permet de quantifier l’impact, négatif ou positif, des différents attributs sur la probabilité de diffusion de l’information entre deux utilisateurs. Plusieurs formes paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la fonction sigmoïde et définissons donc f de la manière suivante : f (v) = exp(w · v) 1+exp(w · v) . 110 pux,uy(t) = f (vt ux,uy). Comme nous souhaitons que cette fonction soit interprétable et nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion, nous proposons d’exprimer f comme une fonction monotone à valeurs dans [0; 1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme P13 w0 + j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions le vecteur v de sorte à avoir v0 = 1, ce qui nous permet de la ré-écrire comme le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients w permet de quantifier l’impact, négatif ou positif, des différents attributs sur la probabilité de diffusion de l’information entre deux utilisateurs. Plusieurs formes paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la fonction sigmoïde et définissons donc f de la manière suivante : f (v) = exp(w · v) 1+exp(w · v) . P(Y = yi |vi) = P(Y = 1|vi)yi (1− P(Y = 1|vi))1−yi . en supposant l’indépendance entre les instances du jeu de données D, nous la vraisemblance du vecteur w pour le jeu de données D (i.e. P(D|w)) suit : L(D,w) = Yn i=1 P(Y = yi |vi) = Yn i=1 P(Y = 1|vi)yi (1− P(Y = 1|vi))1−yi = Yn i=1 ✓ exp(w · vi) 1+exp(w · vi) ◆yi ✓ 1− exp(w · vi) 1+exp(w · vi) ◆1−yi Estimer le vecteur w s’apparente donc au problème d’optimisation qui consiste à la vraisemblance du jeu de données D : bw = argmax w L(D,w), se fait en dérivant L(D,w) par rapport à w. Or, le logarithme naturel étant fonction strictement croissante, maximiser L(D,w) équivaut par conséquent à 111 4.3. Méthode proposée maximiser la log-vraisemblance, `(D,w) – dont la dérivation est plus simple. Nous avons donc le problème d’optimisation suivant, équivalent au précédent : bw = argmax w `(D,w). Nous exprimons la log-vraisemblance comme suit : `(D,w) = ln Yn i=1 ✓ exp(w · vi) 1+exp(w · vi) ◆yi ✓ 1 exp(w · vi) 1+exp(w · vi) ◆1yi ! = Xn i=1 Ç yi ln ✓ exp(w · vi) 1+exp(w · vi) ◆ +(1 yi) ln ✓ 1 exp(w · vi) 1+exp(w · vi) ◆1yi å . En exploitant le fait que : expw · vi 1 4.3. Méthode proposée FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la fonction f . degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). Plus particulièrement, nous définissons g de la façon suivante, de sorte que le délai de transmission minimum soit d’une heure : ux)) = ( w0 + w1Ac(ux) si w0 + w1Ac(ux) 1, 1 sinon. Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux variables (xi , zi), selon le principe suivant : — Pour chaque instance (vi , yi) de D décrite par un vecteur vi = vux,uy et telle que yi = 1, nous créons l’instance suivante (Ac(ux),uy), où est le ux) si w0 + w1Ac(ux) 1, sinon. w0,w1 Xm i=1 (zi − w0 − w1xi)2. • Maximisation de la vraisemblance • Minimisation du critère des moindres carrés exp(w · v) 1+exp(w · v) . 110 4.3. Méthode proposée instance positive : (vt y ux,uy, 1). Les valeurs des attributs Re(ux) et Re(uy) – qui me-surent la réceptivité des utilisateurs – sont mesurées en t y, c’est-à-dire au moment de la journée où uy a relayé l’information. Les attributs Th(ux) et Th(uy) sont quant à eux évalués pour le terme principal de la thématique T. Par ailleurs, pour chaque paire (ux,uy) identifiée à partir de la séquence d’activation liée à la thématique T, nous choisissons un utilisateur uz, tel que : — Premièrement, l’utilisateur uz n’a pas relayé l’information décrite par T, c’est-à- dire qu’il n’apparaît pas dans la séquence d’activation ; — Deuxièmement, l’utilisateur uz est exposé aux messages publiés par uy, c’est-à- dire qu’il appartient à l’ensemble uy, l’ensemble des voisins entrants de uy dans G. Ainsi, pour un utilisateur uz satisfaisant ces conditions, nous construisons une ins-tance négative : (vt y uz,uy, 0). Au final, nous obtenons un jeu de données équilibré à partir duquel nous pouvons estimer la fonction f . La figure 4.6 illustre ce processus : les noeuds u1, u2 et u3 ont relayé l’information décrite par une thématique T respec-tivement en t1, t2 et t3, tandis que les noeuds u4 et u5 n’ont pas relayé l’information. Estimation des paramètres de f. Nous définissons la probabilité pux,uy(t) – la probabilité que l’utilisateur uy influence ux à un instant t à propos d’une théma-tique donnée – comme une fonction du vecteur d’attributs les décrivant, c’est-à-dire : pux,uy(t) = f (vt ux,uy). Comme nous souhaitons que cette fonction soit interprétable et nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion, nous proposons d’exprimer f comme une fonction monotone à valeurs dans [0; 1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme P13 w0 + j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions le vecteur v de sorte à avoir v0 = 1, ce qui nous permet la ré-écrire comme le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients w permet de quantifier l’impact, négatif ou positif, des différents attributs sur la probabilité de diffusion de l’information entre deux utilisateurs. Plusieurs formes paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la fonction sigmoïde et définissons donc f de la manière suivante : f (v) = exp(w · v) 1+exp(w · v) . 110 4.3. Méthode proposée instance positive : (vt y ux,uy, 1). Les valeurs des attributs Re(ux) et Re(– qui me-surent la réceptivité des utilisateurs – sont mesurées en t y, c’est-à-dire au moment de la journée où uy a relayé l’information. Les attributs Th(ux) et Th(uy) sont quant à eux évalués pour le terme principal de la thématique T. Par ailleurs, pour chaque paire (ux,uy) identifiée à partir de la séquence d’activation liée à la thématique T, nous choisissons un utilisateur uz, tel que : — Premièrement, l’utilisateur uz n’a pas relayé l’information décrite par T, c’est-à- dire qu’il n’apparaît pas dans la séquence d’activation ; — Deuxièmement, l’utilisateur uz est exposé aux messages publiés par uy, c’est-à- dire qu’il appartient à l’ensemble uy, l’ensemble des voisins entrants de uy dans G. Ainsi, pour un utilisateur uz satisfaisant ces conditions, nous construisons une ins-tance négative : (vt y uz,uy, 0). Au final, nous obtenons un jeu de données équilibré à partir duquel nous pouvons estimer la fonction f . La figure 4.6 illustre ce processus : les noeuds u1, u2 et u3 ont relayé l’information décrite par une thématique T respec-tivement en t1, t2 et t3, tandis que les noeuds u4 et u5 n’ont pas relayé l’information. Estimation des paramètres de f. Nous définissons la probabilité pux,uy(t) – la probabilité que l’utilisateur uy influence ux à un instant t à propos d’une théma-tique donnée – comme une fonction du vecteur d’attributs les décrivant, c’est-à-dire : pux,uy(t) = f (vt ux,uy). Comme nous souhaitons que cette fonction soit interprétable et nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion, nous proposons d’exprimer f comme une fonction monotone à valeurs dans [0; 1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme P13 w0 + j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions le vecteur v de sorte à avoir v0 = 1, ce qui nous permet de la ré-écrire comme le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients w permet de quantifier l’impact, négatif ou positif, des différents attributs sur la probabilité de diffusion de l’information entre deux utilisateurs. Plusieurs formes paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la fonction sigmoïde et définissons donc f de la manière suivante : f (v) = exp(w · v) 1+exp(w · v) . 110 4.3. Méthode proposée instance positive : (vt y ux,uy, 1). Les valeurs des attributs Re(ux) et Re(uy) – qui me-surent la réceptivité des utilisateurs – sont mesurées en t y, c’est-à-dire au moment de la journée où uy a relayé l’information. Les attributs Th(ux) et Th(uy) sont quant à eux évalués pour le terme principal de la thématique T. Par ailleurs, pour chaque paire (ux,uy) identifiée à partir de la séquence d’activation liée à la thématique T, nous choisissons un utilisateur uz, tel que : — Premièrement, l’utilisateur uz n’a pas relayé l’information décrite par T, c’est-à- dire qu’il n’apparaît pas dans la séquence d’activation ; — Deuxièmement, l’utilisateur uz est exposé aux messages publiés par uy, c’est-à- dire qu’il appartient à l’ensemble uy, l’ensemble des voisins entrants de uy dans G. Ainsi, pour un utilisateur uz satisfaisant ces conditions, nous construisons une ins-tance négative : (vt y uz,uy, 0). Au final, nous obtenons un jeu de données équilibré à partir duquel nous pouvons estimer la fonction f . La figure 4.6 illustre ce processus : les noeuds u1, u2 et u3 ont relayé l’information décrite par une thématique T respec-tivement en t1, t2 et t3, tandis que les noeuds u4 et u5 n’ont pas relayé l’information. Estimation des paramètres de f. Nous définissons la probabilité pux,uy(t) – la probabilité que l’utilisateur uy influence ux à un instant t à propos d’une théma-tique donnée – comme une fonction du vecteur d’attributs les décrivant, c’est-à-dire : pux,uy(t) = f (vt ux,uy). Comme nous souhaitons que cette fonction soit interprétable et nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion, nous proposons d’exprimer f comme une fonction monotone à valeurs dans [0; 1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme P13 w0 + j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions le vecteur v de sorte à avoir v0 = 1, ce qui nous permet de la ré-écrire comme le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients w permet de quantifier l’impact, négatif ou positif, des différents attributs sur la probabilité de diffusion de l’information entre deux utilisateurs. Plusieurs formes paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la fonction sigmoïde et définissons donc f de la manière suivante : f (v) = exp(w · v) 1+exp(w · v) . 110 4.3. Méthode proposée instance positive : (vt y ux,uy, 1). Les valeurs des attributs Re(ux) et Re(uy) – qui me-surent la réceptivité des utilisateurs – sont mesurées en t y, c’est-à-dire au moment de la journée où uy a relayé l’information. Les attributs Th(ux) et Th(uy) sont quant à eux évalués pour le terme principal de la thématique T. Par ailleurs, pour chaque paire (ux,uy) identifiée à partir de séquence d’activation liée à la thématique T, nous choisissons un utilisateur uz, tel que : — Premièrement, l’utilisateur uz n’a pas relayé l’information décrite par T, c’est-à- dire qu’il n’apparaît pas dans la séquence d’activation ; — Deuxièmement, l’utilisateur uz est exposé aux messages publiés par uy, c’est-à- dire qu’il appartient à l’ensemble uy, l’ensemble des voisins entrants de uy dans G. Ainsi, pour un utilisateur uz satisfaisant ces conditions, nous construisons une ins-tance négative : (vt y uz,uy, 0). Au final, nous obtenons un jeu de données équilibré à partir duquel nous pouvons estimer la fonction f . La figure 4.6 illustre ce processus : les noeuds u1, u2 et u3 ont relayé l’information décrite par une thématique T respec-tivement en t1, t2 et t3, tandis que les noeuds u4 et u5 n’ont pas relayé l’information. Estimation des paramètres de f. Nous définissons la probabilité pux,uy(t) – la probabilité que l’utilisateur uy influence ux à un instant t à propos d’une théma-tique donnée – comme une fonction du vecteur d’attributs les décrivant, c’est-à-dire : pux,uy(t) = f (vt ux,uy). Comme nous souhaitons que cette fonction soit interprétable et nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion, nous proposons d’exprimer f comme une fonction monotone à valeurs dans [0; 1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme P13 w0 + j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions le vecteur v de sorte à avoir v0 = 1, ce qui nous permet de la ré-écrire comme le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients w permet de quantifier l’impact, négatif ou positif, des différents attributs sur la probabilité de diffusion l’information entre deux utilisateurs. Plusieurs formes paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la fonction sigmoïde et définissons donc f de la manière suivante : f (v) = exp(w · v) 1+exp(w · v) . 110 4.3. Méthode proposée instance positive : (vt y ux,uy, 1). Les valeurs des attributs Re(ux) et Re(uy) – qui me-surent la réceptivité des utilisateurs – sont mesurées en t y, c’est-à-dire au moment de la journée où uy a relayé l’information. Les attributs Th(ux) et Th(uy) sont quant à eux évalués pour le terme principal de la thématique T. Par ailleurs, pour chaque paire (ux,uy) identifiée à partir de la séquence d’activation liée à la thématique T, nous choisissons un utilisateur uz, tel que : — Premièrement, l’utilisateur uz n’a pas relayé l’information décrite par T, c’est-à- dire qu’il n’apparaît pas dans la séquence d’activation ; — Deuxièmement, l’utilisateur uz est exposé aux messages publiés par uy, c’est-à- dire qu’il appartient à l’ensemble uy, l’ensemble des voisins entrants de uy dans G. Ainsi, pour un utilisateur uz satisfaisant ces conditions, nous construisons une ins-tance négative : (vt y uz,uy, 0). Au final, nous obtenons un jeu de données équilibré à partir duquel nous pouvons estimer la fonction f . La figure 4.6 illustre ce processus : les noeuds u1, u2 et u3 ont relayé l’information décrite par une thématique T respec-tivement en t1, t2 et t3, tandis que les noeuds u4 et u5 n’ont pas relayé l’information. Estimation des paramètres de f. Nous définissons la probabilité pux,uy(t) – la probabilité que l’utilisateur uy influence ux à un instant t à propos d’une théma-tique donnée – comme une fonction du vecteur d’attributs les décrivant, c’est-à-dire : pux,uy(t) = f (vt ux,uy). Comme nous souhaitons que cette fonction soit interprétable et nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion, nous proposons d’exprimer f comme une fonction monotone à valeurs dans [0; 1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme P13 w0 + j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions le vecteur v de sorte à avoir v0 = 1, ce qui nous permet de la ré-écrire comme le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients w permet de quantifier l’impact, négatif ou positif, des différents attributs sur la probabilité de diffusion de l’information entre deux utilisateurs. Plusieurs formes paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la fonction sigmoïde et définissons donc f de la manière suivante : f (v) = exp(w · v) 1+exp(w · v) . 110 4.3. Méthode proposée instance positive : (vt y ux,uy, 1). Les valeurs des attributs Re(ux) et Re(uy) – qui me-surent la réceptivité des utilisateurs – sont mesurées en t y, c’est-à-dire au moment de la journée où uy a relayé l’information. Les attributs Th(ux) et Th(uy) sont quant à eux évalués pour le terme principal de la thématique T. Par ailleurs, pour chaque paire (ux,uy) identifiée à partir de la séquence d’activation liée à la thématique T, nous choisissons un utilisateur uz, tel que : — Premièrement, l’utilisateur uz n’a pas relayé l’information décrite par T, c’est-à- dire qu’il n’apparaît pas dans la séquence d’activation ; — Deuxièmement, l’utilisateur uz est exposé aux messages publiés par uy, c’est-à- dire qu’il appartient à l’ensemble uy, l’ensemble des voisins entrants de uy dans G. Ainsi, pour un utilisateur uz satisfaisant ces conditions, nous construisons une ins-tance négative : (vt y uz,uy, 0). Au final, nous obtenons un jeu de données équilibré à partir duquel nous pouvons estimer la fonction f . La figure 4.6 illustre ce processus : les noeuds u1, u2 et u3 ont relayé l’information décrite par une thématique T respec-tivement en t1, t2 et t3, tandis que les noeuds u4 et u5 n’ont pas relayé l’information. Estimation des paramètres de f. Nous définissons la probabilité pux,uy(t) – la probabilité que l’utilisateur uy influence ux à un instant t à propos d’une théma-tique donnée – comme une fonction du vecteur d’attributs les décrivant, c’est-à-dire : pux,uy(t) = f (vt ux,uy). Comme nous souhaitons que cette fonction soit interprétable et nous permettent d’analyser l’impact des différents attributs sur la probabilité de dif-fusion, nous proposons d’exprimer f comme une fonction monotone à valeurs dans [0;1] d’une combinaison linéaire des composantes du vecteur d’attributs v de la forme P13 w0 + j=1 wj vj . Pour simplifier l’écriture de cette combinaison linéaire, nous modi-fions le vecteur v de sorte à avoir v0 = 1, ce qui nous permet de la ré-écrire comme le produit scalaire w · v. La fonction f étant monotone, l’analyse du vecteur de coef-ficients w permet de quantifier l’impact, négatif positif, des différents attributs sur la probabilité de diffusion de l’information entre deux utilisateurs. Plusieurs formes paramétriques pour la fonction f sont envisageables. Nous choisissons ici d’utiliser la fonction sigmoïde et définissons donc f de la manière suivante : f (v) = exp(w · v) 1+exp(w · v) . 110 4.3. Méthode proposée FIGURE 4.7 – Représentation du classifieur linéaire construit à partir de la fonction f . degré d’activité de l’utilisateur ux, Ac(ux), c’est-à-dire : μux,uy = g(Ac(ux)). Plus particulièrement, nous définissons g de la façon suivante, de sorte que le délai de transmission minimum soit d’une heure : g(Ac(ux)) = ( w0 + w1Ac(ux) si w0 + w1Ac(ux) 1, 1 sinon. Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux variables (xi , zi), selon le principe suivant : — Pour chaque instance (vi , yi) de D décrite par un vecteur vi = vux,uy et telle que yi = 1, nous créons l’instance suivante (Ac(ux),ux,uy), où ux,uy est le délai de transmission entre uy et ux exprimé en heures. Autrement dit, pour chaque paire d’utilisateurs (ux,uy) identifiée lors de la construction du jeu de que yi = 1, nous créons l’instance suivante (Ac(ux),ux,uy), où ux,uy est le délai de transmission entre uy et ux exprimé en heures. Autrement dit, pour chaque paire d’utilisateurs (ux,uy) identifiée lors de la construction du jeu de Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux g(Ac(ux)) = ( w0 + w1Ac(ux) si w0 + w1Ac(ux) 1, 1 sinon. Pour estimer les paramètres w0 et w1, nous construisons un jeu de données dérivé de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux variables (xi , zi), selon le principe suivant : de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux variables (xi , zi), selon le principe suivant : de D, noté D0. Ce jeu de données est constitué de m = n/2 instances décrites par deux
  • 27. Laboratoire ERIC Université Lumière Lyon 2 Modéliser et prévoir la diffusion Expérimentations • Protocole • Réseau : 5,7·106 abonnements pour 52·103 utilisateurs de Twitter [Kwak10] • Trois corpus : C1 (oct. 09) C2 (nov. 09) C3 (déc. 09), au total 4·106 tweets [Yang11] • Jeux de données d’apprentissage : construits à l’aide de C1 et C2 , et MABED • Jeux de données de test : construits à l’aide de C2 et C3 , et MABED • Évaluation de la procédure d’estimation des probabilités de diffusion • Classifieur h basé sur f avec un seuil θ = 0,5 • Classifieurs courants Page Diffusion de l’information dans les médias sociaux Modélisation et analyse ™ • Classifieur à vaste marge • Classifieur bayésien naïf ™ / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 19 Modéliser et prédire la diffusion de l’information Métrique (h | f,✓ ) SVM-l SVM-g SVM-p2 SVM-p3 Bayésien naïf Précision 0,700 0,712 0,712 0,721 0,688 0,708 Rappel 0,822 0,799 0,798 0,755 0,692 0,777 F-mesure 0,756 0,753 0,753 0,738 0,690 0,741 TABLE 4.4 – Performances des six classifieurs sur le jeu de données Dtest.
  • 28. Laboratoire ERIC Université Lumière Lyon 2 Modéliser et prévoir la diffusion Expérimentations • Évaluation de T-BASIC pour la prévision de la diffusion • Méthodes comparées : One-time-lag Predictor [Yang10] et αT-BASIC • Données : 30 séries temporelles extraites à l’aide de MABED • Métrique d’évaluation : erreur relative par rapport au volume [Yang10] • Réduction de l’erreur par rapport au One-time-lag Predictor • Analyse de l’effet des caractéristiques des utilisateurs (ux →uy) • Taux de mention (aspect social) • Rôle (aspect social) • Thématique • Réceptivité (aspect temporel) • Degré d’activité (aspect social) Page Diffusion de l’information dans les médias sociaux Modélisation et analyse • 21,2% pour T-BASIC et 14,3% pour αT-BASIC Tm=1 Tm=0 Ro=1 Ro=0 effet négatif effet positif / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 20 Modéliser et prédire la diffusion de l’information 10−2 10−1 100 101 102 Th(T)=1 Th(T)=0 Re(t)=1 Re(t)=0 Ac=1 Ac=0 attribut variant pour ux attribut variant pour uy FIGURE 4.10 – Rapports de cotes pour différents attributs, mesurés par rapport aux
  • 29. Laboratoire ERIC Université Lumière Lyon 2 Diffusion de l’information dans les médias sociaux Modélisation et analyse Troisième contribution Un logiciel libre pour la fouille des données issues des médias sociaux Soutenance de thèse - 25 novembre 2014 Adrien Guille
  • 30. Laboratoire ERIC Université Lumière Lyon 2 Un logiciel libre pour la fouille des données issues des médias sociaux Introduction • Comment identifier les utilisateurs influents par rapport à la diffusion de l’information dans les médias sociaux ? • Besoin de nombreux acteurs de la sociétés, e.g. entreprises, services • Scénario de base • Détecter des évènements puis identifier les utilisateurs influant par rapport à Page Diffusion de l’information dans les médias sociaux Modélisation et analyse gouvernementaux, journalistes • Marketing viral • Sécurité • Investigation journalistique • etc. ces évènements • Éventuellement agir en conséquence / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 22
  • 31. Laboratoire ERIC Université Lumière Lyon 2 Un logiciel libre pour la fouille des données issues des médias sociaux État de l’art et proposition • Logiciels existants • Prototypes fermés pour la détection d’évènements [Bernstein10, Marcus11, Lee13] • Logiciels libres pour l’analyse de l’influence [Gephi, Tulip, SNAP] • Limitations des logiciels existants • Fossé entre détection d’évènements et analyse de l’influence • Proposition • Analyse conjointe des évènements et de l’influence • Identification des utilisateurs influents par rapport aux évènements détectés • Logiciel libre • Autonome (interface utilisateur) ou bibliothèque (interface de programmation) Page Diffusion de l’information dans les médias sociaux Modélisation et analyse / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 23
  • 32. Laboratoire ERIC Université Lumière Lyon 2 Un logiciel libre pour la fouille des données issues des médias sociaux Logiciel proposé • SONDY : SOcial Network DYnamics • Publics visés • Non-experts : interface utilisateur avancée et visualisations adaptées • Chercheurs du domaine : interface de programmation et import d’algorithmes • Architecture • Quatre services : import/préparation des données, détection d’évènements, Page Diffusion de l’information dans les médias sociaux Modélisation et analyse analyse de l’influence, import d’algorithmes / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 24 Į ș ȕ ࢥ
  • 33. Laboratoire ERIC Université Lumière Lyon 2 Un logiciel libre pour la fouille des données issues des médias sociaux SONDY : import et préparation des données • Import • Deux fichiers CSV • Corpus de messages • Réseau social • Pré-traitement • Partitionnement du corpus de messages • Segmentation du texte • Racinisation • Lemmatisation • Filtrage • Sélection d’une sous-période de temps • Suppression des mots vides Page Diffusion de l’information dans les médias sociaux Modélisation et analyse / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 25
  • 34. Laboratoire ERIC Université Lumière Lyon 2 Un logiciel libre pour la fouille des données issues des médias sociaux SONDY : détection et visualisation des évènements • Algorithmes implémentés • Peaky Topics [Shamma11] • Persistent Conversations [Shamma11] • Trending Score [Benhardus13] • EDCoW [Weng11] • ET [Parikh13] • Pont vers On-line LDA • MABED • Visualisations • Liste des évènements • Courbe de fréquence et MACD [Lu12] • Liste des messages liés aux évènements • Frise chronologique Page Diffusion de l’information dans les médias sociaux Modélisation et analyse / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 26
  • 35. Laboratoire ERIC Université Lumière Lyon 2 Un logiciel libre pour la fouille des données issues des médias sociaux SONDY : analyse et visualisation de l’influence • Algorithmes implémentés • Page Rank [Page98] • Décomposition en k couches [Kitsak10] • Log-décomposition en k couches [Brown11] • Centralité d’intermédiarité [Freeman77] • Capitalistes sociaux [Dugué14] • Visualisations • Distribution des rangs des utilisateurs • Coloration du réseau social • Liste des messages des utilisateurs • Séquence d’activation Page Diffusion de l’information dans les médias sociaux Modélisation et analyse / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 27
  • 36. Laboratoire ERIC Université Lumière Lyon 2 Un logiciel libre pour la fouille des données issues des médias sociaux Scénario d’utilisation : non-expert • Analyser les évènements liés à la société Google Page Diffusion de l’information dans les médias sociaux Modélisation et analyse / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 28
  • 37. Laboratoire ERIC Université Lumière Lyon 2 Un logiciel libre pour la fouille des données issues des médias sociaux Scénario d’utilisation : non-expert • Analyser les évènements liés à la société Google Page Diffusion de l’information dans les médias sociaux Modélisation et analyse / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 28
  • 38. Laboratoire ERIC Université Lumière Lyon 2 Un logiciel libre pour la fouille des données issues des médias sociaux Scénario d’utilisation : non-expert • Analyser les évènements liés à la société Google Page Diffusion de l’information dans les médias sociaux Modélisation et analyse / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 28
  • 39. Laboratoire ERIC Université Lumière Lyon 2 Un logiciel libre pour la fouille des données issues des médias sociaux Scénario d’utilisation : non-expert • Analyser les évènements liés à la société Google Page Diffusion de l’information dans les médias sociaux Modélisation et analyse / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 28
  • 40. Laboratoire ERIC Université Lumière Lyon 2 Un logiciel libre pour la fouille des données issues des médias sociaux Scénario d’utilisation : non-expert • Analyser les évènements liés à la société Google Page Diffusion de l’information dans les médias sociaux Modélisation et analyse / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 28
  • 41. Laboratoire ERIC Université Lumière Lyon 2 Un logiciel libre pour la fouille des données issues des médias sociaux Scénario d’utilisation : non-expert • Identifier les utilisateurs influant à propos de la société Google Page Diffusion de l’information dans les médias sociaux Modélisation et analyse / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 29
  • 42. Laboratoire ERIC Université Lumière Lyon 2 Un logiciel libre pour la fouille des données issues des médias sociaux Scénario d’utilisation : non-expert • Identifier les utilisateurs influant à propos de la société Google Page Diffusion de l’information dans les médias sociaux Modélisation et analyse / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 29
  • 43. Laboratoire ERIC Université Lumière Lyon 2 Un logiciel libre pour la fouille des données issues des médias sociaux Scénario d’utilisation : chercheur du domaine • Utilisation de l’interface de programmation de SONDY • Pour automatiser des expérimentations • Pour réutiliser les méthodes implémentées dans un autre programme Page Diffusion de l’information dans les médias sociaux Modélisation et analyse / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 30 import fr.ericlab.sondy.*; import org.apache.commons.io.FileUtils; public class Programme { public static void main(String[] args) { AppVariables state; DataManipulation dataManipulation; // import d’un jeu de données dataManipulation.importDataset(messages.csv,network.csv, Nom,Description optionnelle,state); // préparation du jeu de données dataManipulation.prepareStream(60,English,false,state); // chargement de la méthode MABED EventDetectionAlgorithm mabed = (EventDetectionAlgorithm) Class.forName(MABED).newInstance(state); for(double i = 0.2; i = 1; i += 0.1){ // variation du paramètre sigma de la méthode mabed.sigma = i; mabed.k = 40; mabed.theta = 0.7 mabed.p = 10; mabed.apply(); EventDetectionResults results = mabed.getResults(); // écriture des résultats FileUtils.write(chemin,results); } } }
  • 44. Laboratoire ERIC Université Lumière Lyon 2 Conclusion Résultats obtenus • MABED : détection efficace des évènements significatifs • Considérer les mentions dans les messages • T-BASIC : modélisation explicative du phénomène de diffusion • Les caractéristiques sociales, thématiques et temporelles des utilisateurs • SONDY : analyse de l’influence par rapport aux évènements • Accessibilité de l’interface utilisateur par des non-experts • Grâce notamment à des visualisations adaptées • Accessibilité de l’interface de programmation • e.g. implémentation d’un algorithme par des étudiants de master Page Diffusion de l’information dans les médias sociaux Modélisation et analyse • Conduit à une détection plus précise des évènements significatifs • Avec une plus grande robustesse en présence de bruit • Influent de diverses façons sur le phénomène de diffusion • Notamment les caractéristiques des utilisateurs subissant l’influence / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 31
  • 45. Laboratoire ERIC Université Lumière Lyon 2 Conclusion Perspectives de travail • Globalement • Diversifier les sources de données • MABED • Caractériser plus précisément les interactions (e.g. re-tweets, localisations) • Faire le lien entre détection d’évènements et détection de communautés • T-BASIC • Relaxer certaines hypothèses • SONDY • Adapter le logiciel aux données volumineuses Page Diffusion de l’information dans les médias sociaux Modélisation et analyse • Propositions génériques mais interprétation des résultats liée aux données • Ne plus considérer la seule influence interne au réseau étudié • Ne plus considérer indépendamment les processus de diffusion simultanés • Faciliter l’implémentation d’algorithmes parallèles voire distribués / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 32
  • 46. Laboratoire ERIC Université Lumière Lyon 2 Conclusion Impact des travaux de thèse • Publications ✴ * Invitation à rédiger une version étendue pour la revue internationale SNAM (Springer) • Citations • Plus de 90 citations selon Google Scholar, au 25 novembre 2014 • Téléchargements • Plus de 750 téléchargements de SONDY, au 25 novembre 2014 Page Diffusion de l’information dans les médias sociaux Modélisation et analyse / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 33 Revue internationale Conférence internationale Atelier international Conférence nationale SIGMOD Record, vol.42, 2013 ASONAM 2014, SIGMOD 2013 MSND @ WWW 2012 EGC 2012, 2013, 2014) Revue internationale Conférence internationale Atelier international Conférence nationale • ACM SIGMOD Record (volume 42) 2013 • IEEE/ACM ASONAM 2014 * • ACM SIGMOD 2013 (démo) • PhD @ ACM SIGMOD 2013 • MSND @ ACM WWW 2012 • EGC 2014 • EGC 2013 (démo) • EGC 2012
  • 47. Laboratoire ERIC Université Lumière Lyon 2 Conclusion Impact des travaux de thèse • Publications ✴ * Invitation à rédiger une version étendue pour la revue internationale SNAM (Springer) • Citations • Plus de 90 citations selon Google Scholar, au 25 novembre 2014 • Téléchargements • Plus de 750 téléchargements de SONDY, au 25 novembre 2014 Page Diffusion de l’information dans les médias sociaux Modélisation et analyse / 33 Soutenance de thèse - 25 novembre 2014 Adrien Guille 33 Revue internationale Conférence internationale Atelier international Conférence nationale SIGMOD Record, vol.42, 2013 ASONAM 2014, SIGMOD 2013 MSND @ WWW 2012 EGC 2012, 2013, 2014) Revue internationale Conférence internationale Atelier international Conférence nationale • ACM SIGMOD Record (volume 42) 2013 • IEEE/ACM ASONAM 2014 * • ACM SIGMOD 2013 (démo) • PhD @ ACM SIGMOD 2013 • MSND @ ACM WWW 2012 • EGC 2014 • EGC 2013 (démo) • EGC 2012 Merci pour votre attention !