1. Small Data vs. Big Data
Mener des expériences dans les médias sociaux
Antonio
A.
Casilli
2. • Big data ?
• Un forum Web traditionnel
(∼20Gio de données sur 10
ans de durée de vie)
• Une banque en ligne (∼2Tio
de données)
• Google Search : 850 Tio de
données (2006)
• Facebook bientôt ∼9Pio
de données Ghitalla, Franck (2004) La géographie des agrégats de
documents sur le Web”, WebAtlas,. http://www.webatlas.fr/
ressources/geographieDesAgregatsWeb.pdf
3. • Impossible d’appliquer des
techniques traditionnelles
• Millions d’enregistrements
avec des milliers d’attributs
• Triomphe de la fouille de
données (data mining) et de
l’extraction de connaissances
• Exploration automatique de
grandes quantités de
données pour extraire des
patterns
4. • Promesses des big data :
1. Pour la recherche (physique,
génomique, épidémiologie,
bioinformatique, etc.)
2. P o u r l e s e c t e u r p u b l i c
( d a t a . g o v, crime,
infrastructures)
3. Pour le privé (recherche
industrielle, publicité,
assurances, finance)
Lohr, Steve (2012) Big Data’s Impact in the World, The New York
Times, Feb. 11, sect. Sunday Review. https://www.nytimes.com/
2012/02/12/sunday-review/big-datas-impact-in-the-world.html.
5. • Big data : est-ce la fin de la
théorie ?
• Approche dirigée par les
données (data-driven) de la
recherche
“Forget taxonomy, ontology, and
psychology. Who knows why
people do what they do? The
point is they do it, and we can
track and measure it with
unprecedented fidelity. With
enough data, the numbers speak Anderson, Chris (2008) The End of Theory: The Data Deluge
for themselves.” Makes the Scientific Method Obsolete. Wired, 16(7), http://
www.wired.com/science/discoveries/magazine/16-07/pb_theory.
6. • Six limites de big data (boyd &
Crawford, 2011):
1. N’évacuent pas la théorie, mais la changent
2. Prétention d’objectivité
3. Piètre qualité des données (effet boîte noire)
4. Non-équivalence des données (ex. SNA ≠
SNS)
5. Exposent à des problèmes éthiques
6. Créent des fractures des données
• U n e l i m i t e é c o n o m i q u e
(Gillespie 2011):
7. Les bailleurs de fonds n’aiment que les gros
graphes tâpe-à-l’œil
boyd, danah & Kate Crawford (2011) Six Provocations for Big
Data. A Decade in Internet Time: Symposium on the Dynamics of
the Internet and Society, Oxford Internet Institute, Sept. 21, http://
ssrn.com/abstract=1926431
7. • Alternatives aux big data
– L a s t a t i s t i q u e p u b l i q u e
(Eurobarometer, enquêtes INSEE,
etc.)
– Grandes enquêtes universitaires
(e.g. European Social Survey, Int
Social Survey Program, Program
International Student Assesment)
– Grands corpus qualis (DIME SHS)
• Peu flexibles : ne posent pas
nécessairement questions
significatives pour nos
enquêtes
8. • Face aux limites des « big
data », valeur des petites
données ethnographiques :
qualitatives, denses et
dirigées
• Elles sont plus maîtrisables
et accessibles que les big
data
• Compensent les limites
déclaratives des données
des grandes enquêtes
9. • Problème : comment les
généraliser ?
• Small data qualitatives plus
adaptées pour décrire des
situations idiosyncrasiques
• M é t h o d e ethno-
computationnelle
« Décompresser » les petites
données à l’aide de systèmes
artificiels empiriquement
calibrés
10. • Les pierres angulaires
d’une approche ethno-
computationnelle
1. E n q u ê t e socio-
anthropologique de terrain
2. Définition d’un jeu de règles
pour une population
3. Simulation multi-agents
modellisant le phénomène
social observé Tubaro, Paola & Antonio A. Casilli (2010). ‘An Ethnographic
Seduction’: how qualitative research and Agent-based Models
can Benefit Each Other. BMS: Bulletin of Sociological
Methodology, 106(1): 59-74
11. • Simulation, ABM (Agent-Based
Modelling), « modélisation par
agent »…
• Représentation adaptée d’un
phénomène social
• Pas des variables, mais des
agents
• Interaction adaptative et/ou
évolutive dans le temps
• Deux grandes familles de
modèles: Schelling Thomas (1978). Micromotives and Macrobehavior.
• Modèles « purs » Toronto: Norton.
Gilbert, Nigel & Klaus Troitzsch (2005) Simulation for the social
• Modèles qui intègrent données empiriques scientist. McGraw-Hill International.
12. Tubaro, Paola & Antonio A. Casilli (2010). ‘An Ethnographic Seduction’: how qualitative research and Agent-based Models can Benefit Each Other. BMS:
Bulletin of Sociological Methodology, 106(1): 59-74.
14. • Triomphe de l’homophilie et
de l’entre-soi ? Ou bien de la
diversité culturelle ?
• L’ a p p r o c h e b i g d a t a :
expérience avec exposition
aléatoire à information
échangée entre 253 million
d’utilisateurs de FB (Bakshy
et al., 2012)
• Résultats : chambre d’écho
mais aussi mobilisation des
liens faibles Bakshy, Eytan, Rosenn, Itamar , Marlow, Cameron & Lada
Adamic (2012) The Role of Social Networks in Information
Diffusion, arXiv. http://arxiv.org/abs/1201.4145.
15. • Approche small data :
expérimentation sur le capital
social en ligne (Casilli, 2010)
• Créer deux profiles
• Inviter 100 individus à devenir
« amis »
• Faire évoluer et comparer les
deux profils
• Amis fournissent des feedback
sur comment modifier et
enrichir les profils
(Commentaires, Messages,
J’aime, Partages) Antonio A. Casilli (2010) Les liaisons numériques. Vers une
nouvelle sociabilité ?, Paris, Seuil.
16. • Carnet d’observation:
– « Vendredi 1 mai 2009. Jusqu’à aujourd’hui, les
retours sur les deux profils sont assez négatifs.
Les connaissances de sexe féminin surtout ne se
gênent pas pour exprimer leur aversion. Une
amie définit le profil 1 comme ‘effrayant’, une
autre qualifie la photo du profil 2 de
‘monstrueuse’ ».
– « 12-19 mai 2009. Indication : utilisateur du profil
1 apprécie la cuisine japonaise et écoute de la
musique punk. Il lit des bandes dessinées et des
poètes de la beat generation ».
– « Mardi 19 mai 2009. Profil 1 constamment
ouvert dans mon navigateur. En automatique des
petites fenêtres contenant des suggestions ou
des ‘morceaux choisis’ par ses amis. ‘L’utilisatrice
X est fan de l’artiste peintre Tel’ ; ‘L’utilisateur Y a
Antonio A. Casilli (2010) Les liaisons numériques. Vers une
aimé le dernier livre de l’écrivain Telautre’ ». nouvelle sociabilité ?, Paris, Seuil.
17. • Comparaison graphes sociaux
entre profile authentique et
profile témoin
• Partage favorise équilibre
caractéristique entre cohésion
sociale (bonding) et connectivité
sociale (bridging)
• Reproduction qualitative des
résultats de Bakshy et al.
• Généraliser à l’aide de scénarios
alternatifs pour comparaisons
additionnelles
18. • r é a t i o n d ’ u n m o d è l e d e
C
simulation multi-agents afin de
générer des scénarios alternatifs
qui permettent des comparaisons
additionnelles
• Etudier la formation de liens
affinitaires en ligne à travers la
simulation de connectivité sociale
et respect des particularités
individuelles
19.
20. • ésultats stables du système
R
(configurations après 20000
pas de temps)
1. Effet de Monde dense » :
«
composant unique à très forte
densité
2. Petites boîtes » : sous-
«
réseaux à forte densité interne
(« Petites boîtes »)
21. • ignatures de dynamiques
S
d’harmonisation de la
consommation culturelle:
1. pprentissage initial
A
2. ans apprentissage initial
S
3. S i t u a t i o n m i x t e a v e c
apprentissage constant
22. • euils de connectivité,
S
tolérance, densité
• lus de connectivité
P
tolérance pour
“dissonances culturelles”
• D e n s i t é r a r e m e n t
observable dans réseaux
empiriques hors-ligne
Casilli, Antonio A. & Paola Tubaro (2010). Légitimation intersubjective de la présence en
ligne et formation de réseaux sociaux : Une approche ethno-computationnelle, II
Journées d’études du RT 26 (Réseaux sociaux) de l’Association Française de Sociologie
« Les réseaux sociaux: quoi de neuf ? », 16-17 mars, Université de Toulouse II – Le
Mirail http://www.bodyspacesociety.eu/2010/03/17/entre-effets-de-petit-monde-et-
emiettement-communautaire-la-legitimation-culturelle-a-lheure-de-facebook/
23. A réfléchir : La « fin de la vie privée » n’est pas une fatalité.
Monde hautement connecté, hausse des valeurs privacy !
Connectedness
Diversity
24. • Deux résultats :
1. Possibilité à un retour vers un
scénario de « petites boîtes »
après une orgie de partage
social…
2. Pratiques expressivistes de
partage ne conduisent pas pas
automatiquement vers la
« publitude » : au contraire
certaines configurations affichent
plus d’attention à la privacy
25. Etude 2 : usage des médias sociaux dans
des émeutes
26. • « Twitter revolutions? »
• Internet pour coordonner,
débattre, recruter,
s’informer ?
• Dépasser le dualisme et
l’exceptionnalisme des
discours sur le Web politique
• N e p a s g o m m e r l e s
spécificités matérielles des
contextes nationaux
– Moldavie 2009 (TdPI = 30%)
– Iran 2010 (TdPI = 32%)
– Tunisie 2010 (TdPI = 33%)
– Egypte 2011 (TdPI = 21%)
– R-U 2011 (TdPI = 82.5%)
27. • Les émeutes britanniques de
2011
• Ambiguïté fondamentale du
discours public : réseaux
outils de démocratie
(Printemps Arabe) ou
expression de cultures
criminelles (Londres) ?
• Cameron: “shut down the
Web to stop the violence”?
• P o u r v u q u e c e s o i t
t e c h n i q u e m e n t ,
économiquement et
légalement faisable, est-ce
que la censure du Web
aurait comme effet la fin de Casilli, Antonio A. & P. Tubaro (2011) Social Media Censorship in
Times of Political Unrest Results in More Violent Uprisings : A
la violence ? Social Simulation Experiment on the UK Riots, Social Science
Research Network, http://ssrn.com/abstract=1909467
28. • Questionner le rôle des
médias sociaux dans les
émeutes
• Les données ne sont pas
toujours parlantes (v. LSE/
Guardian vs. UK Gov’t)
• Données difficiles :
• C o n t r a i n t e s p o l i t i q u e s e t
légales
• Contraintes imposée du comité
d’éthique
Burn-Murdoch, John, Lewis, Paul, Ball, James, Oliver, Christine,
• Contraintes économiques Robinson, Michael & Garry Blight (2011) Twitter traffic during the
riots, The Guardian, 24 Aug, http://www.guardian.co.uk/uk/
interactive/2011/aug/24/riots-twitter-traffic-interactive
29. • S o l u t i o n : “rapid
ethnography” (Millen 2000) :
- nformateurs-clés
I
- bservations in situ et via plusieurs
O
médias
- nalyse collaborative des données
A
(notamment via blogs & medias sociaux)
• A partir d’une petite quantité
de données d’exploration,
créer un jeu de règles pour
une population d’agents dans
un environnement
• Réaliser expériences de
pensée (utiles dans des Millen, David R. (2000) Rapid Ethnography: Time Deepening
Strategies for HCI Field Research. Proceedings of the 3rd
situations d’instabilité sociale) conference on Designing interactive systems: processes,
practices, methods, and techniques: 280-286.
30.
31. • Inspiré par modèle de la
violence civile de Josh
Epstein (2002)
• Une grille peuplée d’acteurs
• D i f f é r e n t s n i v e a u x d e
“revendication” (gradation de
vert)
• Acteurs révoltés (cercles
rouges) se déplacent vers
zones d’émeutes
• Présence de policiers dans
les parages (triangles bleus)
• A r r e s t a t i o n s a r b i t r a i r e s
(cercles noirs)
32. • Mobilité des agents dans
l’environnement
• La variable « vision » :
capacité des acteurs de
parcourir leur environnement
• Détecter traces de policiers
ou d’autres émeutiers
• La vision représente la
« portée » de l’acteur en
situation de violence civile
• La vision est inversement
proportionnelle à la censure
– Vision peu importante = haut
niveau de censure
– Vision importante = censure
limitée
33. • Usage des médias sociaux
pour acquérir une meilleure
sensibilisation à
l'emplacement (location
awareness)
• Agents se déplacent dans
des zones dans lesquels ils
ont un avantage compétitif
par rapport aux forces de
l’ordre (field awareness)
• Simuler l’état du système
pour différentes valeurs du
paramètre vision (de 1 a 10)
sur laps de temps significatif
(1000 pas de temps)
34. • Patterns de violence selon différents niveaux de
censure :
Red patterns represent number of violent protesters over time with different levels of social media censorship: from 0 vision (total censorship, upper left corner)
to 10 vision (no censorship, lower right corner). Trend lines are in black. Time is measured as number of steps (1 to 1000). Source: authors’ elaboration.
35. • La violence civile n’est pas un
processus linéaire
• Elle peut atteindre un plateau
tout de suite (en cas de
censure)…
• ..ou atteindre un « équilibre
ponctué » : des périodes de
stabilité suivis de pics de
violence (courbe rouge)
• Un pattern qualitativement
différent se met en place
quand le niveau de censure
diminue
36. • Pourquoi préférer un équilibre ponctué :
Figure:
In
the
absence
of
censorship,
high
levels
of
social
unrest
are
possible
(see
peaks
in
red
line),
but
between
uprisings,
the
social
system
is
able
to
come
back
to
significant
levels
of
quiet
(green
line).
Source:
authors’
elaboraDon.
37. • Parce qu’il correspond au niveau de violence le plus bas
Figure:
Average
levels
of
civil
violence
as
funcDon
of
levels
of
censorship.
Higher
vision
means
less
censorship
and
less
civil
violence.
Source:
authors’
elaboraDon.
38. • Parce que pour des niveaux comparables de violence
civile, l’absence de censure assure le niveau minimal de
violence et d’acteurs emprisonnés
Figure:
Average
number
of
acDve
(red),
quiet
(green)
and
jailed
(black)
agents
as
funcDon
of
levels
of
censorship.
Higher
vision
means
less
censorship
and
less
civil
violence.
The
total
number
of
agents
is
constant
across
all
simulaDons,
and
over
Dme.
Source:
authors’
elaboraDon
39. • Interpréter ces résultats : le
pattern de la violence civile
change avec la censure;
• A b s e n c e d e c e n s u r e
n’élimine pas totalement la
violence civile mais permet
d’avoir périodes de paix plus Censorship levels
% time spent in quiet (no
civil violence)
longues 10
9
0
0
• (Sans parler du nombre de 8
7
0
0
personnes emprisonnées qui 6
5
0
0
est significativement moins 4
0
important…) 3
2
0
0.3
1
10.2
0
32.5
40. • Aller plus loin
• Se servir du modèle comme
“béquille” pour la théorie
(développements analytiques)
• Repenser la contextualisation
des phénomènes d’instabilité
politique actuels
• Liens entre médias sociaux
en tant qu’outils d’expression
et en tant qu’outils
d’association
• Pérennisation des mobs ou Etling, Bruce, Faris, Robert & John Palfrey (2010) Political
volatilité accrue des Change in the Digital Age: The Fragility and Promise of Online
Organizing, SAIS Review, 30 (2) : 37-49.
mouvements ? Banos, Arnaud (2010) La simulation à base d’agents en sciences
sociales : une “béquille pour l’esprit humain”?, Nouvelles
perspectives en sciences sociales, 5(2): 91-100.
41. • Aller plus loin
• Se servir du modèle comme
“béquille” pour la théorie
(développements analytiques)
• Repenser la contextualisation
des phénomènes d’instabilité
politique actuels
• Liens entre médias sociaux
en tant qu’outils d’expression
et en tant qu’outils
d’association
• Pérennisation des mobs ou Etling, Bruce, Faris, Robert & John Palfrey (2010) Political
volatilité accrue des Change in the Digital Age: The Fragility and Promise of Online
Organizing, SAIS Review, 30 (2) : 37-49.
mouvements ? Banos, Arnaud (2010) La simulation à base d’agents en sciences
sociales : une “béquille pour l’esprit humain”?, Nouvelles
perspectives en sciences sociales, 5(2): 91-100.
42. • Ethno-computationnel
particulièrement indiqué pour:
– Populations sensibles
– Contraintes de temps
– Pour détecter des phénomènes de
seuil
– Pour analyser les phénomènes
marginaux (queues des
distributions pour lesquels on n’a
pas assez de données)
• Limites
– Propres des approches
individualistes
– Hyper-simplification et difficulté de
gérer des paramètres ad hoc