The Knowledge ecology: Epistemic Credit and the Technologically Extended Mind
Du cycle de vie des données au cycle de vie des objets. Disputatio : Wikipédia/DBpedia,
1. Du cycle de vie des données au
cycle de vie des objets
Alexandre Monnin
Paris 1-IRI-Inria
(Twitter : @aamonnz & @philoweb)
Disputatio : Wikipédia/DBpédia,
une utopie documentaire au cœur du
Web et du Web de données ?
2. Plan
1. Retour sur la discussion de lundi 01/10/2012.
Sources primaires et sources secondaires sur
Wikipédia : le renouveau du document ?
2. Articles, encyclopédies, bibliothèques…
comment éviter la reductio ad documentum ?
3. De la question documentaire à la question
politique.
5. Une source secondaire ?
« Aujourd'hui la rubrique de Wikipédia est corrigée sur la foi
de la lettre publiée par Ph. Roth. Toujours selon les règles de
Wikipédia, la précision sur l'inspiration est maintenant
"sourcée", c'est à dire qu'elle peut-être validée par une
référence publiée. Les règles de rédaction de Wikipédia sont
très claires à ce sujet : Les articles de Wikipédia devraient
reposer principalement sur des sources secondaires fiables.
Toute utilisation de sources primaires devrait s'appuyer sur
des sources secondaires, et ne pas être une sélection, analyse,
synthèse ou interprétation inédite réalisée par un contributeur
de Wikipédia. Les sources primaires seules sont acceptées si
elles consistent en des assertions factuelles et non sujettes à
interprétation ou polémique. » (J.-M. Salaün)
http://blogues.ebsi.umontreal.ca/jms/index.php/post/2012/09/11/Nouveau-r%C3%
A9gime-de-v%C3%A9rit%C3%A9%2C-d%C3%A9monstration-par-l-absurde
6. A l’inverse : une source primaire ?
Question : une lettre
est-elle davantage une
source secondaire
qu’un post de blog
scientifique ?
http://blogues.ebsi.umontreal.ca/jms/index.php/post/2012/09/11/Nouveau-r%C3%
A9gime-de-v%C3%A9rit%C3%A9%2C-d%C3%A9monstration-par-l-absurde
7. Comment la lettre de P. Roth est-elle
utilisée ?
Comme une source primaire dont il est rendu compte factuellement.
Wikipedia, The Human Stain, 3 octobre 2012, 23h50
8. Si ce n’est la source,
c’est donc son auteur ?
« Il est (…) absurde de considérer qu'un auteur
ne soit pas la meilleure source pour éclairer son
inspiration » (J.-M. Salaün)
« Au plan scientifique, l’auteur qui parle de son
œuvre (dans une lettre) n’a pas plus de
légitimité à le faire que le chercheur qui parle de
son objet (sur un blog scientifique). » (A.M.)
9. WP : Bouvard et Pécuchet ?
« Wikipédia, et sans doute le web en général, se
trouve à la fois dans la continuité d'une tradition
documentaire et en même temps peut-être dans
une bascule de notre régime de vérité » (J.-M. S.)
« Elle retourne notre relation au savoir qui devient
le résultat d'une interrogation contrôlée d'un
patrimoine documentaire accumulé et donc
seulement de façon indirecte le résultat de la
découverte d'un travail créatif, d'un inédit, d'une
invention. La création n'est plus au centre, elle fait
place au partage. » (J.-M. S.)
10. Nuançons…
• Il est vrai que dans la théorisation de cette fameuse
entrée de Wikipédia il manque la création :
1. Sources primaires : témoignages (hors WP)
2. Sources secondaires : publications scientifiques (hors
WP)
3. Sources tertiaires : ensemble de citations de sources
secondaires
11. Pourtant…
• Cet article n’est qu’un auto-théorisation : il possède un
caractère normatif (il reste à prouver qu’il colle bien à
la réalité – c’est le travail du chercheur de le
démontrer), qui sert d’orientation au processus
éditorial de Wikipedia.
• Il exclut une toute petite chose : le texte même des
différentes entrées de Wikipédia, la contribution des
utilisateurs en somme (= ce que l’on fait des sources
secondaire), à laquelle il ne réserve aucune place (= ni
source 1aire, ni 2aire, ni 3aire).
12. Pourquoi ?
• Raisons juridiques : Wikipédia n’est pas
éditeur de contenus originaux, mais simple
hébergeurs (position plus facile à défendre en
se présentant comme une source tertiaire).
En définitive, c’est une protection contre des
menaces juridiques incessantes.
13. En réalité… il importe de
reconnaître la pluralité des sources
• Des régimes d’énonciation (B. Latour)
différents selon les « domaines » (droit,
sciences, fiction – c’est le cas avec l’exemple
de Philippe Roth, etc.)
• Plus large que le Mundaneum :
= Des sources différentes
= Des attitudes différentes vis-à-vis des sources
18. II
De la variété des sources sur
Wikipédia à la variété des ressources
informationnelles sur le Web
19. Quel est l’enjeu de la discussion
précédente ?
Etablir (ou réfuter) une double thèse :
A. Concernant le Web :
Au cœur du Web on retrouve Wikipédia – une
encyclopédie ;
Au cœur de Wikipédia, les sources secondaires ;
Que sont les sources secondaires ? Des documents.
donc le Web est bien un Web de documents.
20. B. Concernant le Web de données :
Au cœur du Web, on retrouve Wikipédia et ses
articles,
Au cœur des articles on retrouve les notices (les
infoboxes), des documents qui parlent d’autres
documents,
Au cœur du Web de données on retrouve des
notices (infoboxes) rassemblées sous forme de
collections documentaires (le catalogue = DBpedia)
donc le Web de données, comme le Web, est et
demeure fondamentalement documentaire.
21. Le sorite de Cyrano
L’Europe est la plus belle partie du monde ;
La France est le plus beau royaume
d’Europe ;
Paris est la plus belle ville de la France ;
Le collège de Beauvais est le plus beau
collège de Paris ;
Ma chambre est la plus belle chambre du
collège de Beauvais ;
Je suis le plus bel homme de ma chambre ;
Donc je suis le plus bel homme du monde…
23. Ce Web documentaire est très
sérieux.
Seul problème... il prend fin dès 1993.
24. A partir de là, les choses ont empiré
(chouette !)
25. Ex. : nouvelles formes d’écriture du
document numérique
• Churnalism : 80% des
nouvelles (articles,
dépêches d’agences) ne
sont pas originales. 12%
ont été écrites par un
reporter.
• Article Spinning : générer
automatiquement du
contenu dérivé à partir
d’un contenu « original »
http://www.seinsights.com/search-engine-optimization/seo-et-article-spinning-reecri
vez-vos-articles-gratuitement-et-en-ligne/
27. Nouvelles formes dégradées du
document numérique (suite)
• Article Spinning :
« produire avec des
machine des pages
qui s’appuient sur
l’existant » ?
• (mise en abyme
ou mise en abîme ?)
28. Contenus dérivés ou
contenus à la dérive ?
Cette dérive est imputable au caractère manipulable du
document numérique.
Le numérique permet à la fois
de recréer techniquement les propriétés du documents (de
les artéfactualiser cf. intervention de Stéphane Crozat)
mais aussi, et tout aussi bien,
de les révoquer de manière drastique.
29. Théoriser le Web c’est donc rendre
compte aussi bien…
du VU du NON-VU
du LU du NON-LU
du SU du NON-SU
Architecture du Web
31. Une autre vision : sociologie de la
traduction
Ex. des articles scientifiques : réinscrire le
document dans des chaînes de traductions.
Wikipédia, Théorie de l’acteur-réseau, 4 octobre 2012, 10h00
32. L’acteur est un réseau
http://blog.ouseful.info/2012/07/03/visualising-related-entries-in-wikipedia-using-gephi/
34. Différentes encyclopédies (SEP, IEP),
différentes associations…
... sans compter les différentes versions linguistiques de Wikipédia, les différents espaces d’écritures…
35. Les deux sens du mot « fait »
• « Les faits sont faits » (Le Roy, cf. aussi G. Bachelard et B.
Latour).
• Par conséquent : les faits sont aussi défaits.
• Bruno Latour explique que l’objectivité est le
rassemblement virtuel de tous les porteurs d’objections
(Changer de société, refaire de la sociologie).
• On comprends dès lors à quel point la discussion est
essentielle sur Wikipédia.
36. D’ailleurs…
… d’après Wikipédia, les sources secondaires
(importantes car « factuelles » - les faits sont
faits !) tombent avec le temps, du fait de l’avancée
des sciences, du côté des sources primaires.
Une vision très marquée par les modes de
publication dans les sciences dures, qui peinent
à rendre compte de toutes les entités représentées
dans Wikipédia.
Au-delà, il faut expliquer comment les « faits »
deviennent ensuite de simples représentations
(et vice-versa ; c’est l’un des thèmes des Politiques
de la Nature de B. Latour, également au cœur de
Wikipédia).
37. Web de document et Web d’objets
• Au final, il n’y a que des ressources
• N’importe qui peut dire n’importe quoi sauf que…
• … il existe une plateforme globale où le collectif peut
œuvrer à l’élaboration d’un monde commun en faisant
subir des épreuves à ces ressources (cf. Joëlle Zask :
« l’enquête comme inter-objectivation ») : c’est Wikipédia.
• Cela ne se fait pas sans porte-paroles (sources secondaires
: le travail des scientifiques en particulier mais pas
seulement), ni controverses.
38. Objectifs : repenser Wikipédia
• Reconnaître la variété des régimes d’énonciations
• Améliorer la variété des contributeurs (ex. :
article sur la sexualité féminine : 1 contributrice
pour 16 contributeurs), accueillir de nouvelles
entités, susciter de nouvelles associations (pas
seulement des points de vues).
• Outiller Wikipédia comme un espace de
controverses, un forum hybride* à l’échelle
globale.
39. Objectif : socialiser DBpedia
• Trop souvent, DBpedia apparaît comme un référentiel
de faits stabilisés (paradoxe de l’étoile que l’on observe
alors qu’elle a disparu - perte de 20% des URIs entre
chaque dump). Il faut donc améliorer techniquement
ainsi qu’au plan organisationnel l’ancrage de DBpédia
dans Wikipédia.
• Premières étapes : sémantiser la vie sociale de
Wikipédia, les pages de discussions et les historiques
pour en tirer parti (notamment dans l’optique de
l’analyse des controverses).