1. De la bibliothèque numérique au web
de données
L’unité documentaire sur internet
Ateliers Méthodologiques DLWeb - Saison 2
3 décembre 2010
Martin Lafréchoux
2. !
Je suis en doctorat à Paris Ouest Nanterre, au laboratoire MoDyCo. Ma thèse est en
sciences du langage, je plutôt un TAListe. Elle concerne le document sur internet, en
particulier le document textuel.
Je vais parler de documents, plus précisément, je vais vous présenter les difficultés
conceptuelles et pratiques auxquelles je me heurte actuellement, à l’université et dans
l’entreprise. Le point commun de ces difficultés est qu’il n’existe pas de modélisation
permettant de conceptualiser et de manipuler tous les aspects d’une page web.
Je commence tout juste mes recherches, je vais donc plutôt évoquer des problèmes que
des solutions. Et pour que ma présentation soit claire malgré tout, je partirai d’exemples
concrets. Et comme je parlerai essentiellement de texte, je vous montrerai des images.
3. URL
Pages
Données
Dans un premier temps, j’évaluerai l’adéquation entre la notion traditionnelle de document et
le web.
Ensuite je détaillerai le fonctionnement de plusieurs modes d’enregistrement du web - en
particulier les conséquences théoriques de choix pratiques.
Enfin, je vous présenterai les problématiques plus nouvelles, liées à ce qu’on appelle
généralement le web de données.
4. URL
Qu’est-ce qu’un document ? Sur un plan théorique, ce n’est pas une question simple.
Pour l’instant, il me suffit d’utiliser une définition fonctionnelle - je définirai le document par
ses propriétés - qu’indexe-t-on quand on indexe un document web ?
Ces propriétés sont celles qu’on utilise dans les systèmes d’information pour classer les
documents.
5. • Titre
• Auteur
• Contenu
• Date
• ISBN
Un document standard : il a un titre, un auteur, une date de publication, un contenu délimité,
et un identifiant unique - l’ISBN.
Pour définir le document web de manière fonctionnelle, c’est généralement de cet identifiant
unique qu’on part - l’URL.
A une URL correspond une page, et cette page devient de fait notre unité documentaire.
6. L’auteur !
Par exemple, un article de presse.
Le web n’est plus une bibliothèque numérique, mais normalement il reste un certain nombre
de contenus auxquels le modèle du document s’applique encore bien.
11. • Titre
• Auteur
• Contenu
• Date
• URL
Tout va bien. C’est globalement ce qui a émergé petit à petit dans les années 90 et début
2000.
12. L’auteur !
Sauf qu’il y a un grand nombre d’autres contenus sur cette page dont nos propriétés ne
tiennent pas compte.
Au premier chef desquelles les ‘réactions’ ou ‘commentaires’.
13. C’est embêtant : les commentaires sont sur la même page. Ils ont la même URL.
Leurs auteurs sont-ils des co-auteurs de l’article ? Non. L’article est clairement séparé des
commentaires, ne serait-ce que typographiquement.
Leur auteur est différent, donc c’est un autre document, non ? Ils ont pourtant la même URL.
Et puis, font-ils sens, privés du document d’origine ? Non, pas vraiment, puisqu’ils s’y
réfèrent implicitement en permanence.
14. • Dernière modification
• Contenu principal
• Auteur principal
• Titre principal
• URL
En général, on résout ce problème en identifiant un contenu principal et en nettoyant le reste.
On obtient quelque chose qui correspond relativement bien au modèle du document
traditionnel.
Je trouve que ça pose beaucoup de problèmes, notamment pour les commentaires.
15. Les commentaires représentent un volume de texte supérieur.
Et, comme il s’agit de commentaires modérés, ce ne sont pas des dizaines ou des centaines
de réaction d’une ligne ou deux.
Il y a une certaine qualité de rédaction. Par exemple, ce commentaire des chiffres concrets,
avec leur source, qui est un rapport officiel. L’article de départ citait un article du Parisien et
le programme du parti socialiste.
Où est le contenu principal ?
On voit que même avec un contenu web censément proche d’un document traditionnel, on
rencontre quelques problèmes de modélisation.
18. A minima : un tweet
Le premier mouvement c’est d’aller vers une unité indivisible.
Un tweet a une date, un auteur, des bornes, une URL unique. Par contre, il est extrêmement
court, et la majorité de son contenu sémantique - de sa valeur - est dans le lien, c’est-à-dire
ailleurs.
19. Parenthèse
Si on va par là, un like Facebook est sûrement enregistré avec le nom de celui qui a cliqué, le
moment précis où le clic est intervenu, et la chose qui a été ‘appréciée’ par l’utilisateur.
Il y a clairement une intention.
En dépit de l’effacement progressif de la différence entre les outils de création / édition et les
outils de consultation de documents, je ne pense pas qu’un like Facebook soit un document.
Par contre, pour un tweet, la question se pose.
20. Reprenons l’exemple de twitter. Voici un tweet standard, essentiellement tourné vers
l’extérieur.
21. Détaillons rapidement son contenu : ‘lagayascienza’ est le pseudonyme de la personne qui a
écrit le tweet.
24. Puis un hashtag, #Lego.
Ce qui porte le sens, ici, c’est le lien. Le reste est mystérieux.
Orgueil et Préjugés et Zombies est une réécriture parodique de Jane Austen, et on peut donc
supposer que le contenu du lien sera dans la même veine.
25. Le hashtag #Lego nous apprend qu’il sera question de Legos. Il permet de donner un indice
sur le contenu du tweet, et de le contextualiser en le faisant apparaître dans les recherches
portant sur les Legos
On peut donc tagger le contenu extrêmement facilement.
Le lien.
26. Si on suit le lien du tweet d’origine, on passe d’abord par un service de raccourcissement
d’URL (en l’occurence is.gd), qui redirige vers la page suivante :
27. Il s’agit d’un post sur un weblog personnel. La photo représente une reconstitution
parodique du célèbre tableau Nighthawks d’Edward Hopper : les clients du bar du tableau
d’origine subissent ici l’attaque de zombies semblables à ceux du film La Nuit des morts-
vivants (Night of the Living- Dead) de George Romero. La scène est rendue au moyen de
figurines et de briques Lego.
On trouve en dessous deux liens.
28. Celui de droite, précédé du mot ‘via’, indique comment le blogueur a découvert l’existence
de la photo. Il pointe donc vers un autre site, qui commente la photo.
29. Celui de gauche, intitulé ‘Nighthawks of the Living Dead’, sert de légende à la photo : il
donne son titre et pointe vers sa page d’origine.
30. Sous sa photo, l’auteur explique qu’il n’a fait que mener à son terme l’idée proposée par un
autre membre de flickr, mais non terminée (WIP = work in progress). Si on suit le lien, on
aboutit à la page suivante :
31. Ce dessin a été posté en 2008, et n’a jamais été terminé par son auteur d’origine.
32. Conclusion
• Qui est l’auteur ?
• Où commence le document ?
• Où s’arrête-t-il ?
• Comment l’enregistrer ?
Dans l’espace physique, le document est linéaire, attribuable et borné.
Dans ce contexte, il me paraît malaisé de répondre à des questions censément simples, telles
que : - qu’est-ce qui constitue le contenu ? - qu’est-ce qui est original ?
- qui est l’auteur ? - où le document commence-t-il et où s’arrête-t-il ?
Pourtant, cette incertitude ne gêne en rien les divers ‘auteurs’, ni encore moins les
spectateurs / consommateurs.
Il n’y a pas de problème pratique. Il y a un problème conceptuel : le web fonctionne très bien.
Les problèmes deviennent manifestes lorsque nous cherchons à l’enregistrer.
34. Persistance ?
Dans la doxa, le web est censé s’auto-réguler, et donc s’auto-préserver. Il incomberait à
chaque site de mettre en place des moyens de persistance de ses pages.
Le terme de ‘persistance’ est utilisé par les archives britanniques du web pour désigner leur
démarche consistant à préserver les pages des sites gouvernementaux, même inutilisées.
Mais : c’est peu fiable, et totalement arbitraire. Un site peut disparaître du jour au lendemain,
simplement parce que plus personne ne veut payer pour l’héberger.
Ironie de la situation : ce que vous voyez à l’écran est la page actuelle du RTP-Doc
Auparavant, les gens enregistraient les pages sur leur propre ordinateur, pour tout un tas de
raisons. Aujourd’hui, ce n’est plus le cas.
35. Archivage individuel
• Préserver ce qui pourrait disparaître
• Un archivage de ressources, et non de
documents
• Enregistrement d’une cristallisation à
l’instant t
A vieilli : c’est ce qu’on faisait dans les années 90.
Aujourd’hui, on fait avec des favoris, voire avec des outils de bookmarking (type delicio.us).
Montre bien la nature du net : ce qu’on enregistre va changer ou disparaître. On garde la
ressource ou un snapshot du document.
Dans tous les cas, il faudra redocumentariser.
36. Par exemple, le 19 novembre dernier, Jean-François Copé a signé une tribune dans Slate sur
la question de l’illettrisme. Cette tribune a été publiée avec une faute à ‘illettrisme’ dans le
titre.
La faute a été corrigée près de deux heures après la publication, ce qui a laissé le temps à
beaucoup de gens, moi compris, de faire une capture d’écran.
37. Un exemple de démarche individuelle collectivisée : The Internet Archaeology
Né en réaction à la fin de geocities en octobre 2009, qui a effectivement entraîné la
disparition de nombreux sites ‘antiques’
Sont confrontés à des problématiques d’archivage (We ask that users provide at minimum the approximate date and
source of the image.)
Il y a quelque chose de la société savante.
38. On peut débattre de la valeur esthétique des choses qui sont préservées, évidemment.
Dans tous les cas, ce type d’archivage préserve les ressources, mais pas l’expérience
utilisateur.
39. Screencast
Pour préserver l’expérience utilisateur, on en vient à faire du screencast.
On a vu la semaine dernière les avantages et les inconvénients :
- pas besoin d’émuler une expérience utilisateur avec un crawler, puisque c’est effectivement
un utilisateur qui enregistre son parcours de navigation
- mais : on garde la profondeur mais on perd l’interactivité.
40. Le web comme corpus
A l’autre bout du spectre, on trouve l’idée d’utiliser le web comme un corpus.
L’idée intéresse énormément les linguistes, vu le coût que représente la constitution d’un
corpus classique.
Les démarches peuvent être très diverses : récupérer des n-grammes, constituer des corpus
thématiques pour l’entraînement d’algos d’analyse syntaxique, etc.
Il existe même des corpus constitués et tenus à jour automatiquement, à partir de flux RSS.
Mais : textuel uniquement. Nettoyage très brutal. Aplatissement total et irrémédiable du
contenu de la page.
Comment faire pour préserver la profondeur ?
41. Faut-il conserver toutes les données ?
Wikipedia, qui conserve les données d’édition de toutes ses pages, toutes les versions
successives, etc.
En septembre dernier, à l’occasion de la conférence dConstruct, James Bridle a décidé
d’imprimer les 12.000 modifications effectuées sur la page Wikipedia « Iraq War », entre
décembre 2004 et novembre 2009.
Le résultat est plus ou moins de la taille d’une encyclopédie classique.
Enfin ! Une archive qui fonctionne, complète !
Imprimer ces données, leur donner une existence physique, permet de retrouver le sens des
proportions et du ridicule.
Si jamais on devait archiver sur papier, on ferait un tri. Pourquoi ne pas faire ce tri pour une
archive numérique ?
42. Facebook, conscient de l’ambiguité de sa position, et désireux de donner à ses utilisateurs
un os à ronger, redonne aux gens la place de l’archiviste en les incitant à télécharger
l’ensemble de leur activité à des fins d’archivage. L’annonce est venue début octobre dernier,
au même moment que Facebook Places. Symboliquement, ils rendent aux personnes le
contrôle sur leurs données.
Les gens se trouvent avec un export de BDD qui n’a strictement rien à voir avec leur
expérience de Facebook.
Les données, une fois sorties de Facebook, n’ont pratiquement aucune valeur pour
l’utilisateur.
Facebook n’est pas la somme des données que les gens y déposent.
Facebook est un service.
43. Conclusion
• Le web n’est accessible qu’au travers
de la médiation de la page
• Enregistrer la page entraîne une perte
d’information
Chaque méthode enregistre l’un ou l’autre aspect du web, en fonction des objectifs
poursuivis, mais aucune ne parvient à rendre compte de ce qu’est le web dans son
intégralité.
L’objet digital (le web) est converti en analogique (page) pour que nous puissions y accéder,
et c’est l’expérience produite par ces pages qu’on enregistre alors - essayer d’enregistrer le
web revient à filmer un écran.
Par exemple, pour la recherche, on se trouve face à deux possibilités, dont aucune n’est
satisfaisante :
- soit on utilise Google et le web lui-même, et on obtient des résultats impossibles à
reproduire, puisqu’obtenus sur un corpus non délimité et figé - ce qui est quand même
ennuyeux, sur un plan scientifique et sur un plan commercial.
- soit on délimite un corpus d’étude, et on se trouve avec un objet d’étude qui a perdu la
majeure partie des propriétés du web.
Et en tout cas il me semble qu’on ne dispose pas encore d’une méthode permettant de
rendre compte des aspects les plus originaux et les plus caractéristiques du web.
45. Le web sémantique ?
Au cours de la décennie écoulée, la promesse du web sémantique a souvent été faite : dans
l’avenir, les ontologies nous permettraient d’organiser tout le contenu dispersé sur le web, de
transformer l’information en connaissance.
46. Le web syntaxique
(pour l’instant au moins)
Problème : le web sémantique est très coûteux à mettre en oeuvre, très contraignant, et il
reste donc pour l’instant réservé à des applications très précises et délimitées.
Ca n’empêche pas le web de s’organiser.
Google et la SEO ont forcé les choses à s’organiser.
47. Des liens dans le langage
Sur twitter, les contraintes techniques obligent à utiliser des URL comme des symboles
linguistiques.
Le lien est la matérialisation de l’intention. Avec les liens et les tags, twitter a épuré
48. Du langage dans les liens
Cliquez <a>ici</a> pour en
savoir plus
Plus d’informations sur
<a>Laurent Gbagbo</a>
Google a forcé les gens à expliciter le contenu de leurs liens, faisant de tout webmaster
capable un annotateur - et transformant ainsi indirectement le texte plat du web en texte
complexe, relié, structuré.
49. Deep-linking
Un problème sans doute plus anecdotique pour l’instant, mais qui est appelé à devenir plus
prégnant - les liens profonds.
Youtube, maintenant le NYT et les blogs sous WordPress.
50. Le web de données
Le web of data, ce sont des données, et des services destinés à explorer ces données.
Exemple par excellence : twitter
Ci-dessus, par exemple, We Read We Tweet, un mash-up des API du NY Times, de twitter,
et de Google Maps. Les arcs relient la localisation d’un tweet avec les lieux évoqués dans les
articles du NYT vers lesquels les tweets renvoient. Mais aussi Amazon, yelp, etc.
Des services permettent d’accéder à ces ressources, créant des documents à la volée.
51. Sur le web of data, les internautes accèdent aux données grâce à des services et des
applications. Par exemple l’application de visualisation créée par les Français d’OWNI pour la
dernière fuite de Wikileaks.
52. Un contenu, plusieurs sites
Qu’est-ce qui rend un document unique s’il est reproduit à l’infini ? Qu’est-ce qui différencie
le plagiat de la citation ? L’attribution ? Mais s’il n’y a pas d’auteur ?
La répétition - citation / scraping. Comment distinguer ce qui est pertinent (citation,
illustration, blog post, etc.) de ce qui ne l’est pas ? Pour un humain, c’est faisable.
Pour une machine, il faudrait réussir à lier automatiquement contenu, auteur, et adresse
web (= ces trois données sont-elles cohérentes ?)
53. Public, collectif, privé
• Privé = ce qui est sur notre ordinateur
• Collectif = intranet, outils collaboratifs
• Public = ce qui est accessible à tous
En 2006, l’équipe de recherche RTP-Doc définissait trois zones peuplées de documents numériques.
Où en est-on, en 2010 ?
54. Privé ?
Mais qu’est-ce qui est encore sur notre ordinateur ? Google Docs, Dropbox, synchro
desktop / laptop / iphone…
Pour ma part, je panique si un fichier n’est pas encore synchronisé, et qu’il se trouve à un
seul endroit. Si je peux encore lui donner une existence physique, je suis paniqué. Je sais
qu’on peut me le voler, que je peux le perdre, qu’il peut être détruit.
55. Semi-public ?
A première vue, Facebook semble plutôt être un changement quantitatif qu’un changement
qualitatif. On est impressionné par l’échelle du changement.
Mais si on peut être condamné en justice pour des propos tenus sur Facebook, alors on n'est
plus du tout dans le privé.
Facebook est dans une position particulière et très délicate : ses centaines de millions
d’utilisateurs lui ont confié volontairement des données très personnelles, qui demeuraient
traditionnellement dans la sphère privée (photographies) ou restaient cantonnées au collectif.
Ce sont précisément les données auxquelles les publicitaires n’ont pas accès, et qu’ils
essaient d’établir par des méthodes d’échantillonnage, d’études, etc.
La position est délicate, parce que les utilisateurs s’inquiètent périodiquement de ce qu’ils
ont laissés trop de données en possession de Facebook. Facebook ne peut pas donner aux
utilisateurs ce qu’ils veulent, c’est-à-dire un espace réellement privé-collectif, plutôt que
collectif-public, parce que c’est comme ça que Facebook gagne son argent.
57. Spécificités nationales
Autre facteur d’hétérogénéité - le web présente des spécificités nationales qui vont très au-
delà de l’anecdotique. Le succès d’Orkut au Brésil. L’incapacité d’eBay à s’implanter en Asie -
Yahoo Auctions au Japon, Tao Bao en Chine.
En particulier, tous les pans du web asiatique (en particulier chinois et japonais) sont
extrêmement isolés.
Les Chinois doivent composer avec ‘the great firewall of China’. Leur web se développe très
différemment du nôtre. Il y a des différences culturelles très fortes. Ils ont par exemple de
gigantesques forums sur lesquels ils échangent des normes ISO piratées en échange de
travail scolaire. Ils essaient absolument d’empêcher les non-Chinois d’y participer - ils
veulent préserver ce qu’ils ont de l’attention des occidentaux - attention qui finirait, à force
de tractations diplomatiques, par déchaîner sur eux les foudres des autorités chinoises.
58. Gala-Kei
La barrière linguistique se double d’une barrière sociale : les japonais ont des sites très
pauvres techniquement afin de les rendre accessibles sur n’importe quel téléphone portable.
Ces frontières techniques tendent à régresser (iPhone & iPad changent la donne au Japon, le
web chinois s’ouvre timidement), mais tout cela reste sans effet sur l’isolement culturel.
59. Des robots et des hommes
En attendant le web sémantique, il faut tout de même trouver des solutions pour organiser la
masse de contenus produits en permanence sur le web. Ce travail revient à des algorithmes
et aux internautes.
60. Sur Google News, le rédac chef est l’algorithme. Il y a parfois des bizarreries (météo france),
mais globalement ça marche pas mal.
61. Sur reddit, les visiteurs sont, individuellement et consciemment, leur propre rédac chef et,
indirectement, ceux de tous les autres visiteurs du site.
Le point intéressant est que peu d’entre eux prennent le temps de participer - ceux qui
participent ont donc un poids très important.
62. Le Huffington Post se targue d’être le premier organe de presse publié uniquement sur le
web (pure player) à atteindre l’équilibre financier. Comment ont-ils fait ?
Une partie de la réponse, au moins. Sur le Huffington Post, les visiteurs sont, collectivement
et sans le savoir, les rédac chef. Leurs clics et le temps qu’ils passent sur chaque page
déterminent le positionnement du contenu de la une, y compris les top stories.
Les ajustements ont lieu en temps réel.
Ils envisagent d’adapter le contenu de la une en fonction de la situation géographique. du
visiteur, aussi.
63. Content Curators
L’autre moyen pour remettre du sens, le content curator.
Le terme a fait florès dans la presse technologique ces derniers mois. Une bonne définition : «Un “Content Curator” est
quelqu’un qui continuellement trouve, regroupe, organise et partage le contenu en ligne le plus pertinent sur un sujet spécifique.»
Par exemple, je m’intéresse au cinéma des pays nordiques. Malheureusement, je ne parle aucune langue
scandinave, et les informations sont difficiles à trouver en français ou en anglais.
64. Quand Satoshi Kon est mort, de manière très subite, les détails ont émergé au compte-
goutte : il est mort, il est mort du cancer, il est mort d’un cancer du pancréas, voilà où on en
était après 24h. Et puis est arrivé une longue lettre qu’il avait rédigé dans les jours précédant
sa mort. C’est sa femme qui l’a postée, en japonais. Il a ensuite fallu qu’un blogueuse la
traduise en anglais, sans la moindre autorisation, pour qu’elle se mette à circuler sur le net
anglophone, avant d’atteindre la France par le biais de twitter.
Pour que cette lettre parvienne jusqu’à moi, il aura fallu deux jours. C’est court, et c’est aussi
très long.
65. Conclusion
• Le web est fragmentaire
• Le circulation de l’information est sociale
La
• Le web est une barrière de corail
Ca me paraît extrêmement symptomatique de la situation. : techniquement, tout est
connecté. Le net est uniforme. En pratique, le net est fragmentaire. Les processus de
circulation des informations sont (a) locaux et (b) sociaux, c’est-à-dire, dans l’ensemble,
étonnamment archaïques.
Reformulons : Des processus sociaux restent nécessaires pour accéder à l’information. Le
web n’est pas sémantique : il est pragmatique.
C’est ce qui nous échappe pour l’instant lorsque nous essayons d’en faire des documents.
Le « nettoyage » opéré par les outils de crawl (par ex. Ceux présentés ici par Exalead l’an
dernier) transforme une page web en document manipulable, car correspondant au modèle
classique du document. Il me semble que c’est une erreur si l’objectif est de comprendre le
web. Il me semble qu’en nettoyant, en se focalisant sur ce que nous reconnaissons comme
« le contenu », on évacue ce qui fait que le web est le web.
Enregistré, le document web est comme une branche de corail arrachée à la barrière - il
meurt.