Diaporama de l'intervention "Histoire(s) de notices" présentée par Gautier Poupeau au cours du séminaire INRIA IST 2012 "Le Document à l'heure du Web de données" (1er-5 octobre 2012)
Site web, application mobile ou tablette : AFS@Store, le moteur de recherche ...
Histoire(s) de notices
1. Histoire(s) de notices
LE DOCUMENT NUMÉRIQUE À L’HEURE DU WEB DE DONNÉES
SÉMINAIRE INRIA IST
1ER OCTOBRE 2012, CARNAC
Gautier Poupeau
gpoupeau@antidot.net
@lespetitescases
http://www.lespetitescases.net
1
2. Le rôle du professionnel de l’information
Sélection
Repérage Acquisition
Assurer la continuité
de l’accès à
l’information
pertinente
Modélisation
Organisation de la
description
Description
2
3. L’outil du professionnel de l’information
La notice, un reflet des différents artefacts de la collection
3
4. Et le Web dans tout ça…
Un Web de documents
Comment je
me situe ?
Un Web social Professionnel
de l’information
Un Web de données
4
5. Plan
Données structurées
Le règne de la notice Le temps des changements
et Web de données
5
16. La notice appartient-elle à une collection ?
Classement alphabétique
par titres, par auteurs…
Un ensemble de notices
=
Le catalogue
16
17. La notice appartient-elle à une collection ?
Classement alphabétique
Classement thématique
par titres, par auteurs…
Un ensemble de notices
=
Le catalogue
17
18. La notice appartient-elle à une collection ?
Reflet de l’organisation de la collection
Classement alphabétique
Classement thématique
par titres, par auteurs…
Un ensemble de notices
=
Le catalogue
18
19. La notice appartient-elle à une collection ?
Reflet de l’organisation de la collection
Classement alphabétique
Classement thématique
par titres, par auteurs…
La notice est donc un document au sens
de S. Briet et M. Buckland :
la notice fait partie intégrante d’une collection,
le catalogue
Un ensemble de notices
=
Le catalogue
19
21. La notice est-elle une antilope comme les autres ?
Ceci est-il l’objet ?
21
22. La notice est-elle une antilope comme les autres ?
Ceci est-il l’objet ?
Le Document
numérique
à l’heure
du Web de données
22
23. La notice est-elle une antilope comme les autres ?
Ceci est-il l’objet ?
Le Document
numérique
à l’heure
du Web de données
L’objet
documentaire
La collection
23
24. La notice est-elle une antilope comme les autres ?
Ceci est-il l’objet ?
Le Document
numérique
à l’heure
du Web de données
L’objet
documentaire
La collection Le catalogue
= collection
24
25. La notice est-elle une antilope comme les autres ?
Ceci est-il l’objet ?
Le Document
numérique
à l’heure
du Web de données
L’objet
documentaire
La collection Le catalogue
= collection
25
26. La notice est-elle une antilope comme les autres ?
Ceci est-il l’objet ?
La notice est un méta-document qui
fonde l’existence de l’objet documentaire
Le Document
au sein de la collection
numérique
à l’heure
du Web de données
Un
méta-document L’objet
documentaire
La collection Le catalogue
= collection
26
27. Informatisation de la notice : l’ubiquité
Consultations
simultanées
et à distance
27
28. Informatisation de la notice : l’ubiquité
Pas de duplication
de notices en fonction
du classement
Consultations
simultanées
et à distance
28
29. Informatisation de la notice : l’ubiquité
Pas de duplication
de notices en fonction
du classement
Consultations
simultanées
et à distance
Possibilité de croiser
différents critères pour
effectuer une recherche
29
30. Informatisation de la notice : des référentiels communs
Des notices Matières issues de Rameau
De quoi parle
Métadonnées ce livre ?
IST
30
31. Informatisation de la notice : des référentiels communs
Des notices Matières issues de Rameau L. Calderan,
Calderan Lisette
Métadonnées ou Lisette
Caderan
IST
Les notices
d’autorité
Lisette Calderan
INRIA
Des notices sur des personnes
physiques… … ou morales
31
36. Remise en cause
Le Document
numérique
à l’heure
du Web de données
Indexation Recherche
Acquisition
manuelle dans la notice 36
37. Remise en cause
Recherche
Numérisation
dans le document
Le Document
numérique
à l’heure
du Web de données
Indexation Recherche
Acquisition
manuelle dans la notice 37
38. Remise en cause
Indexation Recherche
Numérisation
computationnelle dans le document
Le Document
numérique
à l’heure
du Web de données
Indexation Recherche
Acquisition
manuelle dans la notice 38
39. L’adaptation de la notice au Web
Etape 1 : Le formulaire de recherche
Le catalogue devient un
outil de recherche bibliographique
Le catalogue n’est pas visible
des moteurs de recherche
Le feuilletage n’est pas reproduit
Les OPAC en ligne n’exploitent pas toutes les
possibilités du Web, en particulier l’hypertexte
39
40. L’adaptation de la notice au Web
Etape 2 : Inscription dans les pratiques du Web
Une notice est accessible via
une URL unique et pérenne
Les fonctions de rebonds induisent
la sérendipité
Le catalogue intègre aussi
l’utilisateur comme acteur
Le catalogue utilise le Web mais ne s’inscrit pas dans le
Web 40
41. Le record de l’OAI-PMH
Chercheur Archives
ouvertes
Que désigne le Il a le rôle de la notice =
reflet de l’article dans l’archive
Il a le rôle de trace/preuve =
? Le dépôt est un acte engageant
dont le record est le témoin
https://commons.wikimedia.org/wiki/File:Traces.JPG
41
42. Le record de l’OAI-PMH
Séparation entre la notion de record et sa description
La notice n’est pas forcément uniforme
elle peut avoir plusieurs descriptions 42
43. Et la métadonnée fut
On ne s'intéresse plus uniquement à la notice dans sa globalité,
mais aux différentes portions d'information qu'elle contient
à travers la notion de données.
Les métadonnées ne se
Les métadonnées peuvent
limitent pas à la description
être incluses dans le document
intellectuelle de l’objet
Le terme métadonnées marque une nouvelle étape mais ne constitue
pas l’aboutissement, plutôt un moyen de continuer à exister face aux
remises en cause dues à l’irruption du Web 43
44. XML : Forces et limites
XML est un langage d’encodage de l’information documentaire.
Modèle d’organisation
hiérarchique de l’information Syntaxe Règles
Arbre XML
<html> • un élément racine
1 <head> • une balise ouvrante, une balise
<title> fermante
2 4 Mon joli document • un document XML doit être bien
</title>
formé
</head>
<body> • Encodage des caractères
3 3 5 <p> • un document XML peut être valide
Mon joli paragraphe par rapport à une grammaire (nom
3 6 </p> des éléments et des attributs, règles
</body> de structuration, type de données…)
</html>
Forces Limites
• Pas un format binaire • Encodage contextuel au document
• Indépendant outils/systèmes d’exploitation • Enfermement dans la logique documentaire
• Assure une cohérence dans un domaine précis • Interopérabilité stricte (grammaire et son application)
• Respecte la logique du document physique • Le lien est un pointeur
• Les relations sont implicites
44
45. XML : Forces et limites
XML est un langage d’encodage de l’information documentaire.
Modèle d’organisation
hiérarchique de l’information Syntaxe Règles
Arbre XML
<html> • un élément racine
1 <head> • une balise ouvrante, une balise
<title> fermante
2 4 Mon joli document • un document XML doit être bien
Question : Un ensemble de métadonnéesformé
</title>
</head>
3 3 5 forme-t-il un document ?
<body> • Encodage des caractères
<p> • un document XML peut être valide
Mon joli paragraphe par rapport à une grammaire (nom
3 6 </p> des éléments et des attributs, règles
</body> de structuration, type de données…)
</html>
Forces Limites
• Pas un format binaire • Encodage contextuel au document
• Indépendant outils/systèmes d’exploitation • Enfermement dans la logique documentaire
• Assure une cohérence dans un domaine précis • Interopérabilité stricte (grammaire et son application)
• Respecte la logique du document physique • Le lien est un pointeur
• Les relations sont implicites
45
46. XML : Forces et limites
EAD est la réponse des archivistes pour encoder le document inventaire
selon les principes d’ISAD(G).
<ead xmlns="urn:isbn:1-931666-22-9">
<eadheader>
<eadid></eadid>
L’EAD est la stricte transposition <filedesc>
du document inventaire dans le <titlestmt>
<titleproper></titleproper>
monde numérique </titlestmt>
Outre les avantages de XML, </filedesc>
</eadheader>
l’EAD a constitué l’opportunité <archdesc level="fonds">
de continuer et de rendre <did>
concret le travail engagé avec <unitid countrycode="FR"></unitid>
</did>
ISAD(G). <dsc>
<c>
Limites <did>
<unitid></unitid>
• La description d’un niveau archivistique n’a du sens que dans le <unittitle></unittitle>
contexte du document XML <unitdate></unitdate>
• Les identifiants sont locaux / spécifiques au document XML </did>
• Une section ne peut être référencé directement depuis un autre <phystech><p></p></phystech>
inventaire (on ne peut faire qu’un pointeur) <controlaccess>
• Les notices d’autorités sont référencés sous la forme d’une <subject></subject>
chaîne de caractères </controlaccess>
</c>
• Comment lier une notice EAC dans un fichier EAD ?
</dsc>
• l’interopérabilité avec d’autres systèmes de descriptions impose </archdesc>
un mapping sur le plus petit dénominateur commun </ead> 46
47. XML : Forces et limites
EAD est la réponse des archivistes pour encoder le document inventaire
selon les principes d’ISAD(G).
<ead xmlns="urn:isbn:1-931666-22-9">
<eadheader>
<eadid></eadid>
L’EAD est la stricte transposition <filedesc>
du document inventaire dans le <titlestmt>
<titleproper></titleproper>
monde numérique </titlestmt>
Outre les avantages de XML, </filedesc>
</eadheader>
l’EAD a constitué l’opportunité <archdesc level="fonds">
de continuer et Un rendre
Question : de inventaire constitue-t-il countrycode="FR"></unitid>
<did>
concret le travail engagé avec <unitid
encore un document </did>
ISAD(G). <dsc>
ou une suite de (méta)données structurées ?<c>
Limites <did>
<unitid></unitid>
• La description d’un niveau archivistique n’a du sens que dans le <unittitle></unittitle>
contexte du document XML <unitdate></unitdate>
• Les identifiants sont locaux / spécifiques au document XML </did>
• Une section ne peut être référencé directement depuis un autre <phystech><p></p></phystech>
inventaire (on ne peut faire qu’un pointeur) <controlaccess>
• Les notices d’autorités sont référencés sous la forme d’une <subject></subject>
chaîne de caractères </controlaccess>
</c>
• Comment lier une notice EAC dans un fichier EAD ?
</dsc>
• l’interopérabilité avec d’autres systèmes de descriptions impose </archdesc>
un mapping sur le plus petit dénominateur commun </ead> 47
48. A la recherche de l’interopérabilité
Le formulaire de recherche
ou la « webification » à marche forcée des bases de données
Ce que vous voyez Ce que voient les machines
web invisible/profond
48
49. A la recherche de l’interopérabilité
Le protocole OAI-PMH
ou comment mettre en place une rustine pour échanger des données
Le plus petit dénominateur commun
49
50. A la recherche de l’interopérabilité
Les APIs Web
ou comment contrôler les données sous le couvert de l’ouverture
Les données restent dans les silos
Les APIs sont propriétaires 50
51. A la recherche de l’interopérabilité
La folksonomie
ou comment penser que la masse fait la sémantique
Pas de référentiel, Pas de structure, pas de sens
juste des chaînes de caractères
51
52. Les données structurées, inutiles ?
Conférence de l’American Association for Artifical Intelligence,
juillet 2006
"What I get a lot is: 'Why are you against the Semantic Web?' I am
not against the Semantic Web. But from Google's point of view,
there are a few things you need to overcome, incompetence being
the first,"
Peter Norvig
responsable de la recherche chez Google
52
53. Les données structurées, inutiles ?
Article dans la revue « IEEE Intelligent System journal »
mars 2009
“the unreasonable effectiveness of data”
Peter Norvig
responsable de la recherche chez Google
53
54. Les données structurées, inutiles ?
Article dans la revue « IEEE Intelligent System journal »
mars 2009
“the unreasonable effectiveness of data”
Peter Norvig
Responsable de la recherche chez Google
Depuis, Google a fait évoluer sa position :
Google rich snippets Rachat Lancement
Knowledge Graph
de Metaweb de l’initiative
Mai 2009 Juillet 2010 Juin 2011 Mai 2012
54
55. Pourquoi même Google y revient ?
Répondre aux besoins de plus en plus précis des utilisateurs en termes de recherche
Structurer l’information
55
56. Pourquoi même Google y revient ?
Répondre aux besoins de plus en plus précis des utilisateurs en termes de recherche
Hiérarchiser l’information
56
71. et ainsi constituer un graphe d’entités
http://data.bnf.fr/
http://data.bnf.fr/
ark:/12148/cb13319953j
http://catalogue.bnf.fr/ ark:/12148/cb14521343b
http://dbpedia.org/resource/
French_National_Library ark:/12148/8F399
http://catalogue.bnf.fr/
ark:/12148/cb42671244n
Il n’existe plus ark:/12148/1234
http://www.inria.fr/actualite/agenda/
de hiérarchie entre les
http://catalogue.bnf.fr/
document-numerique
données : elles sont toutes
http://catalogue.bnf.fr/
au même niveau ! ark:/12148/chapitre10
http://fr.linkedin.com/pub/
anne-marie-libmann/6/77b/a95
https://fr.dbpedia.org/resource/ http://ns.inria.fr/
Association_des_professionnels_de_ fabien.gandon#me
l%27information_et_de_la_docume
ntation http://data.bnf.fr/
ark:/12148/cb14451517s#foaf:Person
http://data.bnf.fr/
http://www.facebook.com/ ark:/12148/cb11872796d#foaf:Organization
veronique.mesguich
71
73. pour relier les organisations, activités…
Le Web constitue par nature
un milieu associé.
Utilisons le…
73
74. Le retour de l’antilope ?
« le Linked Data est l'utilisation des standards du web pour
échanger des documents qui encodent des données
structurées »
Dan Brickley
74
75. Le retour de l’antilope ?
« le Linked Data est l'utilisation des standards du web pour
échanger des documents qui encodent des données
structurées »
Dan Brickley
URI non informationnelle
de l’entité en elle-même
http://data.bnf.fr/ark:/12148/cb14521343b
Redirection
http://data.bnf.fr/14521343/web_semantique/
URI informationnelle
de la représentation en HTML
75
76. Le retour de l’antilope ?
« le Linked Data est l'utilisation des standards du web pour
échanger des documents qui encodent des données
structurées »
Dan Brickley
URI non informationnelle
de l’entité en elle-même
http://data.bnf.fr/ark:/12148/cb14521343b
Redirection Redirection
http://data.bnf.fr/14521343/web_semantique/ http://data.bnf.fr/14521343/web_semantique/rdf.xml
URI informationnelle URI informationnelle
de la représentation en HTML de la représentation en RDF/XML
76
77. La représentation est-elle un document ?
La représentation est-elle exactement l’équivalent
de la notice ?
Flux fini d'informations Informations porteuses de sens
<rdf:Description rdf:about="http://data.bnf.fr/ark:/12148/cb14521343b
<skos:prefLabel xml:lang="fr">Web sémantique</skos:prefLabel>
<skos:closeMatch rdf:resource="http://id.loc.gov/authorities/sh2002000569#concept"/>
</rdf:Description>
77
78. La représentation est-elle un document ?
La représentation est-elle exactement l’équivalent
de la notice ?
Flux fini d'informations Informations porteuses de sens
<rdf:Description rdf:about="http://data.bnf.fr/ark:/12148/cb14521343b
<skos:prefLabel xml:lang="fr">Web sémantique</skos:prefLabel>
<skos:closeMatch rdf:resource="http://id.loc.gov/authorities/sh2002000569#concept"/>
</rdf:Description>
Mais il n’existe pas de contrat de lecture
la dimension sociale est absente de la représentation RDF/XML
car elle est à destination de la machine
78
79. La représentation est-elle un document ?
La représentation est-elle exactement l’équivalent
de la notice ?
VU LU
Flux fini d'informations Informations porteuses de sens
<rdf:Description rdf:about="http://data.bnf.fr/ark:/12148/cb14521343b
<skos:prefLabel xml:lang="fr">Web sémantique</skos:prefLabel>
<skos:closeMatch rdf:resource="http://id.loc.gov/authorities/sh2002000569#concept"/>
</rdf:Description>
Mais il n’existe pas de contrat de lecture
la dimension sociale est absente de la représentation RDF/XML
car elle est à destination de la machine
79
80. La représentation est-elle un document ?
La représentation est-elle exactement l’équivalent
de la notice ?
VU LU
Flux fini d'informations Informations porteuses de sens
Si la représentation n’est pas un document,
<rdf:Description rdf:about="http://data.bnf.fr/ark:/12148/cb14521343b
<skos:prefLabelcomment les données jouent-elles le rôle de
xml:lang="fr">Web sémantique</skos:prefLabel>
<skos:closeMatch rdf:resource="http://id.loc.gov/authorities/sh2002000569#concept"/>
medium ?
</rdf:Description>
Comment assurer la confiance ?
Mais il n’existe pas de contrat de lecture
la dimension sociale est absente de la représentation RDF/XML
car elle est à destination de la machine
80
81. Le contexte social par l’usage
Le Web sémantique sépare les données de leurs usages.
Il ne faut pas confondre
Une page Web qui donne un Un flux qui permet à la machine de
contexte de lecture récupérer des données
Le contexte social et le rôle de medium sont assurés
quand les données sont utilisées
81
82. Comment assurer la confiance ?
La temporalité L’autorité
La provenance
82
84. La confiance par le graphe
http://rameau.bnf.fr/
http://data.bnf.fr/
ark:/12148/cb14521343b
http://www.bnf.fr/
http://data.bnf.fr/ http://data.bnf.fr/
ark:/12148/event-399 ark:/12148/agent-150
84
87. La confiance par le graphe
LU
Ce n’est pas un document qui apporte la confiance
SU
mais la mise en relation des ressources sous
forme de graphes et l’exploitation de ces données
87