2. Rappel programme global
• Comprendre la notion de métadonnée,
approche des langages à balises (s1)
• Comprendre le XML et ses applications (s2-4)
• Données ouvertes, traitements et
matérialisations informatiques (s5-6)
3. Programme de ce cours
1. Rappel - formats XML en situation
2. Rappel MODS/MADS/METS
3. Quelques autres formats courants
4. Aligner les métadonnées
5. Les métadonnées demain ?
6. JSON et les flux
7. (selon temps disponible) travail sur dossiers
4. 1) Rappel formats XML en situation
• Dublin Core ?
–Groupe normé de métadonnées décrivant des
objets numériques, exploité la plupart du temps
en XML, facilitant l’interopérabilité notamment
par le moissonnage selon le protocole OAI-PMH
• EAD ?
–Langage XML conçu pour la description des
fonds d’archives, avec prise en compte des
granularités différentes et de l’héritage des
informations
4
5. Rappel formats XML en situation
• TEI ?
–Définition de validité pour le balisage des
formes et contenus textuels
A votre avis, quel format XML adapté pour :
https://www.researchgate.net/publication/346014858_Preservi
ng_complex_digital_objects_in_the_GLAM_community_through
_Digital_Humanities_A_study_on_Ancient_Indian_scripts ?
Réponse : https://github.com/performant-software/juxta-desktop/wiki/GettingStarted
5
6. 2) Rappel MODS/MADS/METS
• MODS est un format bibliographique
renouvelé dans un contexte numérique, plus
spécifique que Dublin Core mais plus adapté
aux nouveaux objets bibliographiques
(ebooks, vidéos, sites web…)
• MADS est un langage de description des
autorités (lieux, personnes, sujets…) dans le
contexte du MODS
6
7. Rappel MODS/MADS/METS
• METS est un format XML capable d’intégrer
dans un même conteneur les définitions de
validité, le contenu décrit, et tous les types de
métadonnées applicables (contenu /
structure / droits / sur métadonnées) en XML
• METS permet de ce fait de faciliter la
réexploitation contextuelle du contenu
• L’archivage pérenne est un usage courant du
METS
7
8. 3) Quelques autres
formats XML courants
• Exemple de Zotero, outil de gestion de références
bibliographique libre
–Les styles utilisés sont exprimés dans un
langage XML, le CSL
–Les informations sur les ressources, pour être
facilement récupérées par Zotero, sont insérées
dans les balises SPAN du HTML : on utilise COinS
(version abrégée de OpenURL Context Object in
Span)
9. Quelques autres
formats XML courants
• Exemple de CSL :
<?xml version="1.0" encoding="utf-8"?>
<style xmlns="http://purl.org/net/xbiblio/csl" class="in-text" version="1.0"
demote-non-dropping-particle="sort-only" default-locale="en-GB">
<info>
<title>Nature</title>
<id>http://www.zotero.org/styles/nature</id>
<link href="http://www.zotero.org/styles/nature" rel="self"/>
<link href="http://www.nature.com/nature/authors/gta/index.html#a5.4" rel="documentation"/>
<link href="http://www.nature.com/srep/publish/guidelines#references" rel="documentation"/>
<author>
<name>Michael Berkowitz</name>
<email>mberkowi@gmu.edu</email>
</author>
<category citation-format="numeric"/>
<category field="science"/>
<category field="generic-base"/>
<issn>0028-0836</issn>
<eissn>1476-4687</eissn>
<updated>2018-10-24T18:43:45+00:00</updated>
<rights license="http://creativecommons.org/licenses/by-sa/3.0/">This work is licensed under a Creative
Commons Attribution-ShareAlike 3.0 License</rights>
</info>
10. Quelques autres
formats XML courants
• Exemple de CSL :
[...]
<macro name="title">
<choose>
<if type="bill book graphic legal_case legislation motion_picture report song" match="any">
<text variable="title" font-style="italic"/>
</if>
<else>
<text variable="title"/>
</else>
</choose>
</macro>
<macro name="author">
<names variable="author">
<name sort-separator=", " delimiter=", " and="symbol" initialize-with=". " delimiter-precedes-last="never"
name-as-sort-order="all"/>
<label form="short" prefix=", "/>
<et-al font-style="italic"/>
</names>
</macro>
[...]
</style>
11. Quelques autres
formats XML courants
• Exemple de COinS article médical tchèque :
<span class="Z3988" title="ctx_ver=Z39.88-2004&
rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&
rfr_id=info%3Asid%2Focoins.info%3Agenerator&
rft.genre=article&
rft.atitle=Bioplyn z konského hnoja s kukuričnou silážou v procese anaeróbnej
kofermentácie&
rft.title=Biom.cz&
rft.stitle=Biom.cz&
rft.issn=1801-2655&
rft.date=2007-11-23&
rft.volume=9&
rft.issue=11&
rft.au=Ladislav Košík&
rft.au=Ján Gaduš&
rft_id=http://biom.cz/clanky.stm?x=2058843&
rft.language=Czech"></span>
Dans quelle partie de la balise se situent les informations en COinS ?
12. Quelques autres
formats XML courants
• OWL pour
les ontologies
(ill. Maha
Al Yahya)
• SKOS pour les thésaurus
13. Quelques autres
formats XML courants
• KML pour les cartes type Google Map
• SVG pour les images vectorielles
• RSS pour les flux d’articles de blog
14. Quelques autres
formats XML courants
• DOCX, XLSX, PPTX… pour les documents Microsoft
Office; ODT, ODS, ODP pour OpenOffice
XLSX
Document
XML
PDF
Doc XML
XSL
XSL
DOCX
PPTX
14
15. Quelques autres
formats XML courants
• PREMIS (PREservation Metadata Implementation
Strategies) pour l’archivage (en + de METS)
16. 4) Aligner les métadonnées
● Plutôt que d’homogénéiser les métadonnées,
dont chaque champ d’application est
spécifique et difficilement réductible à un
standard donné, on préfère aligner les
métadonnées
● A
● B
● C
● D
● 1
● 2
● 3
● 4
16
17. Aligner les métadonnées
● Il s’agit de créer une référence de
correspondance entre les définitions de
validité, XML en particulier
Exemple : https://www.w3.org/TR/prov-dc/
pour un alignement entre Dublin Core
(documents en ligne, générique) et PROV
(métadonnées sur les sources / l’origine / la
provenance de données ou documents)
17
18. Aligner les métadonnées
•On parle parfois d’alignement des données:
aligner les vocabulaires et non les
grammaires ? En fait, dans la logique web 3
•Aucun alignement parfait entre les langages,
comme dans la vraie vie
19. 5) Les métadonnées demain ?
(= le web de données)
Observez la page
https://data.bnf.fr/fr/11904228/romain_gary/
Essai de représentation des données
19
20. Le web de données
• Tim Berners-Lee, en particulier dans un article
de 2001 “The Semantic Web” (Scientific
American n°284), décrit comment devraient
être structurées les données du web
• Cette structure repose sur des analyses
cognitives pour réduire l’information à des
déclarations permettant déductions logiques:
–Socrate est un chat
–Tous les chats sont mortels
–Socrate est mortel
21. Le web de données
• Ces déclarations sont décomposés en : sujet -
relation - prédicat, qu’on nomme des triplets
(n-triples)
• D’une logique de tables de données, on passe
alors à un système de graphe de données (la
structure des liens tissés par les triplets)
23. Le web de données
-> Exemples :
Rome (ville, état dans l’antiquité, lieu, lieu de publication)
Les autobiographies en langue française
Paris, Pâris, le Hilton de Paris, Paris Hilton…
Les ordres, familles, espèces du vivant
Les composés chimiques et leurs propriétés
24. Le web de données
• Cette conception des métadonnées a pu
prendre différents noms avec “colorations”
différentes :
–Web sémantique
–Web de données
–Web 3
–Squared Web (=“web au carré”)
–Web des données liées
–Données liées
–Données en graphe
25. Le web de données
• Le Web de données est avant tout un Web
pour faciliter le travail des machines… encore
plus que ne le font la plupart des langages à
balises!
• Gomme totalement la distinction entre
données et métadonnées : toute métadonnée
est une donnée. Toute donnée est une
métadonnée potentielle.
26. Le web de données
• Des forces indiscutables :
–La levée d’ambiguïtés (URIs = uniform
resource identifiers)
–Une ouverture fondamentale (graphes et non
tables)
–La simplicité d’interprétation et d’inférence
pour les machines : logique simpliste et partagée
mondialement
–Une possibilité de réutilisation sans fin
27. Le web de données
• Des faiblesses :
–Une grande place à l’imprévu quand on relie
les graphes
–La mesure d’utilisation des données liées
ouvertes n’est pas actuellement maîtrisée
–Un travail de conversion potentiellement
énorme (cf. données des bibliothèques). Ce ne
sera possible qu’avec l’aide de l’IA...
28. Le web de données
• Cas d’utilisation le plus pertinent, à l’usage :
quand on traite de la qualification, et non de
la quantification (expérience de data.bnf.fr)
–Bases de données en sociologie, en histoire,
en chimie, dans la recherche d’exoplanètes…
–Pas les bases de résultats des expériences du
CERN
29. Le web de données
Source : Karima Rafes -
Wikipedia Commons
31. Le web de données
• Source pour le Web de données : World Wide
Web Consortium (W3C)
https://www.w3.org/standards/semanticweb/
• Le RDF, formalisation du web de données :
https://www.w3.org/RDF/
https://www.w3.org/TR/rdf-syntax-grammar/
Et il existe le RDF en XML !
http://www.yoyodesign.org/doc/w3c/rdf-sch
ema/
32. Le web de données
• Le web de données est dans la suite de ce
besoin fondamental auquel a répondu le
développement des métadonnées : donner
aux machines le pouvoir (...de travailler)
• Ce n’est cependant pas le modèle ultime, le point
indépassable des métadonnées (nous reviendrons en
conclusion sur l’analyse de Gautier Poupeau dans son blog
Les Petites Cases)
33. 6) JSON et les flux
• Les formats de métadonnées adaptées au
stockage ne sont pas forcément les mêmes
que ceux adaptés aux échanges
• JSON (JavaScript Object Notation) est un
format qui s’impose de plus en plus pour
l’exposition et la lecture de métadonnées en
complément des formats de stockage
34. JSON et les flux
• L’origine du JSON : le JavaScript, un langage
de programmation (lui-même issu du Java)
• Qualités
–structuration très simple, légère
–interprétation facile techniquement
–intégrable dans toute instruction de
programmation (requête web, programme Python
ou C++, API) puisqu’il s’agit d’un modèle de
représentation
35. JSON et les flux
• Exemple XML
<employees>
<employee>
<prenom>Paul</prenom>
<nom>Atreides</nom>
</employee>
</employees>
• Exemple JSON
{
"employees":
[
{
"prenom":"Paul",
"nom":"Atreides"
}
]
}
36. 7) Travail sur dossiers
• Questions restantes sur la modalité d’
évaluation ?
• Questions sur les recherches en cours, sur les
résultats ?