Modèles de données et langages de description ouverts 4 - 2021-2022
1. Modèles de données et langages de
description ouverts - 4
Licence DIST
2021-2022
2. Rappel programme global
• Comprendre la notion de métadonnée,
approche des langages à balises (s1)
• Comprendre le XML et ses applications (s2-4)
• Données ouvertes, traitements et
matérialisations informatiques (s5-6)
3. Programme de ce cours
1. Correction évaluation 1
2. Travaux sur dossier
3. Rappel - Les espaces de nom
4. Dublin Core
5. EAD
6. TEI
7. MODS, MADS, METS
5. 2) Travaux sur dossier
Chacun a un sujet validé. A fournir:
- L'indication de 2 formats (DTD ou schéma XML)
au minimum privilégiés pour la situation donnée. - sur 5
pts (pertinence évaluée sur chaque format et
éventuellement sur la combinaison choisie)
- 5 fichiers-exemples de ce qu'on pourrait produire.
Les fichiers mettent en valeur l'intérêt des choix faits sur
les formats - sur 10 pts (2 points sur la conformité XML,
8 points sur la pertinence des exemples construits)
- 1 à 2 pages de présentation, personnelle, du choix
fait sur les formats choisis - sur 5 points (1 point
présentation, 4 points argumentation)
7. 3) Rappel - Les espaces de noms
• Les espaces de nom (namespaces) définissent dans
un fichier XML les règles à suivre pour chaque balise
préfixée
<dc:title>Les Géants</dc:title>
• Les espaces de noms permettent de combiner les
validités (et les utilisations) pour un même fichier
(par exemple un fichier qui respecte à la fois le
Dublin Core et l’EAD, ou Dublin Core et MARCXML)
10. Dublin Core
• 1995 : 15 éléments censés porter les
métadonnées sur tout document numérique,
toute “ressource”
• 3 des types canoniques de métadonnées
•métadonnées descriptives
•métadonnées de structure
•métadonnées administratives
• Son développement est actuellement porté
par la Dublin Core Metadata Initiative (DCMI)
10
11. Dublin Core
• DC : au départ, une grammaire de
métadonnées qui peut s’adapter à différents
modes de matérialisation
– Base de données relationnelles
– Langage à balises dans un document
– Triplets de données...
• Devenu un standard puis une norme (ISO
15836)
• Avec un objectif principal, l’interopérabilité
11
12. Dublin Core
Quoi de plus interopérable que le XML ?
• Traduction en définitions XML du Dublin Core
– “non-qualifié” (les 15 balises - dernière version
2002)
– “qualifié” (une centaine d’éléments de définition,
dont une soixantaine de balises - dernière version
2008)
Voir le site de la DCMI - spécifications
12
15. Dublin Core
Exemple d’application, HAL en tant qu’entrepôt
OAI-PMH :
http://api.archives-ouvertes.fr/oai/hal/?verb=G
etRecord&metadataPrefix=oai_dc&identifier=oa
i:HAL:tel-01930398v1
15
16. Dublin Core (et EAD)
DC
Document
XML
Page web
PDF
Doc XML
Feuille
de style
1
Feuille
de style
2
Feuille
de style
3
DC
Qualifié EAD
16
17. 5) EAD
Que trouve-t-on dans une archive ? Quels
constituants ? Quelle description possible ?
17
18. EAD
Que trouve-t-on dans une archive ?
-> Une arborescence d’éléments (les pièces)
dont la séquence d’apparition est essentielle,
avec des niveaux différents de profondeur (= de
détail)...
Quoi de plus adapté que le XML ?
18
20. EAD
Définition XML héritée de la TEI et fixée en 2002
(DTD utilisé en France essentiellement, XML
Schema) - actuellement version 3 de 2015
Qualités essentielles : l’héritage, la granularité
variable, les possibilités de combinaison avec
d’autres définitions (par ex. bibliographique)
Répond aux préconisations de la norme ISAD (G)
20
21. EAD
Quels types de métadonnées dans l’EAD ?
● des éléments d'identification et d'information relatifs à l'instrument de recherche
lui-même : contexte de création de l'instrument de recherche, mentions de
responsabilité intellectuelle, informations administratives, techniques et de
gestion ;
● des éléments d'identification et de description du fonds ou de la collection :
identifiant, localisation, producteur et contexte de production, caractéristiques
matérielles, contenu et organisation, modalités d'accès ;
● des éléments de description de chacun des composants et sous-composants ;
● des éléments d'informations complémentaires : documents en relation,
références bibliographiques ;
● des éléments d'indexation.
(source : site BnF)
21
22. EAD
Quelle correspondance entre fonds d’archive et structure EAD ?
The-hierarchical-structure-of-an-archive-mapped-into-an-EAD-file - Gianmaria Silvello 22
23. Exercice d’application en EAD
• Un grand laboratoire pharmaceutique
lyonnais, Sanorieux, veut entièrement
numériser son processus d’archivage
administratif et technique.
Sans connaître dans le détail le
fonctionnement de l’EAD, vous devez
commencer à décrire dans un cahier des
charges les types de pièces enregistrées et les
besoins fonctionnels du logiciel métier
23
24. 6) TEI
● La Text Encoding Initiative (TEI) est une
démarche ancienne qui s’est concrétisée en
devenant un langage XML.
● Elle tire profit de l’entrelac des balises avec le
texte pour décrire avec beaucoup de finesse
la forme et le contenu du texte
● Elle est intéressante pour les traitements
informatiques des corpus littéraires
24
25. TEI
● On distingue différentes étapes de la
définition XML TEI, signifiées par “P”+ un
numéro. Actuellement on en est à la P5.
● Une diffusion lente jusqu’à ce que les robots
d’identification “apprenants” se développent
après 2010 / 2015 (BILBO, Grobid…)
25
26. TEI
Utilisation par une base anglaise d’inscriptions
romaines
http://inslib.kcl.ac.uk/irt2009/inscr/xmlrepo.html
Exemple de fichier : http://inslib.kcl.ac.uk/irt2009/IRT001.xml
ISTEX enrichit les documents en licence
nationale avec de la TEI :
https://blog.istex.fr/tag/tei/ -
https://www.istex.fr/
26
27. 7) MODS, MADS, METS
• La bibliothèque du congrès américain avait
identifié le besoin d’une meilleure description
des objets numériques mais dans un esprit
“bibliographique”
• Metadata Object Description Schema (MODS)
lancé en 2002 permet d’élargir les contextes
d’utilisation des métadonnées
bibliographiques
27
28. MODS, MADS, METS
• MODS “lite” : une correspondance avec DC
<titleInfo> dont <title>; <name> dont <namePart>;
<typeOfResource>; <genre>; <originInfo>; <dateIssued>;
<dateCreated>; <dateCaptured>; <dateOther>; <publisher>;
<language>; <physicalDescription>; <internetMediaType>;
<extent>; <form>; <abstract>; <tableOfContents>; <note>,
<subject> dont <topic>, <temporal>, <geographic> et
<cartographics>; <classification>; <relatedItem>; <identifier>;
<location> dont <url>; <accessCondition>
+ <recordInfo>
28
29. MODS, MADS, METS
• MODS est avant tout une définition de
validité pour des fichiers XML
• Espace de nom habituel :
<mods:....>
• MODS est aussi utilisé pour
– Des transferts de notices avec les protocoles
“modernes” SRU/SRW ou en tant que format
moissonnable
– En remplacement de MARCXML
29
30. MODS, MADS, METS
● MODS est plus riche que DC simple
● MODS est plus compatible avec les données
bibliographiques qu’ONIX (standard éditeurs)
● MODS est plus proche des besoins utilisateurs
que MARCXML, et plus simple qu’une notice
MARC
● … pourtant son usage restait relativement
limité (ça semble changer depuis 2-3 ans)
30
31. MODS, MADS, METS
● MADS (Metadata Authority Description
Schema) est le langage XML de description
des autorités pour les objets en MODS
-> Lieux, personnes, objets, sujets
● Il n’est utilisé qu’en contexte avec MODS
31
32. MODS, MADS, METS
•METS (Metadata Encoding and Transfer
Standard) est autant un standard qu’une
logique d’organisation et de traitement des
documents.
•Dans un fichier METS on trouve les
documents, leur description par des
métadonnées, les clés pour interpréter ces
métadonnées et les processus pour exploiter
les documents
32
33. Rappel organisation du XML
DTD ou
Schema
Document
XML
Page web
PDF
Doc XML
Feuille
de style
1
Feuille
de style
2
Feuille
de style
3
33
37. MODS, MADS, METS
•METS en 7 parties :
–METS header (metsHdr) permet d'indiquer les
références du fichier METS (les métadonnées du
fichier de métadonnées...), en particulier le
producteur du fichier
–Description Metadata Section (dmdsec) permet
de renseigner les métadonnées descriptives de
l'objet principal décrit par le fichier METS et
éventuellement des objets le composant.
37
38. MODS, MADS, METS
•METS en 7 parties :
–Administrative Metadata Section (amdSec)
permet de renseigner l'ensemble des
métadonnées administratives de l'objet principal
et éventuellement des objets le composant
–File Section (fileSec) permet de décrire
l'emplacement physique de chaque fichier (et le
fichier lui-même éventuellement)
38
39. MODS, MADS, METS
•METS en 7 parties :
–Structural Map (structMap) permet d'organiser
selon une structure hiérarchique les objets
composant l'objet principal décrit dans les
parties dmdSec, amdSec et/ou fileSec.
–Structural Map Linking (structLink) permet de
décrire les liens éventuels entre des divisions
–Behaviour section (behaviourSec) permet
d'indiquer des comportements entre différents
objets décrits dans le fichier METS.
39
41. MODS, MADS, METS
La plate-forme de revues numérisées Persée se
fonde sur une organisation en METS de ses
ressources documentaires
http://www.persee.fr/disciplines
L’archivage au CINES (centre d’archivage
pérenne pour l’enseignement supérieur) se fait
en passant par des fichiers METS
41
42. Calendrier prévu
• 18/11/21 – Séance 5 :
•Travaux sur dossier
•Données liées
• 02/12/21 – Séance 6 :
•modélisations informatiques des métadonnées
•évaluation finale