Modèles de données et langages de description ouverts 2021-2022 - 1
1. Modèles de données et langages
de description ouverts
Licence DIST
2021-2022
2. Présentation personnelle
<nom>François-Xavier Boffy</nom>
<statut>Conservateur bibliothèques</statut>
<fonction>Responsable système d’information
documentaire à la BU de Lyon 1</fonction>
<role>Information Coordinator section IT</role>
#gamedesign #digitalhumanities #metadata
#TransitionBiblio #webservices #ADBU #IFLA
2
3. Programme initial
• Objectif global : maîtriser la logique des
modélisations de métadonnées, comprendre
les méthodes pour exploiter les plus courantes
selon leur contexte d’utilisation et leur
matérialisation technique
• Planning général :
– Comprendre la notion de métadonnée, approche
des langages à balises (s1)
– Comprendre le XML et ses applications (s2-4)
– Données ouvertes, traitements et matérialisations
informatiques (s5-6)
3
4. Modalités d’évaluation
• Une évaluation intermédiaire en séance 3 (1/5
de la note)
• Un travail par sous-groupe, commenté
individuellement (2/5 de la note)
• Une évaluation finale sur QCM + questions en
situation (2/5 de la note)
4
6. A vous de jouer…
6
Qui pourra avoir le contrat ?
7. Avant de se lancer…
• Des questions, des propositions ?
7
8. Programme de ce cours
1. Introduction à la notion de métadonnée
2. Introduction aux langages à balises
3. Exercice de découpage d’information
4. Principes des langages à balises
5. Fonctionnement d’un langage à balises
6. Exercices pratiques
7. Bref historique SGML, HTML, XML
8
9. 1) Les métadonnées
• Définition « essentielle » : ce sont des
données sur des données
(« data about data », James Martin)
– Pour lier au mouvement actuel de développement
de l’internet des objets (IoT), parlons de
« données sur le donné »
• La notion a précédé l’informatique, mais est
devenue un enjeu décisif dans le traitement
informatique des données (et des documents)
9
11. Comme monsieur Jourdain…
On fait des métadonnées depuis très longtemps
sans s’en rendre compte
Villeurbanne 69100
CP
Sous-préfecture
Adm.
147 712 hab. (2017)
POP
11
13. Exemples de métadonnées
● Votre numéro de sécurité sociale – les machines
peuvent gérer votre dossier
● Vos prénoms – on peut vous identifier plus
précisément qu'avec un seul (alternative : date
voire lieu de naissance)
● Votre taille – on peut savoir quel vêtement (= une
autre donnée) pourrait « s'agencer » avec vous;
mais elle varie au cours de la vie
● La cuisson de la viande au restaurant – question
de vocabulaire (bleu, à point...)
13
16. Les métadonnées au pouvoir
Sir Francis Bacon - Par Inconnu — National Portrait Gallery: NPG 520
“Savoir, c’est
pouvoir”
#bigdata
#identiténumérique
#IoT #IA
#Bacon
16
17. Les métadonnées au pouvoir
La qualité des
17
Le désert dessiné par une IA...
18. Caractérisation des métadonnées
• Les métadonnées sont des données sur les
données, donc on peut classer les
métadonnées selon le type des données
• Distinction traditionnelle entre
– Métadonnées descriptives (du contenu)
– Métadonnées administratives (droits)
– Métadonnées de structure (relations)
– Métadonnées sur les métadonnées
18
19. Exemple en Dublin Core qualifié
● title décrit le nom d'usage du contenu
● rights décrit des droits sur le document
● hasPart signale une sous-partie du document
● metametadata / contribute décrit l'origine des
métadonnées
19
20. Des limites à cette
caractérisation…
• Anne Franck, Journal
– Thème (livre sur…)
– Auteur ou co-auteur (livre de…)
– « droits d’exploitation » ? (responsabilité patr.)
=> La limite entre les métadonnées et les
données est constamment remise en cause, on
est de plus en plus dans une logique de
sujet-prédicat (voir cours n°5)
20
21. 2) Introduction aux langages à balises
• Parmi les organisations possibles des
métadonnées, l’option de mêler données et
métadonnées
• Besoin d’utiliser des signaux « forts » pour se
faire comprendre par ces animaux bêtes que
sont les ordinateurs
21
22. Avant l’informatique
« Les phrases affichées sont-elles exprimées
dans un langage à balises ?
¿ Habla espagñol ?
Je suis sûr que vous avez d’autres exemples de
langage mis en forme selon un système de
balises. »
22
23. Définition
La caractéristique principale des langages de
balisage est d'utiliser des balises. Le rôle des
balises est de proposer une syntaxe pour
délimiter une séquence de caractères ou pour
marquer une position précise dans un flux de
caractères.
Wikipedia
En anglais on utilise l’expression “Markup Langage”, d’où les
nombreux “...ML” de ce cours
23
24. Pourquoi découper le réel ?
• Pour le comprendre
– leur « goleador » fait une « Neymar » (leur
attaquant buteur se roule par terre)
– [humour] je hais le langage XML [/humour]
• Pour le traiter
– 3 + 10 – 22 / 2 =
– sijeplacetousmesmotsàlasuitesansséparationilestp
lusdifficiledecomprendrecequej’
écrisetparexemplelecorrecteurd’orthographenepo
urraplusm’aider
24
26. Découper des informations
• Les langages à balises permettent de
structurer de l’information dans des
arborescences
• Il est possible de coder ces structures et leur
contenu dans des fichiers pour les échanger
Titre
Auteur Thème
Hugo, Victor
Quatre
vingt-treize
Paris Terreur Marat
26
27. 3) Exercice de découpage
• Au choix:
a. Décrivez-vous vous-même avec des
métadonnées (si possible originales)
b. Décrivez votre oeuvre préférée, un
événement ou un lieu que vous connaissez
bien et indiquez quelles métadonnées vous
semblent utiles pour comparer à d’autres du
même genre
27
28. 4) Principes des langages à balise :
le vocabulaire descriptif
• Arbre
• Nœud (fils | père, ancêtres et descendants)
• Racine
• Chemin (suite de nœuds)
• Branche (chemin vers une feuille)
• Feuille
• Taille d’un arbre
• Profondeur
28
34. 5) Fonctionnement d’un langage à balises
34
Langages à balises
Métadonnées
Informations
Des exemples non-XML pour commencer à observer:
Markdown (https://en.wikipedia.org/wiki/Markdown); Wiki (https://en.wikipedia.org/wiki/Wiki#Editing)
37. Grammaire et vocabulaire
• Un langage à balises a pour but de représenter
de l’information structurée. Il s’appuie sur
– Un vocabulaire, prédéfini ou auto-déclaré = le
nom des éléments, des balises ou les signes utiles
– Une grammaire, qui définit les règles d’utilisation
du vocabulaire et de structuration des éléments =
la norme ou le standard du langage à balises
– Un système d’attributs éventuellement, qui
précise les modalités d’interprétation du
vocabulaire
37
38. Une « famille » de langages
• XML, HTML, Dublin Core... reposent sur des
principes communs mais des vocabulaires,
grammaires différents
• Positionnement différent, plus ou moins
proche de l’expression des métadonnées
Langages à balise
XML
DC
38
39. L’avantage d’intégrer les métadonnées
dans les données
• Les langages à balises offrent la possibilité de
distinguer la structure logique (balises) et la
structure physique (visible)
– Possibilité de manipulation de la structure logique
(extraction, etc.)
– Possibilité de produire plusieurs structures
physiques à partir d’une structure logique
(publication responsive...)
39
40. 6) Un peu de pratique…
• Décrivez-vous vous-même avec des balises,
profondeur d’arbre 3 niveaux
• Décrivez l’oeuvre, l’événement ou lieu choisi
précédemment en utilisant les 4 types de
métadonnées habituellement identifiés
• Si un auteur est né et est mort à Paris,
comment peut-on représenter cela sous forme
d’arbre ?
40
41. 7) Bref historique SGML, HTML, XML
• A la fin des années 1960 IBM invente un
langage de description, GML (Generalized
Markup Langage ou Goldfarb - Mosher - Lorie,
du nom des inventeurs).
• Charles Goldfarb, co-inventeur du GML
développe ensuite un successeur appelé SGML
(Standard Generalized Markup Language),
publié en 1986 comme norme ISO (ISO
8879:1986)
41
42. Bref historique SGML, HTML, XML
• Tim Berners-Lee choisit de décliner le SGML
en une version simplifiée pour structurer les
pages web :
HTML (HyperText Markup Language)
• De la grande simplicité du début (tag soup)…
• Aux 104 éléments définis dans HTML 5
42
43. Bref historique SGML, HTML, XML
Exemple HTML :
<!DOCTYPE html>
<html>
<head>
<title>Titre de page</title>
</head>
<body>
<h1>Titre de section niveau 1</h1>
<p>Paragraphe</p>
</body>
</html>
43
44. Bref historique SGML, HTML, XML
Exemple HTML :
<!DOCTYPE html>
<html>
<head>
<title>Titre de page</title>
</head>
<body>
<h1>Titre de section niveau 1</h1>
<p>Paragraphe</p>
</body>
</html>
Question piège : en bleu, grammaire ou vocabulaire du HTML ?
44
45. Bref historique SGML, HTML, XML
• Les principes du HTML sont liés aux principes
du Web:
– Notion d’hypertexte
– Des serveurs fournissent des documents
– Les documents sont décrits selon une grammaire
SGML
– Les clients (navigateurs) peuvent lire les
documents
45
46. Bref historique SGML, HTML, XML
• Dès la mise en place du web, pour structurer
les pages web un nouveau langage semble
nécessaire
– Echanger des informations avec d’autres logiciels
que les navigateurs
– Utiliser une syntaxe plus rigoureuse
– Simplifier l’adaptation du langage aux besoins
– Poursuivre la séparation des fonctions de balises
46
47. Bref historique SGML, HTML, XML
Exemple HTML :
<!DOCTYPE html>
<html>
<head>
<title>Titre de page</title>
</head>
<body>
<h1>Titre de section niveau 1</h1>
<p>Paragraphe</p>
</body>
</html>
47
49. En guise de bibliographie initiale…
Et illustration d’un autre modèle de métadonnées!
LDR:
01316cam 2200337 i 4500
001: PPN185273734
005: 20150511165758.000
008: 150429t20152015fr a fr 001 0 fre d
020: $a 978-2-7460-9446-8 (br) $c 29,90 EUR
024: 30 $a 9782746094468
035: $a (OCoLC)908173313
040: $a ABES $b fre $e AFNOR
082: 0 $a 006.74 $2 22
100: 1 $a Boulanger, Thierry $d (1972-....). $4 aut. $e Auteur
245: 10 $a XML par la pratique : $b bases indispensables, concepts et cas pratiques / $c [Thierry Boulanger].
250: $a 3e édition.
260: $a St Herblain (Loire-Atlantique) : $b ENI, $c cop. 2015.
300: $a 1 vol. (377 p.) : $b ill., couv. ill. en coul. ; $c 22 cm.
336: $b txt $2 rdacontent
337: $b n $2 rdamedia
337: $b y $2 isbdmedia
490: 1 $a Ressources informatiques, $x 1627-8224
504: $a Index.
538: $a Fichiers complémentaires à télécharger sur le site de l'éditeur : www.editions-eni.fr.
650: 7 $a XML (langage de balisage) $x Guides pratiques et mémentos. $2 ram
650: 7 $a Échange électronique d'information. $2 ram
650: 0 $a XML (Document markup language). $2 lc
650: 0 $a Electronic data interchange. $2 lc
830: 0 $a Ressources informatiques (Nantes)
886: 2 $2 unimarc $a 181 $a i# $b xxxe##
930: $5 692662101:53034694X $b 692662101 $a 006.74 BOU $j u
49
50. Devoirs pour la prochaine fois
Regarder des playlists Spotify ou Youtube, des
résultats de recherche dans un moteur de
recherche, regarder des boîtiers de DVD, des
recettes, ou des paquets de céréales… bref tout
ce qui peut porter des métadonnées !
50