Présentation de la journée d'étude Outils, méthodes, corpus : la modélisation des données en SHS (Paris, Institut national d'histoire de l'art, 17 novembre 2014)
Emmanuelle Perrin présentation de la journée d'étude Outils, méthodes, corpus : la modélisation des données en SHS (17 novembre 2014)
1. Journée d’étude
Outils, méthode, corpus :
la modélisation des données en SHS
Introduction
Décrire et relier
Emmanuelle Perrin (InVisu, USR 3103 CNRS-INHA)
2. Des cas concrets de mise en oeuvre des technologies du web
sémantique :
Identifier et indexer l’iconographie des monuments du Caire
Enrichir le catalogue de la bibliothèque de l’Institut dominicain
d’études orientales pour mettre en évidence l’intertextualité entre les
oeuvres classiques
Mettre en oeuvre l’interopérabilité entre différentes bases de données
sur le patrimoine écrit du Moyen Âge et de la Renaissance avec
Biblissima, et sur l’antiquité gréco-romaine avec le portail Claros
Modéliser et mutualiser l’information historique avec le projet
SyMoGIH
Modéliser le transfert des savoirs sur l’art avec le projet LexArt
3. Décrire et relier : la mise en oeuvre de l’interopérabilité
1) Les ontologies
2) Les vocabulaires contrôlés
3) Les liens vers d’autres jeux de données de référence
4. Les ontologies : des modèles de description des données
le format SKOS (Simple Knowledge Organization System) utilisé pour la
publication des thésaurus
les FRBR (Functional Requirements of Bibliographic Records) destinés
à la description de l’information bibliographique
CIDOC-CRM pour la description de l’information relative au patrimoine
culturel
FRBRoo (object oriented), qui harmonise les spécifications des FRBR
avec le modèle CIDOC-CRM
5. Les vocabulaires contrôlés et les notices d’autorité :
un rôle de pivot
Library of Congress Subject Headings (LCSH)
Rameau
Fichier d’autorité international virtuel (VIAF)
ISNI (International Standard Name Identifier)
6. Les liens vers d’autres jeux de données de référence
multiplier les points d’entrée dans le réseau du web sémantique
enrichir les indexations
7. Modélisation et interprétation
• relation associative (related, see also)
Relation partie/tout :
• relation générique (broader)
• lien hiérarchique (oncologie/médecine)
Relation générique : • lien instance/classe (Le Monde/journaux)
• lien sous-classe/classe (chat/mammifères)
A. ISAAC, « Les référentiels : typologie et
interopérabilité », Le Document numérique à l’heure
du web de données, Paris, ADBS Éditions, 2012, p. 95.
8. Modélisation et interprétation
La mention des sources et du contexte de production des données
L’expression de l’incertitude, de l’incomplétude, de l’interprétation
et de la révision
L’enjeu de la réutilisation des données
9. مسجد قايتباي
مسجد قائت باي
masǧid Qāytbāy
masǧid Qāʾit Bāy
masjid Qāytbāy
masjid Qāʼit Bāy
masdjid Ḳāʾit Bāy
gâma’ Qâyd bey
mosquée sépulcrale de Qaytbay
mosquée sépulcrale de Qaïtbay
mosquée de Quaït Bey
mosquée sépulcrale de Kaïtbay
Mosquée funéraire du sultan Kâïtbâï
mosquée de Qâïtbâï
madrasa Kaitbay
tomba Kerim Kayt bey
Kaid Bey
mosque and mausoleum of sultān
Qāytbāy
masjid al-sultan Qaytbay
10. Nom en arabe : مسجد قائت باي ; مسجد قايتباي
Translittération ISO : masǧid Qāytbāy ; masǧid Qāʾit Bāy
Translittération ALA-LC : masjid Qāytbāy ; masjid Qāʼit Bāy
Numéro d’inventaire : 99
Typologie (ar) : تربة ; مدرسة ; جامع
Typologie (fr) : mosquée, madrasa, mausolée
Localisation par qism (ar) : الجمالية
Localisation par qism (iso) : al-Ǧamāliyyaẗ
Adresse : cimetière nord
Coordonnées géographiques :
Latitude : 30°02′38″
Longitude : 31°16′30″
Date de construction (calendrier hégirien) : 877-879
Date de construction (calendrier grégorien) : 1472-1474
Fondateur : قايتباي
Liens : http://www.geonames.org/8617830
Notice :
Complexe funéraire du sultan Qaytbay (Qāytbāy), édifié
dans le cimetière nord, entre 1472 et 1474 (AH 877-879).
Ce complexe comprend également une loggia (n° 101), un
ensemble de logements (n° 104) et un abreuvoir (n° 183).
Attention à ne pas confondre ce monument avec la
mosquée du même nom (n° 223), construite en 1475, à
proximité de la mosquée d’Ibn Tulun (Ibn Ṭulūn ; n° 220),
dans le quartier d’al-Sayyida Zaynab (al-Sayyidaẗ Zaynab).
Variantes
masdjid Ḳāʾit Bāy [Encyclopédie de l’Islam]
gâma’ Qâyd bey [Description de l’Égypte]
mosquée sépulcrale de Qaytbay [E. Prisse d’Avennes]
mosquée sépulcrale de Qaïtbay [E. Prisse d’Avennes]
mosquée de Quaït Bey [E. Prisse d’Avennes]
mosquée sépulcrale de Kaïtbay [E. Prisse d’Avennes]
mosquée funéraire du sultan Kâïtbâï [CCMAA, 1914]
mosquée de Qâïtbâï [CCMAA, 1918]
madrasa Kaitbay [G. Wiet]
tomba Kerim Kayt bey [B. Facchinelli]
Kaid Bey [B. Facchinelli]
mosque and mausoleum of Sultān Qāytbāy [IMM]
masjid al-Sultan Qaytbay [AN]
11. http://invisu/CairoGazetteer/
monuments/8
" مسجد قايتباي "
skos:prefLabel@ar
" masǧid Qāytbāy "
skos:prefLabel@fr
" masjid Qāytbāy "
skos:prefLabel@en
Les informations terminologiques
http://invisu/CairoGazetteer/
monuments_variants/116
skos: altLabel
" Mosquée funéraire
du sultan Kâïtbâï "
skos:prefLabel
Référence
bibliographique
skos:note
http://invisu/CairoGazetteer/
monuments_variants/117
skos:note skos:prefLabel
Référence
bibliographique
" mosquée de Qâïtbâï "
skos: altLabel
les « termes préférés »
les « termes alternatifs »
12. Complexe funéraire du sultan
Qaytbay (Qāytbāy), édifié dans le
cimetière nord, entre 1472 et
1474 (AH 877-879) . Attention à
ne pas confondre ce monument
avec la mosquée du même nom
(n° 223), construite en 1475, près
de la mosquée d’Ibn Tulun (Ibn
Ṭulūn).
Numéro d’inventaire : 99
Coordonnées géographiques :
N 30°02′38″ E 31°16′30″
http://invisu/CairoGazetteer/
monuments/7
skos:definition@fr
http://invisu/CairoGazetteer/
typology/7
skos:relatedMatch
http://www.geonames.org/917
9994/northern-cemetery.html
http://invisu/CairoGazetteer/
typology/4
skos: broader
skos: broader
skos:prefLabel@ar
skos:prefLabel@fr
skos:prefLabel@en
" تربة "
" mausolée "
" mausoleum "
skos:prefLabel@ar
skos:prefLabel@fr
skos:prefLabel@en
skos:relatedMatch
http://isni.org/isni/000000011
5574435
http://www.geonames.org/
8617830
skos: exactMatch
http://data.bnf.fr/ark:/
12148/cb11932525p
http://id.loc.gov/author
ities/subjects/sh850823
32.html
"مسجد "
" mosquée "
" mosque "
skos: exactMatch
fondateur
quartier
typologie
localisation
Les relations génériques et associatives
13. La diffusion et la valorisation de la recherche
sur le web de données
l’importance de la création de notices d’autorité pour les personnes
et les lieux
de nouvelles formes de collaboration entre les institutions expertes
dans la production de vocabulaires contrôlés et les laboratoires de
recherche
Notes de l'éditeur
L’objectif de cette journée est de réunir des laboratoires de recherche et des institutions qui utilisent les technologies du web sémantique pour la structuration et la diffusion de leurs travaux.
Le web sémantique vise la mise en œuvre d’un réseau où des données structurées sont partagées et reliés. La description normalisée des données recouvre 3 aspects : les ontologies, les vocabulaires contrôlés et les liens avec d’autres jeux de données de référence.
Les ontologies fournissent des modèles de description des données.
Plusieurs d’entre elle seront évoquées aujourd’hui :
- le format SKOS utilisé pour la publication des thésaurus
- les FRBR destinés à la description de l’information bibliographique
- CIDOC-CRM pour la description de l’information relative au patrimoine culturel
- FRBRoo, qui harmonise les spécifications des FRBR avec le modèle CIDOC-CRM
Pour la mise en œuvre de l’interopérabilité entre différentes bases de données, nous verrons avec les exemples de Biblissima et du portail Claros, que les ontologies sont utilisées pour créer des alignements entre des données d’origine et de formats différents. Quant au projet Symogih, il prévoit d’utiliser une « ontologie maison », qui correspond exactement au projet, pour l’aligner ensuite sur d’autres modèles
Les vocabulaires contrôlés et les notices d’autorité, comme les vedettes de la Library of Congress (LCSH), Rameau ou le fichier d’autorité international virtuel (Viaf), jouent un rôle de pivot pour l’interopérabilité des données, comme nous le verrons avec l’identifiant international ISNI.
Enfin, en multipliant les liens vers d’autres jeux de données, on multiplie les points d’entrée dans le réseau du web sémantique. Ces liens permettent aussi d’enrichir les indexations, notamment grâce au multilinguisme.
Les solutions qu’apporte la modélisation des données, tout comme les questions qu’elle soulève pourront constituer le fil conducteur de cette journée.
Le travail de modélisation vise à décrire explicitement toutes les informations qui définissent un objet d’étude. Si les ontologies proposent des modèles de description communs, un même type de relation peut cependant être représenté différemment. Je reprends ici l’exemple donné par Antoine Isaac dans son article sur les référentiels. La relation partie/tout peut être considérée comme une relation associative ou générique. De même, la relation générique peut exprimer des liens hiérarchiques (oncologie/médecine), des liens instance/classe (Le Monde/journaux) ou des liens sous-classe/classe (chat/mammifères).
Une autre question intéressante peut être l’utilisation de ces modèles d’organisation de l’information pour rendre compte des aspects essentiels de la recherche en sciences humaines :
- la mention des sources et du contexte de production des données
- l’expression de l’incertitude, de l’incomplétude, de l’interprétation ou de la révision.
Le soin apporté à la production des données est en effet déterminant pour leur réutilisation.
Dans cette perspective, le projet Symogih propose une distinction intéressante entre les données « brutes » et les informations issues du travail de l’historien.
Je voudrais enfin aborder une dernière question au sujet l’alignement avec les référentiels en présentant brièvement les travaux de l’USR InVisu.
Ces travaux concernent l’iconographie des monuments du Caire. Ce type de corpus soulève des difficultés d’identification et d’indexation, en raison des multiples variantes issues de la translittération, en caractères latins, des toponymes arabes.
Comme on le voit ici avec l’exemple du mausolée du sultan Qaytbay (1468-1496), ces variantes aboutissent à une véritable cacographie et posent de réels problèmes pour la recherche d’informations, le traitement documentaire et l’interopérabilité des données.
Les travaux d’InVisu visent la mise à disposition d’un référentiel trilingue arabe, français et anglais, qui recense les variantes orthographiques des toponymes, pour identifier et localiser les 600 édifices classés du Caire.
Les informations contenues dans la notice descriptive d’un monument ont été converties au format skos : elles donnent notamment le nom du monument en arabe et selon des translittérations normalisées, sa typologie, sa localisation, ses dates de construction, le nom de son fondateur, les variantes du nom et leur sources.
Le choix du format skos s’est imposé d’abord qu’il est le format de publication des thésaurus et aussi pour sa simplicité, qui ne permet pas d’entrer dans un niveau de détail très fin, mais qui garantit un bon niveau d’interopérabilité.
Pour les informations terminologiques, le format SKOS permet de gérer le multilinguisme en définissant un « terme préféré » par langue. Les variantes sont décrites comme des « termes alternatifs ». Ces variantes sont également dotées d’un identifiant afin de pouvoir indiquer leur source bibliographique dans une note.
Pour les relations génériques et associatives, la typologie du monument est exprimée par la relation à un terme générique (skos:broader). Les types de monuments sont également pourvus d’un identifiant pour indiquer leur nom en plusieurs langues et les aligner sur d’autres référentiels. Les sources sont parfois en désaccord sur la typologie d’un monument et il est possible d’exprimer ici cette incertitude en reliant un monument à plusieurs termes génériques.
En lien avec d’autres référentiels (comme data.bnf, Library of Congress, GeoNames, VIAF, ISNI), le monument est associé (skos:relatedMatch) à son fondateur et à son quartier.
Une note propose une notice descriptive, dans laquelle on a indiqué tout ce que l’on ne pouvait pas exprimer en SKOS.
Dans le cadre de ce travail, comme dans tous les domaines de recherche spécialisés, apparaît le problème de l’alignement avec les grands référentiels, dans lesquelles les données que l’on traite sont parfois absentes.
Pour finir, je voudrais souligner l’importance, pour la diffusion et la valorisation des données de la recherche, de la création de notices d’autorité pour les personnes comme pour les lieux, ce qui suppose la mise en place de nouvelles formes de collaboration entre les institutions expertes dans la production de vocabulaires contrôlés et les laboratoires de recherche.