SlideShare ist ein Scribd-Unternehmen logo
1 von 28
Le thésaurus pour l'indexation des
archives locales dans le Web
de données
Claire SIBILLE-DE GRIMOÜARD & Michel JACOBSON
Archives de France

Forum AAF « Les archives aujourd’hui et demain », Angers, 22 mars
PLAN
 Le thésaurus pour l'indexation des archives locales
 Historique
 La ré vision (les limites du modè le, les besoins d'é volution)
 Les é volutions
 Les perspectives
Historique (1/2)
 Thésaurus W. Vocabulaires normalisés pour la description
et l’indexation des archives administratives locales
contemporaines
 1re é dition 1987, ré visions en 1989, 1997, 2000 (partielle), 2009,

2012
 Depuis 2009, est devenu Thésaurus pour la description et

l'indexation des archives locales anciennes, modernes et
contemporaines (outil diachronique, gé né rique, peut s'appliquer à
toutes les ressources conservé es par les services d'archives)
 Mises à jour : groupes de travail, appels à commentaires
Historique (2/2)
 Utilisation obligatoire pour les services d’archives
territoriaux
 Instructions DAF/SIAF 1994, 2009, 2011, 2012

 Essais de structuration informatique
 2002 : tests de conversion XML (par un prestataire)
 2008 : transformation (quick&dirty) des tableaux Excel qui

servaient à la ré vision en fichiers RDF/XML conformes à SKOS
Structure (1/2)
 Le thésaurus inclut un thésaurus-matières et 3 listes
d’autorité :
 actions administratives (71 descripteurs et 44 non-descripteurs)
 types de documents (238 descripteurs et 66 non-descripteurs)
 contexte historique (131 descripteurs)

 Les descripteurs des listes d’autorité ne sont pas des
termes d’indexation, mais ils peuvent être combinés avec
un (ou plusieurs) descripteur(s) du thésaurus-matières
Structure (2/2)
 Les 1498 descripteurs et 1011 non-descripteurs du
thésaurus sont regroupés en 11 classes représentant les
termes de haut niveau autour desquels les concepts sont
organisés selon 4 niveaux hiérarchiques
 Thésaurus monolingue, mono-hiérarchique
 Relations hiérarchiques, d’équivalence, d’association
 Notes de contenu
Le thé saurus jusqu'en 2008
 Les limites
 Absence de formalisme directement exploitable par une machine


Le formalisme utilisé (fichiers doc, pdf..) a pour seule vocation d'être lu par un
opérateur humain qui doit mettre en œuvre le thésaurus pour des tâches d'indexation.

 La tâ
che d'indexation é tant assisté e par un logiciel, des ressaisies

du thé saurus sont né cessaires



Comment éviter des saisies directes avec risques de divergences ?
Comment réduire les coût des ressaisies ? Le mécanisme d'ingestion dans les outils
n'est pas forcément le même d'un outil à l'autre et les mises à jour sont elles aussi
délicates et coûteuses.
Edition thé matique du thé saurusmatiè res
Les besoins
 Faciliter la mise en œuvre du thésaurus pour les tâches
d'indexation.
 Faciliter la mise en œuvre du thésaurus pour les tâches de
recherche.
 Garantir la permanence des indexations alors même que
le thésaurus évolue.
 Faciliter la gestion du thésaurus
 É volutions (propositions, versions, mises à jour...)
 Accè s / Requê / Publications
tes
Choix d'un formalisme
 Exprimer toutes les notions déjà présentes (termes,
relations, annotations, etc.)
 Apporter une aide à l'édition et la publication
 Outils normatifs
 Norme ISO 2788:1986 « Principes directeurs pour l'é tablissement

et le dé veloppement de thé saurus monolingues »



Pose les concepts de terme, relation sémantiques, etc. mais ne propose pas de
formalisme d'expression pour sa mise en œuvre.
En 2008 : en cours de révision

 SKOS « Simple Knowledge Organization System »


Au début du travail fin 2008, SKOS n'était encore qu'à l'état de Working Draft au
W3C mais aboutit en 2009 à une recommandation.
SKOS (1/2)
 Simple Knowledge Organization System
 Pour dé crire des vocabulaires simples de type thé saurus,

classifications, listes, taxonomies.
 SKOS permet de dé crire des organisations de concepts pour
former des vocabulaires. Cette description est faite avec le
langage RDF qui va permettre d'associer aux concepts des
proprié té s (dont le terme)


RDF définit un graphe à base de triplets (sujet → prédicat → objet)
➔ Le sujet représente la ressource à décrire ;
➔ Le prédicat représente un type de propriété de la ressource ;
➔ L'objet représente la valeur de la propriété.
SKOS (2/2)
 Les ressources du thésaurus sont des concepts
identifiables par des URI que l'on souhaite durables et
traçables.
 Les propriétés principales des concepts sont :
 Les termes ou labels (prefLabel, altLabel)
 Les relations entre concepts :




Relations hiérarchiques (spécifique vs. générique)
Relations d'association
Les annotations (définitions, notes)

 Les relations d'alignement avec d'autres vocabulaires

(exactMatch, closeMatch)
Reprise des donné es
 Les termes distincts font l'objet de définition de concepts  :
 Identifié s dans un premier temps par des URL ;
 Puis dans un deuxiè me temps par des ARK.

 Les termes préférentiels deviennent des prefLabel et les
termes non préférentiels des altLabel
 Les domaines et rubriques donnent naissance à des
relations bijectives entre concepts (spécifique / générique)
 Les associations sémantiques d'un terme à des termes
d'une autre branche deviennent des relations
d'association
 Les définitions et autres notes deviennent des annotations
Poursuite de la ré vision
 La poursuite de la révision s'est faite dans le format SKOS
 Chargé dans l'application ThManager (mais ancienne version de





skos)
Chargé dans l'application Protege (mais peu conviviale et/ou peu
maî trisé e)
Manipulation directes dans un é diteur XML (oXygen, peu convivial
mais plus maî trisé )
Utilisation de scripts pour vé rifier la cohé rence du thé saurus
Transformations XSL pour produire les anciens é tats publié s
(classement thé matique, classement alphabé tique)
Un outil de publication (1/2)
 Commande en 2010
 D'un outil de publication du ré fé rentiel


Pour tirer le meilleur partie du modèle « web de données »
➔ Des URI de concepts déréférençables. Négociation de contenu pour délivrer
►

soit une page web présentant le concept (en HTML pour un client humain)
► soit une définition formelle du concept (en RDF/XML pour un client machine).
➔
➔

Les triplets sont stockés dans une base de données (tripleStore RDF Sesame)
Une interrogation de ces données est possible par des requêtes SPARQL

 Plus un travail expé rimental d'alignement sur d'autres thé saurus



Alignement sur le Thésaurus Rameau (dans sa version skos)
Alignement sur DBPedia
Un outil de publication (2/2)
 Mise en ligne de l'outil
 Dans un premier temps sur le portail archivesdefrance
 É largissement du domaine couvert par l'outil à la publication

d'autres vocabulaires (projet « Harmonisation de la production des
DOnné es Culturelles (HADOC) » du Ministè re de la culture et de
la communication)


L’harmonisation de la production des données culturelles s’appuie sur trois leviers :
➔ l’harmonisation des données (définition de modèles et partage des référentiels),
➔ le développement de l'usage des normes et des standards,
➔ l’harmonisation des processus de production
HADOC
 Réflexion en cours sur la mise en œuvre d’un nouvel
environnement de gestion des vocabulaires scientifiques
et techniques
 « L’objectif est de passer d'une approche où les vocabulaires

contrôlés des différents métiers restent avant tout au service
de la production de ressources documentaires dans un
domaine ou une application, à la création d'un Référentiel
terminologique unifié permettant d'offrir aux usagers un
accès unique et cohérent aux ressources terminologiques
produites par le Ministère et d'en démultiplier les usages »
(Katell Briatte)

 HADOC répond à un des besoins qui est de se doter d'un
Outil de gestion en cours de
dé veloppement
HADOC et l'outil de consultation
 Évolutions de l’outil de consultation
 Amé nagement en vue de l’inté gration d’autres vocabulaires






contrô lé s du MCC (services du patrimoine et de l’architecture)
Affichage d’informations spé cifiques sur la page de pré sentation
de chaque ré fé rentiel
Affichage des concepts (proprié té s SKOS, langues)
Affichage des alignements avec d’autres vocabulaires
Transformation des identifiants de concepts en identifiants
pé rennes de type ARK
Ajout d’une fonction de recherche simple
Ré sultat d'une recherche
Consultation d'un concept
Code RDF/XML du concept
Expé rimentation sur les alignements
(1/3)
 DBPedia est un référentiel qui bouge beaucoup, souvent
et qui est le produit de la réflexion d'une communauté
 Pour la publication, quelques triplets concernant les concepts

aligné s avaient é té extraits pour alimenter notre propre triple-store
(les proprié té s : terme, description, pageWeb)


permet l'indépendance et enrichit la description.

 Avec le temps on observe des dé calages entre les informations

extraites et celles pré sentes dans DBPedia ; on peut :



soit passer à des interrogations dynamiques
soit mettre à jour régulièrement.
Expé rimentation sur les alignements
(2/3)
 des identifiants qui n'existent pas (ou n'existent plus)
 des identifiants qui n'ont plus d'autre propriété qu'une
redirection vers un autre concept (wikiPageRedirects) dont
la mise en oeuvre est transparente pour l'utilisateur
humain.
 des propriétés ambiguës ou peu fiables. Concepts à
plusieurs termes
 "Avortement" et "Interruption volontaire de grossesse"
 "Siè cle des lumiè res" "Aufklä rung"ou "Travail" et "Work". Dans le

rdf de dbpedia les valeurs "Aufklä rung " et "Work" sont indiqué es
comme exprimé es en franç ais.
 "Cirque" et "La famille Morallè s"
Expé rimentation sur les alignements
(3/3)
 Conclusions
 L'alignement demande à ê ré examiné ré guliè rement.
tre
 L'extraction d'informations est difficilement automatisable.
 Demande une relecture par un expert mé tier.
Ré flexions sur la structure du thé saurus
 Parution de la nouvelle norme ISO 25964-1:2011
Thésaurus et interopérabilité avec d'autres vocabulaires -Partie 1: Thésaurus pour la recherche documentaire
 Monolingue et multilingue
 Distinction concept / terme
 Meilleures dé finitions des relations sé mantiques (en particulier les

relations hié rarchiques : gé né rique/spé cifiques, partitive,
instance)
 Gestion du statut des descripteurs et des mises à jour, ce que ne
permet pas SKOS
Perspectives
 Le Thésaurus pour l’indexation des archives locales relève
plutôt d’une logique classificatoire et le positionnement
des concepts dans la hiérarchie ne permet pas toujours
de désambiguïser les synonymes, d’où un alignement très
partiel avec les concepts représentés dans RAMEAU et
dbpedia.
 L'application de la norme obligerait à revoir nos relations, alors que

l'usage qui est fait du thé saurus ne le né cessite pas.
Perspectives
 Destiné au départ pour répondre à un besoin spécifique
(fournir aux services le thésaurus dans une forme
structurée réutilisable) ce travail d'explicitation des
relations sémantiques, d'exposition des données etc.
permet d'envisager d'autres réutilisations du Thésaurus
par d'autres communautés
 L'usage initial est un thésaurus pour l'indexation
 On est dans une autre logique de structuration qui est
celle des ontologies (concepts représentés par des
termes préférentiels et non préférentiels)
 Cette évolution va peut être susciter d'autres usages hors

Weitere ähnliche Inhalte

Was ist angesagt?

Livres, périodiques, thèses et manuscrits en réseau
Livres, périodiques, thèses et manuscrits en réseauLivres, périodiques, thèses et manuscrits en réseau
Livres, périodiques, thèses et manuscrits en réseauY. Nicolas
 
Référentiels de représentation des contenus (2008)
Référentiels de représentation des contenus (2008)Référentiels de représentation des contenus (2008)
Référentiels de représentation des contenus (2008)Sylvie Dalbin
 
Journee Réseau Calames
Journee Réseau Calames Journee Réseau Calames
Journee Réseau Calames ABES
 
Droit documentation electronique edshs
Droit documentation electronique edshsDroit documentation electronique edshs
Droit documentation electronique edshscarovalerie37
 
États des lieux du Web sémantique
États des lieux du Web sémantiqueÉtats des lieux du Web sémantique
États des lieux du Web sémantiqueIvan Herman
 
Métadonnées de thèse
Métadonnées de thèseMétadonnées de thèse
Métadonnées de thèseY. Nicolas
 
Sp6 Yann Nicolas
Sp6 Yann NicolasSp6 Yann Nicolas
Sp6 Yann Nicolasent12701
 
Modèles de données et langages de description ouverts 5 - 2021-2022
Modèles de données et langages de description ouverts   5 - 2021-2022Modèles de données et langages de description ouverts   5 - 2021-2022
Modèles de données et langages de description ouverts 5 - 2021-2022François-Xavier Boffy
 
Modèles de données et langages de description ouverts 4 - 2021-2022
Modèles de données et langages de description ouverts   4 - 2021-2022Modèles de données et langages de description ouverts   4 - 2021-2022
Modèles de données et langages de description ouverts 4 - 2021-2022François-Xavier Boffy
 
Modélisation, environnements sémantiques et Web de données
Modélisation, environnements sémantiques et Web de donnéesModélisation, environnements sémantiques et Web de données
Modélisation, environnements sémantiques et Web de données chessmu
 
ISO 25964 Thésaurus pour la recherche documentaire (éditeurs logiciels)
ISO 25964 Thésaurus pour la recherche documentaire (éditeurs logiciels)ISO 25964 Thésaurus pour la recherche documentaire (éditeurs logiciels)
ISO 25964 Thésaurus pour la recherche documentaire (éditeurs logiciels)Sylvie Dalbin
 
Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus
Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurusPresentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus
Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurusSylvie Dalbin
 
Modèles de données et langages de description ouverts 2021-2022 - 2
Modèles de données et langages de description ouverts   2021-2022 - 2Modèles de données et langages de description ouverts   2021-2022 - 2
Modèles de données et langages de description ouverts 2021-2022 - 2François-Xavier Boffy
 
Metadonnees Introduction
Metadonnees IntroductionMetadonnees Introduction
Metadonnees Introductionjbcomte
 
Modèles de données et langages de description ouverts 2021-2022 - 3
Modèles de données et langages de description ouverts   2021-2022 - 3Modèles de données et langages de description ouverts   2021-2022 - 3
Modèles de données et langages de description ouverts 2021-2022 - 3François-Xavier Boffy
 

Was ist angesagt? (20)

Big data
Big dataBig data
Big data
 
Livres, périodiques, thèses et manuscrits en réseau
Livres, périodiques, thèses et manuscrits en réseauLivres, périodiques, thèses et manuscrits en réseau
Livres, périodiques, thèses et manuscrits en réseau
 
Référentiels de représentation des contenus (2008)
Référentiels de représentation des contenus (2008)Référentiels de représentation des contenus (2008)
Référentiels de représentation des contenus (2008)
 
Semantic web introduction
Semantic web introductionSemantic web introduction
Semantic web introduction
 
Journee Réseau Calames
Journee Réseau Calames Journee Réseau Calames
Journee Réseau Calames
 
Droit documentation electronique edshs
Droit documentation electronique edshsDroit documentation electronique edshs
Droit documentation electronique edshs
 
États des lieux du Web sémantique
États des lieux du Web sémantiqueÉtats des lieux du Web sémantique
États des lieux du Web sémantique
 
Métadonnées de thèse
Métadonnées de thèseMétadonnées de thèse
Métadonnées de thèse
 
Sp6 Yann Nicolas
Sp6 Yann NicolasSp6 Yann Nicolas
Sp6 Yann Nicolas
 
Modèles de données et langages de description ouverts 5 - 2021-2022
Modèles de données et langages de description ouverts   5 - 2021-2022Modèles de données et langages de description ouverts   5 - 2021-2022
Modèles de données et langages de description ouverts 5 - 2021-2022
 
Modèles de données et langages de description ouverts 4 - 2021-2022
Modèles de données et langages de description ouverts   4 - 2021-2022Modèles de données et langages de description ouverts   4 - 2021-2022
Modèles de données et langages de description ouverts 4 - 2021-2022
 
Metadonnees et SID
Metadonnees et SIDMetadonnees et SID
Metadonnees et SID
 
Modélisation, environnements sémantiques et Web de données
Modélisation, environnements sémantiques et Web de donnéesModélisation, environnements sémantiques et Web de données
Modélisation, environnements sémantiques et Web de données
 
ISO 25964 Thésaurus pour la recherche documentaire (éditeurs logiciels)
ISO 25964 Thésaurus pour la recherche documentaire (éditeurs logiciels)ISO 25964 Thésaurus pour la recherche documentaire (éditeurs logiciels)
ISO 25964 Thésaurus pour la recherche documentaire (éditeurs logiciels)
 
Adbs2012 presentation
Adbs2012 presentationAdbs2012 presentation
Adbs2012 presentation
 
Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus
Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurusPresentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus
Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus
 
Modèles de données et langages de description ouverts 2021-2022 - 2
Modèles de données et langages de description ouverts   2021-2022 - 2Modèles de données et langages de description ouverts   2021-2022 - 2
Modèles de données et langages de description ouverts 2021-2022 - 2
 
Metadonnees Introduction
Metadonnees IntroductionMetadonnees Introduction
Metadonnees Introduction
 
Modèles de données et langages de description ouverts 2021-2022 - 3
Modèles de données et langages de description ouverts   2021-2022 - 3Modèles de données et langages de description ouverts   2021-2022 - 3
Modèles de données et langages de description ouverts 2021-2022 - 3
 
Xml un panorama
Xml un panoramaXml un panorama
Xml un panorama
 

Ähnlich wie Présentation de Claire Sibille et Michel Jacobson

L'interopérabilité et l'implémentation de la norme
L'interopérabilité et l'implémentation de la normeL'interopérabilité et l'implémentation de la norme
L'interopérabilité et l'implémentation de la normeADBS
 
03 Web Semantique
03  Web Semantique03  Web Semantique
03 Web Semantiquebadirh
 
Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...
Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...
Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...Lesticetlart Invisu
 
Apport des thésaurus pour le catalogage et la localisation des données enviro...
Apport des thésaurus pour le catalogage et la localisation des données enviro...Apport des thésaurus pour le catalogage et la localisation des données enviro...
Apport des thésaurus pour le catalogage et la localisation des données enviro...Desconnets Jean-Christophe
 
Adbs 5 à 7 : une nouvelle norme pour le thesaurus
Adbs 5 à 7 : une nouvelle norme pour le thesaurusAdbs 5 à 7 : une nouvelle norme pour le thesaurus
Adbs 5 à 7 : une nouvelle norme pour le thesaurus2helene
 
Les concepts fondamentaux de DITA
Les concepts fondamentaux de DITALes concepts fondamentaux de DITA
Les concepts fondamentaux de DITAPeccatte
 
Datalift at SemWebPro
Datalift at SemWebProDatalift at SemWebPro
Datalift at SemWebProDatalift
 
Séminaire Inria IST - Référentiels et interoperabilité (2)
Séminaire Inria IST - Référentiels et interoperabilité (2)Séminaire Inria IST - Référentiels et interoperabilité (2)
Séminaire Inria IST - Référentiels et interoperabilité (2)Antoine Isaac
 
RDA : le nouveau paradigme du catalogage (2). Qu'est-ce que le RDA ?
RDA : le nouveau paradigme du catalogage (2). Qu'est-ce que le RDA ? RDA : le nouveau paradigme du catalogage (2). Qu'est-ce que le RDA ?
RDA : le nouveau paradigme du catalogage (2). Qu'est-ce que le RDA ? ADBS
 
Le Web et son architecture : Pour une critique philosophique de la notion d’u...
Le Web et son architecture : Pour une critique philosophique de la notion d’u...Le Web et son architecture : Pour une critique philosophique de la notion d’u...
Le Web et son architecture : Pour une critique philosophique de la notion d’u...Alexandre Monnin
 
Jabes 2008 - Atelier 6 : vers un code international de catalogage. Présentati...
Jabes 2008 - Atelier 6 : vers un code international de catalogage. Présentati...Jabes 2008 - Atelier 6 : vers un code international de catalogage. Présentati...
Jabes 2008 - Atelier 6 : vers un code international de catalogage. Présentati...ABES
 
Semantic Information Systems
Semantic Information SystemsSemantic Information Systems
Semantic Information SystemsSerge Garlatti
 
Semantic Information Systems
Semantic Information SystemsSemantic Information Systems
Semantic Information SystemsSerge Garlatti
 
Semantic Information Systems
Semantic Information SystemsSemantic Information Systems
Semantic Information SystemsSerge Garlatti
 
Thesaurus à la recherche
Thesaurus à la rechercheThesaurus à la recherche
Thesaurus à la rechercheSylvie Dalbin
 
Modélisation, environnements sémantiques et Web de données
Modélisation, environnements sémantiques et Web de donnéesModélisation, environnements sémantiques et Web de données
Modélisation, environnements sémantiques et Web de données chessmu
 
Panorama des logiciels de gestion de références bibliographiques
Panorama des logiciels de gestion de références bibliographiquesPanorama des logiciels de gestion de références bibliographiques
Panorama des logiciels de gestion de références bibliographiquesURFIST de Paris
 

Ähnlich wie Présentation de Claire Sibille et Michel Jacobson (20)

L'interopérabilité et l'implémentation de la norme
L'interopérabilité et l'implémentation de la normeL'interopérabilité et l'implémentation de la norme
L'interopérabilité et l'implémentation de la norme
 
03 Web Semantique
03  Web Semantique03  Web Semantique
03 Web Semantique
 
Webinaire irp 20170120
Webinaire irp 20170120Webinaire irp 20170120
Webinaire irp 20170120
 
Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...
Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...
Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...
 
Présentation cice telos
Présentation cice   telosPrésentation cice   telos
Présentation cice telos
 
Apport des thésaurus pour le catalogage et la localisation des données enviro...
Apport des thésaurus pour le catalogage et la localisation des données enviro...Apport des thésaurus pour le catalogage et la localisation des données enviro...
Apport des thésaurus pour le catalogage et la localisation des données enviro...
 
Adbs 5 à 7 : une nouvelle norme pour le thesaurus
Adbs 5 à 7 : une nouvelle norme pour le thesaurusAdbs 5 à 7 : une nouvelle norme pour le thesaurus
Adbs 5 à 7 : une nouvelle norme pour le thesaurus
 
Les concepts fondamentaux de DITA
Les concepts fondamentaux de DITALes concepts fondamentaux de DITA
Les concepts fondamentaux de DITA
 
Datalift at SemWebPro
Datalift at SemWebProDatalift at SemWebPro
Datalift at SemWebPro
 
Séminaire Inria IST - Référentiels et interoperabilité (2)
Séminaire Inria IST - Référentiels et interoperabilité (2)Séminaire Inria IST - Référentiels et interoperabilité (2)
Séminaire Inria IST - Référentiels et interoperabilité (2)
 
RDA : le nouveau paradigme du catalogage (2). Qu'est-ce que le RDA ?
RDA : le nouveau paradigme du catalogage (2). Qu'est-ce que le RDA ? RDA : le nouveau paradigme du catalogage (2). Qu'est-ce que le RDA ?
RDA : le nouveau paradigme du catalogage (2). Qu'est-ce que le RDA ?
 
Le Web et son architecture : Pour une critique philosophique de la notion d’u...
Le Web et son architecture : Pour une critique philosophique de la notion d’u...Le Web et son architecture : Pour une critique philosophique de la notion d’u...
Le Web et son architecture : Pour une critique philosophique de la notion d’u...
 
Jabes 2008 - Atelier 6 : vers un code international de catalogage. Présentati...
Jabes 2008 - Atelier 6 : vers un code international de catalogage. Présentati...Jabes 2008 - Atelier 6 : vers un code international de catalogage. Présentati...
Jabes 2008 - Atelier 6 : vers un code international de catalogage. Présentati...
 
Semantic Information Systems
Semantic Information SystemsSemantic Information Systems
Semantic Information Systems
 
Semantic Information Systems
Semantic Information SystemsSemantic Information Systems
Semantic Information Systems
 
Semantic Information Systems
Semantic Information SystemsSemantic Information Systems
Semantic Information Systems
 
Skos transformation
Skos transformationSkos transformation
Skos transformation
 
Thesaurus à la recherche
Thesaurus à la rechercheThesaurus à la recherche
Thesaurus à la recherche
 
Modélisation, environnements sémantiques et Web de données
Modélisation, environnements sémantiques et Web de donnéesModélisation, environnements sémantiques et Web de données
Modélisation, environnements sémantiques et Web de données
 
Panorama des logiciels de gestion de références bibliographiques
Panorama des logiciels de gestion de références bibliographiquesPanorama des logiciels de gestion de références bibliographiques
Panorama des logiciels de gestion de références bibliographiques
 

Mehr von AssociationAF

RASAD du 9 et 10 mars 2023 Nancy - Supports
RASAD du 9 et 10 mars 2023 Nancy - SupportsRASAD du 9 et 10 mars 2023 Nancy - Supports
RASAD du 9 et 10 mars 2023 Nancy - SupportsAssociationAF
 
RASAD du 9 et 10 mars 2023 Nancy - Supports
RASAD du 9 et 10 mars 2023 Nancy - SupportsRASAD du 9 et 10 mars 2023 Nancy - Supports
RASAD du 9 et 10 mars 2023 Nancy - SupportsAssociationAF
 
RASAD du 9 et 10 mars 2023 Nancy - Supports
RASAD du 9 et 10 mars 2023 Nancy - SupportsRASAD du 9 et 10 mars 2023 Nancy - Supports
RASAD du 9 et 10 mars 2023 Nancy - SupportsAssociationAF
 
RASAD du 9 et 10 mars 2023 Nancy - Supports
RASAD du 9 et 10 mars 2023 Nancy - SupportsRASAD du 9 et 10 mars 2023 Nancy - Supports
RASAD du 9 et 10 mars 2023 Nancy - SupportsAssociationAF
 
Presentation_RASAD_AMICHI_V1_20230126.pdf
Presentation_RASAD_AMICHI_V1_20230126.pdfPresentation_RASAD_AMICHI_V1_20230126.pdf
Presentation_RASAD_AMICHI_V1_20230126.pdfAssociationAF
 
20231019.1.2_TransitionDroitsCulturels_Conference.pdf
20231019.1.2_TransitionDroitsCulturels_Conference.pdf20231019.1.2_TransitionDroitsCulturels_Conference.pdf
20231019.1.2_TransitionDroitsCulturels_Conference.pdfAssociationAF
 
Les archives de AIDES militer agir transformer
Les archives de AIDES militer agir transformerLes archives de AIDES militer agir transformer
Les archives de AIDES militer agir transformerAssociationAF
 
Chacun cherche son SAE table ronde colloque
Chacun cherche son SAE table ronde colloqueChacun cherche son SAE table ronde colloque
Chacun cherche son SAE table ronde colloqueAssociationAF
 
Quand sobriété rencontre archives table ronde
Quand sobriété rencontre archives table rondeQuand sobriété rencontre archives table ronde
Quand sobriété rencontre archives table rondeAssociationAF
 
20231018.1_RecolerLogicielsApplis_Conference.pptx
20231018.1_RecolerLogicielsApplis_Conference.pptx20231018.1_RecolerLogicielsApplis_Conference.pptx
20231018.1_RecolerLogicielsApplis_Conference.pptxAssociationAF
 
Le fabuleux destin des archivistes communiquants : les archives de la MEL
Le fabuleux destin des archivistes communiquants : les archives de la MELLe fabuleux destin des archivistes communiquants : les archives de la MEL
Le fabuleux destin des archivistes communiquants : les archives de la MELAssociationAF
 
Les archives municipales et métropolitaines d'Orléans
Les archives municipales et métropolitaines d'OrléansLes archives municipales et métropolitaines d'Orléans
Les archives municipales et métropolitaines d'OrléansAssociationAF
 
la valorisation des archives sur les réseaux sociaux, l'exemple du CDG24
la valorisation des archives sur les réseaux sociaux, l'exemple du CDG24la valorisation des archives sur les réseaux sociaux, l'exemple du CDG24
la valorisation des archives sur les réseaux sociaux, l'exemple du CDG24AssociationAF
 
table ronde j'archive bien ne t'en fais pas
table ronde j'archive bien ne t'en fais pastable ronde j'archive bien ne t'en fais pas
table ronde j'archive bien ne t'en fais pasAssociationAF
 
20231017_ArchivesWallonie_Conference.ppt
20231017_ArchivesWallonie_Conference.ppt20231017_ArchivesWallonie_Conference.ppt
20231017_ArchivesWallonie_Conference.pptAssociationAF
 
A la poursuite de l'intelligence artificielle
A la poursuite de l'intelligence artificielleA la poursuite de l'intelligence artificielle
A la poursuite de l'intelligence artificielleAssociationAF
 
2023_Valenciennes_2023OdysseeTransTer_V2.pptx
2023_Valenciennes_2023OdysseeTransTer_V2.pptx2023_Valenciennes_2023OdysseeTransTer_V2.pptx
2023_Valenciennes_2023OdysseeTransTer_V2.pptxAssociationAF
 
DUBOIS_Presentation_cyberattaque_Bondy_vf.pdf
DUBOIS_Presentation_cyberattaque_Bondy_vf.pdfDUBOIS_Presentation_cyberattaque_Bondy_vf.pdf
DUBOIS_Presentation_cyberattaque_Bondy_vf.pdfAssociationAF
 
MEIGNEN_Presentation-AAF-SAE-sécurité.pdf
MEIGNEN_Presentation-AAF-SAE-sécurité.pdfMEIGNEN_Presentation-AAF-SAE-sécurité.pdf
MEIGNEN_Presentation-AAF-SAE-sécurité.pdfAssociationAF
 
SEGURET_presentation_secur_Lyon_seguret.pdf
SEGURET_presentation_secur_Lyon_seguret.pdfSEGURET_presentation_secur_Lyon_seguret.pdf
SEGURET_presentation_secur_Lyon_seguret.pdfAssociationAF
 

Mehr von AssociationAF (20)

RASAD du 9 et 10 mars 2023 Nancy - Supports
RASAD du 9 et 10 mars 2023 Nancy - SupportsRASAD du 9 et 10 mars 2023 Nancy - Supports
RASAD du 9 et 10 mars 2023 Nancy - Supports
 
RASAD du 9 et 10 mars 2023 Nancy - Supports
RASAD du 9 et 10 mars 2023 Nancy - SupportsRASAD du 9 et 10 mars 2023 Nancy - Supports
RASAD du 9 et 10 mars 2023 Nancy - Supports
 
RASAD du 9 et 10 mars 2023 Nancy - Supports
RASAD du 9 et 10 mars 2023 Nancy - SupportsRASAD du 9 et 10 mars 2023 Nancy - Supports
RASAD du 9 et 10 mars 2023 Nancy - Supports
 
RASAD du 9 et 10 mars 2023 Nancy - Supports
RASAD du 9 et 10 mars 2023 Nancy - SupportsRASAD du 9 et 10 mars 2023 Nancy - Supports
RASAD du 9 et 10 mars 2023 Nancy - Supports
 
Presentation_RASAD_AMICHI_V1_20230126.pdf
Presentation_RASAD_AMICHI_V1_20230126.pdfPresentation_RASAD_AMICHI_V1_20230126.pdf
Presentation_RASAD_AMICHI_V1_20230126.pdf
 
20231019.1.2_TransitionDroitsCulturels_Conference.pdf
20231019.1.2_TransitionDroitsCulturels_Conference.pdf20231019.1.2_TransitionDroitsCulturels_Conference.pdf
20231019.1.2_TransitionDroitsCulturels_Conference.pdf
 
Les archives de AIDES militer agir transformer
Les archives de AIDES militer agir transformerLes archives de AIDES militer agir transformer
Les archives de AIDES militer agir transformer
 
Chacun cherche son SAE table ronde colloque
Chacun cherche son SAE table ronde colloqueChacun cherche son SAE table ronde colloque
Chacun cherche son SAE table ronde colloque
 
Quand sobriété rencontre archives table ronde
Quand sobriété rencontre archives table rondeQuand sobriété rencontre archives table ronde
Quand sobriété rencontre archives table ronde
 
20231018.1_RecolerLogicielsApplis_Conference.pptx
20231018.1_RecolerLogicielsApplis_Conference.pptx20231018.1_RecolerLogicielsApplis_Conference.pptx
20231018.1_RecolerLogicielsApplis_Conference.pptx
 
Le fabuleux destin des archivistes communiquants : les archives de la MEL
Le fabuleux destin des archivistes communiquants : les archives de la MELLe fabuleux destin des archivistes communiquants : les archives de la MEL
Le fabuleux destin des archivistes communiquants : les archives de la MEL
 
Les archives municipales et métropolitaines d'Orléans
Les archives municipales et métropolitaines d'OrléansLes archives municipales et métropolitaines d'Orléans
Les archives municipales et métropolitaines d'Orléans
 
la valorisation des archives sur les réseaux sociaux, l'exemple du CDG24
la valorisation des archives sur les réseaux sociaux, l'exemple du CDG24la valorisation des archives sur les réseaux sociaux, l'exemple du CDG24
la valorisation des archives sur les réseaux sociaux, l'exemple du CDG24
 
table ronde j'archive bien ne t'en fais pas
table ronde j'archive bien ne t'en fais pastable ronde j'archive bien ne t'en fais pas
table ronde j'archive bien ne t'en fais pas
 
20231017_ArchivesWallonie_Conference.ppt
20231017_ArchivesWallonie_Conference.ppt20231017_ArchivesWallonie_Conference.ppt
20231017_ArchivesWallonie_Conference.ppt
 
A la poursuite de l'intelligence artificielle
A la poursuite de l'intelligence artificielleA la poursuite de l'intelligence artificielle
A la poursuite de l'intelligence artificielle
 
2023_Valenciennes_2023OdysseeTransTer_V2.pptx
2023_Valenciennes_2023OdysseeTransTer_V2.pptx2023_Valenciennes_2023OdysseeTransTer_V2.pptx
2023_Valenciennes_2023OdysseeTransTer_V2.pptx
 
DUBOIS_Presentation_cyberattaque_Bondy_vf.pdf
DUBOIS_Presentation_cyberattaque_Bondy_vf.pdfDUBOIS_Presentation_cyberattaque_Bondy_vf.pdf
DUBOIS_Presentation_cyberattaque_Bondy_vf.pdf
 
MEIGNEN_Presentation-AAF-SAE-sécurité.pdf
MEIGNEN_Presentation-AAF-SAE-sécurité.pdfMEIGNEN_Presentation-AAF-SAE-sécurité.pdf
MEIGNEN_Presentation-AAF-SAE-sécurité.pdf
 
SEGURET_presentation_secur_Lyon_seguret.pdf
SEGURET_presentation_secur_Lyon_seguret.pdfSEGURET_presentation_secur_Lyon_seguret.pdf
SEGURET_presentation_secur_Lyon_seguret.pdf
 

Présentation de Claire Sibille et Michel Jacobson

  • 1. Le thésaurus pour l'indexation des archives locales dans le Web de données Claire SIBILLE-DE GRIMOÜARD & Michel JACOBSON Archives de France Forum AAF « Les archives aujourd’hui et demain », Angers, 22 mars
  • 2. PLAN  Le thésaurus pour l'indexation des archives locales  Historique  La ré vision (les limites du modè le, les besoins d'é volution)  Les é volutions  Les perspectives
  • 3. Historique (1/2)  Thésaurus W. Vocabulaires normalisés pour la description et l’indexation des archives administratives locales contemporaines  1re é dition 1987, ré visions en 1989, 1997, 2000 (partielle), 2009, 2012  Depuis 2009, est devenu Thésaurus pour la description et l'indexation des archives locales anciennes, modernes et contemporaines (outil diachronique, gé né rique, peut s'appliquer à toutes les ressources conservé es par les services d'archives)  Mises à jour : groupes de travail, appels à commentaires
  • 4. Historique (2/2)  Utilisation obligatoire pour les services d’archives territoriaux  Instructions DAF/SIAF 1994, 2009, 2011, 2012  Essais de structuration informatique  2002 : tests de conversion XML (par un prestataire)  2008 : transformation (quick&dirty) des tableaux Excel qui servaient à la ré vision en fichiers RDF/XML conformes à SKOS
  • 5. Structure (1/2)  Le thésaurus inclut un thésaurus-matières et 3 listes d’autorité :  actions administratives (71 descripteurs et 44 non-descripteurs)  types de documents (238 descripteurs et 66 non-descripteurs)  contexte historique (131 descripteurs)  Les descripteurs des listes d’autorité ne sont pas des termes d’indexation, mais ils peuvent être combinés avec un (ou plusieurs) descripteur(s) du thésaurus-matières
  • 6. Structure (2/2)  Les 1498 descripteurs et 1011 non-descripteurs du thésaurus sont regroupés en 11 classes représentant les termes de haut niveau autour desquels les concepts sont organisés selon 4 niveaux hiérarchiques  Thésaurus monolingue, mono-hiérarchique  Relations hiérarchiques, d’équivalence, d’association  Notes de contenu
  • 7. Le thé saurus jusqu'en 2008  Les limites  Absence de formalisme directement exploitable par une machine  Le formalisme utilisé (fichiers doc, pdf..) a pour seule vocation d'être lu par un opérateur humain qui doit mettre en œuvre le thésaurus pour des tâches d'indexation.  La tâ che d'indexation é tant assisté e par un logiciel, des ressaisies du thé saurus sont né cessaires   Comment éviter des saisies directes avec risques de divergences ? Comment réduire les coût des ressaisies ? Le mécanisme d'ingestion dans les outils n'est pas forcément le même d'un outil à l'autre et les mises à jour sont elles aussi délicates et coûteuses.
  • 8. Edition thé matique du thé saurusmatiè res
  • 9. Les besoins  Faciliter la mise en œuvre du thésaurus pour les tâches d'indexation.  Faciliter la mise en œuvre du thésaurus pour les tâches de recherche.  Garantir la permanence des indexations alors même que le thésaurus évolue.  Faciliter la gestion du thésaurus  É volutions (propositions, versions, mises à jour...)  Accè s / Requê / Publications tes
  • 10. Choix d'un formalisme  Exprimer toutes les notions déjà présentes (termes, relations, annotations, etc.)  Apporter une aide à l'édition et la publication  Outils normatifs  Norme ISO 2788:1986 « Principes directeurs pour l'é tablissement et le dé veloppement de thé saurus monolingues »   Pose les concepts de terme, relation sémantiques, etc. mais ne propose pas de formalisme d'expression pour sa mise en œuvre. En 2008 : en cours de révision  SKOS « Simple Knowledge Organization System »  Au début du travail fin 2008, SKOS n'était encore qu'à l'état de Working Draft au W3C mais aboutit en 2009 à une recommandation.
  • 11. SKOS (1/2)  Simple Knowledge Organization System  Pour dé crire des vocabulaires simples de type thé saurus, classifications, listes, taxonomies.  SKOS permet de dé crire des organisations de concepts pour former des vocabulaires. Cette description est faite avec le langage RDF qui va permettre d'associer aux concepts des proprié té s (dont le terme)  RDF définit un graphe à base de triplets (sujet → prédicat → objet) ➔ Le sujet représente la ressource à décrire ; ➔ Le prédicat représente un type de propriété de la ressource ; ➔ L'objet représente la valeur de la propriété.
  • 12. SKOS (2/2)  Les ressources du thésaurus sont des concepts identifiables par des URI que l'on souhaite durables et traçables.  Les propriétés principales des concepts sont :  Les termes ou labels (prefLabel, altLabel)  Les relations entre concepts :    Relations hiérarchiques (spécifique vs. générique) Relations d'association Les annotations (définitions, notes)  Les relations d'alignement avec d'autres vocabulaires (exactMatch, closeMatch)
  • 13. Reprise des donné es  Les termes distincts font l'objet de définition de concepts  :  Identifié s dans un premier temps par des URL ;  Puis dans un deuxiè me temps par des ARK.  Les termes préférentiels deviennent des prefLabel et les termes non préférentiels des altLabel  Les domaines et rubriques donnent naissance à des relations bijectives entre concepts (spécifique / générique)  Les associations sémantiques d'un terme à des termes d'une autre branche deviennent des relations d'association  Les définitions et autres notes deviennent des annotations
  • 14. Poursuite de la ré vision  La poursuite de la révision s'est faite dans le format SKOS  Chargé dans l'application ThManager (mais ancienne version de     skos) Chargé dans l'application Protege (mais peu conviviale et/ou peu maî trisé e) Manipulation directes dans un é diteur XML (oXygen, peu convivial mais plus maî trisé ) Utilisation de scripts pour vé rifier la cohé rence du thé saurus Transformations XSL pour produire les anciens é tats publié s (classement thé matique, classement alphabé tique)
  • 15. Un outil de publication (1/2)  Commande en 2010  D'un outil de publication du ré fé rentiel  Pour tirer le meilleur partie du modèle « web de données » ➔ Des URI de concepts déréférençables. Négociation de contenu pour délivrer ► soit une page web présentant le concept (en HTML pour un client humain) ► soit une définition formelle du concept (en RDF/XML pour un client machine). ➔ ➔ Les triplets sont stockés dans une base de données (tripleStore RDF Sesame) Une interrogation de ces données est possible par des requêtes SPARQL  Plus un travail expé rimental d'alignement sur d'autres thé saurus   Alignement sur le Thésaurus Rameau (dans sa version skos) Alignement sur DBPedia
  • 16. Un outil de publication (2/2)  Mise en ligne de l'outil  Dans un premier temps sur le portail archivesdefrance  É largissement du domaine couvert par l'outil à la publication d'autres vocabulaires (projet « Harmonisation de la production des DOnné es Culturelles (HADOC) » du Ministè re de la culture et de la communication)  L’harmonisation de la production des données culturelles s’appuie sur trois leviers : ➔ l’harmonisation des données (définition de modèles et partage des référentiels), ➔ le développement de l'usage des normes et des standards, ➔ l’harmonisation des processus de production
  • 17. HADOC  Réflexion en cours sur la mise en œuvre d’un nouvel environnement de gestion des vocabulaires scientifiques et techniques  « L’objectif est de passer d'une approche où les vocabulaires contrôlés des différents métiers restent avant tout au service de la production de ressources documentaires dans un domaine ou une application, à la création d'un Référentiel terminologique unifié permettant d'offrir aux usagers un accès unique et cohérent aux ressources terminologiques produites par le Ministère et d'en démultiplier les usages » (Katell Briatte)  HADOC répond à un des besoins qui est de se doter d'un
  • 18. Outil de gestion en cours de dé veloppement
  • 19. HADOC et l'outil de consultation  Évolutions de l’outil de consultation  Amé nagement en vue de l’inté gration d’autres vocabulaires      contrô lé s du MCC (services du patrimoine et de l’architecture) Affichage d’informations spé cifiques sur la page de pré sentation de chaque ré fé rentiel Affichage des concepts (proprié té s SKOS, langues) Affichage des alignements avec d’autres vocabulaires Transformation des identifiants de concepts en identifiants pé rennes de type ARK Ajout d’une fonction de recherche simple
  • 20. Ré sultat d'une recherche
  • 22. Code RDF/XML du concept
  • 23. Expé rimentation sur les alignements (1/3)  DBPedia est un référentiel qui bouge beaucoup, souvent et qui est le produit de la réflexion d'une communauté  Pour la publication, quelques triplets concernant les concepts aligné s avaient é té extraits pour alimenter notre propre triple-store (les proprié té s : terme, description, pageWeb)  permet l'indépendance et enrichit la description.  Avec le temps on observe des dé calages entre les informations extraites et celles pré sentes dans DBPedia ; on peut :   soit passer à des interrogations dynamiques soit mettre à jour régulièrement.
  • 24. Expé rimentation sur les alignements (2/3)  des identifiants qui n'existent pas (ou n'existent plus)  des identifiants qui n'ont plus d'autre propriété qu'une redirection vers un autre concept (wikiPageRedirects) dont la mise en oeuvre est transparente pour l'utilisateur humain.  des propriétés ambiguës ou peu fiables. Concepts à plusieurs termes  "Avortement" et "Interruption volontaire de grossesse"  "Siè cle des lumiè res" "Aufklä rung"ou "Travail" et "Work". Dans le rdf de dbpedia les valeurs "Aufklä rung " et "Work" sont indiqué es comme exprimé es en franç ais.  "Cirque" et "La famille Morallè s"
  • 25. Expé rimentation sur les alignements (3/3)  Conclusions  L'alignement demande à ê ré examiné ré guliè rement. tre  L'extraction d'informations est difficilement automatisable.  Demande une relecture par un expert mé tier.
  • 26. Ré flexions sur la structure du thé saurus  Parution de la nouvelle norme ISO 25964-1:2011 Thésaurus et interopérabilité avec d'autres vocabulaires -Partie 1: Thésaurus pour la recherche documentaire  Monolingue et multilingue  Distinction concept / terme  Meilleures dé finitions des relations sé mantiques (en particulier les relations hié rarchiques : gé né rique/spé cifiques, partitive, instance)  Gestion du statut des descripteurs et des mises à jour, ce que ne permet pas SKOS
  • 27. Perspectives  Le Thésaurus pour l’indexation des archives locales relève plutôt d’une logique classificatoire et le positionnement des concepts dans la hiérarchie ne permet pas toujours de désambiguïser les synonymes, d’où un alignement très partiel avec les concepts représentés dans RAMEAU et dbpedia.  L'application de la norme obligerait à revoir nos relations, alors que l'usage qui est fait du thé saurus ne le né cessite pas.
  • 28. Perspectives  Destiné au départ pour répondre à un besoin spécifique (fournir aux services le thésaurus dans une forme structurée réutilisable) ce travail d'explicitation des relations sémantiques, d'exposition des données etc. permet d'envisager d'autres réutilisations du Thésaurus par d'autres communautés  L'usage initial est un thésaurus pour l'indexation  On est dans une autre logique de structuration qui est celle des ontologies (concepts représentés par des termes préférentiels et non préférentiels)  Cette évolution va peut être susciter d'autres usages hors