Architecte des systèmes d'information à référence spatiale chez Institut de recheche pour le développement um Institut de recheche pour le développement
18. Feb 2019•0 gefällt mir•69 views
1 von 27
Apport des thésaurus pour le catalogage et la localisation des données environnementales : exemple avec l'outil MDweb
18. Feb 2019•0 gefällt mir•69 views
Downloaden Sie, um offline zu lesen
Melden
Ingenieurwesen
Apport des thésaurus pour le catalogage et la localisation des données environnementales : exemple avec l'outil MDweb
Architecte des systèmes d'information à référence spatiale chez Institut de recheche pour le développement um Institut de recheche pour le développement
Apport des thésaurus pour le catalogage et la localisation des données environnementales : exemple avec l'outil MDweb
1. Apport des thésaurus pour le catalogage et la
localisation des données environnementales :
Exemple avec l’outil MDweb
J.C. Desconnets
jean-christophe.Desconnets@ird.fr
2. Plan
Pour quels besoins ?
L’outil de catalogage MDweb
Périmètre fonctionnel
Eléments techniques
Apport des thésaurus
Problématique traitée
Propositions
Implémentation actuelle dans MDweb
Pistes de travaux
Quelques mots sur le projet MDweb
3. Pour quels besoins ?
Offrir un point de découverte des données à une
communauté d’intérêts,
Partager ses données dans le cadre de systèmes
d’information distribués
Pallier à l’hétérogénéité des données et des procédures de
productions.
Ex : Directive INSPIRE
4. Spécificité du contexte
Spécificité des données :
Un point commun : la dimension spatiale,
Nature, modèle, format hétérogènes (données matricielles, vectorielles, observations,...)
Spécificité des usagers :
Diversité de point de vue et d’expertise,
Au delà des thématiques traitées, 3 grands rôles
8. MDweb : Principes de conception
• Une Architecture Orientée Service qui décomposent les fonctionnalités en
services web (un service = une unité fonctionnelle)
• Les composants de cette architecture sont construits sur les standards
industriels du domaine (OGC, ISO, W3C, OASIS, ...),
• La structuration des métadonnées est normalisée.
• Conforme à la Directive INSPIRE
Norme ISO
ISO 19115, ISO 19139…Standards W3C, OASIS
XML, SOAP…
INSPIRE
CSW INSPIRE…
9. MDweb : éléments techniques
MDweb repose sur :
L’utilisation d’un SGBD pour le
stockage des métadonnées, bati
sur un métamodèle,
Un serveur d’application Java
afin de déployer l’application.
L’utilisation de l’environnement
JAVA et d’une machine virtuelle
JAVA.
10. Apports des thésaurus : problématique
traitée
• Améliorer le processus de localisation pour différents niveaux
d’expertise et de points de vue
• Problématique induite par la diversité des rôles et expertise
•ex : agro-forestier veut classifier son massif, un hydrologue suivre le changement
d’occupation de son bassin, versant, un conservateur suivre l’évolution du trait de
côte, ...
• et la nature des métadonnées qui représentent le point de vue
du producteur
11. Apports des thésaurus : problématique
traitée
Nature de la métadonnée :
• Basé sur des standards techniques: ISO, TDWG, OGC, ... (vision producteur)
• Peu de sémantique, ou non maîtrisée, pour décrire le contenu (vision consommateur)
12. Propositions apportées par MDweb
S’appuyer sur un référentiel thématique pour apporter et contrôler la
sémantique du domaine dans les phases de création des métadonnées et
de recherche.
Référentiel thématique décrit, pour une communaute donnée, la semantique du domaine
considére par l'intermediaire de modèles de connaissances explicites. Il constitue le
vecteur de l'intéroperabilité sémantique entre acteurs pour partager la compréhension
des concepts du domaine
13. Propositions apportées par MDweb
1. Contrôler l’annotation sémantique des métadonnées
« descriptives » lors de la phase d’édition
15. Implémentation actuelle : représentation
du référentiel
• S’appuie sur la notion de thésaurus
• Représentation par un vocabulaire RDF pour la représentation de
schémas de concepts : SKOS (W3C)
• Utilisation des éléments « coeur »
17. Implémentation actuelle : Accès
•Service web (REST) basé sur l’API
GEMET (EOINET)
•Différentes méthodes :
• Accès aux différentes propriétés,
• Méthode de calcul d’occurences de
termes
• Méthode de regroupement des
occurences
18. Implémentation actuelle : utilisation pour
l’édition des métadonnées
Composant d’auto-complétion allant chercher les skos:prefLabel
selon la langue avec getConceptsMatchingKeyword(): Concept[]
19. Implémentation actuelle : utilisation pour la
recherche
• Objet : accompagner l’utilisateur dans la phase de recherche,
notamment sur la définition du critère sémantique « Quoi ? »
• 3 composants :
• Composant d’auto complétion,
• Composant d’exploration du thésaurus,
• Composant de navigation.
20. Implémentation actuelle : utilisation pour la
recherche
Composant d’auto-complétion
proposant les termes ayant été
utilisés :
• Nécessite le calcul des occurences
des termes pour chacune des fiches
de métadonnées publiées
• Supporte le calcul sur plusieurs
catalogues (via le service CSW)
21. Implémentation actuelle : utilisation pour la
recherche
Composant d’exploration du thésaurus
• Objet : Lancer une recherche à partir de la découverte du vocabulaire, pour les non
experts du domaine
• Représentation de la hiérarchie (skos:Broader; skos:Narrower)
• regroupement ascendant des occurences de termes
22. Implémentation actuelle : utilisation pour la
recherche
Composant de navigation
Objet : poursuivre une recherche en parcourant le
réseau de relations entre terme. Pré-condition :
recherche lancée sur un terme du thésaurus
2 modes :
• Pouvoir « étendre » la recherche sur un autre terme
• Pourvoir « resteindre » avec le terme intial et le terme
choisi « terme initial AND nouveau terme »
23. Implémentation actuelle : gestion du thésaurus
• Gestionnaire de thésaurus
multi-lingue :
• Edition des propriétés
SKOS
• 2 vues : à plat, en réseau
24. Retour d’experiences
Une approche à adapter selon la nature des catalogues
Typologie de catalogue :
• Catalogue producteur de données (IGN, CNES, ...) : création des métadonnées au sein du
processus de production > métadonnées où la sémantique sera peu discriminante (homogénéité
du contenu sur un grand ensemble de jeu de données)
•Catalogue des prosumers (Projets environnementaux) : création des métadonnées à postériori,
intervention manuelle pour créer les métadonnées, jeu de données plus hétérogènes à tous les
points de vue (contenu, format, modèle, ...)
25. Notre Ascenceur
Résoudre l’hétérogénéité des métadonnées > ontologie cadre de
métadonnées environnementales
Représenter les métadonnées en RDF et les interroger en SPARQL
pour étendre les capacités de recherche
Ajouter un point d’entrée SPARQL (end point) à la plateforme
existante
26. Quelques mots sur le projet MDweb
Licence : Un outil libre, sous license LGPL 3.0
version actuelle : 2.3, en cours 3.0 (celle présentée)
Resource en ligne www.mdweb-project.org
Communautés : variée : recherche, producteur, collectivités
10 000 hits (Téléchargement), 100 users sur le forum
Contributeurs :