2nde partie : http://www.slideshare.net/antoineisaac/sminaire-inria-ist-rfrentiels-et-interoperabilit-2
Présentation pour le Séminaire IST organisé par Inria
http://www.inria.fr/actualite/agenda/document-numerique
Classification schemes, thesauri and other Knowledge Organization Systems - a...
Séminaire Inria IST - Référentiels et interoperabilité (1)
1. Référentiels et interoperabilité (1)
Antoine Isaac
Europeana & Vrije Universiteit Amsterdam
Séminaire INRIA IST
Carnac, 2 Octobre 2012
2. Avertissement !
• Le web de données ne matérialise pas la notion de
“référentiel”
Tout comme le web “traditionel”: techniquement rien ne distingue
un “site de référence” d’un autre
• Mais il y a quand même des ressources qui peuvent
prétendre au statut de référence pour une ou plusieurs
communautés
3. Catégories de référentiels possibles
Inspiration: rapports du groupe d’incubation du W3C
“Bibliothèques et web de données”
• Élements de métadonnées
• Vocabulaires de valeurs
• Jeux de données
http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset/
4. Des catégories pas forcément disjointes?
“Ontologie” a pu être utilisé pour divers “référentiels
sémantiques”
[Smith 2001]
5. Des catégories pas forcément disjointes?
• Conceptuellement, elles expriment “de la sémantique”
• Parfois un artefact appartient à deux catégories
• Mais d’un point de vue technique (semantic web stack) il y a
une vraie différence
6. Eléments de métadonnées
A.k.a ontologies OWL, metadata element sets
• Fournissent les classes et propriétés qui servent de support à
l’expression des descriptions
• Types d’ontologies selon la portée
ontologie noyau vs. ontologie de domaine vs. ontologie d’application
7. “Briques de construction” des graphes RDF
myMES:Article
rdf:type
http://example.org/article1
myMES:suject
myVV:Amsterdam
9. Dans l’inventaire Library Linked Data
http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset/#Metadata_Element_Sets
10. Dublin Core
DCMI Metadata Terms dublincore.org/
• A l’origine, 15 éléments généraux pour tous types de
documents
dc:title, dc:creator, dc:coverage, dc:subject
• Spécialisés en éléments plus spécifiques, avec par ex.
domaines et ranges
dcterms:spatial, dcterms:creator
dcterms:Agent
• Utilisable pour relier des resources, pas seulement des
descriptions “à plat”
• Effort communautaire
11. FOAF
Friend of a Friend www.foaf-project.org/
• Décrire des personnes – réseaux sociaux, pages
personnelles…
• Porté par deux personnes, retour d’expérience des
utilisateurs
• Approche très pragmatique
12. OAI-ORE
www.openarchives.org/ore/
Open Archives Initiative - Object Reuse and Exchange
• Décrire des aggrégations de resources qui composent des
ressources numériques complexes
• Eléments clefs
– Aggrégation
– Ressource aggrégée
– “Proxy”
– “Resource map”
• Communauté OAI
cf. OAI-PMH
13. Bibo
• Bibliographic Ontology bibliontology.com/
• Ontologie pour les ressources bibliographiques
– Categorisation de documents (AcademicArticle)
– Structure des documents (chapter…)
– Citation (citedBy)
• Créée par deux personnes
14. FRBR
• Modèle conceptuel développé par l’IFLA
• Il existe plusieurs ontologies (FRBRer, FRBRcore, FRBRoo)
15. Schema.org
• Représenter dans les pages web des informations de base sur
les objets qu’elle représentent
Videos, Volcans, Sex shops…
• Moteurs de recherche (Bing, Google, Yahoo!)
• Approche top-down, mais très pragmatique
21. Europeana
Service qui donne accès aux objets numérisés du domaine
patrimonial européen
• Portail liés aux portails des institutions et projets
partenaires
europeana.eu
• Services de données:
– API pro.europeana.eu/api
– Linked Data data.europeana.eu
22. Qui envoie des données à Europeana?
Horizontal Aggregators Vertical Aggregators
Archives National Aggregators
Culture Grid
APEnet
Libraries
The European Library GLAMs
Regional Aggregators
“Dark” Aggregators Flanders museums
ATHENA ELocal
Film archives
European Film Gateway
Mn;kl;k;klj;lkj;lkj;jh;lkj;klj;klj;
GLAMs
Museums GLAMs klj;klj
23. Qu’est-ce qui est envoyé à Europeana?
1. Thumbnails
2. Metadata
3. Links to digital objects online
24. Résoudre un problème d’intégration
de données
Construire un service d’accès utilisant les métadonnées est difficile
• Chaque domaine utilise ses propres modèles et formats
LIDO, EAD…
• Solution actuelle: les partenaires fournissent des métadonnées au
format Europeana Semantic Elements (ESE)
– Plus grand commun dénominateur pour les métadonnées
– Données “à plat”
– Ne respectent pas le “one-to-one principle”
– Perte de la richesse des metadonnées orginelles
25. Plus de “sémantique” pour l’accès aux objets
Construire une “couche sémantique” au-dessus des objets
26. Services assistés par la sémantique
• Exploitation de relations comme: “localisé à”, “a pour sujet”,
“concept plus générique”, correspondences entre langues,
domaines
– Reformulation de requêtes
– Regroupement et personnalisation de résultats
• Échanger des données plus riches
• Les données plus riches sont souvent déjà là !
– Thesauri, classifications…
– Éléments de données complexes (EAD, MARC)
– Dans le domaine patrimonial ou ailleurs
27. EDM design requirements
Données plus fines
• Distinction entre l’"objet fourni (tableau, livre…) et ses
représentations numériques
• Distinction entre l’objet et ses descriptions
• Permettre plusieurs descriptions pour un objet
Contenant éventuellement des assertions contradictoires
• Représentation d’objets complexes
• Ressources contextuelles, y compris concepts
28. EDM design requirements
Données plus interopérables
• Permettre la co-existence de plusieurs grains de données
Autoriser des profils spécifiques à un domaine
• Réutiliser et étendre des éléments de standards existants
29. EDM : les bases
• OAI ORE pour l’organisation des metadonnées et des
représentations numériques des objets
• Dublin Core pour une partie des metadonnées
descriptives
• CIDOC-CRM comme inspiration pour la structure des
événements et des relations entre objets
• SKOS et d’autres référentiels pour les ressources
contextuelles
34. Plusieurs fournisseurs = plusieurs aggregations
DMF proxy
DMF title
The “real” painting
Louvre Proxy
Louvre title 34
35. Europeana comme un “simple” fournisseur de
metadonnées normalisées et enrichies
Europeana
aggregation
35
“enriched”
metadata
36. Entités contextuelles
Récupér et exploiter des données “orginelles” ou enrichies réclame plus
que des descriptions centrées objet
Evénements, lieux, agents, concepts
38. EDM est un effort collaboratif
• Europeana v1.0 WP3: 60 participants
• Développement semi-ouvert, “en aquarium”
• Transversal
– Experts des bibliothèques, archives et musées
– Avec EDM, Europeana devient plus compatible avec les besoins de
communautés spécifiques. Il est aussi possible de créer des “profils”
d’EDM pour ces communautés
39. Bénéfices de l’approche web de données
pour la conception d’EDM
• Vocabulaires à réutiliser
• Approche flexible de la conception et la ré-utilisation de
standards
• Ontologies spécifiques co-existant avec les ontologies
standards
• Pas de contrainte sur le grain du modèle de données
• Facilité technique de la connection et la publication des
données
• Vision qui appuie les stratégies Open Data
42. SKOS
Simple Knowledge Organization System
Portée: knowledge organization systems (KOS) comme les
thesauri, systèmes de classification, autorités matières…
SKOS permet de représenter et d’échanger les KOS en RDF de
manière simple
43. Représenter la sémantique
La manière formalisée: OWL Semantic Web ontology language
Ontologies avec une sémantique exploitable par la machine
• Mère est une classe
• C’est l’intersection des classes Femme et Parent
• Parent est la classe des ressources de type Personne qui
sont liés à au moins une autre ressource de type Personne
en utilisant la propriété estParentDe
…
44. SKOS n’est pas pour des ontologies
formelles
• Il est possible de produire des ontologies à partir de KOS,
mais les KOS
– Se concentrent souvent sur les données lexicales
Enfant UtiliséPour Progéniture
– Ont une sémantique plus “molle”
Parent TermeLié Enfant
– Sont parfois gigantesques et donc difficiles à “nettoyer”
• Et pourtant en tant que tels les KOS peuvent être utiles à de
nombreuses applications!
Recherche sémantique, annotation…
45. SKOS – les bases
Pour satisfaire la majorité des besoins
• Concepts
• Propriétés lexicales
• Liens sémantiques
• Notes
Sémantique et interopérabilité
46. Un thesaurus fictif
Animals
cats
UF ( used for ) domestic cats
RT ( related term ) wildcats
BT ( broader term ) animals
SN ( scope note ) used only for domestic cats
domestic cats
USE cats
wildcats
47. Concepts et libellés
cats
UF ( used for ) domestic cats
skos: = http://www.w3.org/2004/02/skos/core#
rdf: = http://www.w3.org/1999/02/22-rdf-syntax-ns#
ex: = http://example.org/
50. Un graphe SKOS
animals
cats
UF domestic cats
RT wildcats
BT animals
SN used only for domestic cats
domestic cats
USE cats
wildcats
51. Changement par rapport aux approches
traditionelles
• Approche orientée concepts
• Plus de frontière “dure” entre vocabulaires
Extension & alignement sont facilités à travers différents contextes
• L’utilisation de plusieurs vocabulaires dans une application
est facilitée
• Transition vers une interoperabilité plus grande avec tous
types de jeux de données
52. Extensions de SKOS
• MADS/RDF
Autorités-matières (LCSH)
France –– Histoire –– XXeme siècle
• ISO25964 (en cours)
Thesaurus « classiques »
– Coumpound equivalences:
Charbonnages USE Charbon + Mines
– Arrays:
Chaises
<Chaises par forme>
Fauteuils
…
53. SKOS vs. OWL – rappel
• Il y a vraiment une différence entre les deux approches
Les ressources SKOS (les concepts) sont des instances de classes au sens
de OWL (instances de skos:Concept). Elles-mêmes ne sont pas des
classes par défaut.
• Des ontologies comme SKOS existent pour porter et exploiter
sur le web de données des données sémantiques
“traditionelles” sans avoir à la convertir (et les nettoyer) en
ontologies OWL
54. Vocabulaires de valeurs
Terminologie du groupe LLD
Regroupe vocabulaires contrôlés, vocabulaires d’autorités,
mais aussi potentiellement des folksonomies…
SKOS est une ontologie qui permet de publier un semble de
ressources d’autorité, référentiels provenant des
bibliothèques ou bien d’autres domaines
58. DBpedia, Freebase?
• Le web de données efface la fontière technique entre
vocabulaire d’autorité et « simples » jeux de données
• Des ressources SKOS peuvent être liées à des ressources
différentes
Par ex. une personne et le « concept d’une personne » dans un fichier
d’autorité
• Un jeu de données peut devenir un référentiel
60. Jeux de données
• Dans le domaine bibliographique
– Catalogues de bibliothèques nationales
– Services documentaires spécialisés
61.
62. Jeux de données a réutiliser et lier
• Ressources d’intérêt bibliographique sur le Data Hub
thedatahub.org/group/lld
• Linked Open Data Cloud sur le Data Hub
thedatahub.org/group/lod
• Moteurs de recherche sur le Linked Data Cloud
Sindice.com