Séminaire Inria IST - Référentiels et interoperabilité (2)

Référentiels et interoperabilité (2)

Antoine Isaac

Europeana & Vrije Universiteit Amsterdam

Séminaire INRIA IST
Carnac, 2 Octobre 2012

Interopérabilité des éléments de données
• Objectif: passer de données exprimées avec un jeu
d’éléments de données à un autre jeu

• Typiquement, relier classes et propriétés de deux ontologies
– owl:equivalentClass, owl:equivalentProperty
– rdfs:subClassOf, rdfs:subPropertyOf
– Axiomes « ad hoc »
edm:Agent rdfs:subClassOf [
rdf:type owl:Restriction ;
owl:maxCardinality "1"^^xsd:nonNegativeInteger ;
owl:onProperty rdaGr2:dateOfBirth
].

Idéalement: réutiliser un maximum de
référentiels
Exemple: EDM

http://lov.okfn.org/dataset/lov/details/vocabulary_edm.html

Idéalement: réutiliser un maximum de
référentiels
Delacroix en EDM

<http://www.mied.fr/personne/Eugene_Delacroix>
rdf:type edm:Agent ;
foaf:name "Eugène Delacroix" ;
skos:altLabel " Ferdinand Victor Eugène Delacroix" ;
rdaGr2:dataOfBirth "26 avril 1798" .

Application Profiles

Dublin Core Singapore Framework
http://dublincore.org/documents/singapore-framework/

Leçons pour la réutilisation d’éléments de données

Points cruciaux :
• Accessibilité technique (Linked Data)
• Documentation
Le support institutionnel est crucial
• Bonne interconnection - Eviter la duplication
• Réponse à des besoins spécifiques (requirements), pas
seulement des problèmes philosophiques
• Nécessité de “cartographier” l’offre disponible
Cf. Linked Open vocabularies: http://lov.okfn.org/dataset/lov/

En pratique: alignement post hoc
• Souvent la roue a déjà été inventée, quelque part
• Mais elle n’était peut-être pas belle…
• Et/ou pas vraiment adaptée à votre besoin
Cas des ontologies applicatives ou de sous-domaines
Privilégier une élément d’un jeu particulier peut être contre-productif

Malheureusement beaucoup sont encore réticents à assembler
leur jeux d’éléments en recyclant directement des vocabulaires
existants

Scenario Europeana

Correspondance entre éléments “locaux” utilisés par les
fournisseurs et EDM

EDM property -
“Original” property -

Comment ?
• En général les fournisseurs voudront créer le mapping eux
mêmes
– Travail ardu, mais la précision est cruciale
– Beaucoup ont déjà l’expérience

• Pas d’instruction sur comment le réaliser
Plus tard: inférence en utilisant des axiomes OWL, matérialisation par
requête SPARQL CONSTRUCT
Pour l’instant: n’importe quelle feuille de style XSLT ou script XML-
>EDM/XML

Outillage
MINT: http://mint.image.ece.ntua.gr/

Outillage
• Autres projets liés à Europeana
PrestoPrime prestoprime.joanneum.at
EuropeanaConnect semanticweb.cs.vu.nl/xmlrdf
• Context plus général
R2R www4.wiwiss.fu-berlin.de/bizer/r2r
Datalift datalift.org
…

Intéropérabilité des vocabulaires de valeurs

Provient d’un jeu
d’éléments de données
/ ontologie

Provient d’un vocabulaire contrôlé

12

Intéropérabilité des vocabulaires de valeurs

• Requiert l’alignement des éléments de données utilisés pour
chacun des vocabulaires, ou la conversion vers un jeu
d’élément pivots (par ex. SKOS)

• Requiert la détection d’équivalences « sémantiques » entre
concepts

Créer un réseau d’équivalences

Demo
Concepts equivalents
• American LCSH
http://id.loc.gov/authorities/subjects/sh85145447
• French RAMEAU
http://data.bnf.fr/ark:/12148/cb11931913j
• German SWD
http://d-nb.info/gnd/4064689-0
• STW
http://zbw.eu/stw/descriptor/14188-0
• DBPedia
http://dbpedia.org/resource/Water

SKOS mappings

KOS 2:
KOS 1: animal
animals human
cats object
wildcats

Un problème difficile

L’alignement manuel de vocabulaires demande beaucoup de travail
• LCSH, RAMEAU et SWD alignés dans le projet MACS
• SWD et Dewey alignés dans le projet CRISS-CROSS

Problème: taille, langue, différence d’approches

Le crowdsourcing n’a pas encore été expérimenté pour des
vocabulaires experts

Techniques d’alignement automatiques

• Lexicales

• Structurelles

• Connaissances de contexte

• Extensionnelles

Sémantique et interopérabilité

Alignement lexical

• Utilise les libellés des concepts, définitions…

exactMatch chat
chat

exactMatch chats
chat

exactMatch cat
chat

broaderMatch Barque
barque avancée à la perche

Web Sémantique et
Interopérabilité des
Vocabulaires Conceptuels

Alignement structurel

“Objet”
“Objet”

“Oeuvre”

“Création”

“Livre” “Livre”

Thesaurus 1 Thesaurus 2

Connaissances de contexte
Exploitation des liens d’une référence partagée

Référentiel de contexte

“Publication”

“Calendar”


Extensionnelles
Utilisant les ressources décrites avec les vocabulaires de valeurs

Néerlandais

Litérature néerlandaise

Combiner des techniques: AMALGAME
• Do not try to make the tool smart
– use simple atomic matching components
– fast, scalable, with predictable and understandable results

• Empower domain experts by interactive iteration loop
– try most promising component(s)
– analyze the results
– decide on next step:
• discard results from last attempt
• refine current results to improve precision
• look for more results to improve recall

http://semanticweb.cs.vu.nl/amalgame/
23

Amsterdam Museum case, http://semanticweb.cs.vu.nl/lod/am/

Alignement: pas de solution triviale
• Ces techniques permettent d’obtenir des résultats
STW, AGROVOC…
• Mais seules, elles ne suffisent pas
Combinaison avec travail manuel (vérification, complétion)
• L’alignement est un problème de recherche difficile
• La R&D s’est surtout concentrée sur les ontologies
• Le Web de données change la donne
Des outils pour jeux de données sont dévoloppés, e.g., SILK
www4.wiwiss.fu-berlin.de/bizer/silk/

Un problème général d’alignement

http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset/

Un problème général d’alignement
• Les vocabulaires de valeurs sont des jeux de données, d’un
point de vue technique
• Ils sont plus « réguliers » que les jeux de données généraux
Une sous-famille utilisant SKOS comme ontologie

• Des techniques similaires sont appliquées aux ontologies,
valeurs de vocabulaires et autres jeux de données, même si
les caractéristiques des référentiels et les besoins en relations
sont différents

Sparse linkage: the LD cloud

[Cyganiak, Jentzsch] http://linkeddata.org/

Sparse of linkage: another view

[Guéret, 2010] http://blog.larkc.eu/?p=1941

Stratégie pivot vs. alignement par paire

Backbone, hub-and-spoke
[BS8723]

Guidage par la communauté ?

http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset/

Guidage par la communauté ?
• Liens entre ressources spécifiques aux bibliothèques
VIAF, LCSH, Dewey, UDC, Worldcat, PND…

• Liens de/vers des ressources plus générales
– Musées, archives
– Coommunauté scientifique: données de recherche
– Editeurs
– Europeana et autres aggrégateurs

Critères de sélection
Exemple: EuropeanaConnect

• Pertinence institutionnelle, par rapport aux collections
• Adequation du type de ressources (lieux, sujets, personnes…)
à l’application
• “Qualité”
– Grain conceptuel et couverture
– Couverture lexicale – langues
– Couverture et précision des liens sémantiques
• Licenses

Flexibiliser l’approche pivot ?
• Aligner des ressources petites et spécialisées à des ressources plus
grandes et générales, multi-lingues et/ou largement adoptées

• Des ressources plus spécialisées pourraient être retenues comme points
d’ancrage, en fonction des domaines et des alignement existants

• Plusieurs ressources complémentaires, d’importance comparable,
pourraient ensemble jouer le rôle de pivot
– La combinaison LCSH-RAMEAU-SWD-etc. peut jouer pour les sujets un rôle
similaire à VIAF
– Il est possible d’aligner des vocabulaires spécifiques à l’un ou l’autre

Flexibiliser l’approche pivot ?

Les outils d’alignment doivent supporter des stratégies flexibles,
avec essais et erreurs

Quels types de liens ?

Beaucoup d’ontologies proposent des liens d’équivalence
sémantique pour des instances de classes

• owl:sameAs
• skos:exactMatch, skos:closeMatch
• skos:broadMatch, narrowMatch & relatedMatch
• umbel:isLike
• ore:isSimilarTo
• foaf:focus
…

Problèmes d’application des liens :
owl:sameAs

• En principe, deux URIs liées par owl:sameAs partagent
automatiquement
ex:a name “Antoine Isaac” .
ex:b owl:sameAs ex:a .
implique
ex:b name “Antoine Isaac” .

• En pratique, owl:sameAs est appliqué entre des ressources
qui ne sont que “très similaires”
Une même ressource, mais dans differents contextes

Problèmes d’application des liens :
owl:sameAs

• Par ex., première version de data.nytimes.com
http://data.nytimes.com/60694995023816375851
dcterms:rightsHolder The New York Times Company .
http://data.nytimes.com/60694995023816375851
owl:sameAs http://dbpedia.org/resource/Park_Slope%2C_Brooklyn .

• Quelles conséquences?
On peut se contenter de ne pas “appliquer” la sémantique de owl:sameAs

Bonnes pratiques (1)

Regarder ce qui est aligné
Concepts ou autorités
vs. documents
vs. entités “du monde réel” (personnes, lieux…)

Tenir compte de comment ça a été aligné
Co-reference exacte obtenue par reconnaissance d’identifiants uniques
vs. similarité (incl. équivalence) dérivée de libellés ou relations sémantiques

Représenter les données sur l’alignment et/ou la correspondance individuelle est
une option

Au-delà des liens simples

Pour des besoins spécifiques, on peut représenter des
alignments et leur provenance de façon très fine

http://alignapi.gforge.inria.fr/edoal.html

Bonnes pratiques (2)
Minimiser l’engagement sémantique des liens utilisés
• skos:exactMatch est transitive: les concepts liés peuvent être échangés en
toute généralité, par ex. pour des applications de recherche d’information
• skos:closeMatch n’est pas transitive, pour représenter un lien qui ne se
“propage” pas dans les cas où plus de deux vocabulaires sont alignés de
manière approximative

Tenir compte de l’application de l’alignement
• SKOS implique un “contexte d’application” des alignements
• La qualité d’un alignement dépend aussi du type d’application qui l’emploie !

Evaluation spécifique à une application
Campagne Ontology alignment Evaluation Initiative 2007
3 outils évalués suivant deux scénarios: “fusion de thesaurus” et
“ré-indexation de livres”

100% 100%
90% 90%
80% 80%
70% 70%
60% Falcon 60% Falcon
50% Silas 50% Silas
40% DSSim 40% DSSim
30% 30%
20% 20%
10% 10%
0% 0%
Precision Coverage Pa Ra

Evaluation spécifique à une application

Cas: 2 thesauri à la bibliothèque nationale des Pays-Bas: GTT and
Brinkman
• Pour la fusion de thesaurus, gtt:excavation doit être aligné
avec brinkman:excavation
• Pour la ré-indexation, gtt:excavation doit être aligné avec
brinkman:archeology_netherlands

Applications d’alignements

Par exemple:
• Recherche à base de concepts
• Ré-indexation de livres
• Fusion de thesaurus
• Integration d’un thesaurus dans un autre
• Recherche plein texte
• Navigation

Suggère l’utilisation des correspondences et l’information qu’elles
devraient fournir

Prédiction de sujets à la KB
Point de départ
• 2 collections
• Chacune indexée par son propre thesaurus

Prédiction de sujets à la KB

Ré-indexation
• But: avoir les livres d’une collection décrits avec le
thesaurus de la seconde
• Par ex: si un thesaurus est abandonné, les livres doivent
être indexés avec l’autre

Ré-indexation de livres

Convertir index source en un système d’indexation cible

Prototype

Dans le projet STITCH

• Etant donnés des index NND/Biblion, prédire un index Brinkman
• Mix de techniques
– Lexicales
– Statistiques, utilisant 240000 livres communs, très spécifique au scénario
• Integration dans le logiciel de catalogage
• Etude utilisateurs (catalogueurs)

STITCH final event

Règles de prédiction de sujets
Source combination → target concept Confidence Correct books
level / Total

DGP:Jeugd fictie; vanaf 13 jaar' + KAR:Stripverhaal → 0.995 182/182
BTR:stripverhalen
LTR:Reisgidsen + LTR:Spanje → 0.982 50/50
BTR:Spanje ; reisgidsen
LTR:Liefde + AUT:Jeanette Winterson → 0.540 1/1
romans en novellen ; vertaald

LTR:Bouwkunde → BTR:leermiddelen ; bouwtechniek 0.196 25/123

Les techniques d’alignment extensionnelles prennent en compte
les variation d’usage et peuvent être très utiles pour des
applications spécifiques

Conclusions
• Des solutions techniques qui permettent de résoudre des
problèmes, mais mettent en valeur là où la difficulté se pose
vraiment
– Interopérabilité et contexte
– Applications et requirements

• Il semble qu’il y ait besoin de professionnels de l’information !
– Sélection de ressources
– Alignement manuel et semi-automatique
– Relation aux application

• Focus de cette présentation : pas les outils, mais un contexte
pour juger les outils

Merci !

aisaac@few.vu.nl

EuropeanaConnect WP1 @ VU Amsterdam
Jacco van Ossenbruggen, Victor de Boer, Jan Wielemaker,
Guus Schreiber
Equipe projet STITCH: Lourens van der Meij, Shenghui Wang,
Stefan Schlobach, Frank van Harmelen, Henk Matthezing,
Claus Zinn

Séminaire Inria IST - Référentiels et interoperabilité (2)

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (20)

Ähnlich wie Séminaire Inria IST - Référentiels et interoperabilité (2)

Ähnlich wie Séminaire Inria IST - Référentiels et interoperabilité (2) (20)

Mehr von Antoine Isaac

Mehr von Antoine Isaac (20)

Séminaire Inria IST - Référentiels et interoperabilité (2)

Hinweis der Redaktion