SlideShare ist ein Scribd-Unternehmen logo
1 von 55
Référentiels et interoperabilité (2)

                 Antoine Isaac

    Europeana & Vrije Universiteit Amsterdam




                Séminaire INRIA IST
              Carnac, 2 Octobre 2012
Interopérabilité des éléments de données
• Objectif: passer de données exprimées avec un jeu
  d’éléments de données à un autre jeu

• Typiquement, relier classes et propriétés de deux ontologies
   – owl:equivalentClass, owl:equivalentProperty
   – rdfs:subClassOf, rdfs:subPropertyOf
   – Axiomes « ad hoc »
       edm:Agent rdfs:subClassOf [
         rdf:type owl:Restriction ;
         owl:maxCardinality "1"^^xsd:nonNegativeInteger ;
         owl:onProperty rdaGr2:dateOfBirth
       ].
Idéalement: réutiliser un maximum de
                référentiels
Exemple: EDM




               http://lov.okfn.org/dataset/lov/details/vocabulary_edm.html
Idéalement: réutiliser un maximum de
                référentiels
Delacroix en EDM

<http://www.mied.fr/personne/Eugene_Delacroix>
  rdf:type edm:Agent ;
  foaf:name "Eugène Delacroix" ;
  skos:altLabel " Ferdinand Victor Eugène Delacroix" ;
  rdaGr2:dataOfBirth "26 avril 1798" .
Application Profiles




Dublin Core Singapore Framework
                        http://dublincore.org/documents/singapore-framework/
Leçons pour la réutilisation d’éléments de données


Points cruciaux :
• Accessibilité technique (Linked Data)
• Documentation
   Le support institutionnel est crucial
• Bonne interconnection - Eviter la duplication
• Réponse à des besoins spécifiques (requirements), pas
  seulement des problèmes philosophiques
• Nécessité de “cartographier” l’offre disponible
   Cf. Linked Open vocabularies: http://lov.okfn.org/dataset/lov/
En pratique: alignement post hoc
• Souvent la roue a déjà été inventée, quelque part
• Mais elle n’était peut-être pas belle…
• Et/ou pas vraiment adaptée à votre besoin
   Cas des ontologies applicatives ou de sous-domaines
   Privilégier une élément d’un jeu particulier peut être contre-productif


Malheureusement beaucoup sont encore réticents à assembler
  leur jeux d’éléments en recyclant directement des vocabulaires
  existants
Scenario Europeana

Correspondance entre éléments “locaux” utilisés par les
  fournisseurs et EDM



        EDM property -
  “Original” property -
Comment ?
• En général les fournisseurs voudront créer le mapping eux
  mêmes
   – Travail ardu, mais la précision est cruciale
   – Beaucoup ont déjà l’expérience


• Pas d’instruction sur comment le réaliser
   Plus tard: inférence en utilisant des axiomes OWL, matérialisation par
      requête SPARQL CONSTRUCT
   Pour l’instant: n’importe quelle feuille de style XSLT ou script XML-
      >EDM/XML
Outillage
MINT: http://mint.image.ece.ntua.gr/
Outillage
• Autres projets liés à Europeana
   PrestoPrime                              prestoprime.joanneum.at
   EuropeanaConnect                       semanticweb.cs.vu.nl/xmlrdf
• Context plus général
   R2R                              www4.wiwiss.fu-berlin.de/bizer/r2r
   Datalift                                               datalift.org
   …
Intéropérabilité des vocabulaires de valeurs




      Provient d’un jeu
   d’éléments de données
         / ontologie


Provient d’un vocabulaire contrôlé


                                                         12
Intéropérabilité des vocabulaires de valeurs

• Requiert l’alignement des éléments de données utilisés pour
  chacun des vocabulaires, ou la conversion vers un jeu
  d’élément pivots (par ex. SKOS)

• Requiert la détection d’équivalences « sémantiques » entre
  concepts
Créer un réseau d’équivalences
Demo
Concepts equivalents
• American LCSH
   http://id.loc.gov/authorities/subjects/sh85145447
• French RAMEAU
   http://data.bnf.fr/ark:/12148/cb11931913j
• German SWD
   http://d-nb.info/gnd/4064689-0
• STW
   http://zbw.eu/stw/descriptor/14188-0
• DBPedia
   http://dbpedia.org/resource/Water
SKOS mappings


                           KOS 2:
KOS 1:                     animal
animals                    human
cats                       object
wildcats
Un problème difficile

L’alignement manuel de vocabulaires demande beaucoup de travail
• LCSH, RAMEAU et SWD alignés dans le projet MACS
• SWD et Dewey alignés dans le projet CRISS-CROSS

Problème: taille, langue, différence d’approches

Le crowdsourcing n’a pas encore été expérimenté pour des
   vocabulaires experts
Techniques d’alignement automatiques


• Lexicales

• Structurelles

• Connaissances de contexte

• Extensionnelles




Sémantique et interopérabilité
Alignement lexical


        • Utilise les libellés des concepts, définitions…

                                      exactMatch     chat
                              chat

                                      exactMatch    chats
                              chat

                                      exactMatch     cat
                              chat

                                     broaderMatch    Barque
        barque avancée à la perche



Web Sémantique et
Interopérabilité des
Vocabulaires Conceptuels
Alignement structurel


              “Objet”
                                               “Objet”

                 “Oeuvre”

                                  “Création”


                        “Livre”        “Livre”



Thesaurus 1                                              Thesaurus 2
Connaissances de contexte
Exploitation des liens d’une référence partagée

                                             Référentiel de contexte




                      “Publication”




                                “Calendar”


Thesaurus 1                                            Thesaurus 2
Extensionnelles
  Utilisant les ressources décrites avec les vocabulaires de valeurs

Thesaurus 1                                                   Thesaurus 2
                        Néerlandais




                                          Litérature néerlandaise
Combiner des techniques: AMALGAME
• Do not try to make the tool smart
   – use simple atomic matching components
   – fast, scalable, with predictable and understandable results


• Empower domain experts by interactive iteration loop
   – try most promising component(s)
   – analyze the results
   – decide on next step:
       • discard results from last attempt
       • refine current results to improve precision
       • look for more results to improve recall


                                           http://semanticweb.cs.vu.nl/amalgame/
                                                                            23
Amsterdam Museum case, http://semanticweb.cs.vu.nl/lod/am/
Alignement: pas de solution triviale
• Ces techniques permettent d’obtenir des résultats
   STW, AGROVOC…
• Mais seules, elles ne suffisent pas
   Combinaison avec travail manuel (vérification, complétion)
• L’alignement est un problème de recherche difficile
• La R&D s’est surtout concentrée sur les ontologies
• Le Web de données change la donne
   Des outils pour jeux de données sont dévoloppés, e.g., SILK
                                 www4.wiwiss.fu-berlin.de/bizer/silk/
Un problème général d’alignement




http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset/
Un problème général d’alignement
• Les vocabulaires de valeurs sont des jeux de données, d’un
  point de vue technique
• Ils sont plus « réguliers » que les jeux de données généraux
   Une sous-famille utilisant SKOS comme ontologie


• Des techniques similaires sont appliquées aux ontologies,
  valeurs de vocabulaires et autres jeux de données, même si
  les caractéristiques des référentiels et les besoins en relations
  sont différents
Des challenges de haut niveau
Sparse linkage: the LD cloud




[Cyganiak, Jentzsch] http://linkeddata.org/
Sparse of linkage: another view




                [Guéret, 2010] http://blog.larkc.eu/?p=1941
Stratégies d’alignement ?
Stratégie pivot vs. alignement par paire




 Backbone, hub-and-spoke
                            [BS8723]
Guidage par la communauté ?




http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset/
Guidage par la communauté ?
• Liens entre ressources spécifiques aux bibliothèques
   VIAF, LCSH, Dewey, UDC, Worldcat, PND…


• Liens de/vers des ressources plus générales
   –   Musées, archives
   –   Coommunauté scientifique: données de recherche
   –   Editeurs
   –   Europeana et autres aggrégateurs
Critères de sélection
Exemple: EuropeanaConnect

• Pertinence institutionnelle, par rapport aux collections
• Adequation du type de ressources (lieux, sujets, personnes…)
  à l’application
• “Qualité”
   – Grain conceptuel et couverture
   – Couverture lexicale – langues
   – Couverture et précision des liens sémantiques
• Licenses
Flexibiliser l’approche pivot ?
•   Aligner des ressources petites et spécialisées à des ressources plus
    grandes et générales, multi-lingues et/ou largement adoptées

•   Des ressources plus spécialisées pourraient être retenues comme points
    d’ancrage, en fonction des domaines et des alignement existants

•   Plusieurs ressources complémentaires, d’importance comparable,
    pourraient ensemble jouer le rôle de pivot
     – La combinaison LCSH-RAMEAU-SWD-etc. peut jouer pour les sujets un rôle
       similaire à VIAF
     – Il est possible d’aligner des vocabulaires spécifiques à l’un ou l’autre
Flexibiliser l’approche pivot ?

Les outils d’alignment doivent supporter des stratégies flexibles,
   avec essais et erreurs
Quels types de liens ?

Beaucoup d’ontologies proposent des liens d’équivalence
  sémantique pour des instances de classes

•   owl:sameAs
•   skos:exactMatch, skos:closeMatch
•   skos:broadMatch, narrowMatch & relatedMatch
•   umbel:isLike
•   ore:isSimilarTo
•   foaf:focus
…
Problèmes d’application des liens :
                owl:sameAs

• En principe, deux URIs liées par owl:sameAs partagent
  automatiquement
   ex:a name “Antoine Isaac” .
   ex:b owl:sameAs ex:a .
   implique
   ex:b name “Antoine Isaac” .


• En pratique, owl:sameAs est appliqué entre des ressources
  qui ne sont que “très similaires”
   Une même ressource, mais dans differents contextes
Problèmes d’application des liens :
                owl:sameAs

• Par ex., première version de data.nytimes.com
  http://data.nytimes.com/60694995023816375851
   dcterms:rightsHolder The New York Times Company .
  http://data.nytimes.com/60694995023816375851
   owl:sameAs http://dbpedia.org/resource/Park_Slope%2C_Brooklyn .



• Quelles conséquences?
   On peut se contenter de ne pas “appliquer” la sémantique de owl:sameAs
Bonnes pratiques (1)

Regarder ce qui est aligné
   Concepts ou autorités
   vs. documents
   vs. entités “du monde réel” (personnes, lieux…)


Tenir compte de comment ça a été aligné
   Co-reference exacte obtenue par reconnaissance d’identifiants uniques
   vs. similarité (incl. équivalence) dérivée de libellés ou relations sémantiques

   Représenter les données sur l’alignment et/ou la correspondance individuelle est
     une option
Au-delà des liens simples

Pour des besoins spécifiques, on peut représenter des
  alignments et leur provenance de façon très fine




                                  http://alignapi.gforge.inria.fr/edoal.html
Bonnes pratiques (2)
Minimiser l’engagement sémantique des liens utilisés
   • skos:exactMatch est transitive: les concepts liés peuvent être échangés en
     toute généralité, par ex. pour des applications de recherche d’information
   • skos:closeMatch n’est pas transitive, pour représenter un lien qui ne se
     “propage” pas dans les cas où plus de deux vocabulaires sont alignés de
     manière approximative


Tenir compte de l’application de l’alignement
   • SKOS implique un “contexte d’application” des alignements
   • La qualité d’un alignement dépend aussi du type d’application qui l’emploie !
Evaluation spécifique à une application
   Campagne Ontology alignment Evaluation Initiative 2007
   3 outils évalués suivant deux scénarios: “fusion de thesaurus” et
      “ré-indexation de livres”

100%                                   100%
90%                                    90%
80%                                    80%
70%                                    70%
60%                           Falcon   60%                         Falcon
50%                           Silas    50%                         Silas
40%                           DSSim    40%                         DSSim
30%                                    30%
20%                                    20%
10%                                    10%
 0%                                     0%
       Precision   Coverage                   Pa          Ra
Evaluation spécifique à une application


Cas: 2 thesauri à la bibliothèque nationale des Pays-Bas: GTT and
  Brinkman
• Pour la fusion de thesaurus, gtt:excavation doit être aligné
  avec brinkman:excavation
• Pour la ré-indexation, gtt:excavation doit être aligné avec
  brinkman:archeology_netherlands
Applications d’alignements

Par exemple:
• Recherche à base de concepts
• Ré-indexation de livres
• Fusion de thesaurus
• Integration d’un thesaurus dans un autre
• Recherche plein texte
• Navigation

Suggère l’utilisation des correspondences et l’information qu’elles
  devraient fournir
Prédiction de sujets à la KB
Point de départ
• 2 collections
• Chacune indexée par son propre thesaurus
Prédiction de sujets à la KB

Ré-indexation
• But: avoir les livres d’une collection décrits avec le
  thesaurus de la seconde
• Par ex: si un thesaurus est abandonné, les livres doivent
  être indexés avec l’autre
Ré-indexation de livres




Convertir index source en un système d’indexation cible
Prototype

  Dans le projet STITCH

  •    Etant donnés des index NND/Biblion, prédire un index Brinkman
  •    Mix de techniques
         – Lexicales
         – Statistiques, utilisant 240000 livres communs, très spécifique au scénario
  •    Integration dans le logiciel de catalogage
  •    Etude utilisateurs (catalogueurs)




STITCH final event
Règles de prédiction de sujets
Source combination → target concept                     Confidence   Correct books
                                                        level        / Total

DGP:Jeugd fictie; vanaf 13 jaar' + KAR:Stripverhaal →   0.995        182/182
BTR:stripverhalen
LTR:Reisgidsen + LTR:Spanje →                           0.982        50/50
BTR:Spanje ; reisgidsen
LTR:Liefde + AUT:Jeanette Winterson →                   0.540        1/1
romans en novellen ; vertaald

LTR:Bouwkunde → BTR:leermiddelen ; bouwtechniek         0.196        25/123




         Les techniques d’alignment extensionnelles prennent en compte
         les variation d’usage et peuvent être très utiles pour des
         applications spécifiques
Conclusions
• Des solutions techniques qui permettent de résoudre des
  problèmes, mais mettent en valeur là où la difficulté se pose
  vraiment
   – Interopérabilité et contexte
   – Applications et requirements


• Il semble qu’il y ait besoin de professionnels de l’information !
   – Sélection de ressources
   – Alignement manuel et semi-automatique
   – Relation aux application


• Focus de cette présentation : pas les outils, mais un contexte
  pour juger les outils
Merci !

aisaac@few.vu.nl




EuropeanaConnect WP1 @ VU Amsterdam
  Jacco van Ossenbruggen, Victor de Boer, Jan Wielemaker,
  Guus Schreiber
Equipe projet STITCH: Lourens van der Meij, Shenghui Wang,
  Stefan Schlobach, Frank van Harmelen, Henk Matthezing,
  Claus Zinn

Weitere ähnliche Inhalte

Andere mochten auch

Las Ciudades Con MáS Sex Appeal Del Mundo
Las Ciudades Con MáS Sex Appeal Del MundoLas Ciudades Con MáS Sex Appeal Del Mundo
Las Ciudades Con MáS Sex Appeal Del Mundo
guestefb7ac
 
Acta de Rancagua
Acta de RancaguaActa de Rancagua
Acta de Rancagua
bianquia
 
Otra Forma De Ver La Ciudad
Otra Forma De Ver La CiudadOtra Forma De Ver La Ciudad
Otra Forma De Ver La Ciudad
guest336636
 
ACTA DE RANCAGUA
ACTA DE RANCAGUAACTA DE RANCAGUA
ACTA DE RANCAGUA
bianquia
 
Para Descarga J Clic
Para Descarga J ClicPara Descarga J Clic
Para Descarga J Clic
gabrielamelo
 
15 strategies adwords
15 strategies adwords15 strategies adwords
15 strategies adwords
Alain Planger
 

Andere mochten auch (20)

2014-11-13 ASIP Santé JNI "Cadre d’interopérabilité des Systèmes d’Informatio...
2014-11-13 ASIP Santé JNI "Cadre d’interopérabilité des Systèmes d’Informatio...2014-11-13 ASIP Santé JNI "Cadre d’interopérabilité des Systèmes d’Informatio...
2014-11-13 ASIP Santé JNI "Cadre d’interopérabilité des Systèmes d’Informatio...
 
Etude Apec - Référentiel des métiers des systèmes d'information
Etude Apec - Référentiel des métiers des systèmes d'informationEtude Apec - Référentiel des métiers des systèmes d'information
Etude Apec - Référentiel des métiers des systèmes d'information
 
HAL référentiels : Journée affiliations Paris juin 2015
HAL référentiels : Journée affiliations Paris juin 2015HAL référentiels : Journée affiliations Paris juin 2015
HAL référentiels : Journée affiliations Paris juin 2015
 
2016 12-14 colloque-ssi_présentation du plan ssi
2016 12-14 colloque-ssi_présentation du plan ssi2016 12-14 colloque-ssi_présentation du plan ssi
2016 12-14 colloque-ssi_présentation du plan ssi
 
Mise en place de système d’information
Mise en place de système d’informationMise en place de système d’information
Mise en place de système d’information
 
Formation pour intermédiaires
Formation pour intermédiairesFormation pour intermédiaires
Formation pour intermédiaires
 
Référentiels, de quoi parle-t-on ? (2013)
Référentiels, de quoi parle-t-on ? (2013)Référentiels, de quoi parle-t-on ? (2013)
Référentiels, de quoi parle-t-on ? (2013)
 
Las Ciudades Con MáS Sex Appeal Del Mundo
Las Ciudades Con MáS Sex Appeal Del MundoLas Ciudades Con MáS Sex Appeal Del Mundo
Las Ciudades Con MáS Sex Appeal Del Mundo
 
Acta de Rancagua
Acta de RancaguaActa de Rancagua
Acta de Rancagua
 
Otra Forma De Ver La Ciudad
Otra Forma De Ver La CiudadOtra Forma De Ver La Ciudad
Otra Forma De Ver La Ciudad
 
ACTA DE RANCAGUA
ACTA DE RANCAGUAACTA DE RANCAGUA
ACTA DE RANCAGUA
 
4busquedas
4busquedas4busquedas
4busquedas
 
Kick-Off meeting DIGIWAL
Kick-Off meeting DIGIWALKick-Off meeting DIGIWAL
Kick-Off meeting DIGIWAL
 
Lady d script
Lady d scriptLady d script
Lady d script
 
Para Descarga J Clic
Para Descarga J ClicPara Descarga J Clic
Para Descarga J Clic
 
15 strategies adwords
15 strategies adwords15 strategies adwords
15 strategies adwords
 
Encuesta1
Encuesta1Encuesta1
Encuesta1
 
Juego de mesa
Juego de mesaJuego de mesa
Juego de mesa
 
Sep Medir Calidad
Sep Medir CalidadSep Medir Calidad
Sep Medir Calidad
 
Quelle(s) perception(s) des classements de blogs par leurs auteurs ?
Quelle(s) perception(s) des classements de blogs par leurs auteurs ?Quelle(s) perception(s) des classements de blogs par leurs auteurs ?
Quelle(s) perception(s) des classements de blogs par leurs auteurs ?
 

Ähnlich wie Séminaire Inria IST - Référentiels et interoperabilité (2)

03 Web Semantique
03  Web Semantique03  Web Semantique
03 Web Semantique
badirh
 
Présentation de Claire Sibille et Michel Jacobson
Présentation de Claire Sibille et Michel JacobsonPrésentation de Claire Sibille et Michel Jacobson
Présentation de Claire Sibille et Michel Jacobson
AssociationAF
 
Du web sémantique à tous les étages
Du web sémantique à tous les étagesDu web sémantique à tous les étages
Du web sémantique à tous les étages
SemWebPro
 
États des lieux du Web sémantique
États des lieux du Web sémantiqueÉtats des lieux du Web sémantique
États des lieux du Web sémantique
Ivan Herman
 

Ähnlich wie Séminaire Inria IST - Référentiels et interoperabilité (2) (20)

Apport des thésaurus pour le catalogage et la localisation des données enviro...
Apport des thésaurus pour le catalogage et la localisation des données enviro...Apport des thésaurus pour le catalogage et la localisation des données enviro...
Apport des thésaurus pour le catalogage et la localisation des données enviro...
 
Skos transformation
Skos transformationSkos transformation
Skos transformation
 
Ontologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformationOntologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformation
 
03 Web Semantique
03  Web Semantique03  Web Semantique
03 Web Semantique
 
Modèles de données et langages de description ouverts 5 - 2021-2022
Modèles de données et langages de description ouverts   5 - 2021-2022Modèles de données et langages de description ouverts   5 - 2021-2022
Modèles de données et langages de description ouverts 5 - 2021-2022
 
Présentation cice telos
Présentation cice   telosPrésentation cice   telos
Présentation cice telos
 
Big data
Big dataBig data
Big data
 
Adbs2012 presentation
Adbs2012 presentationAdbs2012 presentation
Adbs2012 presentation
 
Le Web et son architecture : Pour une critique philosophique de la notion d’u...
Le Web et son architecture : Pour une critique philosophique de la notion d’u...Le Web et son architecture : Pour une critique philosophique de la notion d’u...
Le Web et son architecture : Pour une critique philosophique de la notion d’u...
 
Semantic web introduction
Semantic web introductionSemantic web introduction
Semantic web introduction
 
Datalift at SemWebPro
Datalift at SemWebProDatalift at SemWebPro
Datalift at SemWebPro
 
Présentation de Claire Sibille et Michel Jacobson
Présentation de Claire Sibille et Michel JacobsonPrésentation de Claire Sibille et Michel Jacobson
Présentation de Claire Sibille et Michel Jacobson
 
ABES - intervention congrès Semweb pro (5-11-2014)
ABES - intervention congrès Semweb pro (5-11-2014)ABES - intervention congrès Semweb pro (5-11-2014)
ABES - intervention congrès Semweb pro (5-11-2014)
 
Du web sémantique à tous les étages
Du web sémantique à tous les étagesDu web sémantique à tous les étages
Du web sémantique à tous les étages
 
États des lieux du Web sémantique
États des lieux du Web sémantiqueÉtats des lieux du Web sémantique
États des lieux du Web sémantique
 
metadata_pour_dirbu_mars2011
metadata_pour_dirbu_mars2011metadata_pour_dirbu_mars2011
metadata_pour_dirbu_mars2011
 
Tutoriel : "Gestion d’ontologies"
Tutoriel : "Gestion d’ontologies"Tutoriel : "Gestion d’ontologies"
Tutoriel : "Gestion d’ontologies"
 
Cours de topic modeling
Cours de topic modelingCours de topic modeling
Cours de topic modeling
 
Sem info system_2012
Sem info system_2012Sem info system_2012
Sem info system_2012
 
Richard Walter (IRHT), "Chercheurs vos papiers", 26 novembre 2009, MMSH
Richard Walter (IRHT), "Chercheurs vos papiers", 26 novembre 2009, MMSHRichard Walter (IRHT), "Chercheurs vos papiers", 26 novembre 2009, MMSH
Richard Walter (IRHT), "Chercheurs vos papiers", 26 novembre 2009, MMSH
 

Mehr von Antoine Isaac

Mehr von Antoine Isaac (20)

Addressing multilingual challenges at Europeana: An update - DCMI 2021
Addressing multilingual challenges at Europeana: An update - DCMI 2021Addressing multilingual challenges at Europeana: An update - DCMI 2021
Addressing multilingual challenges at Europeana: An update - DCMI 2021
 
Entity Management at Europeana - DCMI 2021
Entity Management at Europeana - DCMI 2021Entity Management at Europeana - DCMI 2021
Entity Management at Europeana - DCMI 2021
 
Le Cadre de publication d'Europeana
Le Cadre de publication d'EuropeanaLe Cadre de publication d'Europeana
Le Cadre de publication d'Europeana
 
The Europeana Data Model Principles, community and innovation
The Europeana Data Model  Principles, community and innovationThe Europeana Data Model  Principles, community and innovation
The Europeana Data Model Principles, community and innovation
 
Europeana as a Linked Data (Quality) case
Europeana as a Linked Data (Quality) caseEuropeana as a Linked Data (Quality) case
Europeana as a Linked Data (Quality) case
 
Metadata aggregation of IIIF Resources at Europeana: status and plans
Metadata aggregation of IIIF Resources at Europeana: status and plansMetadata aggregation of IIIF Resources at Europeana: status and plans
Metadata aggregation of IIIF Resources at Europeana: status and plans
 
IIIF and the Europeana mission
IIIF and the Europeana missionIIIF and the Europeana mission
IIIF and the Europeana mission
 
Multilingual challenges and ongoing work to tackle them at Europeana
Multilingual challenges and ongoing work to tackle them at EuropeanaMultilingual challenges and ongoing work to tackle them at Europeana
Multilingual challenges and ongoing work to tackle them at Europeana
 
Semantic Interoperability at Europeana - MultilingualDSIs2018
Semantic Interoperability at Europeana - MultilingualDSIs2018Semantic Interoperability at Europeana - MultilingualDSIs2018
Semantic Interoperability at Europeana - MultilingualDSIs2018
 
Lightweight rights modeling and linked data publication for online cultural h...
Lightweight rights modeling and linked data publication for online cultural h...Lightweight rights modeling and linked data publication for online cultural h...
Lightweight rights modeling and linked data publication for online cultural h...
 
Designing a multilingual knowledge graph - DCMI2018
Designing a multilingual knowledge graph - DCMI2018Designing a multilingual knowledge graph - DCMI2018
Designing a multilingual knowledge graph - DCMI2018
 
The Europeana Data Model - TPDL2018
The Europeana Data Model - TPDL2018The Europeana Data Model - TPDL2018
The Europeana Data Model - TPDL2018
 
Europeana et IIIF
Europeana et IIIFEuropeana et IIIF
Europeana et IIIF
 
Data scale and diversity issues at Europeana
Data scale and diversity issues at EuropeanaData scale and diversity issues at Europeana
Data scale and diversity issues at Europeana
 
Isaac - W3C Data on the Web Best Practices - Data Vocabularies
Isaac - W3C Data on the Web Best Practices - Data VocabulariesIsaac - W3C Data on the Web Best Practices - Data Vocabularies
Isaac - W3C Data on the Web Best Practices - Data Vocabularies
 
Europeana APIs
Europeana APIsEuropeana APIs
Europeana APIs
 
Enriching Cultural Heritage Data with DBpedia
Enriching Cultural Heritage Data with DBpediaEnriching Cultural Heritage Data with DBpedia
Enriching Cultural Heritage Data with DBpedia
 
Modelling and exchanging annotations
Modelling and exchanging annotationsModelling and exchanging annotations
Modelling and exchanging annotations
 
EuropeanaTech update - Europeana AGM 2015
EuropeanaTech update - Europeana AGM 2015EuropeanaTech update - Europeana AGM 2015
EuropeanaTech update - Europeana AGM 2015
 
Modelling annotations for Europeana and related projects - DARIAH-EU WS
Modelling annotations for Europeana and related projects - DARIAH-EU WSModelling annotations for Europeana and related projects - DARIAH-EU WS
Modelling annotations for Europeana and related projects - DARIAH-EU WS
 

Séminaire Inria IST - Référentiels et interoperabilité (2)

  • 1. Référentiels et interoperabilité (2) Antoine Isaac Europeana & Vrije Universiteit Amsterdam Séminaire INRIA IST Carnac, 2 Octobre 2012
  • 2. Interopérabilité des éléments de données • Objectif: passer de données exprimées avec un jeu d’éléments de données à un autre jeu • Typiquement, relier classes et propriétés de deux ontologies – owl:equivalentClass, owl:equivalentProperty – rdfs:subClassOf, rdfs:subPropertyOf – Axiomes « ad hoc » edm:Agent rdfs:subClassOf [ rdf:type owl:Restriction ; owl:maxCardinality "1"^^xsd:nonNegativeInteger ; owl:onProperty rdaGr2:dateOfBirth ].
  • 3. Idéalement: réutiliser un maximum de référentiels Exemple: EDM http://lov.okfn.org/dataset/lov/details/vocabulary_edm.html
  • 4. Idéalement: réutiliser un maximum de référentiels Delacroix en EDM <http://www.mied.fr/personne/Eugene_Delacroix> rdf:type edm:Agent ; foaf:name "Eugène Delacroix" ; skos:altLabel " Ferdinand Victor Eugène Delacroix" ; rdaGr2:dataOfBirth "26 avril 1798" .
  • 5. Application Profiles Dublin Core Singapore Framework http://dublincore.org/documents/singapore-framework/
  • 6. Leçons pour la réutilisation d’éléments de données Points cruciaux : • Accessibilité technique (Linked Data) • Documentation Le support institutionnel est crucial • Bonne interconnection - Eviter la duplication • Réponse à des besoins spécifiques (requirements), pas seulement des problèmes philosophiques • Nécessité de “cartographier” l’offre disponible Cf. Linked Open vocabularies: http://lov.okfn.org/dataset/lov/
  • 7. En pratique: alignement post hoc • Souvent la roue a déjà été inventée, quelque part • Mais elle n’était peut-être pas belle… • Et/ou pas vraiment adaptée à votre besoin Cas des ontologies applicatives ou de sous-domaines Privilégier une élément d’un jeu particulier peut être contre-productif Malheureusement beaucoup sont encore réticents à assembler leur jeux d’éléments en recyclant directement des vocabulaires existants
  • 8. Scenario Europeana Correspondance entre éléments “locaux” utilisés par les fournisseurs et EDM EDM property - “Original” property -
  • 9. Comment ? • En général les fournisseurs voudront créer le mapping eux mêmes – Travail ardu, mais la précision est cruciale – Beaucoup ont déjà l’expérience • Pas d’instruction sur comment le réaliser Plus tard: inférence en utilisant des axiomes OWL, matérialisation par requête SPARQL CONSTRUCT Pour l’instant: n’importe quelle feuille de style XSLT ou script XML- >EDM/XML
  • 11. Outillage • Autres projets liés à Europeana PrestoPrime prestoprime.joanneum.at EuropeanaConnect semanticweb.cs.vu.nl/xmlrdf • Context plus général R2R www4.wiwiss.fu-berlin.de/bizer/r2r Datalift datalift.org …
  • 12. Intéropérabilité des vocabulaires de valeurs Provient d’un jeu d’éléments de données / ontologie Provient d’un vocabulaire contrôlé 12
  • 13. Intéropérabilité des vocabulaires de valeurs • Requiert l’alignement des éléments de données utilisés pour chacun des vocabulaires, ou la conversion vers un jeu d’élément pivots (par ex. SKOS) • Requiert la détection d’équivalences « sémantiques » entre concepts
  • 14. Créer un réseau d’équivalences
  • 15. Demo Concepts equivalents • American LCSH http://id.loc.gov/authorities/subjects/sh85145447 • French RAMEAU http://data.bnf.fr/ark:/12148/cb11931913j • German SWD http://d-nb.info/gnd/4064689-0 • STW http://zbw.eu/stw/descriptor/14188-0 • DBPedia http://dbpedia.org/resource/Water
  • 16. SKOS mappings KOS 2: KOS 1: animal animals human cats object wildcats
  • 17. Un problème difficile L’alignement manuel de vocabulaires demande beaucoup de travail • LCSH, RAMEAU et SWD alignés dans le projet MACS • SWD et Dewey alignés dans le projet CRISS-CROSS Problème: taille, langue, différence d’approches Le crowdsourcing n’a pas encore été expérimenté pour des vocabulaires experts
  • 18. Techniques d’alignement automatiques • Lexicales • Structurelles • Connaissances de contexte • Extensionnelles Sémantique et interopérabilité
  • 19. Alignement lexical • Utilise les libellés des concepts, définitions… exactMatch chat chat exactMatch chats chat exactMatch cat chat broaderMatch Barque barque avancée à la perche Web Sémantique et Interopérabilité des Vocabulaires Conceptuels
  • 20. Alignement structurel “Objet” “Objet” “Oeuvre” “Création” “Livre” “Livre” Thesaurus 1 Thesaurus 2
  • 21. Connaissances de contexte Exploitation des liens d’une référence partagée Référentiel de contexte “Publication” “Calendar” Thesaurus 1 Thesaurus 2
  • 22. Extensionnelles Utilisant les ressources décrites avec les vocabulaires de valeurs Thesaurus 1 Thesaurus 2 Néerlandais Litérature néerlandaise
  • 23. Combiner des techniques: AMALGAME • Do not try to make the tool smart – use simple atomic matching components – fast, scalable, with predictable and understandable results • Empower domain experts by interactive iteration loop – try most promising component(s) – analyze the results – decide on next step: • discard results from last attempt • refine current results to improve precision • look for more results to improve recall http://semanticweb.cs.vu.nl/amalgame/ 23
  • 24. Amsterdam Museum case, http://semanticweb.cs.vu.nl/lod/am/
  • 25.
  • 26. Alignement: pas de solution triviale • Ces techniques permettent d’obtenir des résultats STW, AGROVOC… • Mais seules, elles ne suffisent pas Combinaison avec travail manuel (vérification, complétion) • L’alignement est un problème de recherche difficile • La R&D s’est surtout concentrée sur les ontologies • Le Web de données change la donne Des outils pour jeux de données sont dévoloppés, e.g., SILK www4.wiwiss.fu-berlin.de/bizer/silk/
  • 27. Un problème général d’alignement http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset/
  • 28. Un problème général d’alignement • Les vocabulaires de valeurs sont des jeux de données, d’un point de vue technique • Ils sont plus « réguliers » que les jeux de données généraux Une sous-famille utilisant SKOS comme ontologie • Des techniques similaires sont appliquées aux ontologies, valeurs de vocabulaires et autres jeux de données, même si les caractéristiques des référentiels et les besoins en relations sont différents
  • 29. Des challenges de haut niveau
  • 30. Sparse linkage: the LD cloud [Cyganiak, Jentzsch] http://linkeddata.org/
  • 31. Sparse of linkage: another view [Guéret, 2010] http://blog.larkc.eu/?p=1941
  • 33. Stratégie pivot vs. alignement par paire Backbone, hub-and-spoke [BS8723]
  • 34. Guidage par la communauté ? http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset/
  • 35. Guidage par la communauté ? • Liens entre ressources spécifiques aux bibliothèques VIAF, LCSH, Dewey, UDC, Worldcat, PND… • Liens de/vers des ressources plus générales – Musées, archives – Coommunauté scientifique: données de recherche – Editeurs – Europeana et autres aggrégateurs
  • 36. Critères de sélection Exemple: EuropeanaConnect • Pertinence institutionnelle, par rapport aux collections • Adequation du type de ressources (lieux, sujets, personnes…) à l’application • “Qualité” – Grain conceptuel et couverture – Couverture lexicale – langues – Couverture et précision des liens sémantiques • Licenses
  • 37. Flexibiliser l’approche pivot ? • Aligner des ressources petites et spécialisées à des ressources plus grandes et générales, multi-lingues et/ou largement adoptées • Des ressources plus spécialisées pourraient être retenues comme points d’ancrage, en fonction des domaines et des alignement existants • Plusieurs ressources complémentaires, d’importance comparable, pourraient ensemble jouer le rôle de pivot – La combinaison LCSH-RAMEAU-SWD-etc. peut jouer pour les sujets un rôle similaire à VIAF – Il est possible d’aligner des vocabulaires spécifiques à l’un ou l’autre
  • 38. Flexibiliser l’approche pivot ? Les outils d’alignment doivent supporter des stratégies flexibles, avec essais et erreurs
  • 39. Quels types de liens ? Beaucoup d’ontologies proposent des liens d’équivalence sémantique pour des instances de classes • owl:sameAs • skos:exactMatch, skos:closeMatch • skos:broadMatch, narrowMatch & relatedMatch • umbel:isLike • ore:isSimilarTo • foaf:focus …
  • 40. Problèmes d’application des liens : owl:sameAs • En principe, deux URIs liées par owl:sameAs partagent automatiquement ex:a name “Antoine Isaac” . ex:b owl:sameAs ex:a . implique ex:b name “Antoine Isaac” . • En pratique, owl:sameAs est appliqué entre des ressources qui ne sont que “très similaires” Une même ressource, mais dans differents contextes
  • 41. Problèmes d’application des liens : owl:sameAs • Par ex., première version de data.nytimes.com http://data.nytimes.com/60694995023816375851 dcterms:rightsHolder The New York Times Company . http://data.nytimes.com/60694995023816375851 owl:sameAs http://dbpedia.org/resource/Park_Slope%2C_Brooklyn . • Quelles conséquences? On peut se contenter de ne pas “appliquer” la sémantique de owl:sameAs
  • 42. Bonnes pratiques (1) Regarder ce qui est aligné Concepts ou autorités vs. documents vs. entités “du monde réel” (personnes, lieux…) Tenir compte de comment ça a été aligné Co-reference exacte obtenue par reconnaissance d’identifiants uniques vs. similarité (incl. équivalence) dérivée de libellés ou relations sémantiques Représenter les données sur l’alignment et/ou la correspondance individuelle est une option
  • 43. Au-delà des liens simples Pour des besoins spécifiques, on peut représenter des alignments et leur provenance de façon très fine http://alignapi.gforge.inria.fr/edoal.html
  • 44. Bonnes pratiques (2) Minimiser l’engagement sémantique des liens utilisés • skos:exactMatch est transitive: les concepts liés peuvent être échangés en toute généralité, par ex. pour des applications de recherche d’information • skos:closeMatch n’est pas transitive, pour représenter un lien qui ne se “propage” pas dans les cas où plus de deux vocabulaires sont alignés de manière approximative Tenir compte de l’application de l’alignement • SKOS implique un “contexte d’application” des alignements • La qualité d’un alignement dépend aussi du type d’application qui l’emploie !
  • 45. Evaluation spécifique à une application Campagne Ontology alignment Evaluation Initiative 2007 3 outils évalués suivant deux scénarios: “fusion de thesaurus” et “ré-indexation de livres” 100% 100% 90% 90% 80% 80% 70% 70% 60% Falcon 60% Falcon 50% Silas 50% Silas 40% DSSim 40% DSSim 30% 30% 20% 20% 10% 10% 0% 0% Precision Coverage Pa Ra
  • 46. Evaluation spécifique à une application Cas: 2 thesauri à la bibliothèque nationale des Pays-Bas: GTT and Brinkman • Pour la fusion de thesaurus, gtt:excavation doit être aligné avec brinkman:excavation • Pour la ré-indexation, gtt:excavation doit être aligné avec brinkman:archeology_netherlands
  • 47. Applications d’alignements Par exemple: • Recherche à base de concepts • Ré-indexation de livres • Fusion de thesaurus • Integration d’un thesaurus dans un autre • Recherche plein texte • Navigation Suggère l’utilisation des correspondences et l’information qu’elles devraient fournir
  • 48. Prédiction de sujets à la KB Point de départ • 2 collections • Chacune indexée par son propre thesaurus
  • 49. Prédiction de sujets à la KB Ré-indexation • But: avoir les livres d’une collection décrits avec le thesaurus de la seconde • Par ex: si un thesaurus est abandonné, les livres doivent être indexés avec l’autre
  • 50. Ré-indexation de livres Convertir index source en un système d’indexation cible
  • 51. Prototype Dans le projet STITCH • Etant donnés des index NND/Biblion, prédire un index Brinkman • Mix de techniques – Lexicales – Statistiques, utilisant 240000 livres communs, très spécifique au scénario • Integration dans le logiciel de catalogage • Etude utilisateurs (catalogueurs) STITCH final event
  • 52.
  • 53. Règles de prédiction de sujets Source combination → target concept Confidence Correct books level / Total DGP:Jeugd fictie; vanaf 13 jaar' + KAR:Stripverhaal → 0.995 182/182 BTR:stripverhalen LTR:Reisgidsen + LTR:Spanje → 0.982 50/50 BTR:Spanje ; reisgidsen LTR:Liefde + AUT:Jeanette Winterson → 0.540 1/1 romans en novellen ; vertaald LTR:Bouwkunde → BTR:leermiddelen ; bouwtechniek 0.196 25/123 Les techniques d’alignment extensionnelles prennent en compte les variation d’usage et peuvent être très utiles pour des applications spécifiques
  • 54. Conclusions • Des solutions techniques qui permettent de résoudre des problèmes, mais mettent en valeur là où la difficulté se pose vraiment – Interopérabilité et contexte – Applications et requirements • Il semble qu’il y ait besoin de professionnels de l’information ! – Sélection de ressources – Alignement manuel et semi-automatique – Relation aux application • Focus de cette présentation : pas les outils, mais un contexte pour juger les outils
  • 55. Merci ! aisaac@few.vu.nl EuropeanaConnect WP1 @ VU Amsterdam Jacco van Ossenbruggen, Victor de Boer, Jan Wielemaker, Guus Schreiber Equipe projet STITCH: Lourens van der Meij, Shenghui Wang, Stefan Schlobach, Frank van Harmelen, Henk Matthezing, Claus Zinn

Hinweis der Redaktion

  1. Pictures from Frank van Harmelen
  2. Early results with post-doc
  3. Duplicate creation and maintenance effort No unified access
  4. Duplicate creation and maintenance effort No unified access
  5. Generated index should be generally small 99.2% of depot books indexed with no more than 3 Brinkman concepts
  6. LTR -- Biblion concepts, AUT -- main authors of books, KAR -- ``characteristic&apos;&apos; and DGP -- intellectual level/target group.