Méthodes et outils pour interrelier le web des données
1. Introduction Cadre de travail Outils Application Conclusions
Melinda
Méthodes et outils pour lier le web des données
François Schare et Jérôme Euzenat
Novembre
2. Introduction Cadre de travail Outils Application Conclusions
1 Introduction
2 Cadre de travail
3 Outils
4 Application
5 Conclusions
3. Introduction Cadre de travail Outils Application Conclusions
Un nuage de jeux de données
4. Introduction Cadre de travail Outils Application Conclusions
Le Web sémantique
Fig.: Semantic Web stack
5. Introduction Cadre de travail Outils Application Conclusions
Publier des données sur le Web
Quatre principes de publication
1 L'utilistation d'URI pour identier les resources
2 L'utilisation d'URI pouvant être déréférencées
3 Lorsqu'une URI est déréférencée, une description de cette
resource est retournée
4 Les jeux de données ainsi publiés sont reliés vers d'autres jeux
de données
6. Introduction Cadre de travail Outils Application Conclusions
Lier les jeux de données
Des jeux de données speciques contiennent les liens.
http://www.example.org/linkset/DBPedia-MB
a void:Linkset ;
void:target http://www.dpbedia.org;
void:target http://www.musicbrainz.org;
http://www.example.org/linkset/DBPedia-MB
http://www.dbpedia.org/resource/
Johann_Sebastian_Bach
owl:sameAs
http://www.musicbrainz.org/artist/
24f1766e-9635-4d58-a4d4-9413f9f98a4c .
7. Introduction Cadre de travail Outils Application Conclusions
Que faisons nous ?
Nous proposons un cadre englobant dierentes méthodes de
liage des données
Nous étudions les outils existant et les plaçons dans ce cadre
Nous proposons une architecture permettant d'articuler outils
de liage et alignements d'ontologies
8. Introduction Cadre de travail Outils Application Conclusions
Méthodologie Générale
owl:sameAs
URI 1 URI 2
Méthode de comparaison
des ressources
Fig.: Approche générale
9. Introduction Cadre de travail Outils Application Conclusions
Alignement manuel des resources
owl:sameAs
URI 1 URI 2
Observation manuelle
Fig.: Alignement manuel
10. Introduction Cadre de travail Outils Application Conclusions
Mise en correspondence des identiants
owl:sameAs
URI 1 URI 2
Mise en équivalence
des identifiants
Fig.: Transformation des identiants
11. Introduction Cadre de travail Outils Application Conclusions
Mise en correspondence des identiants - Exemple
owl:sameAs
http://www.lastfm.fr/music/ http://dbpedia.org/resource/
Johann+Sebastian+Bach Johann_Sebastian_Bach
Transformation de l'URI
Fig.: Exemple de transformation d'URI
12. Introduction Cadre de travail Outils Application Conclusions
Alignement de données avec ontologie commune
owl:sameAs
URI 1 URI 2
Algorithme de comparaison
des ressources décrites en
fonction d'une même ontologie
O1 O1
Fig.: Ontologie commune
13. Introduction Cadre de travail Outils Application Conclusions
Alignement de données avec ontologie commune - Exemple
mo:MusicArtist
type type
DBPedia Musicbrainz
URI1 URI2
prénom nom prénom nom
Johann- Jean-
Sebastian Bach Sébastien Bach
Algorithme de comparaison
des ressources décrites en
fonction d'une même ontologie
Fig.: Exemple d'alignement entre données décrites en fonction d'une
ontologie
14. Introduction Cadre de travail Outils Application Conclusions
Alignement de données et ontologies diérentes
owl:sameAs
URI 1 URI 2
Algorithme de comparaison
des ressources décrites en
fonction de deux ontologies
O1 Alignement O2
implicite
Fig.: Alignement entre données décrites en fonction d'ontologies
diérentes
15. Introduction Cadre de travail Outils Application Conclusions
Exemple
OpenCyc Musicbrainz
Classical Music Performer mo:MusicArtist
type type
URI1 URI2
English ID givenname
Jean-Sébastien
Johann
Sebastian name
Bach Bach
16. Introduction Cadre de travail Outils Application Conclusions
Processus et specications
processus resultat
instance specication de lien linkset
classe matcher alignement
Tab.: Processus de mise en correspondence, interrelations, et leur
resultats.
17. Introduction Cadre de travail Outils Application Conclusions
Critères d'analyse
Degré d'automaticité
L'outil est-il complètement automatique ? (boite noire)
l'outil a-t'il besoin d'être paramétré par l'utilisateur ? Quel
type de paramètres ?
Techniques d'alignement utilisées
alignement de chaînes de caractères ?
fonctions externes ?
propagation de similarité ?
autres techniques ?
Domaine : l'outil est-il spécique à un certain domaine ?
18. Introduction Cadre de travail Outils Application Conclusions
Ontologies
L'outil prend-il en compte les ontologies associées aux
données ?
L'outil permet-il d'aligner des jeux de données décrits en
fonction d'ontologies diérentes ?
Dans le cas où elles sont diérentes, l'outil aligne-t-il les
ontologies ?
Sortie
Qu'est-ce que l'outil produit en sortie ? (liens owl :sameAs,
autre types de liens)
L'outil propose-t-il de fusionner deux jeux de données ?
Jeux de données : comment l'outil accède-t-il aux données ?
Post-opératoire : l'outil eectue-t-il des traitements
post-opératoire ?
19. Introduction Cadre de travail Outils Application Conclusions
Six outils d'interreliage
RKB-CRS Service de résolution de co-référence de la base de
connaissances RKB.
LD-mapper Outil de liage pour l'ontologie de la musique MO.
ODD Linker Outil de liage basé sur le langage SQL.
RDF-AI Outil de liage et fusion de jeux de données.
Silk et Silk LSL Outil de liage et language de specication de liens.
Knofuss architecture Outil de liage et fusion de jeux de données.
20. Introduction Cadre de travail Outils Application Conclusions
Six outils d'interreliage
owl:sameAs
URI 1 URI 2
Méthode de comparaison
des ressources
LD-Mapper
ODD-Linker
RKB-CRS
Alignement Alignement
O1 implicite explicite O2
Silk
RDF-AI Knofuss
Système
d'alignement
d'ontologies
Fig.: Outils placés dans le cadre général déni
22. Introduction Cadre de travail Outils Application Conclusions
Application
Alignement implicitement contenu dans la specications de liens.
align:map [ :map2 a align:Cell;
align:entity1 [ a align:Property;
edoal:and dbpedia:populationTotal.
:dbp-geo a align:Alignment; edoal:and [ a edoal:PropertyDomainRestriction;
align:onto1 http://dbpedia.org/ontology/; edoal:domain dbpedia:City.
align:onto2 http://www.geonames.org/ontology#; ];
align:map [ :map1 a align:Cell; align:entity2 [ a align:Property;
align:entity1 dbpedia:City; edoal:and gn:population;
align:entity2 gn:P; edoal:and [ a edoal:PropertyDomainRestriction;
align:relation align:subsumedBy. edoal:domain gn:P. ];
]; align:relation align:equivalent.
align:map [ :map2 a align:Cell; ];
align:entity1 dbpedia:populationTotal; align:map [ :map2 a align:Cell;
align:entity2 gn:population; align:entity1 [ a align:Property;
align:relation align:equivalent. edoal:and rdfs:label.
]; edoal:and [ a edoal:PropertyDomainRestriction;
align:map [ :map3 a align:Cell; edoal:domain dbpedia:City.
align:entity1 rdfs:label; ];
align:entity2 gn:name; align:entity2 [ a align:Property;
align:relation align:equivalent. edoal:and gn:name;
]. edoal:and [ a edoal:PropertyDomainRestriction;
edoal:domain gn:P. ];
align:relation align:equivalent.
].
23. Introduction Cadre de travail Outils Application Conclusions
Application
Nous pouvons dès lors simplier la specication de liens.
UseAlignment rdf:resource=#dbp-geo /
Interlink id=cities
LinkTypeowl:sameAs/LinkType
LinkCell rdf:resource=#map1 /
LinkCondition
AVG
Compare metric=jaroSimilarity
CellParam rdf:resource=#map2 /
/Compare
Compare metric=numSimilarity
CellParam rdf:resource=#map3 /
/Compare
/AVG
/LinkCondition
Thresholds accept=0.9 verify=0.7 /
Output acceptedLinks=accepted_links.n3
verifyLinks=verify_links.n3
mode=truncate /
/Interlink
24. Introduction Cadre de travail Outils Application Conclusions
Conclusions
Nous proposons un cadre général de liaison des ressources sur
le Web des données
Nous avons présenté les outils actuels et les avons positionné
par rapport au cadre déni
Nous avons concrétisé nos propositions sur un exemple
articulant alignment d'ontologies et spécications de liens pour
le Web des données
Nos travaux actuels nous guident vers toujours plus
d'automatisation pour la specication de liens :
Est il possible de construire des specications de liens plus
génériques ? (attachées aux jeux de données ou aux ontologies)
Peut on trouver des méthodes permettant de trouver de
faßon automatique l'ensemble de propriétés permettant de
determiner l'equivalence entre deux ressources ?
25. Introduction Cadre de travail Outils Application Conclusions
Pour en savoir plus
http://melinda.inrialpes.fr
François Schare et Jérôme Euzenat. Un cadre général pour
lier le web des données. RFIA 2010. Caen, France.