Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
Une introduction au web de données
1. Une
introduc,on
au
web
de
données
Vers
une
infrastructure
pour
la
valorisa,on
des
archives
?
Pierre-‐Antoine
Champin
Yannick
Prié
LIRIS
–
UMR
5205
CNRS
Université
Claude
Bernard
Lyon
1
4. La
vision
du
web
séman,que
• Passer
d’un
web…
– Lisible
par
les
humains
– Affichable
par
les
machines
– «
Devinable
»
par
les
machines
hUp://www.w3.org/2004/Talks/0120-‐semweb-‐umich/
5. La
vision
du
web
séman,que
• …
à
d’un
web
– Lisible
par
les
humains
– Affichable
par
les
machines
– Manipulable
par
les
machines
hUp://www.w3.org/2004/Talks/0120-‐semweb-‐umich/
6. Manipulable
par
les
machines
?
• Calculs,
requêtes
– Schémas,
vocabulaires
→
Web
de
données
• Inférences,
raisonnement
– Ontologies,
règles…
→
Web
Séman-que
14. Principes
du
Web
de
données
liées
• Iden,fica,on
uniforme
des
objets
d’intérêt
– URL
/
URI
• Récupéra,on
uniforme
de
données
– HTTP
– RDF
• Hyperliens
entre
objets
d’intérêt
15. No,on
d’URL/URI
• Un
URL/URI
iden-fie
une
ressource
– mon
CV,
la
ville
de
Lyon,
Albert
Jacquard…
• Le
Web
de
documents
donne
accès
à
des
représenta,ons
de
ces
ressources
– Mon
CV
au
format
PDF
– La
page
web
de
la
ville
de
Lyon
– L’ar,cle
Wikipedia
sur
Albert
Jacquard
16. No,on
de
triplet
• Expression
d’une
rela,on
entre
deux
ressources
– Lyon
est
le
lieu
de
naissance
d’Albert
Jacquard
• Représentable
graphiquement
:
LieuDeNaissanceDe
Lyon
AlbertJacquard
• Les deux ressources et la relation (tous les objets d’intérêt)
sont identifiés par un URI
• On exprime donc cette information par un triplet d’URIs
• http://dbpedia.org/resource/Lyon
• http://dbpedia.org/ontology/birthPlace
• http://dbpedia.org/resource/AlbertJacquard
17. Graphe
de
triplets
• On
fusionne
les
nœuds
portant
le
même
URI
puisqu’ils
iden,fient
le
même
objet
skos:subject
dbpedia:Albert_Jacquard
category:French_gene,cists
dbpedia-‐owl:birthPlaceOf
dbpedia:Lyon
dbpedia:Albert_Jacquard
rdfs:label
dbpedia:Lyon
«
Lyon
»
18. Graphe
de
triplets
• On
fusionne
les
nœuds
portant
le
même
URI
puisqu’ils
iden,fient
le
même
objet
skos:subject
category:French_gene,cists
dbpedia-‐owl:birthPlaceOf
dbpedia:Lyon
dbpedia:Albert_Jacquard
rdfs:label
«
Lyon
»
20. SPARQL
• Langage
de
requête
pour
trouver
des
informa,ons
dans
un
graphe
• Exemple
:
«
Trouver
les
personnes
nées
à
Lyon
pendant
les
années
20
?
,
avec
le
cas
échéant
leur
date
de
décès.
»
dbpedia-‐owl:birthPlace
Lyon
dbpedia-‐owl:birthDate
?
p
1920
<=
?bd
<
1930
?
dd
dbpedia-‐owl:deathDate
hUp://,nyurl.com/2dcsokd
21. Source
d’informa,on,
provenance,
confiance
• Agréger
des
données
provenant
de
plusieurs
sources
nécessite
de
pouvoir
– tracer
la
provenance
des
informa,ons
– exclure
/
favoriser
certaines
sources
– qualifier
la
qualité
du
résultat
final
• Exemple
d’applica,on
u,lisant
la
no,on
de
provenance
:
– hUp://sig.ma/
22. Schémas
et
ontologies
• RDF
définit
une
syntaxe
permeUant
de
décrire
des
graphes
de
données
• Il
faut
également
pouvoir
définir
le(s)
lexique(s)
qui
vont
servir
à
peupler
ces
graphes
de
données
• Plusieurs
standards
complémentaires
– SKOS
(thesaurii)
– RDF-‐Schema
(schémas,
ontologies
simples)
– OWL
(ontologies
riches)
23. SKOS
• Simple
Knowledge
Organiza,on
System
• hUp://www.w3.org/2004/02/skos/
• Descrip,on
de
thesaurii
– Concepts,
rela,ons
séman,ques
et
associa,ves
– Documenta,on
(libellé,
notes)
– Interopérabilité
(alignement
de
thesaurii)
• Pas
de
séman,que
formelle
associée
aux
concepts
eux
mêmes
24. RDF-‐Schema
• hUp://www.w3.org/TR/rdf-‐schema/
• Hiérarchie
de
classes
et
de
rela,ons
– tout
CV
est
un
Document,
toute
Personne
est
un
Agent
– tout
auteur
est
un
contributeur
• Domaine
et
portée
des
rela,ons
– «
contributeur
»
relie
un
Document
à
un
Agent
• Permet
quelques
inférences
– l’auteur
d’un
CV
est
forcément
un
Agent
25. Exemple
RDF
Schema
domain
range
Niveau
des
Document
contributeur
Agent
schémas
subclass
subproperty
contraignent
CV
auteur
type
type
Niveau
métadonnées
hUp://…/ auteur
hUp://
….
/
cv.html
pageperso.html
décrivent
Niveau
des
ressources
web
26. OWL
• Web
Ontology
Language
• hUp://www.w3.org/2004/OWL/
• Séman,que
plus
riche
pour
permeUre
plus
d’inférence
– tout
Document
ayant
plusieurs
auteurs
est
un
DocumentCollec,f
– deux
Personnes
auteurs
d’un
même
Document
sont
en
rela,on
«
co-‐auteur
»
• Héritage
IA,
logique
formelle
27. Quelques
schémas
et
ontologies
• DC
(Dublin
core)
– méta-‐données
de
documents
– hUp://dublincore.org/
• FOAF
(Friend
of
a
friend)
– personnes
et
réseaux
sociaux
– hUp://www.foaf-‐project.org/
• SIOC
(Seman,cally
Interlinked
Online
Communi,es)
– sites
web
collabora,fs
– hUp://sioc-‐project.org/
• Plus
de
vocabulaires
:
– hUp://www.schemaweb.info/
29. Le
Web
de
données
en
mars
2009
hUp://linkeddata.org/
30. Europeana
• Exemple
avec
naviga,on
dans
le
thésaurus
SKOS
de
europeana.
– hUp://eculture.cs.vu.nl/europeana/session/search
31. Le
Web
de
données
en
2010
• Es,ma,on
de
Chris
Bizer
à
LDOW
2010
:
– 13
milliards
de
triplets
(informa,on
élémentaire)
– 150
million
de
liens
• Facebook
lance
OpenGraph
– hUp://opengraphprotocol.org/
– Annota,on
séman,que
de
n’importe
quelle
page,
pour
offrir
les
mêmes
fonc,onalités
qu’une
“page
Facebook”
– U,lisant
les
standards
du
Web
de
données
(RDFa)
32. Conclusion
(1)
• Le
web
de
données
est
en
croissance
(très)
forte
depuis
quelques
mois
33. Conclusion
(2)
• Que
doit
faire
une
ins,tu,on
pour
aller
sur
le
web
de
données
?
– Exposer
ses
données
en
RDF
• Annota,on
des
documents
• Adapta,on
des
données
brutes
– U,liser
les
données
des
autres
• Lier
• Croiser
les
informa,ons
• Construire
des
mashups
NB: ce ne sont pas des coutants de pensée opposés, mais deux tendances parallèles et complémentaires, qui utilisent les mêmes technologies, mais ont des focus différents. Nous avons employé le terme Web de données, parce que c’est un pré-requis au Web Sémantique, mais on va en fait parler un peu des deux…
On peut rendre les informations « contenues » dans les documents en y ajoutant des annotations destinées aux machines PA: Je suis toujours pas convaincu par la précédence historique les 2 moitiés du Web de données Mais au moins pédagogiquement, je suis d’accord qu’il est préférable d’amener les choses progressivement.
Pour les données natives, elles sont déjà manipulables par des machines, on pourrait donc en principe les exposer directement. Comme il faut s’appuyer sur des standards communs (tout comme les documents sont basés sur HTML), il peut être nécessaire de les adapter.
Variations sur le thème précédent : On peut générer des documents annotés plutôt que d’exposer les données en les adaptant : exemple d’une page d’un produit sur un site commercial On peut également stocker des données nativement dans les formats standards, et les exposer directement
En italique, les technos utilisées. Entre parenthèse, on retrouve les ingrédients qui constituent le Web de documents. On voit donc bien que le Web de données est une extension assez directe des principes du Web.
Expliquer que URL er URI sont synonymes, mais avec un focus différent (identification et accès) Déjà sur le Web de documents, la distinction entre ressource et représentation, identification et accès existe ! (redirections, URLs abstraites pour les documents versionéns, etc…)
PA: Attention avec le terme « relation » qui peut désigner tantôt l’arc, tantôt le prédicat. Je l’utilise pour « prédicat » dans le texte. Je pense qu’il ne faut pas entrer explicitement dans ce débat, sauf si on a la questions; l’exemple est à mon avis assez clair. Il faut juste faire attention à l’oral de se tenir à ce sens de « relation » (et parler de l’information, du triplet ou de l’arc pour l’autre).
Ici on est passé des URIs aux CURIEs. Pas sûr qu’il faille rendrer dans le détail, à moins qu’il n’y ait une question.
Lyon et Stanford university retrouve Jacquard,et qqn d’autre, mais le graphe reste petit. Lyon et Switzerland donne des résultats plus touffus et rigolos… mais pas d’Albert Jacquard Bizarrement, de nombreuses infos sur lui ne sont pas retrouvées par Relfinder…) Pour pas avoir l’air trop bête : John Harsanyi était un économiste Jonathan Gagnoud est un footballeur suisse
J’ai mis le SQL à la fin.
Faire remarquer que « auteur » et « contributeur » sont des relations
On peut maintenant expliquer brièvement que les bulles sont des sources de données, que les liens représentent les liens vers les ressources « appartenant » à d’autres sources, permettant donc de naviguer d’une source à l’autre, et de requêter le graphe global
Exemple Europeana : affichage des propriétés, navigation par propriété, puis exploration d’une propriété elle-même pour voir le SKOS/rdf-schema. La propriété Creator, par exemple, « remonte » jusqu’à dc:creator .
Causer à la fin du logiciel libre ? Vous pouvez préparer une présentation ppt. La BM est dotée d’une connexion Internet qui fonctionne parfaitement et d’un PC. En revanche la BM préconise : - de ne pas utiliser de logiciels libres (préférer les logicielsMicrosoft, version ppt 2003) - d'apporter la présentation sur une clé USB et non sur un ordinateur - de veiller à ce que la taille du fichier ppt n'excède pas 20 Mo