Intégration incrémentale de données (Valenciennes juin 2010)
1. Intégra(on
Incrémentale
de
Données
Basée
sur
les
Retours
U(lisateur
Khalid Belhajjame
Université de Manchester
Royaume Uni
18
juin
2010
Valenciennes
1
2. Intégra(on
de
Données
Quels
sont
le
protéines
disponibles
de
la
mouche
des
fruits?
Chercheur
Schéma
central
Mappings
PedroDB
PepSeeker
Pride
GPMDB
18
juin
2010
Valenciennes
2
3. Intégra(on
Incrémentale
de
Données
Intégra(on
de
Données
– La
spécifica(on
de
mappings
est
une
ac(vité
couteuse
qui
requière
une
connaissance
profonde
des
sources
de
données
aussi
bien
que
les
besoins
des
u(lisateurs.
Dataspaces:
Pay-‐as-‐you-‐go
Data
Integra3on
[Franklin
et
al.
2005]
– Réduire
le
temps
d’installa(on
du
système
d’intégra(on
de
données.
– Améliore
les
services
fournis
par
le
system
d’une
façon
incrémentale
en
interagissant
avec
les
u(lisateurs.
M.
J.
Franklin,
A.
Y.
Halevy,
and
D.
Maier.
From
databases
to
dataspaces:
a
new
abstrac(on
for
informa(on
management.
SIGMOD
Record,
34(4):27–33,
2005.
18
juin
2010
Valenciennes
3
4. Intégra(on
Incrémentale
de
Données
Quels
sont
le
protéines
disponibles
de
la
mouche
des
fruits?
Chercheur
Schéma
central
Bootstrap
Dataspaces
Mappings
PedroDB
PepSeeker
Pride
GPMDB
Objec(ve:
Étudiez
l'annota(on,
la
sélec(on
et
le
raffinement
incrémental
des
mappings
18
juin
2010
Valenciennes
4
5. Pay-‐as-‐you-‐go
Data
Integra(on
Nous
considérons
que
les
schémas
des
sources
et
le
schéma
central
sont
rela(onels,
et
que
les
mappings
u(lisés
pour
peupler
les
éléments
du
schéma
central
sont
glabal-‐as-‐view
de
la
forme
suivante
:
⟨r,qs⟩
r est une relation du schéma central et qs est une requête spécifiée en
terme de sources.
Une
rela(on
du
schéma
central
peut
être
associée
avec
plusieurs
mappings
candidates
pour
sa
popula(on
:
Nous
considérons
une
configura(on
dans
laquelle
mul(ple
mécanismes
de
matching
et
de
mapping
de
schémas
sont
u(lisés.
18
juin
2010
Valenciennes
5
6. Plan
Retour
U(lisateur
(feedback)
Annota(on
de
Mappings
Sélec(on
de
Mappings
Considérant
les
Besoins
U(lisateur
Raffinement
de
Mappings
18
juin
2010
Valenciennes
6
7. Retour
U(lisateur
Requête:
Quels
sont
le
protéines
disponibles
de
la
mouche
des
fruits?
Results:
Feedback
✔
✖
✖
✔
18
juin
2010
Valenciennes
7
8. Retour
U(lisateur
(cont.)
Considérons
m
un
mapping,
et
UF
un
ensemble
de
retours
u(lisateur
(feedback
instances):
tp(m,UF):
les
tuples
qui
sont
prévus
par
l'u(lisateur
et
qui
sont
retournés
par
le
mapping
m.
fp(m,UF):
les
tuples
qui
ne
sont
pas
prévus
par
l'u(lisateur
et
qui
sont
retournés
par
le
mapping
m.
fn(m,UF):
les
tuples
qui
sont
prévus
par
l'u(lisateur
et
qui
ne
sont
pas
retournés
par
le
mapping
m.
18
juin
2010
Valenciennes
8
9. Plan
Retour
U(lisateur
(feedback)
Annota(on
de
Mappings
Sélec(on
de
Mappings
Considérant
les
Besoins
U(lisateur
Raffinement
de
Mappings
18
juin
2010
Valenciennes
9
10. Annota(on
de
Mappings
On
peut
u(liser
un
schéma
d’annota(on
simple
pour
é(queter
les
mappings
comme:
Correct
Incorrect
L'ensemble
de
mappings
peut
être
incomplete,
et,
par
consequent,
nous
allows
tout
simplement
annoter
tout
les
mappings
comme
incorrect,
ce
qui
est
inu(le.
Pour
ceme
raison,
nous
u(lisons
un
schéma
plus
fine
pour
l’annota(on
de
mappings.
18
juin
2010
Valenciennes
10
11. Annota(on
de
Mappings
(cont.)
Nous
avons
u(lisé
et
adapté
les
no(ons
de
précision
et
de
rappel
u(lisés
dans
la
recherche
d'informa(on
pour
mesurer
la
qualité
d'un
mapping.
Precision:
Rappel:
F
mésure:
18
juin
2010
Valenciennes
11
12. Annota(on
de
Mappings:
Valida(on
Ques(ons:
– Combien
de
retours
u(lisateur
(feedback
instances)
faut-‐il
pour
rapprocher
la
précision
et
le
rappel
réels,
c'est
à
dire
calculés
on
se
basant
sur
la
connaissance
complète
des
résultats
prévues?
– Est
ce
que
la
philosophie
“pay-‐as-‐you-‐go”
préconisée
par
la
vision
espaces
de
données
(dataspaces)
est
valide
dans
ce
context?
18
juin
2010
Valenciennes
12
13. Annota(on
de
Mappings:
Valida(on
(cont.)
Expérience:
Données:
– Deux
collec(ons
de
données:
la
base
de
données
géographiques
Mondial
et
la
base
de
données
bibliographique
amalgames.
– Les
mappings
candidats:
créés
en
u(lisant
IBM
InfoSphere
Data
Architect.
Processus:
nous
avons
appliqué
le
processus
illustrées
ci-‐dessous
pour
de
mul(ples
itéra(ons.
1. Générer
un
échan(llon
de
retours
u(lisateur
(feedback
instances).
2. Calculer
la
précision
et
le
rappel
des
mappings
candidats
en
u(lisant
le
retours
u(lisateur
cumulés.
18
juin
2010
Valenciennes
13
15. Mapping
Annota(on:
Error
Erreur
dans
le
rappel
18
juin
2010
Valenciennes
15
16. Plan
Retour
U(lisateur
(feedback)
Annota(on
de
Mappings
Sélec(on
de
Mappings
Considérant
les
Besoins
U(lisateur
Raffinement
de
Mappings
18
juin
2010
Valenciennes
16
17. Sélec(on
de
Mappings
La
sélec(on
de
mappings
doit
être
adaptée
pour
répondre
aux
besoins
des
u(lisateurs.
Nous
u(lisons
une
méthode
de
sélec(on
qui
vise
à
maximiser
le
rappel
de
telle
sorte
que
la
précision
des
résultats
est
supérieur
à
un
seuil
de
précision
donnée.
Nous
avons
défini
ceme
méthode
comme
un
problème
d’op(misa(on
qui
vise
à
maximiser
la
fonc(on
d'u(lité
suivantes:
D.
A.
Menascé
and
V.
Dubey.
U(lity-‐based
qos
brokering
in
service
oriented
architectures.
In
ICWS,
pages
422–430.
IEEE
CS,
2007.
18
juin
2010
Valenciennes
17
18. Sélec(on
de
Mappings:
Precision
Est-‐ce
que
ceme
méthode
permet
de
respecter
la
précision
spécifiée
par
l'u(lisateur?
18
juin
2010
Valenciennes
18
19. Sélec(on
de
Mappings:
Rappel
Est-‐ce
que
ceme
méthode
permet
de
maximiser
le
rappel?
18
juin
2010
Valenciennes
19
20. Plan
Retour
U(lisateur
(feedback)
Annota(on
de
Mappings
Sélec(on
de
Mappings
Considérant
les
Besoins
U(lisateur
raffinement
de
Mappings
18
juin
2010
Valenciennes
20
21. raffinement
de
Mappings
Nous
dis(nguons
deux
types
de
Raffinement:
Raffinement
de
mappings
qui
vise
à
réduire
le
nombre
de
faux
posi(fs
Un
mapping
candidat
est
affinée
par
la
modifica(on
de
sa
requête
source
de
sorte
que
le
nombre
de
faux
posi(fs
retournés
est
réduit.
Raffinement
de
mappings
qui
vise
à
accroître
le
nombre
de
vrais
posi(fs
Un
mapping
candidat
est
affinée
par
la
modifica(on
de
sa
requête
source
de
sorte
que
le
nombre
de
faux
posi(fs
retournés
est
accrue.
18
juin
2010
Valenciennes
21
22. Mapping
Refinement:
Exemple
Je veux les
proteins de
mouche de fruit
Schéma Protein
cebtral Accession name gene
m = <Protein, ProteinEntry>
Schéma
source
18
juin
2010
Valenciennes
22
23. Raffinement
de
Mappings:
l'espace
des
solu(ons
L'espace
des
solu(ons
est
composé
des
mappings
qui
peuvent
être
construits
à
par(r
des
mappings
candidats
ini(aux.
Plus
précisément,
les
mappings
obtenu
en:
i. appliquant
la
jointure
à
la
requête
source
d’un
mapping,
ii. augmentant
la
requête
source
d'un
mapping
avec
une
condi(on
de
sélec(on,
iii. assouplissant
la
condi(on
de
sélec(on
de
la
requête
source
d’un
mapping,
iv. combinant
les
requêtes
sources
de
deux
ou
plusieurs
mappings
en
u(lisant
l'Union,
la
différence
et
intersec(on.
18
juin
2010
Valenciennes
23
24. Explora(on
de
l'Espace
des
Solu(ons
L'espace
des
mappings
qui
peuvent
être
obtenus
par
raffinement
est
poten(ellement
large.
Un
algorithme
de
recherche
qui
explore
tout
l'espace
des
mappings
possibles
peut
ne
pas
être
en
mésure
de
trouver
une
solu(on
dans
un
temps
limité.
Dans
le
cadre
du
présent
travail,
nous
avons
u(lisé
un
algorithme
évolu(onnaire
pour
explorer
l'espace
de
mappings
qui
peuvent
être
obtenus
par
raffinement.
18
juin
2010
Valenciennes
24
25. Algorithm
pour
le
Raffinement
de
Mappings
18
juin
2010
Valenciennes
25
26. Raffinement
de
Mappings:
Valida(on
Ques(on:
Est-‐ce
qu’on
peut
améliorer
la
qualité
des
mappings
candidats
iniDaux
par
raffinement,
et,
si
c’est
le
cas,
à
quel
prix,
à
savoir,
combien
de
retours
uDlisateur
sont
requis?
Expérience:
Pour
répondre
à
la
ques(on
ci-‐dessus,
nous
avons
appliqué
le
processus
suivant
pour
de
mul(ples
itéra(ons.
1) Générer
un
échan(llon
de
retours
u(lisateur
2) Annoter
l'ensemble
des
mappings
candidats.
3) Raffiner
les
mappings
candidats.
18
juin
2010
Valenciennes
26
28. Conclusions
Annota(on
incrémentale
de
Mappings
Nous
avons
montré
comment
les
mappings
peuvent
être
annoter
progressivement
en
fonc(on
des
retours
u(lisateurs.
Nous
avons
également
montré
à
travers
un
exercice
d'évalua(on
que
plus
de
retours
u(lisateur
nous
avons,
meilleur
est
la
qualité
des
annota(ons
calculées.
Applica(on:
Sélec(on
et
Raffinement
des
mappings
Les
annota(ons
calculées
sont
u(lisées
comme
entrée
pour
permemre
la
sélec(on
et
le
raffinement
de
mappings.
Les
exercices
d'évalua(on
ont
également
montré
que
le
raffinement
mappings
est
plus
rentable
(cost-‐effec(ve)
dans
les
itéra(ons
premiers.
18
juin
2010
Valenciennes
28
29. Travaux
en
Cours
Propaga(on
de
retour
u(lisateur
et
des
annota(ons.
Retours
u(lisateur
inconsistant.
18
juin
2010
Valenciennes
29
30. Intégra(on
Incrémentale
de
Données
Basée
sur
les
Retours
U(lisateur
Khalid Belhajjame
Université de Manchester
Royaume Uni
18
juin
2010
Valenciennes
30