SlideShare ist ein Scribd-Unternehmen logo
1 von 30
Downloaden Sie, um offline zu lesen
Intégra(on	
  Incrémentale	
  de	
  Données	
  
                  Basée	
  sur	
  les	
  Retours	
  U(lisateur	
  	
  


                                Khalid Belhajjame	

                             Université de Manchester	

                                  Royaume Uni	



18	
  juin	
  2010	
                  Valenciennes	
                     1	
  
Intégra(on	
  de	
  Données	
  

                                     Quels	
  sont	
  le	
  protéines	
  disponibles	
  de	
  la	
  mouche	
  des	
  fruits?	
  	
  
                         Chercheur	
  

                                                           	
  	
  	
  Schéma	
  
                                                               	
  	
  	
  central	
  

                             Mappings	
  




              PedroDB	
                    PepSeeker	
                                   Pride	
           GPMDB	
  



18	
  juin	
  2010	
                                                Valenciennes	
                                                     2	
  
Intégra(on	
  Incrémentale	
  de	
  Données	
  

  Intégra(on	
  de	
  Données	
  
    –  La	
  spécifica(on	
  de	
  mappings	
  est	
  une	
  ac(vité	
  couteuse	
  qui	
  requière	
  
       une	
  connaissance	
  profonde	
  des	
  sources	
  de	
  données	
  aussi	
  bien	
  que	
  les	
  
       besoins	
  des	
  u(lisateurs.	
  

  Dataspaces:	
  Pay-­‐as-­‐you-­‐go	
  Data	
  Integra3on	
  [Franklin	
  et	
  al.	
  2005]	
  
    –  Réduire	
  le	
  temps	
  d’installa(on	
  du	
  système	
  d’intégra(on	
  de	
  données.	
  	
  
    –  Améliore	
  les	
  services	
  fournis	
  par	
  le	
  system	
  d’une	
  façon	
  incrémentale	
  
       en	
  interagissant	
  avec	
  les	
  u(lisateurs.	
  




      M.	
  J.	
  Franklin,	
  A.	
  Y.	
  Halevy,	
  and	
  D.	
  Maier.	
  From	
  databases	
  to	
  dataspaces:	
  a	
  new	
  abstrac(on	
  for	
  informa(on	
  
      management.	
  SIGMOD	
  Record,	
  34(4):27–33,	
  2005.	
  
18	
  juin	
  2010	
                                                        Valenciennes	
                                                                               3	
  
Intégra(on	
  Incrémentale	
  de	
  Données	
  

                                           Quels	
  sont	
  le	
  protéines	
  disponibles	
  de	
  la	
  mouche	
  des	
  fruits?	
  	
  
                         Chercheur	
  


                                                                 Schéma	
  
                                                                 central	
  
                                                                                                              Bootstrap	
  
                                                                                                              Dataspaces	
  
                                         Mappings	
  




                 PedroDB	
                       PepSeeker	
                             Pride	
                 GPMDB	
  


Objec(ve:	
  	
  
Étudiez	
  l'annota(on,	
  la	
  sélec(on	
  et	
  le	
  raffinement	
  incrémental	
  des	
  mappings	
  
18	
  juin	
  2010	
                                                  Valenciennes	
                                                         4	
  
Pay-­‐as-­‐you-­‐go	
  Data	
  Integra(on	
  

 Nous	
  considérons	
  que	
  les	
  schémas	
  des	
  sources	
  et	
  le	
  schéma	
  central	
  sont	
  
    rela(onels,	
  et	
  que	
  les	
  mappings	
  u(lisés	
  pour	
  peupler	
  les	
  éléments	
  du	
  schéma	
  
    central	
  sont	
  glabal-­‐as-­‐view	
  de	
  la	
  forme	
  suivante	
  :

                                                          ⟨r,qs⟩
      r est une relation du schéma central et qs est une requête spécifiée en
       terme de sources.
 Une	
  rela(on	
  du	
  schéma	
  central	
  peut	
  être	
  associée	
  avec	
  plusieurs	
  mappings	
  
candidates	
  pour	
  sa	
  popula(on	
  :	
  Nous	
  considérons	
  une	
  configura(on	
  dans	
  
laquelle	
  mul(ple	
  mécanismes	
  de	
  matching	
  et	
  de	
  mapping	
  de	
  schémas	
  sont	
  
u(lisés.

18	
  juin	
  2010	
                                   Valenciennes	
                                           5	
  
Plan	
  


  Retour	
  U(lisateur	
  (feedback)	
  


  Annota(on	
  de	
  Mappings	
  


  Sélec(on	
  de	
  Mappings	
  Considérant	
  les	
  Besoins	
  U(lisateur	
  


  Raffinement	
  de	
  Mappings	
  	
  



18	
  juin	
  2010	
                 Valenciennes	
                                6	
  
Retour	
  U(lisateur	
  
  Requête:	
  Quels	
  sont	
  le	
  protéines	
  disponibles	
  de	
  la	
  mouche	
  des	
  fruits?	
  	
  
  Results:	
  


                                                                                                       Feedback	
  

                                                                                                           ✔	
  

                                                                                                           ✖	
  



                                                                                                           ✖	
  

                                                                                                           ✔	
  




18	
  juin	
  2010	
                                Valenciennes	
                                                    7	
  
Retour	
  U(lisateur	
  (cont.)	
  

	
       Considérons	
  m	
  un	
  mapping,	
  et	
  UF	
  un	
  ensemble	
  de	
  retours	
  u(lisateur	
  
         (feedback	
  instances):	
  	
  

  tp(m,UF):	
  les	
  tuples	
  qui	
  sont	
  prévus	
  par	
  l'u(lisateur	
  et	
  qui	
  sont	
  retournés	
  
   par	
  le	
  mapping	
  m.	
  

  fp(m,UF):	
  les	
  tuples	
  qui	
  ne	
  sont	
  pas	
  prévus	
  par	
  l'u(lisateur	
  et	
  qui	
  sont	
  
   retournés	
  par	
  le	
  mapping	
  m.	
  	
  

  fn(m,UF):	
  les	
  tuples	
  qui	
  sont	
  prévus	
  par	
  l'u(lisateur	
  et	
  qui	
  ne	
  sont	
  pas	
  
   retournés	
  par	
  le	
  mapping	
  m.	
  



18	
  juin	
  2010	
                                  Valenciennes	
                                                  8	
  
Plan	
  


 Retour	
  U(lisateur	
  (feedback)	
  


  Annota(on	
  de	
  Mappings	
  


  Sélec(on	
  de	
  Mappings	
  Considérant	
  les	
  Besoins	
  U(lisateur	
  


  Raffinement	
  de	
  Mappings	
  	
  



18	
  juin	
  2010	
                 Valenciennes	
                                9	
  
Annota(on	
  de	
  Mappings	
  

On	
  peut	
  u(liser	
  un	
  schéma	
  d’annota(on	
  simple	
  pour	
  é(queter	
  
les	
  mappings	
  comme:	
  
 Correct	
  
 	
  
 Incorrect	
  
 	
  


L'ensemble	
  de	
  mappings	
  peut	
  être	
  incomplete,	
  et,	
  par	
  
consequent,	
  nous	
  allows	
  tout	
  simplement	
  annoter	
  tout	
  les	
  
mappings	
  comme	
  incorrect,	
  ce	
  qui	
  est	
  inu(le.	
  

Pour	
  ceme	
  raison,	
  nous	
  u(lisons	
  un	
  schéma	
  plus	
  fine	
  pour	
  
l’annota(on	
  de	
  mappings.	
  
18	
  juin	
  2010	
                       Valenciennes	
                                10	
  
Annota(on	
  de	
  Mappings	
  (cont.)	
  
Nous	
  avons	
  u(lisé	
  et	
  adapté	
  les	
  no(ons	
  de	
  précision	
  et	
  de	
  rappel	
  
u(lisés	
  dans	
  la	
  recherche	
  d'informa(on	
  pour	
  mesurer	
  la	
  qualité	
  
d'un	
  mapping.	
  

 Precision:	
  
 	
  


 Rappel:	
  
 	
  


 F	
  mésure:	
  
 	
  


18	
  juin	
  2010	
                         Valenciennes	
                                       11	
  
Annota(on	
  de	
  Mappings:	
  Valida(on	
  


Ques(ons:	
  	
  

            –  Combien	
  de	
  retours	
  u(lisateur	
  (feedback	
  instances)	
  faut-­‐il	
  
               pour	
  rapprocher	
  la	
  précision	
  et	
  le	
  rappel	
  réels,	
  c'est	
  à	
  dire	
  
               calculés	
  on	
  se	
  basant	
  sur	
  la	
  connaissance	
  complète	
  des	
  
               résultats	
  prévues?	
  

            –  Est	
  ce	
  que	
  la	
  philosophie	
  “pay-­‐as-­‐you-­‐go”	
  préconisée	
  par	
  la	
  
               vision	
  espaces	
  de	
  données	
  (dataspaces)	
  est	
  valide	
  dans	
  ce	
  
               context?	
  


18	
  juin	
  2010	
                                 Valenciennes	
                                          12	
  
Annota(on	
  de	
  Mappings:	
  Valida(on	
  
                          (cont.)	
  
Expérience:	
  
  Données:	
  
    –  Deux	
  collec(ons	
  de	
  données:	
  la	
  base	
  de	
  données	
  géographiques	
  
       Mondial	
  et	
  la	
  base	
  de	
  données	
  bibliographique	
  amalgames.	
  
    –  Les	
  mappings	
  candidats:	
  créés	
  en	
  u(lisant	
  IBM	
  InfoSphere	
  Data	
  
       Architect.	
  	
  

  Processus:	
  nous	
  avons	
  appliqué	
  le	
  processus	
  illustrées	
  ci-­‐dessous	
  pour	
  de	
  
   mul(ples	
  itéra(ons.	
  
   1.  Générer	
  un	
  échan(llon	
  de	
  retours	
  u(lisateur	
  (feedback	
  instances).	
  
   2.  Calculer	
  la	
  précision	
  et	
  le	
  rappel	
  des	
  mappings	
  candidats	
  en	
  u(lisant	
  
        le	
  retours	
  u(lisateur	
  cumulés.	
  


18	
  juin	
  2010	
                             Valenciennes	
                                             13	
  
Annota(on	
  de	
  Mappings:	
  	
  
    Error	
  
                          Erreur	
  dans	
  la	
  Precision	
  




18	
  juin	
  2010	
                    Valenciennes	
            14	
  
Mapping	
  Annota(on:	
  	
  
    Error	
  
                         Erreur	
  dans	
  le	
  rappel	
  




18	
  juin	
  2010	
                  Valenciennes	
          15	
  
Plan	
  


 Retour	
  U(lisateur	
  (feedback)	
  


 Annota(on	
  de	
  Mappings	
  


  Sélec(on	
  de	
  Mappings	
  Considérant	
  les	
  Besoins	
  U(lisateur	
  


  Raffinement	
  de	
  Mappings	
  	
  



18	
  juin	
  2010	
                 Valenciennes	
                                16	
  
Sélec(on	
  de	
  Mappings	
  

  La	
  sélec(on	
  de	
  mappings	
  doit	
  être	
  adaptée	
  pour	
  répondre	
  aux	
  besoins	
  des	
  
   u(lisateurs.	
  

  Nous	
  u(lisons	
  une	
  méthode	
  de	
  sélec(on	
  qui	
  vise	
  à	
  maximiser	
  le	
  rappel	
  de	
  telle	
  
   sorte	
  que	
  la	
  précision	
  des	
  résultats	
  est	
  supérieur	
  à	
  un	
  seuil	
  de	
  précision	
  donnée.	
  

  Nous	
  avons	
  défini	
  ceme	
  méthode	
  	
  comme	
  un	
  problème	
  d’op(misa(on	
  qui	
  vise	
  à	
  
   maximiser	
  la	
  fonc(on	
  d'u(lité	
  suivantes:	
  




        D.	
  A.	
  Menascé	
  and	
  V.	
  Dubey.	
  U(lity-­‐based	
  qos	
  brokering	
  in	
  service	
  oriented	
  architectures.	
  In	
  ICWS,	
  pages	
  
        422–430.	
  IEEE	
  CS,	
  2007.	
  

18	
  juin	
  2010	
                                                       Valenciennes	
                                                                             17	
  
Sélec(on	
  de	
  Mappings:	
  Precision	
  



                         Est-­‐ce	
  que	
  ceme	
  méthode	
  permet	
  de	
  respecter	
  la	
  précision	
  
                                                    spécifiée	
  par	
  l'u(lisateur?	
  




18	
  juin	
  2010	
                                        Valenciennes	
                                        18	
  
Sélec(on	
  de	
  Mappings:	
  Rappel	
  



                         Est-­‐ce	
  que	
  ceme	
  méthode	
  permet	
  de	
  maximiser	
  le	
  rappel?	
  




18	
  juin	
  2010	
                                          Valenciennes	
                                    19	
  
Plan	
  


 Retour	
  U(lisateur	
  (feedback)	
  


 Annota(on	
  de	
  Mappings	
  


 Sélec(on	
  de	
  Mappings	
  Considérant	
  les	
  Besoins	
  U(lisateur	
  


  raffinement	
  de	
  Mappings	
  	
  



18	
  juin	
  2010	
                 Valenciennes	
                               20	
  
raffinement	
  de	
  Mappings	
  

	
       Nous	
  dis(nguons	
  deux	
  types	
  de	
  Raffinement:	
  

  Raffinement	
  de	
  mappings	
  qui	
  vise	
  à	
  réduire	
  le	
  nombre	
  de	
  faux	
  posi(fs	
  
	
   Un	
  mapping	
  candidat	
  est	
  affinée	
  par	
  la	
  modifica(on	
  de	
  sa	
  requête	
  
     source	
  de	
  sorte	
  que	
  le	
  nombre	
  de	
  faux	
  posi(fs	
  retournés	
  est	
  réduit.	
  	
  

  Raffinement	
  de	
  mappings	
  qui	
  vise	
  à	
  accroître	
  le	
  nombre	
  de	
  vrais	
  posi(fs	
  
	
       Un	
  mapping	
  candidat	
  est	
  affinée	
  par	
  la	
  modifica(on	
  de	
  sa	
  requête	
  
         source	
  de	
  sorte	
  que	
  le	
  nombre	
  de	
  faux	
  posi(fs	
  retournés	
  est	
  accrue.	
  	
  




18	
  juin	
  2010	
                                      Valenciennes	
                                                21	
  
Mapping	
  Refinement:	
  Exemple	
  
                                                                     Je veux les
                                                                     proteins de
                                                                    mouche de fruit
    Schéma                       Protein
    cebtral                        Accession   name          gene




                         m = <Protein, ProteinEntry>

    Schéma
    source




18	
  juin	
  2010	
                           Valenciennes	
                         22	
  
Raffinement	
  de	
  Mappings:	
  	
  
                               l'espace	
  des	
  solu(ons	
  

      L'espace	
  des	
  solu(ons	
  est	
  composé	
  des	
  mappings	
  qui	
  peuvent	
  être	
  
      construits	
  à	
  par(r	
  des	
  mappings	
  candidats	
  ini(aux.	
  Plus	
  précisément,	
  les	
  
      mappings	
  obtenu	
  en:	
  

      i. appliquant	
  la	
  jointure	
  à	
  la	
  requête	
  source	
  d’un	
  mapping,	
  
        	
  

      ii. augmentant	
  la	
  requête	
  source	
  d'un	
  mapping	
  avec	
  une	
  condi(on	
  de	
  
         	
  
      sélec(on,	
  

      iii. assouplissant	
  la	
  condi(on	
  de	
  sélec(on	
  de	
  la	
  requête	
  source	
  d’un	
  
          	
  
      mapping,	
  

      iv. combinant	
  les	
  requêtes	
  sources	
  de	
  deux	
  ou	
  plusieurs	
  mappings	
  en	
  
         	
  
      u(lisant	
  l'Union,	
  la	
  différence	
  et	
  intersec(on.	
  

18	
  juin	
  2010	
                                  Valenciennes	
                                            23	
  
Explora(on	
  de	
  l'Espace	
  des	
  Solu(ons	
  

  L'espace	
  des	
  mappings	
  qui	
  peuvent	
  être	
  obtenus	
  par	
  raffinement	
  
   est	
  poten(ellement	
  large.	
  

  Un	
  algorithme	
  de	
  recherche	
  qui	
  explore	
  tout	
  l'espace	
  des	
  mappings	
  
   possibles	
  peut	
  ne	
  pas	
  être	
  en	
  mésure	
  de	
  trouver	
  une	
  solu(on	
  dans	
  
   un	
  temps	
  limité.	
  

  Dans	
  le	
  cadre	
  du	
  présent	
  travail,	
  nous	
  avons	
  u(lisé	
  un	
  algorithme	
  
   évolu(onnaire	
  pour	
  explorer	
  l'espace	
  de	
  mappings	
  qui	
  peuvent	
  être	
  
   obtenus	
  par	
  raffinement.	
  


18	
  juin	
  2010	
                          Valenciennes	
                                          24	
  
Algorithm	
  pour	
  le	
  Raffinement	
  de	
  
                    Mappings	
  




18	
  juin	
  2010	
      Valenciennes	
           25	
  
Raffinement	
  de	
  Mappings:	
  
                               Valida(on	
  
  Ques(on:	
  
	
   Est-­‐ce	
  qu’on	
  peut	
  améliorer	
  la	
  qualité	
  des	
  mappings	
  
     candidats	
  iniDaux	
  par	
  raffinement,	
  et,	
  si	
  c’est	
  le	
  cas,	
  à	
  quel	
  
     prix,	
  à	
  savoir,	
  combien	
  de	
  retours	
  uDlisateur	
  sont	
  requis?	
  	
  	
  

  Expérience:	
  Pour	
  répondre	
  à	
  la	
  ques(on	
  ci-­‐dessus,	
  nous	
  avons	
  
   appliqué	
  le	
  processus	
  suivant	
  pour	
  de	
  mul(ples	
  itéra(ons.	
  
            1) Générer	
  un	
  échan(llon	
  de	
  retours	
  u(lisateur	
  
            2) Annoter	
  l'ensemble	
  des	
  mappings	
  candidats.	
  
            3) Raffiner	
  les	
  mappings	
  candidats.	
  

18	
  juin	
  2010	
                            Valenciennes	
                                        26	
  
Raffinement	
  de	
  Mappings:	
  Valida(on	
  (cont.)	
  




18	
  juin	
  2010	
              Valenciennes	
                     27	
  
Conclusions	
  
	
       Annota(on	
  incrémentale	
  de	
  Mappings	
  
  Nous	
  avons	
  montré	
  comment	
  les	
  mappings	
  peuvent	
  être	
  annoter	
  
   progressivement	
  en	
  fonc(on	
  des	
  retours	
  u(lisateurs.	
  
  Nous	
  avons	
  également	
  montré	
  à	
  travers	
  un	
  exercice	
  d'évalua(on	
  que	
  plus	
  
   de	
  retours	
  u(lisateur	
  nous	
  avons,	
  meilleur	
  est	
  la	
  qualité	
  des	
  annota(ons	
  
   calculées.	
  
	
  	
   Applica(on:	
  Sélec(on	
  et	
  Raffinement	
  des	
  mappings	
  
  Les	
  annota(ons	
  calculées	
  sont	
  u(lisées	
  comme	
  entrée	
  pour	
  permemre	
  la	
  
   sélec(on	
  et	
  le	
  raffinement	
  de	
  mappings.	
  
  Les	
  exercices	
  d'évalua(on	
  ont	
  également	
  montré	
  que	
  le	
  raffinement	
  
   mappings	
  est	
  plus	
  rentable	
  (cost-­‐effec(ve)	
  dans	
  les	
  itéra(ons	
  premiers.	
  



18	
  juin	
  2010	
                             Valenciennes	
                                            28	
  
Travaux	
  en	
  Cours	
  
  Propaga(on	
  de	
  retour	
  u(lisateur	
  et	
  des	
  annota(ons.	
  

  Retours	
  u(lisateur	
  inconsistant.	
  




18	
  juin	
  2010	
                   Valenciennes	
                         29	
  
Intégra(on	
  Incrémentale	
  de	
  Données	
  
                  Basée	
  sur	
  les	
  Retours	
  U(lisateur	
  


                               Khalid Belhajjame	

                            Université de Manchester	

                                 Royaume Uni	



18	
  juin	
  2010	
                 Valenciennes	
                  30	
  

Weitere ähnliche Inhalte

Ähnlich wie Intégration incrémentale de données (Valenciennes juin 2010)

Plateformes génériques pour le partage de données et de traitements : exemple...
Plateformes génériques pour le partage de données et de traitements : exemple...Plateformes génériques pour le partage de données et de traitements : exemple...
Plateformes génériques pour le partage de données et de traitements : exemple...Desconnets Jean-Christophe
 
Raisonner l'ouverture, le partage et la réutilisation des données pour l'amél...
Raisonner l'ouverture, le partage et la réutilisation des données pour l'amél...Raisonner l'ouverture, le partage et la réutilisation des données pour l'amél...
Raisonner l'ouverture, le partage et la réutilisation des données pour l'amél...VincentMandinaud
 
OPEN DATA WEEK //Plenary 1: CityPulse or how co-produce with inhabitants mete...
OPEN DATA WEEK //Plenary 1: CityPulse or how co-produce with inhabitants mete...OPEN DATA WEEK //Plenary 1: CityPulse or how co-produce with inhabitants mete...
OPEN DATA WEEK //Plenary 1: CityPulse or how co-produce with inhabitants mete...Fing
 
AGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoireAGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoirenoucher
 
[Open Data] Evaluer l&rsquo;impact économique local de l&rsquo;open data
[Open Data] Evaluer l&rsquo;impact économique local de l&rsquo;open data[Open Data] Evaluer l&rsquo;impact économique local de l&rsquo;open data
[Open Data] Evaluer l&rsquo;impact économique local de l&rsquo;open dataSimon Chignard
 
Approche pour la constitution et la mise en oeuvre des systèmes d'information...
Approche pour la constitution et la mise en oeuvre des systèmes d'information...Approche pour la constitution et la mise en oeuvre des systèmes d'information...
Approche pour la constitution et la mise en oeuvre des systèmes d'information...Desconnets Jean-Christophe
 
Le Comptoir OCTO - Data Science x RdvPermis
Le Comptoir OCTO - Data Science x RdvPermisLe Comptoir OCTO - Data Science x RdvPermis
Le Comptoir OCTO - Data Science x RdvPermisOCTO Technology
 
JABES 2018 - SGBm, focus actualités
JABES 2018 - SGBm, focus actualitésJABES 2018 - SGBm, focus actualités
JABES 2018 - SGBm, focus actualitésABES
 
Open Data Garage - "Comment évaluer l'impact économique de l'open data local ?"
Open Data Garage - "Comment évaluer l'impact économique de l'open data local ?"Open Data Garage - "Comment évaluer l'impact économique de l'open data local ?"
Open Data Garage - "Comment évaluer l'impact économique de l'open data local ?"La French Tech Rennes St Malo
 
Opendata Expoviz
Opendata ExpovizOpendata Expoviz
Opendata ExpovizEXPOVIZ
 
OpenDataGarage-Session1-SimonChignard-CantineNumériqueRennaise
OpenDataGarage-Session1-SimonChignard-CantineNumériqueRennaiseOpenDataGarage-Session1-SimonChignard-CantineNumériqueRennaise
OpenDataGarage-Session1-SimonChignard-CantineNumériqueRennaiseFing
 
Plateforme e-learning PHP
Plateforme e-learning PHP Plateforme e-learning PHP
Plateforme e-learning PHP Saâd Zerhouni
 
Ouvrir les données météorologiques pour la recherche - OpenMeteoData - confér...
Ouvrir les données météorologiques pour la recherche - OpenMeteoData - confér...Ouvrir les données météorologiques pour la recherche - OpenMeteoData - confér...
Ouvrir les données météorologiques pour la recherche - OpenMeteoData - confér...Nicolas Baldeck
 
Apprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMinerApprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMinerMajdi Hannachi
 

Ähnlich wie Intégration incrémentale de données (Valenciennes juin 2010) (15)

Plateformes génériques pour le partage de données et de traitements : exemple...
Plateformes génériques pour le partage de données et de traitements : exemple...Plateformes génériques pour le partage de données et de traitements : exemple...
Plateformes génériques pour le partage de données et de traitements : exemple...
 
Raisonner l'ouverture, le partage et la réutilisation des données pour l'amél...
Raisonner l'ouverture, le partage et la réutilisation des données pour l'amél...Raisonner l'ouverture, le partage et la réutilisation des données pour l'amél...
Raisonner l'ouverture, le partage et la réutilisation des données pour l'amél...
 
OPEN DATA WEEK //Plenary 1: CityPulse or how co-produce with inhabitants mete...
OPEN DATA WEEK //Plenary 1: CityPulse or how co-produce with inhabitants mete...OPEN DATA WEEK //Plenary 1: CityPulse or how co-produce with inhabitants mete...
OPEN DATA WEEK //Plenary 1: CityPulse or how co-produce with inhabitants mete...
 
AGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoireAGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoire
 
[Open Data] Evaluer l&rsquo;impact économique local de l&rsquo;open data
[Open Data] Evaluer l&rsquo;impact économique local de l&rsquo;open data[Open Data] Evaluer l&rsquo;impact économique local de l&rsquo;open data
[Open Data] Evaluer l&rsquo;impact économique local de l&rsquo;open data
 
Approche pour la constitution et la mise en oeuvre des systèmes d'information...
Approche pour la constitution et la mise en oeuvre des systèmes d'information...Approche pour la constitution et la mise en oeuvre des systèmes d'information...
Approche pour la constitution et la mise en oeuvre des systèmes d'information...
 
A presentation of AMIES
A presentation of AMIESA presentation of AMIES
A presentation of AMIES
 
Le Comptoir OCTO - Data Science x RdvPermis
Le Comptoir OCTO - Data Science x RdvPermisLe Comptoir OCTO - Data Science x RdvPermis
Le Comptoir OCTO - Data Science x RdvPermis
 
JABES 2018 - SGBm, focus actualités
JABES 2018 - SGBm, focus actualitésJABES 2018 - SGBm, focus actualités
JABES 2018 - SGBm, focus actualités
 
Open Data Garage - "Comment évaluer l'impact économique de l'open data local ?"
Open Data Garage - "Comment évaluer l'impact économique de l'open data local ?"Open Data Garage - "Comment évaluer l'impact économique de l'open data local ?"
Open Data Garage - "Comment évaluer l'impact économique de l'open data local ?"
 
Opendata Expoviz
Opendata ExpovizOpendata Expoviz
Opendata Expoviz
 
OpenDataGarage-Session1-SimonChignard-CantineNumériqueRennaise
OpenDataGarage-Session1-SimonChignard-CantineNumériqueRennaiseOpenDataGarage-Session1-SimonChignard-CantineNumériqueRennaise
OpenDataGarage-Session1-SimonChignard-CantineNumériqueRennaise
 
Plateforme e-learning PHP
Plateforme e-learning PHP Plateforme e-learning PHP
Plateforme e-learning PHP
 
Ouvrir les données météorologiques pour la recherche - OpenMeteoData - confér...
Ouvrir les données météorologiques pour la recherche - OpenMeteoData - confér...Ouvrir les données météorologiques pour la recherche - OpenMeteoData - confér...
Ouvrir les données météorologiques pour la recherche - OpenMeteoData - confér...
 
Apprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMinerApprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMiner
 

Mehr von Khalid Belhajjame

Lineage-Preserving Anonymization of the Provenance of Collection-Based Workflows
Lineage-Preserving Anonymization of the Provenance of Collection-Based WorkflowsLineage-Preserving Anonymization of the Provenance of Collection-Based Workflows
Lineage-Preserving Anonymization of the Provenance of Collection-Based WorkflowsKhalid Belhajjame
 
Privacy-Preserving Data Analysis Workflows for eScience
Privacy-Preserving Data Analysis Workflows for eSciencePrivacy-Preserving Data Analysis Workflows for eScience
Privacy-Preserving Data Analysis Workflows for eScienceKhalid Belhajjame
 
Converting scripts into reproducible workflow research objects
Converting scripts into reproducible workflow research objectsConverting scripts into reproducible workflow research objects
Converting scripts into reproducible workflow research objectsKhalid Belhajjame
 
Introduction to ProvBench @ Provenance Week 2014
Introduction to ProvBench @ Provenance Week 2014Introduction to ProvBench @ Provenance Week 2014
Introduction to ProvBench @ Provenance Week 2014Khalid Belhajjame
 
Small Is Beautiful: Summarizing Scientific Workflows Using Semantic Annotat...
Small Is Beautiful:  Summarizing Scientific Workflows  Using Semantic Annotat...Small Is Beautiful:  Summarizing Scientific Workflows  Using Semantic Annotat...
Small Is Beautiful: Summarizing Scientific Workflows Using Semantic Annotat...Khalid Belhajjame
 
Case studyworkshoponprovenance
Case studyworkshoponprovenanceCase studyworkshoponprovenance
Case studyworkshoponprovenanceKhalid Belhajjame
 

Mehr von Khalid Belhajjame (14)

Provenance witha purpose
Provenance witha purposeProvenance witha purpose
Provenance witha purpose
 
Lineage-Preserving Anonymization of the Provenance of Collection-Based Workflows
Lineage-Preserving Anonymization of the Provenance of Collection-Based WorkflowsLineage-Preserving Anonymization of the Provenance of Collection-Based Workflows
Lineage-Preserving Anonymization of the Provenance of Collection-Based Workflows
 
Privacy-Preserving Data Analysis Workflows for eScience
Privacy-Preserving Data Analysis Workflows for eSciencePrivacy-Preserving Data Analysis Workflows for eScience
Privacy-Preserving Data Analysis Workflows for eScience
 
Irpb workshop
Irpb workshopIrpb workshop
Irpb workshop
 
Aussois bda-mdd-2018
Aussois bda-mdd-2018Aussois bda-mdd-2018
Aussois bda-mdd-2018
 
Converting scripts into reproducible workflow research objects
Converting scripts into reproducible workflow research objectsConverting scripts into reproducible workflow research objects
Converting scripts into reproducible workflow research objects
 
Ikc 2015
Ikc 2015Ikc 2015
Ikc 2015
 
Reproducibility 1
Reproducibility 1Reproducibility 1
Reproducibility 1
 
Introduction to ProvBench @ Provenance Week 2014
Introduction to ProvBench @ Provenance Week 2014Introduction to ProvBench @ Provenance Week 2014
Introduction to ProvBench @ Provenance Week 2014
 
Tapp 2014 (belhajjame)
Tapp 2014 (belhajjame)Tapp 2014 (belhajjame)
Tapp 2014 (belhajjame)
 
Small Is Beautiful: Summarizing Scientific Workflows Using Semantic Annotat...
Small Is Beautiful:  Summarizing Scientific Workflows  Using Semantic Annotat...Small Is Beautiful:  Summarizing Scientific Workflows  Using Semantic Annotat...
Small Is Beautiful: Summarizing Scientific Workflows Using Semantic Annotat...
 
Why Workflows Break
Why Workflows BreakWhy Workflows Break
Why Workflows Break
 
D-prov use-case
D-prov use-caseD-prov use-case
D-prov use-case
 
Case studyworkshoponprovenance
Case studyworkshoponprovenanceCase studyworkshoponprovenance
Case studyworkshoponprovenance
 

Intégration incrémentale de données (Valenciennes juin 2010)

  • 1. Intégra(on  Incrémentale  de  Données   Basée  sur  les  Retours  U(lisateur     Khalid Belhajjame Université de Manchester Royaume Uni 18  juin  2010   Valenciennes   1  
  • 2. Intégra(on  de  Données   Quels  sont  le  protéines  disponibles  de  la  mouche  des  fruits?     Chercheur        Schéma        central   Mappings   PedroDB   PepSeeker   Pride   GPMDB   18  juin  2010   Valenciennes   2  
  • 3. Intégra(on  Incrémentale  de  Données     Intégra(on  de  Données   –  La  spécifica(on  de  mappings  est  une  ac(vité  couteuse  qui  requière   une  connaissance  profonde  des  sources  de  données  aussi  bien  que  les   besoins  des  u(lisateurs.     Dataspaces:  Pay-­‐as-­‐you-­‐go  Data  Integra3on  [Franklin  et  al.  2005]   –  Réduire  le  temps  d’installa(on  du  système  d’intégra(on  de  données.     –  Améliore  les  services  fournis  par  le  system  d’une  façon  incrémentale   en  interagissant  avec  les  u(lisateurs.   M.  J.  Franklin,  A.  Y.  Halevy,  and  D.  Maier.  From  databases  to  dataspaces:  a  new  abstrac(on  for  informa(on   management.  SIGMOD  Record,  34(4):27–33,  2005.   18  juin  2010   Valenciennes   3  
  • 4. Intégra(on  Incrémentale  de  Données   Quels  sont  le  protéines  disponibles  de  la  mouche  des  fruits?     Chercheur   Schéma   central   Bootstrap   Dataspaces   Mappings   PedroDB   PepSeeker   Pride   GPMDB   Objec(ve:     Étudiez  l'annota(on,  la  sélec(on  et  le  raffinement  incrémental  des  mappings   18  juin  2010   Valenciennes   4  
  • 5. Pay-­‐as-­‐you-­‐go  Data  Integra(on    Nous  considérons  que  les  schémas  des  sources  et  le  schéma  central  sont   rela(onels,  et  que  les  mappings  u(lisés  pour  peupler  les  éléments  du  schéma   central  sont  glabal-­‐as-­‐view  de  la  forme  suivante  : ⟨r,qs⟩ r est une relation du schéma central et qs est une requête spécifiée en terme de sources.  Une  rela(on  du  schéma  central  peut  être  associée  avec  plusieurs  mappings   candidates  pour  sa  popula(on  :  Nous  considérons  une  configura(on  dans   laquelle  mul(ple  mécanismes  de  matching  et  de  mapping  de  schémas  sont   u(lisés. 18  juin  2010   Valenciennes   5  
  • 6. Plan     Retour  U(lisateur  (feedback)     Annota(on  de  Mappings     Sélec(on  de  Mappings  Considérant  les  Besoins  U(lisateur     Raffinement  de  Mappings     18  juin  2010   Valenciennes   6  
  • 7. Retour  U(lisateur     Requête:  Quels  sont  le  protéines  disponibles  de  la  mouche  des  fruits?       Results:   Feedback   ✔   ✖   ✖   ✔   18  juin  2010   Valenciennes   7  
  • 8. Retour  U(lisateur  (cont.)     Considérons  m  un  mapping,  et  UF  un  ensemble  de  retours  u(lisateur   (feedback  instances):       tp(m,UF):  les  tuples  qui  sont  prévus  par  l'u(lisateur  et  qui  sont  retournés   par  le  mapping  m.     fp(m,UF):  les  tuples  qui  ne  sont  pas  prévus  par  l'u(lisateur  et  qui  sont   retournés  par  le  mapping  m.       fn(m,UF):  les  tuples  qui  sont  prévus  par  l'u(lisateur  et  qui  ne  sont  pas   retournés  par  le  mapping  m.   18  juin  2010   Valenciennes   8  
  • 9. Plan    Retour  U(lisateur  (feedback)     Annota(on  de  Mappings     Sélec(on  de  Mappings  Considérant  les  Besoins  U(lisateur     Raffinement  de  Mappings     18  juin  2010   Valenciennes   9  
  • 10. Annota(on  de  Mappings   On  peut  u(liser  un  schéma  d’annota(on  simple  pour  é(queter   les  mappings  comme:    Correct      Incorrect     L'ensemble  de  mappings  peut  être  incomplete,  et,  par   consequent,  nous  allows  tout  simplement  annoter  tout  les   mappings  comme  incorrect,  ce  qui  est  inu(le.   Pour  ceme  raison,  nous  u(lisons  un  schéma  plus  fine  pour   l’annota(on  de  mappings.   18  juin  2010   Valenciennes   10  
  • 11. Annota(on  de  Mappings  (cont.)   Nous  avons  u(lisé  et  adapté  les  no(ons  de  précision  et  de  rappel   u(lisés  dans  la  recherche  d'informa(on  pour  mesurer  la  qualité   d'un  mapping.    Precision:      Rappel:      F  mésure:     18  juin  2010   Valenciennes   11  
  • 12. Annota(on  de  Mappings:  Valida(on   Ques(ons:     –  Combien  de  retours  u(lisateur  (feedback  instances)  faut-­‐il   pour  rapprocher  la  précision  et  le  rappel  réels,  c'est  à  dire   calculés  on  se  basant  sur  la  connaissance  complète  des   résultats  prévues?   –  Est  ce  que  la  philosophie  “pay-­‐as-­‐you-­‐go”  préconisée  par  la   vision  espaces  de  données  (dataspaces)  est  valide  dans  ce   context?   18  juin  2010   Valenciennes   12  
  • 13. Annota(on  de  Mappings:  Valida(on   (cont.)   Expérience:     Données:   –  Deux  collec(ons  de  données:  la  base  de  données  géographiques   Mondial  et  la  base  de  données  bibliographique  amalgames.   –  Les  mappings  candidats:  créés  en  u(lisant  IBM  InfoSphere  Data   Architect.       Processus:  nous  avons  appliqué  le  processus  illustrées  ci-­‐dessous  pour  de   mul(ples  itéra(ons.   1.  Générer  un  échan(llon  de  retours  u(lisateur  (feedback  instances).   2.  Calculer  la  précision  et  le  rappel  des  mappings  candidats  en  u(lisant   le  retours  u(lisateur  cumulés.   18  juin  2010   Valenciennes   13  
  • 14. Annota(on  de  Mappings:     Error   Erreur  dans  la  Precision   18  juin  2010   Valenciennes   14  
  • 15. Mapping  Annota(on:     Error   Erreur  dans  le  rappel   18  juin  2010   Valenciennes   15  
  • 16. Plan    Retour  U(lisateur  (feedback)    Annota(on  de  Mappings     Sélec(on  de  Mappings  Considérant  les  Besoins  U(lisateur     Raffinement  de  Mappings     18  juin  2010   Valenciennes   16  
  • 17. Sélec(on  de  Mappings     La  sélec(on  de  mappings  doit  être  adaptée  pour  répondre  aux  besoins  des   u(lisateurs.     Nous  u(lisons  une  méthode  de  sélec(on  qui  vise  à  maximiser  le  rappel  de  telle   sorte  que  la  précision  des  résultats  est  supérieur  à  un  seuil  de  précision  donnée.     Nous  avons  défini  ceme  méthode    comme  un  problème  d’op(misa(on  qui  vise  à   maximiser  la  fonc(on  d'u(lité  suivantes:   D.  A.  Menascé  and  V.  Dubey.  U(lity-­‐based  qos  brokering  in  service  oriented  architectures.  In  ICWS,  pages   422–430.  IEEE  CS,  2007.   18  juin  2010   Valenciennes   17  
  • 18. Sélec(on  de  Mappings:  Precision   Est-­‐ce  que  ceme  méthode  permet  de  respecter  la  précision   spécifiée  par  l'u(lisateur?   18  juin  2010   Valenciennes   18  
  • 19. Sélec(on  de  Mappings:  Rappel   Est-­‐ce  que  ceme  méthode  permet  de  maximiser  le  rappel?   18  juin  2010   Valenciennes   19  
  • 20. Plan    Retour  U(lisateur  (feedback)    Annota(on  de  Mappings    Sélec(on  de  Mappings  Considérant  les  Besoins  U(lisateur     raffinement  de  Mappings     18  juin  2010   Valenciennes   20  
  • 21. raffinement  de  Mappings     Nous  dis(nguons  deux  types  de  Raffinement:     Raffinement  de  mappings  qui  vise  à  réduire  le  nombre  de  faux  posi(fs     Un  mapping  candidat  est  affinée  par  la  modifica(on  de  sa  requête   source  de  sorte  que  le  nombre  de  faux  posi(fs  retournés  est  réduit.       Raffinement  de  mappings  qui  vise  à  accroître  le  nombre  de  vrais  posi(fs     Un  mapping  candidat  est  affinée  par  la  modifica(on  de  sa  requête   source  de  sorte  que  le  nombre  de  faux  posi(fs  retournés  est  accrue.     18  juin  2010   Valenciennes   21  
  • 22. Mapping  Refinement:  Exemple   Je veux les proteins de mouche de fruit Schéma Protein cebtral Accession name gene m = <Protein, ProteinEntry> Schéma source 18  juin  2010   Valenciennes   22  
  • 23. Raffinement  de  Mappings:     l'espace  des  solu(ons   L'espace  des  solu(ons  est  composé  des  mappings  qui  peuvent  être   construits  à  par(r  des  mappings  candidats  ini(aux.  Plus  précisément,  les   mappings  obtenu  en:   i. appliquant  la  jointure  à  la  requête  source  d’un  mapping,     ii. augmentant  la  requête  source  d'un  mapping  avec  une  condi(on  de     sélec(on,   iii. assouplissant  la  condi(on  de  sélec(on  de  la  requête  source  d’un     mapping,   iv. combinant  les  requêtes  sources  de  deux  ou  plusieurs  mappings  en     u(lisant  l'Union,  la  différence  et  intersec(on.   18  juin  2010   Valenciennes   23  
  • 24. Explora(on  de  l'Espace  des  Solu(ons     L'espace  des  mappings  qui  peuvent  être  obtenus  par  raffinement   est  poten(ellement  large.     Un  algorithme  de  recherche  qui  explore  tout  l'espace  des  mappings   possibles  peut  ne  pas  être  en  mésure  de  trouver  une  solu(on  dans   un  temps  limité.     Dans  le  cadre  du  présent  travail,  nous  avons  u(lisé  un  algorithme   évolu(onnaire  pour  explorer  l'espace  de  mappings  qui  peuvent  être   obtenus  par  raffinement.   18  juin  2010   Valenciennes   24  
  • 25. Algorithm  pour  le  Raffinement  de   Mappings   18  juin  2010   Valenciennes   25  
  • 26. Raffinement  de  Mappings:   Valida(on     Ques(on:     Est-­‐ce  qu’on  peut  améliorer  la  qualité  des  mappings   candidats  iniDaux  par  raffinement,  et,  si  c’est  le  cas,  à  quel   prix,  à  savoir,  combien  de  retours  uDlisateur  sont  requis?         Expérience:  Pour  répondre  à  la  ques(on  ci-­‐dessus,  nous  avons   appliqué  le  processus  suivant  pour  de  mul(ples  itéra(ons.   1) Générer  un  échan(llon  de  retours  u(lisateur   2) Annoter  l'ensemble  des  mappings  candidats.   3) Raffiner  les  mappings  candidats.   18  juin  2010   Valenciennes   26  
  • 27. Raffinement  de  Mappings:  Valida(on  (cont.)   18  juin  2010   Valenciennes   27  
  • 28. Conclusions     Annota(on  incrémentale  de  Mappings     Nous  avons  montré  comment  les  mappings  peuvent  être  annoter   progressivement  en  fonc(on  des  retours  u(lisateurs.     Nous  avons  également  montré  à  travers  un  exercice  d'évalua(on  que  plus   de  retours  u(lisateur  nous  avons,  meilleur  est  la  qualité  des  annota(ons   calculées.       Applica(on:  Sélec(on  et  Raffinement  des  mappings     Les  annota(ons  calculées  sont  u(lisées  comme  entrée  pour  permemre  la   sélec(on  et  le  raffinement  de  mappings.     Les  exercices  d'évalua(on  ont  également  montré  que  le  raffinement   mappings  est  plus  rentable  (cost-­‐effec(ve)  dans  les  itéra(ons  premiers.   18  juin  2010   Valenciennes   28  
  • 29. Travaux  en  Cours     Propaga(on  de  retour  u(lisateur  et  des  annota(ons.     Retours  u(lisateur  inconsistant.   18  juin  2010   Valenciennes   29  
  • 30. Intégra(on  Incrémentale  de  Données   Basée  sur  les  Retours  U(lisateur   Khalid Belhajjame Université de Manchester Royaume Uni 18  juin  2010   Valenciennes   30