SlideShare ist ein Scribd-Unternehmen logo
1 von 18
Intégration de données avec
    les ETL open sources
               Présenté par :
               Horacio LASSEY-ASSIAKOLEY
               Twitter : @horalass



                                           1
Agenda

Contexte
Qu’est ce qu’un ETL
Avantages des ETL
Inconvenients des ETL
Présentation de Talend Open Source
Critères de sélection des ETL
Démo : création de job Talend
Conclusion


                                      2
Contexte (1/3)
      • Les systèmes de production sont
         pas intégrés. Il faut s’assurer que
         les données soit disponibles
         dans tous les systèmes.
      • Les administrateurs définissent
         des routines manuellement pour
         synchroniser les données
      • Ces routines sont difficiles à
         maintenir si elles sont
         programmées

                                        3
Contexte (2/3)




• Les systèmes décisionnelles et de production sont
  séparées.
• Il faut des routines qui alimentent les sources de
  données décisionnelles.
                                                       4
Contexte (3/3)
• Ces routines doivent être automatiques et alimentent
  le système décisionnel de façon quotidienne ( de
  préférence la nuit pour que les rapports soient
  disponible le lendemain matin pour les décideurs)




                                                         5
Qu’est ce qu’un ETL
• ETL est l’acronyme de Extract Transform Load. Un ETL
  combine en elle seule trois fonctionnalités : extraction
  depuis une source de données , la transformation des
  données issues de l’étape précédente et enfin le load
  (chargement) dans une nouvelle source de données.
• On utilise les ETL pour les projets d’intégration de
  données (structure BI), de synchronisation de sources de
  données, migration de données etc…



                                                        6
Avantages des ETL
• Dans un environnement décisionnel une partie des
  besoins ne survient qu’après la mise en production. Il
  faut pouvoir adapter rapidement son code ETL au
  nouveau des utilisateurs tout en gardant une bonne
  qualité du code
• Nécessité de transformer certains données
  opérationnelles sans avoir à programmer.
• Il faut pouvoir stocker les metadatas des transformations
• La plupart des solutions ETL propose des exécutions en
  parallèle et du multi-threading ce qui les rend plus
  performants qu’un code simple
                                                              7
Avantages des ETL (suite)
• Accès à des sources de données très diversifiées et
  intégration des fonctions de filtre, agrégation etc.
• Gestion centralisée des metadata
• Utilisation d’interface graphique conviviale pour
  exécuter les tâches ETL




                                                         8
Inconvénient d’un ETL
• Il faut apprendre un nouvel outil ou concept. Cela
  peut dérouter un programmeur classique
• Il y’a un temps d’apprentissage donc un temps
  d’adaption




                                                       9
Présentation de Talend
                Open Studio
•   TOS est un ETL de la société Talend
•   C’est un projet open source
•   C’est une application Eclipse plateforme
•   Première version en 2005
•   C’est un ETL générateur de code (Java, Perl )




                                                    10
Présentation de Talend
Open Studio ( suite )




                         11
Critère de sélection d’un
                ETL
• Type d’ETL : code generator, database-
  embedded, engine based
• Connecteur natif : SAP, salesforce, XML, etc
• Les temps d’exécution.
• Type de déclencheur ( temps réel , sur évènement
  , batch)




                                                     12
Démo
Job step1 ( Présentation )




                             13
Démo
Job step2 ( Mappage des données )




                                    14
Démo
Job step3 ( Orchestration et gestion de flow)




                                                15
Démo
Job step4 ( gestion des erreurs et deploiement)




                                                  16
Conclusion
Le choix d’un etl est très influencé par le projet que l’on
 fait et le contexte
Mais pour faire son choix il faut tenir compte :
    Connecteurs natifs
    du temps de traitements
    du type d’etl ( générateur de code, moteur de
     transformation, etc)
    du type de déclencheur
Il existe plusieurs ETL open source : Talend , Pentaho data
 Integration etc pour s’essayer et faire la preuve du
 concept
                                                           17
Références
www.talend.com pour vos prémiers pas
The Data Warehouse ETL Toolkit, Ralph Kimball & Joe
 Caserta ( pour toute la théorie des ETL en
 environnement décisionnel)
www.horalass.blogspot.com ( mon blog où je donne
 quelques conseils d’utilisation de Talend )




                                                  18

Weitere ähnliche Inhalte

Was ist angesagt?

Projet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de donnéesProjet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de données
Jean-Marc Dupont
 

Was ist angesagt? (20)

Chp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleChp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique Décisionnelle
 
Présentation bi 1.0
Présentation bi 1.0Présentation bi 1.0
Présentation bi 1.0
 
DataWarehouse
DataWarehouseDataWarehouse
DataWarehouse
 
Système Information - ETL et EAI - Décisionnel et Opérationnel
Système Information - ETL et EAI - Décisionnel et OpérationnelSystème Information - ETL et EAI - Décisionnel et Opérationnel
Système Information - ETL et EAI - Décisionnel et Opérationnel
 
Projet décisionnel
Projet décisionnelProjet décisionnel
Projet décisionnel
 
Bi
BiBi
Bi
 
Bddwdm
BddwdmBddwdm
Bddwdm
 
Cours data warehouse
Cours data warehouseCours data warehouse
Cours data warehouse
 
Business intelligence
Business intelligenceBusiness intelligence
Business intelligence
 
Chapitre 1 les entrepôts de données
Chapitre 1 les entrepôts de donnéesChapitre 1 les entrepôts de données
Chapitre 1 les entrepôts de données
 
BI : Analyse des Données avec Mondrian
BI : Analyse des Données avec Mondrian BI : Analyse des Données avec Mondrian
BI : Analyse des Données avec Mondrian
 
Etat de l’art approche et outils BI
Etat de l’art approche et outils BIEtat de l’art approche et outils BI
Etat de l’art approche et outils BI
 
Chp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation MultidimensionnelleChp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation Multidimensionnelle
 
Présentation data warehouse etl et olap
Présentation data warehouse etl et olapPrésentation data warehouse etl et olap
Présentation data warehouse etl et olap
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Partie2BI-DW2019
Partie2BI-DW2019Partie2BI-DW2019
Partie2BI-DW2019
 
Présentation data vault et bi v20120508
Présentation data vault et bi v20120508Présentation data vault et bi v20120508
Présentation data vault et bi v20120508
 
La Business Intelligence
La Business Intelligence La Business Intelligence
La Business Intelligence
 
Projet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de donnéesProjet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de données
 
ETL Process
ETL ProcessETL Process
ETL Process
 

Andere mochten auch

PFE BI - INPT
PFE BI - INPTPFE BI - INPT
PFE BI - INPT
riyadadva
 
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data WarehouseConception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Abderrahmane Filali
 

Andere mochten auch (20)

exercices business intelligence
exercices business intelligence exercices business intelligence
exercices business intelligence
 
Rapport De PFE
Rapport De PFERapport De PFE
Rapport De PFE
 
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...
 
PFE BI - INPT
PFE BI - INPTPFE BI - INPT
PFE BI - INPT
 
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data WarehouseConception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
 
Projet BI - 1 - Analyse des besoins
Projet BI - 1 - Analyse des besoinsProjet BI - 1 - Analyse des besoins
Projet BI - 1 - Analyse des besoins
 
Td dw1
Td dw1Td dw1
Td dw1
 
Rapport Projet de fin d’études
Rapport Projet de fin d’étudesRapport Projet de fin d’études
Rapport Projet de fin d’études
 
Projet de fin d'études licence Pro TCF Université Ibn Zohr Agadir {Gestion de...
Projet de fin d'études licence Pro TCF Université Ibn Zohr Agadir {Gestion de...Projet de fin d'études licence Pro TCF Université Ibn Zohr Agadir {Gestion de...
Projet de fin d'études licence Pro TCF Université Ibn Zohr Agadir {Gestion de...
 
Petit Déjeuner Talend/SQLI
Petit Déjeuner Talend/SQLIPetit Déjeuner Talend/SQLI
Petit Déjeuner Talend/SQLI
 
Certificate Talend
Certificate TalendCertificate Talend
Certificate Talend
 
Rapport PFE
Rapport PFERapport PFE
Rapport PFE
 
[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend
 
Webinar Smile et Talend : Faites communiquer vos applications en temps réel
Webinar Smile et Talend  : Faites communiquer vos applications en temps réelWebinar Smile et Talend  : Faites communiquer vos applications en temps réel
Webinar Smile et Talend : Faites communiquer vos applications en temps réel
 
Guide talend
Guide talendGuide talend
Guide talend
 
Alphorm.com Formation RDS Windows Server 2008 R2 - Guide du consultant
Alphorm.com Formation  RDS Windows Server 2008 R2 - Guide du consultantAlphorm.com Formation  RDS Windows Server 2008 R2 - Guide du consultant
Alphorm.com Formation RDS Windows Server 2008 R2 - Guide du consultant
 
Alphorm.com Formation le langage SQL
Alphorm.com  Formation le langage SQLAlphorm.com  Formation le langage SQL
Alphorm.com Formation le langage SQL
 
Alphorm.com formation-GNS3
Alphorm.com formation-GNS3Alphorm.com formation-GNS3
Alphorm.com formation-GNS3
 
alphorm.com - Formation PostgreSQL administration
alphorm.com - Formation PostgreSQL administrationalphorm.com - Formation PostgreSQL administration
alphorm.com - Formation PostgreSQL administration
 
alphorm.com - Formation SQL Server 2012 (70-462)
alphorm.com - Formation SQL Server 2012 (70-462)alphorm.com - Formation SQL Server 2012 (70-462)
alphorm.com - Formation SQL Server 2012 (70-462)
 

Ähnlich wie Integration de donnees_etl

Taleb formation-talend-open-studio-data-integration-les-bases-et-perfectionne...
Taleb formation-talend-open-studio-data-integration-les-bases-et-perfectionne...Taleb formation-talend-open-studio-data-integration-les-bases-et-perfectionne...
Taleb formation-talend-open-studio-data-integration-les-bases-et-perfectionne...
CERTyou Formation
 
Switch to alfresco with 1 genia fr
Switch to alfresco with 1 genia frSwitch to alfresco with 1 genia fr
Switch to alfresco with 1 genia fr
Alfresco Software
 
Talei formation-talend-open-studio-data-integration-les-bases
Talei formation-talend-open-studio-data-integration-les-basesTalei formation-talend-open-studio-data-integration-les-bases
Talei formation-talend-open-studio-data-integration-les-bases
CERTyou Formation
 
Talea formation-talend-open-studio-data-integration-perfectionnement
Talea formation-talend-open-studio-data-integration-perfectionnementTalea formation-talend-open-studio-data-integration-perfectionnement
Talea formation-talend-open-studio-data-integration-perfectionnement
CERTyou Formation
 
Cas integration open_erp
Cas integration open_erpCas integration open_erp
Cas integration open_erp
Joubi Aaziz
 

Ähnlich wie Integration de donnees_etl (20)

Taleb formation-talend-open-studio-data-integration-les-bases-et-perfectionne...
Taleb formation-talend-open-studio-data-integration-les-bases-et-perfectionne...Taleb formation-talend-open-studio-data-integration-les-bases-et-perfectionne...
Taleb formation-talend-open-studio-data-integration-les-bases-et-perfectionne...
 
Switch to alfresco with 1 genia fr
Switch to alfresco with 1 genia frSwitch to alfresco with 1 genia fr
Switch to alfresco with 1 genia fr
 
Talei formation-talend-open-studio-data-integration-les-bases
Talei formation-talend-open-studio-data-integration-les-basesTalei formation-talend-open-studio-data-integration-les-bases
Talei formation-talend-open-studio-data-integration-les-bases
 
Bidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from TransformersBidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from Transformers
 
Petit DéJeuner Industrialisation 13 10 2011 Eurosites
Petit DéJeuner Industrialisation 13 10 2011 EurositesPetit DéJeuner Industrialisation 13 10 2011 Eurosites
Petit DéJeuner Industrialisation 13 10 2011 Eurosites
 
Talea formation-talend-open-studio-data-integration-perfectionnement
Talea formation-talend-open-studio-data-integration-perfectionnementTalea formation-talend-open-studio-data-integration-perfectionnement
Talea formation-talend-open-studio-data-integration-perfectionnement
 
Perfug BOF devoxx2017.pptx
Perfug BOF devoxx2017.pptxPerfug BOF devoxx2017.pptx
Perfug BOF devoxx2017.pptx
 
Retour d'expérience TAA - 2011/03/29
Retour d'expérience TAA - 2011/03/29Retour d'expérience TAA - 2011/03/29
Retour d'expérience TAA - 2011/03/29
 
FinistJUG - Apache TomEE
FinistJUG - Apache TomEEFinistJUG - Apache TomEE
FinistJUG - Apache TomEE
 
Comparaison de outils mda
Comparaison de outils mdaComparaison de outils mda
Comparaison de outils mda
 
Cas integration open_erp
Cas integration open_erpCas integration open_erp
Cas integration open_erp
 
Talend, Leading Open Source DataIntegration plateform. Cedric Carbone
Talend, Leading Open Source DataIntegration plateform. Cedric CarboneTalend, Leading Open Source DataIntegration plateform. Cedric Carbone
Talend, Leading Open Source DataIntegration plateform. Cedric Carbone
 
SQL Server et les développeurs
SQL Server et les développeurs SQL Server et les développeurs
SQL Server et les développeurs
 
20160216 - From BigData to BigProcessing
20160216 - From BigData to BigProcessing20160216 - From BigData to BigProcessing
20160216 - From BigData to BigProcessing
 
Présentation LO-Cockpit , SAP
Présentation LO-Cockpit , SAPPrésentation LO-Cockpit , SAP
Présentation LO-Cockpit , SAP
 
Versionning et travail en équipe avec Salesforce - 27/11/2014
Versionning et travail en équipe avec Salesforce - 27/11/2014Versionning et travail en équipe avec Salesforce - 27/11/2014
Versionning et travail en équipe avec Salesforce - 27/11/2014
 
Deep Dive Performance , le In-Memory dans SQL Server
Deep Dive Performance , le In-Memory dans SQL ServerDeep Dive Performance , le In-Memory dans SQL Server
Deep Dive Performance , le In-Memory dans SQL Server
 
Usine Logicielle 2013
Usine Logicielle 2013Usine Logicielle 2013
Usine Logicielle 2013
 
Parc info
Parc infoParc info
Parc info
 
Quoi de neuf dans la version 11 Alexandria ?
Quoi de neuf dans la version 11 Alexandria ?Quoi de neuf dans la version 11 Alexandria ?
Quoi de neuf dans la version 11 Alexandria ?
 

Integration de donnees_etl

  • 1. Intégration de données avec les ETL open sources Présenté par : Horacio LASSEY-ASSIAKOLEY Twitter : @horalass 1
  • 2. Agenda Contexte Qu’est ce qu’un ETL Avantages des ETL Inconvenients des ETL Présentation de Talend Open Source Critères de sélection des ETL Démo : création de job Talend Conclusion 2
  • 3. Contexte (1/3) • Les systèmes de production sont pas intégrés. Il faut s’assurer que les données soit disponibles dans tous les systèmes. • Les administrateurs définissent des routines manuellement pour synchroniser les données • Ces routines sont difficiles à maintenir si elles sont programmées 3
  • 4. Contexte (2/3) • Les systèmes décisionnelles et de production sont séparées. • Il faut des routines qui alimentent les sources de données décisionnelles. 4
  • 5. Contexte (3/3) • Ces routines doivent être automatiques et alimentent le système décisionnel de façon quotidienne ( de préférence la nuit pour que les rapports soient disponible le lendemain matin pour les décideurs) 5
  • 6. Qu’est ce qu’un ETL • ETL est l’acronyme de Extract Transform Load. Un ETL combine en elle seule trois fonctionnalités : extraction depuis une source de données , la transformation des données issues de l’étape précédente et enfin le load (chargement) dans une nouvelle source de données. • On utilise les ETL pour les projets d’intégration de données (structure BI), de synchronisation de sources de données, migration de données etc… 6
  • 7. Avantages des ETL • Dans un environnement décisionnel une partie des besoins ne survient qu’après la mise en production. Il faut pouvoir adapter rapidement son code ETL au nouveau des utilisateurs tout en gardant une bonne qualité du code • Nécessité de transformer certains données opérationnelles sans avoir à programmer. • Il faut pouvoir stocker les metadatas des transformations • La plupart des solutions ETL propose des exécutions en parallèle et du multi-threading ce qui les rend plus performants qu’un code simple 7
  • 8. Avantages des ETL (suite) • Accès à des sources de données très diversifiées et intégration des fonctions de filtre, agrégation etc. • Gestion centralisée des metadata • Utilisation d’interface graphique conviviale pour exécuter les tâches ETL 8
  • 9. Inconvénient d’un ETL • Il faut apprendre un nouvel outil ou concept. Cela peut dérouter un programmeur classique • Il y’a un temps d’apprentissage donc un temps d’adaption 9
  • 10. Présentation de Talend Open Studio • TOS est un ETL de la société Talend • C’est un projet open source • C’est une application Eclipse plateforme • Première version en 2005 • C’est un ETL générateur de code (Java, Perl ) 10
  • 11. Présentation de Talend Open Studio ( suite ) 11
  • 12. Critère de sélection d’un ETL • Type d’ETL : code generator, database- embedded, engine based • Connecteur natif : SAP, salesforce, XML, etc • Les temps d’exécution. • Type de déclencheur ( temps réel , sur évènement , batch) 12
  • 13. Démo Job step1 ( Présentation ) 13
  • 14. Démo Job step2 ( Mappage des données ) 14
  • 15. Démo Job step3 ( Orchestration et gestion de flow) 15
  • 16. Démo Job step4 ( gestion des erreurs et deploiement) 16
  • 17. Conclusion Le choix d’un etl est très influencé par le projet que l’on fait et le contexte Mais pour faire son choix il faut tenir compte :  Connecteurs natifs  du temps de traitements  du type d’etl ( générateur de code, moteur de transformation, etc)  du type de déclencheur Il existe plusieurs ETL open source : Talend , Pentaho data Integration etc pour s’essayer et faire la preuve du concept 17
  • 18. Références www.talend.com pour vos prémiers pas The Data Warehouse ETL Toolkit, Ralph Kimball & Joe Caserta ( pour toute la théorie des ETL en environnement décisionnel) www.horalass.blogspot.com ( mon blog où je donne quelques conseils d’utilisation de Talend ) 18