Integration de donnees_etl

H
horacio lasseySelf employed consultant um Agilux
Intégration de données avec
    les ETL open sources
               Présenté par :
               Horacio LASSEY-ASSIAKOLEY
               Twitter : @horalass



                                           1
Agenda

Contexte
Qu’est ce qu’un ETL
Avantages des ETL
Inconvenients des ETL
Présentation de Talend Open Source
Critères de sélection des ETL
Démo : création de job Talend
Conclusion


                                      2
Contexte (1/3)
      • Les systèmes de production sont
         pas intégrés. Il faut s’assurer que
         les données soit disponibles
         dans tous les systèmes.
      • Les administrateurs définissent
         des routines manuellement pour
         synchroniser les données
      • Ces routines sont difficiles à
         maintenir si elles sont
         programmées

                                        3
Contexte (2/3)




• Les systèmes décisionnelles et de production sont
  séparées.
• Il faut des routines qui alimentent les sources de
  données décisionnelles.
                                                       4
Contexte (3/3)
• Ces routines doivent être automatiques et alimentent
  le système décisionnel de façon quotidienne ( de
  préférence la nuit pour que les rapports soient
  disponible le lendemain matin pour les décideurs)




                                                         5
Qu’est ce qu’un ETL
• ETL est l’acronyme de Extract Transform Load. Un ETL
  combine en elle seule trois fonctionnalités : extraction
  depuis une source de données , la transformation des
  données issues de l’étape précédente et enfin le load
  (chargement) dans une nouvelle source de données.
• On utilise les ETL pour les projets d’intégration de
  données (structure BI), de synchronisation de sources de
  données, migration de données etc…



                                                        6
Avantages des ETL
• Dans un environnement décisionnel une partie des
  besoins ne survient qu’après la mise en production. Il
  faut pouvoir adapter rapidement son code ETL au
  nouveau des utilisateurs tout en gardant une bonne
  qualité du code
• Nécessité de transformer certains données
  opérationnelles sans avoir à programmer.
• Il faut pouvoir stocker les metadatas des transformations
• La plupart des solutions ETL propose des exécutions en
  parallèle et du multi-threading ce qui les rend plus
  performants qu’un code simple
                                                              7
Avantages des ETL (suite)
• Accès à des sources de données très diversifiées et
  intégration des fonctions de filtre, agrégation etc.
• Gestion centralisée des metadata
• Utilisation d’interface graphique conviviale pour
  exécuter les tâches ETL




                                                         8
Inconvénient d’un ETL
• Il faut apprendre un nouvel outil ou concept. Cela
  peut dérouter un programmeur classique
• Il y’a un temps d’apprentissage donc un temps
  d’adaption




                                                       9
Présentation de Talend
                Open Studio
•   TOS est un ETL de la société Talend
•   C’est un projet open source
•   C’est une application Eclipse plateforme
•   Première version en 2005
•   C’est un ETL générateur de code (Java, Perl )




                                                    10
Présentation de Talend
Open Studio ( suite )




                         11
Critère de sélection d’un
                ETL
• Type d’ETL : code generator, database-
  embedded, engine based
• Connecteur natif : SAP, salesforce, XML, etc
• Les temps d’exécution.
• Type de déclencheur ( temps réel , sur évènement
  , batch)




                                                     12
Démo
Job step1 ( Présentation )




                             13
Démo
Job step2 ( Mappage des données )




                                    14
Démo
Job step3 ( Orchestration et gestion de flow)




                                                15
Démo
Job step4 ( gestion des erreurs et deploiement)




                                                  16
Conclusion
Le choix d’un etl est très influencé par le projet que l’on
 fait et le contexte
Mais pour faire son choix il faut tenir compte :
    Connecteurs natifs
    du temps de traitements
    du type d’etl ( générateur de code, moteur de
     transformation, etc)
    du type de déclencheur
Il existe plusieurs ETL open source : Talend , Pentaho data
 Integration etc pour s’essayer et faire la preuve du
 concept
                                                           17
Références
www.talend.com pour vos prémiers pas
The Data Warehouse ETL Toolkit, Ralph Kimball & Joe
 Caserta ( pour toute la théorie des ETL en
 environnement décisionnel)
www.horalass.blogspot.com ( mon blog où je donne
 quelques conseils d’utilisation de Talend )




                                                  18
1 von 18

Recomendados

Le processus ETL (Extraction, Transformation, Chargement) von
Le processus ETL (Extraction, Transformation, Chargement)Le processus ETL (Extraction, Transformation, Chargement)
Le processus ETL (Extraction, Transformation, Chargement)Salah Eddine BENTALBA (+15K Connections)
13K views11 Folien
Qu'est-ce qu'un ETL ? von
Qu'est-ce qu'un ETL ?Qu'est-ce qu'un ETL ?
Qu'est-ce qu'un ETL ?Mathieu Lahaye
5.2K views11 Folien
Etl - von
Etl -Etl -
Etl -Khouloud Ben Cheikh
874 views18 Folien
Système Information - ETL et EAI - Décisionnel et Opérationnel von
Système Information - ETL et EAI - Décisionnel et OpérationnelSystème Information - ETL et EAI - Décisionnel et Opérationnel
Système Information - ETL et EAI - Décisionnel et OpérationnelFrédéric FAURE
21.2K views22 Folien
Intégration des données avec Talend ETL von
Intégration des données avec Talend ETLIntégration des données avec Talend ETL
Intégration des données avec Talend ETLLilia Sfaxi
23.3K views10 Folien
Présentation data warehouse etl et olap von
Présentation data warehouse etl et olapPrésentation data warehouse etl et olap
Présentation data warehouse etl et olapCynapsys It Hotspot
1.9K views12 Folien

Más contenido relacionado

Was ist angesagt?

DataWarehouse von
DataWarehouseDataWarehouse
DataWarehousenzuguem
1.8K views82 Folien
Projet Bi - 3 - Alimentation des données von
Projet Bi - 3 - Alimentation des donnéesProjet Bi - 3 - Alimentation des données
Projet Bi - 3 - Alimentation des donnéesJean-Marc Dupont
11.3K views24 Folien
Business Intelligence : Transformer les données en information. von
Business Intelligence : Transformer les données en information.Business Intelligence : Transformer les données en information.
Business Intelligence : Transformer les données en information.arnaudm
15K views16 Folien
Conception datawarehouse von
Conception datawarehouseConception datawarehouse
Conception datawarehouseHassane Dkhissi
10.2K views16 Folien
Partie2BI-DW2019 von
Partie2BI-DW2019Partie2BI-DW2019
Partie2BI-DW2019Aziz Darouichi
2.1K views73 Folien
Présentation bi 1.0 von
Présentation bi 1.0Présentation bi 1.0
Présentation bi 1.0Alexandre Bodin
10.5K views57 Folien

Was ist angesagt?(20)

DataWarehouse von nzuguem
DataWarehouseDataWarehouse
DataWarehouse
nzuguem1.8K views
Projet Bi - 3 - Alimentation des données von Jean-Marc Dupont
Projet Bi - 3 - Alimentation des donnéesProjet Bi - 3 - Alimentation des données
Projet Bi - 3 - Alimentation des données
Jean-Marc Dupont11.3K views
Business Intelligence : Transformer les données en information. von arnaudm
Business Intelligence : Transformer les données en information.Business Intelligence : Transformer les données en information.
Business Intelligence : Transformer les données en information.
arnaudm15K views
Présentation Talend Open Studio von horacio lassey
Présentation Talend Open StudioPrésentation Talend Open Studio
Présentation Talend Open Studio
horacio lassey8.9K views
Etat de l’art approche et outils BI von Said Sadik
Etat de l’art approche et outils BIEtat de l’art approche et outils BI
Etat de l’art approche et outils BI
Said Sadik9.2K views
La BI : Qu’est-ce que c’est ? A quoi ça sert ? von Jean-Marc Dupont
La BI : Qu’est-ce que c’est ? A quoi ça sert ?La BI : Qu’est-ce que c’est ? A quoi ça sert ?
La BI : Qu’est-ce que c’est ? A quoi ça sert ?
Jean-Marc Dupont25.2K views
Projet BI - 1 - Analyse des besoins von Jean-Marc Dupont
Projet BI - 1 - Analyse des besoinsProjet BI - 1 - Analyse des besoins
Projet BI - 1 - Analyse des besoins
Jean-Marc Dupont77.8K views
Chp2 - Les Entrepôts de Données von Lilia Sfaxi
Chp2 - Les Entrepôts de DonnéesChp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de Données
Lilia Sfaxi20K views
Business Intelligence von Lilia Sfaxi
Business IntelligenceBusiness Intelligence
Business Intelligence
Lilia Sfaxi9.3K views
Cours data warehouse von khlifi z
Cours data warehouseCours data warehouse
Cours data warehouse
khlifi z564 views
Les systèmes d'information et tableau de bord von TayssirLimem
Les systèmes d'information et tableau de bordLes systèmes d'information et tableau de bord
Les systèmes d'information et tableau de bord
TayssirLimem463 views
Chp3 - Modélisation Multidimensionnelle von Lilia Sfaxi
Chp3 - Modélisation MultidimensionnelleChp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation Multidimensionnelle
Lilia Sfaxi33.4K views
Chp1 - Introduction à l'Informatique Décisionnelle von Lilia Sfaxi
Chp1 - Introduction à l'Informatique DécisionnelleChp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique Décisionnelle
Lilia Sfaxi44K views

Destacado

exercices business intelligence von
exercices business intelligence exercices business intelligence
exercices business intelligence Yassine Badri
28.6K views8 Folien
Rapport De PFE von
Rapport De PFERapport De PFE
Rapport De PFENadir Haouari
192.1K views99 Folien
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’... von
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...Jean-Pierre Riehl
3.2K views22 Folien
PFE BI - INPT von
PFE BI - INPTPFE BI - INPT
PFE BI - INPTriyadadva
31.7K views90 Folien
Conception et Réalisation d'un Data Warehouse von
Conception et Réalisation d'un Data WarehouseConception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data WarehouseAbderrahmane Filali
44.3K views155 Folien
Td dw1 von
Td dw1Td dw1
Td dw1Houssem Ghammam
9.6K views4 Folien

Destacado(20)

exercices business intelligence von Yassine Badri
exercices business intelligence exercices business intelligence
exercices business intelligence
Yassine Badri28.6K views
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’... von Jean-Pierre Riehl
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...
Jean-Pierre Riehl3.2K views
PFE BI - INPT von riyadadva
PFE BI - INPTPFE BI - INPT
PFE BI - INPT
riyadadva31.7K views
Conception et Réalisation d'un Data Warehouse von Abderrahmane Filali
Conception et Réalisation d'un Data WarehouseConception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Abderrahmane Filali44.3K views
Projet de fin d'études licence Pro TCF Université Ibn Zohr Agadir {Gestion de... von HAFID Ait Bihi
Projet de fin d'études licence Pro TCF Université Ibn Zohr Agadir {Gestion de...Projet de fin d'études licence Pro TCF Université Ibn Zohr Agadir {Gestion de...
Projet de fin d'études licence Pro TCF Université Ibn Zohr Agadir {Gestion de...
HAFID Ait Bihi64.3K views
Petit Déjeuner Talend/SQLI von Cedric CARBONE
Petit Déjeuner Talend/SQLIPetit Déjeuner Talend/SQLI
Petit Déjeuner Talend/SQLI
Cedric CARBONE1.4K views
Webinar Smile et Talend : Faites communiquer vos applications en temps réel von Smile I.T is open
Webinar Smile et Talend  : Faites communiquer vos applications en temps réelWebinar Smile et Talend  : Faites communiquer vos applications en temps réel
Webinar Smile et Talend : Faites communiquer vos applications en temps réel
Alphorm.com Formation RDS Windows Server 2008 R2 - Guide du consultant von Alphorm
Alphorm.com Formation  RDS Windows Server 2008 R2 - Guide du consultantAlphorm.com Formation  RDS Windows Server 2008 R2 - Guide du consultant
Alphorm.com Formation RDS Windows Server 2008 R2 - Guide du consultant
Alphorm28.7K views
Alphorm.com Formation le langage SQL von Alphorm
Alphorm.com  Formation le langage SQLAlphorm.com  Formation le langage SQL
Alphorm.com Formation le langage SQL
Alphorm164.1K views
Alphorm.com formation-GNS3 von Alphorm
Alphorm.com formation-GNS3Alphorm.com formation-GNS3
Alphorm.com formation-GNS3
Alphorm82.3K views
alphorm.com - Formation PostgreSQL administration von Alphorm
alphorm.com - Formation PostgreSQL administrationalphorm.com - Formation PostgreSQL administration
alphorm.com - Formation PostgreSQL administration
Alphorm37.4K views
alphorm.com - Formation SQL Server 2012 (70-462) von Alphorm
alphorm.com - Formation SQL Server 2012 (70-462)alphorm.com - Formation SQL Server 2012 (70-462)
alphorm.com - Formation SQL Server 2012 (70-462)
Alphorm98.2K views

Similar a Integration de donnees_etl

Taleb formation-talend-open-studio-data-integration-les-bases-et-perfectionne... von
Taleb formation-talend-open-studio-data-integration-les-bases-et-perfectionne...Taleb formation-talend-open-studio-data-integration-les-bases-et-perfectionne...
Taleb formation-talend-open-studio-data-integration-les-bases-et-perfectionne...CERTyou Formation
222 views2 Folien
Switch to alfresco with 1 genia fr von
Switch to alfresco with 1 genia frSwitch to alfresco with 1 genia fr
Switch to alfresco with 1 genia frAlfresco Software
827 views18 Folien
Talei formation-talend-open-studio-data-integration-les-bases von
Talei formation-talend-open-studio-data-integration-les-basesTalei formation-talend-open-studio-data-integration-les-bases
Talei formation-talend-open-studio-data-integration-les-basesCERTyou Formation
140 views2 Folien
Petit DéJeuner Industrialisation 13 10 2011 Eurosites von
Petit DéJeuner Industrialisation 13 10 2011 EurositesPetit DéJeuner Industrialisation 13 10 2011 Eurosites
Petit DéJeuner Industrialisation 13 10 2011 EurositesHervé Leclerc
744 views70 Folien
Talea formation-talend-open-studio-data-integration-perfectionnement von
Talea formation-talend-open-studio-data-integration-perfectionnementTalea formation-talend-open-studio-data-integration-perfectionnement
Talea formation-talend-open-studio-data-integration-perfectionnementCERTyou Formation
141 views2 Folien
Perfug BOF devoxx2017.pptx von
Perfug BOF devoxx2017.pptxPerfug BOF devoxx2017.pptx
Perfug BOF devoxx2017.pptxMarc Bojoly
423 views39 Folien

Similar a Integration de donnees_etl(20)

Taleb formation-talend-open-studio-data-integration-les-bases-et-perfectionne... von CERTyou Formation
Taleb formation-talend-open-studio-data-integration-les-bases-et-perfectionne...Taleb formation-talend-open-studio-data-integration-les-bases-et-perfectionne...
Taleb formation-talend-open-studio-data-integration-les-bases-et-perfectionne...
CERTyou Formation222 views
Talei formation-talend-open-studio-data-integration-les-bases von CERTyou Formation
Talei formation-talend-open-studio-data-integration-les-basesTalei formation-talend-open-studio-data-integration-les-bases
Talei formation-talend-open-studio-data-integration-les-bases
CERTyou Formation140 views
Petit DéJeuner Industrialisation 13 10 2011 Eurosites von Hervé Leclerc
Petit DéJeuner Industrialisation 13 10 2011 EurositesPetit DéJeuner Industrialisation 13 10 2011 Eurosites
Petit DéJeuner Industrialisation 13 10 2011 Eurosites
Hervé Leclerc744 views
Talea formation-talend-open-studio-data-integration-perfectionnement von CERTyou Formation
Talea formation-talend-open-studio-data-integration-perfectionnementTalea formation-talend-open-studio-data-integration-perfectionnement
Talea formation-talend-open-studio-data-integration-perfectionnement
CERTyou Formation141 views
Perfug BOF devoxx2017.pptx von Marc Bojoly
Perfug BOF devoxx2017.pptxPerfug BOF devoxx2017.pptx
Perfug BOF devoxx2017.pptx
Marc Bojoly423 views
OSDC 2011 - Des ETL pour drupal von Rodolfo Ripado
OSDC 2011 - Des ETL pour drupalOSDC 2011 - Des ETL pour drupal
OSDC 2011 - Des ETL pour drupal
Rodolfo Ripado1.9K views
Comparaison de outils mda von Shili Mohamed
Comparaison de outils mdaComparaison de outils mda
Comparaison de outils mda
Shili Mohamed2.1K views
Cas integration open_erp von Joubi Aaziz
Cas integration open_erpCas integration open_erp
Cas integration open_erp
Joubi Aaziz2.7K views
Talend, Leading Open Source DataIntegration plateform. Cedric Carbone von Cedric CARBONE
Talend, Leading Open Source DataIntegration plateform. Cedric CarboneTalend, Leading Open Source DataIntegration plateform. Cedric Carbone
Talend, Leading Open Source DataIntegration plateform. Cedric Carbone
Cedric CARBONE3.4K views
SQL Server et les développeurs von Microsoft
SQL Server et les développeurs SQL Server et les développeurs
SQL Server et les développeurs
Microsoft600 views
Deep Dive Performance , le In-Memory dans SQL Server von Microsoft
Deep Dive Performance , le In-Memory dans SQL ServerDeep Dive Performance , le In-Memory dans SQL Server
Deep Dive Performance , le In-Memory dans SQL Server
Microsoft1.1K views
Quoi de neuf dans la version 11 Alexandria ? von pprem
Quoi de neuf dans la version 11 Alexandria ?Quoi de neuf dans la version 11 Alexandria ?
Quoi de neuf dans la version 11 Alexandria ?
pprem47 views

Integration de donnees_etl

  • 1. Intégration de données avec les ETL open sources Présenté par : Horacio LASSEY-ASSIAKOLEY Twitter : @horalass 1
  • 2. Agenda Contexte Qu’est ce qu’un ETL Avantages des ETL Inconvenients des ETL Présentation de Talend Open Source Critères de sélection des ETL Démo : création de job Talend Conclusion 2
  • 3. Contexte (1/3) • Les systèmes de production sont pas intégrés. Il faut s’assurer que les données soit disponibles dans tous les systèmes. • Les administrateurs définissent des routines manuellement pour synchroniser les données • Ces routines sont difficiles à maintenir si elles sont programmées 3
  • 4. Contexte (2/3) • Les systèmes décisionnelles et de production sont séparées. • Il faut des routines qui alimentent les sources de données décisionnelles. 4
  • 5. Contexte (3/3) • Ces routines doivent être automatiques et alimentent le système décisionnel de façon quotidienne ( de préférence la nuit pour que les rapports soient disponible le lendemain matin pour les décideurs) 5
  • 6. Qu’est ce qu’un ETL • ETL est l’acronyme de Extract Transform Load. Un ETL combine en elle seule trois fonctionnalités : extraction depuis une source de données , la transformation des données issues de l’étape précédente et enfin le load (chargement) dans une nouvelle source de données. • On utilise les ETL pour les projets d’intégration de données (structure BI), de synchronisation de sources de données, migration de données etc… 6
  • 7. Avantages des ETL • Dans un environnement décisionnel une partie des besoins ne survient qu’après la mise en production. Il faut pouvoir adapter rapidement son code ETL au nouveau des utilisateurs tout en gardant une bonne qualité du code • Nécessité de transformer certains données opérationnelles sans avoir à programmer. • Il faut pouvoir stocker les metadatas des transformations • La plupart des solutions ETL propose des exécutions en parallèle et du multi-threading ce qui les rend plus performants qu’un code simple 7
  • 8. Avantages des ETL (suite) • Accès à des sources de données très diversifiées et intégration des fonctions de filtre, agrégation etc. • Gestion centralisée des metadata • Utilisation d’interface graphique conviviale pour exécuter les tâches ETL 8
  • 9. Inconvénient d’un ETL • Il faut apprendre un nouvel outil ou concept. Cela peut dérouter un programmeur classique • Il y’a un temps d’apprentissage donc un temps d’adaption 9
  • 10. Présentation de Talend Open Studio • TOS est un ETL de la société Talend • C’est un projet open source • C’est une application Eclipse plateforme • Première version en 2005 • C’est un ETL générateur de code (Java, Perl ) 10
  • 11. Présentation de Talend Open Studio ( suite ) 11
  • 12. Critère de sélection d’un ETL • Type d’ETL : code generator, database- embedded, engine based • Connecteur natif : SAP, salesforce, XML, etc • Les temps d’exécution. • Type de déclencheur ( temps réel , sur évènement , batch) 12
  • 13. Démo Job step1 ( Présentation ) 13
  • 14. Démo Job step2 ( Mappage des données ) 14
  • 15. Démo Job step3 ( Orchestration et gestion de flow) 15
  • 16. Démo Job step4 ( gestion des erreurs et deploiement) 16
  • 17. Conclusion Le choix d’un etl est très influencé par le projet que l’on fait et le contexte Mais pour faire son choix il faut tenir compte :  Connecteurs natifs  du temps de traitements  du type d’etl ( générateur de code, moteur de transformation, etc)  du type de déclencheur Il existe plusieurs ETL open source : Talend , Pentaho data Integration etc pour s’essayer et faire la preuve du concept 17
  • 18. Références www.talend.com pour vos prémiers pas The Data Warehouse ETL Toolkit, Ralph Kimball & Joe Caserta ( pour toute la théorie des ETL en environnement décisionnel) www.horalass.blogspot.com ( mon blog où je donne quelques conseils d’utilisation de Talend ) 18