C'est une presentation sur les ETL. On explique pourquoi il faut utiliser un ETL et non créer des routines à la main. On présente Talend Open Studio qui est un projet open source et quelques exemples
1. Intégration de données avec
les ETL open sources
Présenté par :
Horacio LASSEY-ASSIAKOLEY
Twitter : @horalass
1
2. Agenda
Contexte
Qu’est ce qu’un ETL
Avantages des ETL
Inconvenients des ETL
Présentation de Talend Open Source
Critères de sélection des ETL
Démo : création de job Talend
Conclusion
2
3. Contexte (1/3)
• Les systèmes de production sont
pas intégrés. Il faut s’assurer que
les données soit disponibles
dans tous les systèmes.
• Les administrateurs définissent
des routines manuellement pour
synchroniser les données
• Ces routines sont difficiles à
maintenir si elles sont
programmées
3
4. Contexte (2/3)
• Les systèmes décisionnelles et de production sont
séparées.
• Il faut des routines qui alimentent les sources de
données décisionnelles.
4
5. Contexte (3/3)
• Ces routines doivent être automatiques et alimentent
le système décisionnel de façon quotidienne ( de
préférence la nuit pour que les rapports soient
disponible le lendemain matin pour les décideurs)
5
6. Qu’est ce qu’un ETL
• ETL est l’acronyme de Extract Transform Load. Un ETL
combine en elle seule trois fonctionnalités : extraction
depuis une source de données , la transformation des
données issues de l’étape précédente et enfin le load
(chargement) dans une nouvelle source de données.
• On utilise les ETL pour les projets d’intégration de
données (structure BI), de synchronisation de sources de
données, migration de données etc…
6
7. Avantages des ETL
• Dans un environnement décisionnel une partie des
besoins ne survient qu’après la mise en production. Il
faut pouvoir adapter rapidement son code ETL au
nouveau des utilisateurs tout en gardant une bonne
qualité du code
• Nécessité de transformer certains données
opérationnelles sans avoir à programmer.
• Il faut pouvoir stocker les metadatas des transformations
• La plupart des solutions ETL propose des exécutions en
parallèle et du multi-threading ce qui les rend plus
performants qu’un code simple
7
8. Avantages des ETL (suite)
• Accès à des sources de données très diversifiées et
intégration des fonctions de filtre, agrégation etc.
• Gestion centralisée des metadata
• Utilisation d’interface graphique conviviale pour
exécuter les tâches ETL
8
9. Inconvénient d’un ETL
• Il faut apprendre un nouvel outil ou concept. Cela
peut dérouter un programmeur classique
• Il y’a un temps d’apprentissage donc un temps
d’adaption
9
10. Présentation de Talend
Open Studio
• TOS est un ETL de la société Talend
• C’est un projet open source
• C’est une application Eclipse plateforme
• Première version en 2005
• C’est un ETL générateur de code (Java, Perl )
10
12. Critère de sélection d’un
ETL
• Type d’ETL : code generator, database-
embedded, engine based
• Connecteur natif : SAP, salesforce, XML, etc
• Les temps d’exécution.
• Type de déclencheur ( temps réel , sur évènement
, batch)
12
17. Conclusion
Le choix d’un etl est très influencé par le projet que l’on
fait et le contexte
Mais pour faire son choix il faut tenir compte :
Connecteurs natifs
du temps de traitements
du type d’etl ( générateur de code, moteur de
transformation, etc)
du type de déclencheur
Il existe plusieurs ETL open source : Talend , Pentaho data
Integration etc pour s’essayer et faire la preuve du
concept
17
18. Références
www.talend.com pour vos prémiers pas
The Data Warehouse ETL Toolkit, Ralph Kimball & Joe
Caserta ( pour toute la théorie des ETL en
environnement décisionnel)
www.horalass.blogspot.com ( mon blog où je donne
quelques conseils d’utilisation de Talend )
18