2. Marc-Eric LaRocque
•
•
•
•
Associé principal chez
Consultant depuis 1997
En données et en BI depuis 1994
BI et données mais avec un focus sur
–Gestion de projet et programme
–Stratégie
–Agilité
• MBA, PMP, CBIP et CSM
• Président du Salon BI
8. Big Data Microsoft et Hadoop
INSIGHT
Self-Service
Collaboration
Corporate Apps
Devices
DATA ENRICHMENT
Discover
Combine
Refine
DATA
MANAGEMENT
Relational
Non-relational
Analytical
Streaming
9. Hadoop derrière les couvertes
Stockage distribué
Traitement distribué
“MPP” sur stéroide
14. Vrai, mais Hadoop est différent
1. Peut gérer et traiter des volumes
massifs “facilement”. Sans dépenser
une fortune en équipement.
2. Pas une BD*, mais un système de
stockage de fichiers. Donc la structure
est imposée à la lecture
* une BD peu être créée sur HDFS
15. Structure imposée à la lecture
• Une BD nous force à structurer pour pouvoir insérer
• Structurer requiert
–De l’analyse
–De l’architecture
–Du design
–Du développement “up-front”
–Donc…de l’argent
• Structurer nous force à faire des choix de priorités
• Sans avoir à structurer à l’écriture
–On peut insérer plein de choses sans investissement “up-front”
–On structure au moment ou le besoin d’analyse se manifeste
–Si les données sont accessibles, on est déjà bien partis
19. Proposition: Hadoop comme “data lake”
• Amenez les données dans Hadoop autant que possible
• Elles seront dispos au moment ou on en aura besoin pour
analyse de découverte ou autre
• Nous n’auront pas investi dans l’analyse et le design au
début
• Essentiellement, Hadoop comme landing-zone
20. Le data lake nous supporte l’archivage
aussi
• Archivage de données
• Analyses Exploratoires
• Analyse de Découverte
21. Parce qu’il en faut, c’est tout
SECTION DES DESSINS TECHNIQUES
22. Le “data lake”
Insérer toutes les
sources
de données
Data Lake, Data
Reservoir, Landing
Zone, Catch Basin, etc.
Garde les données “en
ligne” longtemps
Peut garder les formats
intermédiaires aussi
23. Utiliser le data lake
“Cruncher” les données
en-place sans les
transférer ailleurs pour
analyses pointues
24. En fait, on commence par où exactement?
COMMENT COMMENCER
25. Pour commencer
1. Comprendre ce qu’est Hadoop
2. Valider le business case possible
3. Valider le cadrage éventuel dans l’architecture
informationnelle
4. Identifier les données et les fonction requises; valider
qu’Hadoop couvre le besoin
5. Assurer que les différences de Hadoop par rapport aux
technologies traditionnelles (RDBMS, appliance, etc.)
sont mises en évidence par le business case choisit –
pas de « trip techno »
6. Émettre un Document de Vision
26. Document de Vision
•
•
•
•
•
•
Énoncés de problèmes
Fonctionnalités clés attendues
Diagramme de contexte (sources, cible, etc.)
Architecture conceptuelle pour solution éventuelle
Architecture logique pour la PdC
Cas d’utilisation de la solution
–Acteurs, profils d’utilisation
–Envergure des données
–Détail des sources
–Traitements à appliquer à la lecture
–Requêtes à supporter par la PdC
27. Exécution: la Preuve de concept (5
étapes)
• Analyse et architecture
•
•
•
•
•
Cédule
Kickoff
Revue des besoins
Analyse des données
Conception de l’application
• Installation
• Configuration
• Chargements, mise en place des données
• Mise en place des composantes requises
• Vérification
• Déploiement
• Transition (si la PdC demeure en place)
29. Conseils
•
•
•
•
•
•
•
•
Informez-vous
Soyez supportés
Choisissez un business case clair, de base
Assurez-vous que les bénéfices sont des retombées
AFFAIRES
Commencez par une preuve de concept
Planifiez bien ce que vous désirez prouver
Attachez les bons intervenants
Utilisez Azure et HDInsight pour partir plus rapidement