SlideShare ist ein Scribd-Unternehmen logo
1 von 26
Downloaden Sie, um offline zu lesen
Big Data, Kesako ?




Christophe Aran, Consultant décisionnel                              Référence : ASO-XXX
                                                                              Version : 1.0
                                                                           Du : 06/11/2012




 www.groupeastek.com
                                 Modèle : ASO-2007-M_PPT-0012 v2.1
Sommaire


                      •   Contexte actuel
                      •   Définition du Big Data
                      •   L’écosystème Hadoop
                      •   Les intérêts business du Big Data
                      •   Un cas concret : Karma chez Air France
                      •   Conclusion
www.groupeastek.com




                                                        Modèle : ASO-2007-M_PPT-0012 v2.1
Un déluge de données


                      YouTube reçoit 24h de vidéo toutes les minutes
                      500 téraoctets de données transitent chaque jour sur
                      Facebook
                      140 millions de tweets par jour
                      6 milliards de téléphones mobiles en activité en 2012
                      Des pics de 22 commandes à la seconde chez
                      Spartoo pendant les soldes
www.groupeastek.com




                      90% des données créées dans le monde l’ont été
                             au cours des 2 dernières années

                                                                 Modèle : ASO-2007-M_PPT-0012 v2.1
Et une collecte de données incessantes
                      Données commerciales
                       • Transactions
                      Informations Client
                       • CRM
                       • Dossiers médicaux
                      Informations Produits
                       • Codes barres
                       • RFID
                      Web
                       • Pages
www.groupeastek.com




                       • Journaux d’accès
                      Informations non structurées
                       • Réseaux sociaux
                       • GPS
                       • Mobile                          Modèle : ASO-2007-M_PPT-0012 v2.1
Les limites des SGBD actuels


                      Coût du stockage
                      Scalabilité
                      Performance
                      Format des données
                      Schémas figés
www.groupeastek.com




                                                     Modèle : ASO-2007-M_PPT-0012 v2.1
Le besoin


                      Système qui peut gérer de gros volumes de
                      données
                      Scalable
                      Robuste
                      Haute disponibilité
                      Economique
www.groupeastek.com




                              Nouvelle approche

                                                        Modèle : ASO-2007-M_PPT-0012 v2.1
Définition du Big Data

                      « Le Big Data fait référence à l'explosion du volume
                      des données dans l'entreprise et des nouveaux
                      moyens technologiques proposés par les éditeurs
                      pour y répondre »
                                                                          Gartner
www.groupeastek.com




                                                                Modèle : ASO-2007-M_PPT-0012 v2.1
Le concept des 3 V


                      Volume
                      Les entreprises sont submergées de
                                                                                             Vitesse
                                                                                             Parfois, 2 minutes c'est trop. Pour la
                      volumes de données croissants de                                       détection de fraudes par exemple, le
                      tous types, qui se comptent en                                         Big Data doit être utilisé au fil de l'eau,
                      téraoctets, voire en pétaoctets.                                       à mesure que les données sont
                                                                                             collectées par l’entreprise afin d'en
                                                                                             tirer le maximum de valeur.



                                                            Valeur
www.groupeastek.com




                                                           Variété
                                                           Le Big Data se présente sous la forme
                                                           de données structurées ou non
                                                           structurées   (texte,    données     de
                                                           capteurs, son, vidéo, fichiers journaux,
                                                           etc.).

                                                                                                              Modèle : ASO-2007-M_PPT-0012 v2.1
Hadoop, kesako ?


                      Inspiré de publications Google (2004)
                        Google Filesystem
                        Google Map Reduce
                      Créé par Doug Cutting, salarié chez Yahoo
                      Framework Open Source écrit en Java
                      Géré sous l'égide de la fondation Apache
                      Communauté très active, développement rapide
                      Un périmètre qui s’élargit constamment
www.groupeastek.com




                      Orienté « batch »



                                                              Modèle : ASO-2007-M_PPT-0012 v2.1
L’écosystème Hadoop
www.groupeastek.com




                                            Modèle : ASO-2007-M_PPT-0012 v2.1
HDFS


                      Système de fichiers distribué
                      Traitement de volumes de
                      données considérables
                      Découpage des fichiers par blocs
                      Fonctionne sur des serveurs “low
                      cost” (au minimum 3)
                      Fault Tolerant
                      Scalable
                      NameNode : gestion des
                      métadonnées
www.groupeastek.com




                      DataNode : stockage des
                      données



                                                         Modèle : ASO-2007-M_PPT-0012 v2.1
Map Reduce


                      Calcul distribué
                      Input | Map() | Sort | Reduce() | Output
                      JobTracker : gestion des jobs
                      TaskTracker : exécution des tâches
                      Map() et Reduce() sur chaque noeud
www.groupeastek.com




                                                                 Modèle : ASO-2007-M_PPT-0012 v2.1
Cas pratique (1/2) : stockage dans le HDFS

                      Notre fichier sera réparti en
                      un ensemble de blocs
                      répliqués dans les nœuds
                      du HDFS.
                      La réplication des blocs est
                      configurable, dans notre
                      exemple elle est de 3.
www.groupeastek.com




                                                         Modèle : ASO-2007-M_PPT-0012 v2.1
Cas pratique (2/2) : comptage des mots
www.groupeastek.com




                      Parallélisation des traitements
                      sur l’ensemble des nœuds du
                      HDFS grâce à Map Reduce
                                                         Modèle : ASO-2007-M_PPT-0012 v2.1
Pig vs Hive

                      Objectif commun : s’abstraire de la complexité de Map/Reduce

                      PIG                              HIVE
                      • Langage de script              • Pseudo-SQL
                      • Né chez Yahoo                  • Né chez Facebook
                      • Flexible / simple              • Rigide / Connu
                      • ETL                            • Interrogation
                      • Mise en œuvre UDF              • JDBC / ODBC
www.groupeastek.com




                                                                       Modèle : ASO-2007-M_PPT-0012 v2.1
Hbase et le NoSQL


                      Montée en puissance du mouvement NoSQL
                        Pour contourner les contraintes du modèle relationnel
                        Pas de jointures, très flexible
                        Forte scalabilité horizontale
                        Une éclosion de différents paradigmes
                      HBase
                        Implémentation open source de Google BigTable
                        Basé sur HDFS (non obligatoire)
                        Base de données orientée colonnes
www.groupeastek.com




                        En concurrence avec Cassandra




                                                                       Modèle : ASO-2007-M_PPT-0012 v2.1
Exemple : modélisation d’un fichier Achat
                      Format : (Table, RowKey, Family, Column, Timestamp) -> Value


                                                       Création d’une table :
                                                       create ‘achat’, {NAME => ‘acheteur’}, {NAME =>
                                                       ‘produit’, {NAME => ‘achat’}

                                                       Insertion d’une ligne :
                                                       put ‘achat’, ‘1’, ‘acheteur:nom’, ‘MARIE’
                                                       put ‘achat’, ‘1’, ‘acheteur:type’, ‘particulier’

                                                       Suppression d’une ligne :
                                                       delete 'achat', 1, 'achat:date‘
                                                       deleteall 'achat', 1

                                                       Lecture d’un enregistrement :
www.groupeastek.com




                                                       get 'achat', 1
                                                       get 'achat', 1, {COLUMN => 'produit:marque'}




                                                                                          Modèle : ASO-2007-M_PPT-0012 v2.1
Et pour l’intégration au SI existant


                      Sqoop
                       • Import / Export de données
                       • Import automatique
                       • Prise en charge de nombreuses
                         bases relationnelles
                      Flume
                       • Collecte de logs
                       • Data streaming
www.groupeastek.com




                                                             Modèle : ASO-2007-M_PPT-0012 v2.1
La solution Big Data de Talend


                      Lancement de Talend Open Studio for Big Data
                      Simplification des développements Big Data
                       • Environnement de développement graphique
                       • Connecteurs Big Data prêts à l’emploi



                      Depuis Octobre 2012, support des bases de
                      données NoSQL et connecteurs disponibles pour :
                       • HBase
www.groupeastek.com




                       • Cassandra
                       • MongoDB



                                                                    Modèle : ASO-2007-M_PPT-0012 v2.1
Les intérêts business du Big Data


                      Enfin un supercalculateur à la disposition de tous
                      De nouveaux horizons jusque-là inexplorés
                       • CRM : segmentation en exploitant les goûts et sentiments des
                         clients/prospects récoltés sur les réseaux sociaux
                       • Finance : contrôle en temps réel des transactions
                         frauduleuses ou à risques
                       • RH : exploitation des données LinkedIn (par exemple) pour
                         anticiper la volonté de départ d’un collaborateur clé
                       • Logistique : optimisation des flux de transport en temps réel
                         en fonction du trafic routier
www.groupeastek.com




                       • …




                                                                        Modèle : ASO-2007-M_PPT-0012 v2.1
Un cas concret : Karma chez Air France


                      Karma : Revenue Management AF/KLM
                      Composants Hadoop utilisées
                       • HDFS / Map Reduce / Sqoop / Pig
                       • Développement en interne : scheduler + interface web
                      Mise en Production courant 2013
                      Quelques chiffres :
                       • Un cluster de 90 serveurs pour déployer Hadoop
                       • 80 développeurs à Valbonne pour l’écriture des jobs MR
www.groupeastek.com




                       • 130 jobs déjà développés, 400 d’ici 2 ans
                       • 7h de traitement batch quotidien pour lancer les jobs MR et
                         mettre à jour les bases Oracle
                       • 300 analystes à Roissy pour analyser les données

                                                                         Modèle : ASO-2007-M_PPT-0012 v2.1
Conclusion


                      Un bol d’oxygène pour le traitement des données
                      volumineuses et pour la BI en particulier
                      Limites
                      • Un écosystème évoluant très rapidement, nécessite
                        encore du temps pour stabiliser les différents modules
                      • Si les volumes sont faibles (inférieur à 10To), un SGBD
                        classique suffira la plupart du temps
                      A suivre
                      •   Google Dremel / Cloudera Impala / Apache Drill
www.groupeastek.com




                      •   Positionnement des éditeurs « traditionnels »
                      •   Google, futur acteur majeur de la BI ?
                      •   Un nouveau métier : Data Scientist


                                                                           Modèle : ASO-2007-M_PPT-0012 v2.1
Pour plus d’informations


                      http://hadoop.apache.org/
                      http://pig.apache.org/
                      http://hive.apache.org/

                      https://developers.google.com/bigquery/
                      http://code.google.com/edu/parallel/mapreduce-
                      tutorial.html
www.groupeastek.com




                      http://www.kimballgroup.com/html/articles.html : The
                      Evolving Role of the Enterprise Data Warehouse in
                      the Era of Big Data Analytics (Ralph Kimball)

                                                                Modèle : ASO-2007-M_PPT-0012 v2.1
Merci. Des questions ?
www.groupeastek.com




                                               Modèle : ASO-2007-M_PPT-0012 v2.1
Annexe 1 : un autre exemple Map Reduce
                      Jeu de données :




                      Algorithme MapReduce afin de sortir le nombre d’occurrences des mots
                      constituant le texte :
www.groupeastek.com




                                                                                     Modèle : ASO-2007-M_PPT-0012 v2.1
Annexe 2 : une architecture BI transformée
www.groupeastek.com




                                                          Modèle : ASO-2007-M_PPT-0012 v2.1

Weitere ähnliche Inhalte

Was ist angesagt?

Valtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech
 
Valtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesKezhan SHI
 
Big Data... Big Analytics à travers les âges, les industries et les technologies
Big Data... Big Analytics à travers les âges, les industries et les technologiesBig Data... Big Analytics à travers les âges, les industries et les technologies
Big Data... Big Analytics à travers les âges, les industries et les technologiesHassan Lâasri
 
La valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesLa valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesSAS FRANCE
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1Amal Abid
 
Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013ADBS
 
La Big Data et ses applications
La Big Data et ses applicationsLa Big Data et ses applications
La Big Data et ses applicationsAffinity Engine
 
Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Philippe METAYER
 
BIG DATA - Cloud Computing
BIG DATA - Cloud ComputingBIG DATA - Cloud Computing
BIG DATA - Cloud Computingsenejug
 
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDI
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDIPrésentation pfe Big Data Hachem SELMI et Ahmed DRIDI
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDIHaShem Selmi
 
Du Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processusDu Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processusCHAKER ALLAOUI
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel businessMouhsine LAKHDISSI
 
BIG DATA - Les données au service de la business intelligence
BIG DATA - Les données au service de la business intelligenceBIG DATA - Les données au service de la business intelligence
BIG DATA - Les données au service de la business intelligenceJulien DEMAUGÉ-BOST
 
Point de Vue Sopra Consulting sur le Big Data
Point de Vue Sopra Consulting sur le Big DataPoint de Vue Sopra Consulting sur le Big Data
Point de Vue Sopra Consulting sur le Big DataNicolas Peene
 

Was ist angesagt? (20)

Valtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvre
 
Valtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entreprise
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuaires
 
Big data
Big dataBig data
Big data
 
Big Data... Big Analytics à travers les âges, les industries et les technologies
Big Data... Big Analytics à travers les âges, les industries et les technologiesBig Data... Big Analytics à travers les âges, les industries et les technologies
Big Data... Big Analytics à travers les âges, les industries et les technologies
 
La valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesLa valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usages
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013
 
La Big Data et ses applications
La Big Data et ses applicationsLa Big Data et ses applications
La Big Data et ses applications
 
Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"
 
BIG DATA - Cloud Computing
BIG DATA - Cloud ComputingBIG DATA - Cloud Computing
BIG DATA - Cloud Computing
 
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDI
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDIPrésentation pfe Big Data Hachem SELMI et Ahmed DRIDI
Présentation pfe Big Data Hachem SELMI et Ahmed DRIDI
 
Du Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processusDu Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processus
 
Big data
Big dataBig data
Big data
 
Programme Big Data
Programme Big DataProgramme Big Data
Programme Big Data
 
Etude sur le Big Data
Etude sur le Big DataEtude sur le Big Data
Etude sur le Big Data
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel business
 
Technologies pour le Big Data
Technologies pour le Big DataTechnologies pour le Big Data
Technologies pour le Big Data
 
BIG DATA - Les données au service de la business intelligence
BIG DATA - Les données au service de la business intelligenceBIG DATA - Les données au service de la business intelligence
BIG DATA - Les données au service de la business intelligence
 
Point de Vue Sopra Consulting sur le Big Data
Point de Vue Sopra Consulting sur le Big DataPoint de Vue Sopra Consulting sur le Big Data
Point de Vue Sopra Consulting sur le Big Data
 

Andere mochten auch

Découvrez les nouvelles fonctionnalités de Talend 6
Découvrez les nouvelles fonctionnalités de Talend 6Découvrez les nouvelles fonctionnalités de Talend 6
Découvrez les nouvelles fonctionnalités de Talend 6Jean-Michel Franco
 
Altaide les métiers du numérique, le grand capharnaüm 0316
Altaide les métiers du numérique, le grand capharnaüm 0316Altaide les métiers du numérique, le grand capharnaüm 0316
Altaide les métiers du numérique, le grand capharnaüm 0316ALTAIDE
 
Altaide : Les nouveaux métiers du Big Data et Cloud Computing
Altaide : Les nouveaux métiers du Big Data et Cloud ComputingAltaide : Les nouveaux métiers du Big Data et Cloud Computing
Altaide : Les nouveaux métiers du Big Data et Cloud ComputingALTAIDE
 
Hadoop Ecosystème (2013-03) par Affini-Tech
Hadoop Ecosystème (2013-03) par Affini-TechHadoop Ecosystème (2013-03) par Affini-Tech
Hadoop Ecosystème (2013-03) par Affini-TechVincent Heuschling
 
Hadoop Hbase - Introduction
Hadoop Hbase - IntroductionHadoop Hbase - Introduction
Hadoop Hbase - IntroductionBlandine Larbret
 
Comment fidéliser et générer du trafic via SMS ?
Comment fidéliser et générer du trafic via SMS ? Comment fidéliser et générer du trafic via SMS ?
Comment fidéliser et générer du trafic via SMS ? Fayçal Boulkout
 
Recursos hídricos del perú
Recursos hídricos del perú Recursos hídricos del perú
Recursos hídricos del perú Bigbaí Rupp
 
Reporters d'espoirs petit déjeuner 9122010
Reporters d'espoirs petit déjeuner 9122010Reporters d'espoirs petit déjeuner 9122010
Reporters d'espoirs petit déjeuner 9122010PhiTrust Partenaires
 
Fpi formación por proyectos
Fpi formación por proyectosFpi formación por proyectos
Fpi formación por proyectos32130
 
Consejos para Declarar en el Formulario Virtual 683
Consejos para Declarar en el Formulario Virtual 683Consejos para Declarar en el Formulario Virtual 683
Consejos para Declarar en el Formulario Virtual 683Renta2013
 
Forum 3 trading media comment ça marche
Forum 3   trading media comment ça marcheForum 3   trading media comment ça marche
Forum 3 trading media comment ça marcheMatiro
 
La toscane. coro
La toscane. coroLa toscane. coro
La toscane. corofilipj2000
 
Web analytics : suivre le trafic issu des moteurs de recherche
Web analytics : suivre le trafic issu des moteurs de rechercheWeb analytics : suivre le trafic issu des moteurs de recherche
Web analytics : suivre le trafic issu des moteurs de rechercheNicolas Guillard
 
Paris Bluetooth MobiGuide explorcamp (20080516)
Paris Bluetooth MobiGuide explorcamp (20080516)Paris Bluetooth MobiGuide explorcamp (20080516)
Paris Bluetooth MobiGuide explorcamp (20080516)Mairie de Paris
 
El planeta marte 8D
El planeta marte 8DEl planeta marte 8D
El planeta marte 8DFila1
 

Andere mochten auch (20)

Découvrez les nouvelles fonctionnalités de Talend 6
Découvrez les nouvelles fonctionnalités de Talend 6Découvrez les nouvelles fonctionnalités de Talend 6
Découvrez les nouvelles fonctionnalités de Talend 6
 
Altaide les métiers du numérique, le grand capharnaüm 0316
Altaide les métiers du numérique, le grand capharnaüm 0316Altaide les métiers du numérique, le grand capharnaüm 0316
Altaide les métiers du numérique, le grand capharnaüm 0316
 
Altaide : Les nouveaux métiers du Big Data et Cloud Computing
Altaide : Les nouveaux métiers du Big Data et Cloud ComputingAltaide : Les nouveaux métiers du Big Data et Cloud Computing
Altaide : Les nouveaux métiers du Big Data et Cloud Computing
 
Hadoop Ecosystème (2013-03) par Affini-Tech
Hadoop Ecosystème (2013-03) par Affini-TechHadoop Ecosystème (2013-03) par Affini-Tech
Hadoop Ecosystème (2013-03) par Affini-Tech
 
Hadoop Hbase - Introduction
Hadoop Hbase - IntroductionHadoop Hbase - Introduction
Hadoop Hbase - Introduction
 
Comment fidéliser et générer du trafic via SMS ?
Comment fidéliser et générer du trafic via SMS ? Comment fidéliser et générer du trafic via SMS ?
Comment fidéliser et générer du trafic via SMS ?
 
Tema 1
Tema 1Tema 1
Tema 1
 
Recursos hídricos del perú
Recursos hídricos del perú Recursos hídricos del perú
Recursos hídricos del perú
 
Gouttes de pluie
Gouttes de pluieGouttes de pluie
Gouttes de pluie
 
Reporters d'espoirs petit déjeuner 9122010
Reporters d'espoirs petit déjeuner 9122010Reporters d'espoirs petit déjeuner 9122010
Reporters d'espoirs petit déjeuner 9122010
 
Unidad 2
Unidad 2Unidad 2
Unidad 2
 
Fpi formación por proyectos
Fpi formación por proyectosFpi formación por proyectos
Fpi formación por proyectos
 
Consejos para Declarar en el Formulario Virtual 683
Consejos para Declarar en el Formulario Virtual 683Consejos para Declarar en el Formulario Virtual 683
Consejos para Declarar en el Formulario Virtual 683
 
Forum 3 trading media comment ça marche
Forum 3   trading media comment ça marcheForum 3   trading media comment ça marche
Forum 3 trading media comment ça marche
 
La toscane. coro
La toscane. coroLa toscane. coro
La toscane. coro
 
Web analytics : suivre le trafic issu des moteurs de recherche
Web analytics : suivre le trafic issu des moteurs de rechercheWeb analytics : suivre le trafic issu des moteurs de recherche
Web analytics : suivre le trafic issu des moteurs de recherche
 
Paris Bluetooth MobiGuide explorcamp (20080516)
Paris Bluetooth MobiGuide explorcamp (20080516)Paris Bluetooth MobiGuide explorcamp (20080516)
Paris Bluetooth MobiGuide explorcamp (20080516)
 
Hidrocarburos, energia y medio ambiente
Hidrocarburos, energia y medio ambienteHidrocarburos, energia y medio ambiente
Hidrocarburos, energia y medio ambiente
 
Filosofia(liberdade)
Filosofia(liberdade)Filosofia(liberdade)
Filosofia(liberdade)
 
El planeta marte 8D
El planeta marte 8DEl planeta marte 8D
El planeta marte 8D
 

Ähnlich wie Big Data, kesako ?

Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big DataIdriss22
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Denodo
 
La Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance clientLa Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance clientDenodo
 
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...
Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...OCTO Technology
 
EXL Group - Offre Data Science
EXL Group - Offre Data ScienceEXL Group - Offre Data Science
EXL Group - Offre Data ScienceAshraf Grioute
 
Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...
Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...
Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...Nuxeo
 
BigData & Cloud @ Excelerate Systems France
BigData & Cloud @ Excelerate Systems FranceBigData & Cloud @ Excelerate Systems France
BigData & Cloud @ Excelerate Systems FranceExcelerate Systems
 
3 minutes pour comprendre ... le Big Data
3 minutes pour comprendre ... le Big Data3 minutes pour comprendre ... le Big Data
3 minutes pour comprendre ... le Big DataAlain KHEMILI
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data VirtualizationDenodo
 
Big data Paris Presentation Solocal 20150310
Big data Paris Presentation Solocal 20150310Big data Paris Presentation Solocal 20150310
Big data Paris Presentation Solocal 20150310Abed Ajraou
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data VirtualizationDenodo
 
Pourquoi l'analytique est un enjeu important
Pourquoi l'analytique est un enjeu importantPourquoi l'analytique est un enjeu important
Pourquoi l'analytique est un enjeu importantSolutions IT et Business
 
EuraTech Trends : Big Data
EuraTech Trends : Big DataEuraTech Trends : Big Data
EuraTech Trends : Big DataEuraTechnologies
 
AIRBUS DOTE SES EQUIPES COMMERCIALES D’UNE SOLUTION BIG DATA
AIRBUS DOTE SES EQUIPES COMMERCIALES D’UNE SOLUTION BIG DATAAIRBUS DOTE SES EQUIPES COMMERCIALES D’UNE SOLUTION BIG DATA
AIRBUS DOTE SES EQUIPES COMMERCIALES D’UNE SOLUTION BIG DATASQLI DIGITAL EXPERIENCE
 
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015IBM France Lab
 
Démo des nouvelles versions Dynamics CRM, L'utilisateur au centre des innovat...
Démo des nouvelles versions Dynamics CRM, L'utilisateur au centre des innovat...Démo des nouvelles versions Dynamics CRM, L'utilisateur au centre des innovat...
Démo des nouvelles versions Dynamics CRM, L'utilisateur au centre des innovat...Microsoft Décideurs IT
 

Ähnlich wie Big Data, kesako ? (20)

Big Data, Kesako ?
Big Data, Kesako ?Big Data, Kesako ?
Big Data, Kesako ?
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big Data
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
 
La Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance clientLa Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance client
 
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...
Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...
 
Big data
Big dataBig data
Big data
 
EXL Group - Offre Data Science
EXL Group - Offre Data ScienceEXL Group - Offre Data Science
EXL Group - Offre Data Science
 
Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...
Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...
Océane consulting - Intégration de Luxid TEMIS dans Nuxeo Platform - Nuxeo ...
 
BigData & Cloud @ Excelerate Systems France
BigData & Cloud @ Excelerate Systems FranceBigData & Cloud @ Excelerate Systems France
BigData & Cloud @ Excelerate Systems France
 
3 minutes pour comprendre ... le Big Data
3 minutes pour comprendre ... le Big Data3 minutes pour comprendre ... le Big Data
3 minutes pour comprendre ... le Big Data
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 
BigData BigBuzz @ Le Node
BigData BigBuzz @ Le Node BigData BigBuzz @ Le Node
BigData BigBuzz @ Le Node
 
Big data Paris Presentation Solocal 20150310
Big data Paris Presentation Solocal 20150310Big data Paris Presentation Solocal 20150310
Big data Paris Presentation Solocal 20150310
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 
Pourquoi l'analytique est un enjeu important
Pourquoi l'analytique est un enjeu importantPourquoi l'analytique est un enjeu important
Pourquoi l'analytique est un enjeu important
 
EuraTech Trends : Big Data
EuraTech Trends : Big DataEuraTech Trends : Big Data
EuraTech Trends : Big Data
 
Introduction au Big data
Introduction au Big data Introduction au Big data
Introduction au Big data
 
AIRBUS DOTE SES EQUIPES COMMERCIALES D’UNE SOLUTION BIG DATA
AIRBUS DOTE SES EQUIPES COMMERCIALES D’UNE SOLUTION BIG DATAAIRBUS DOTE SES EQUIPES COMMERCIALES D’UNE SOLUTION BIG DATA
AIRBUS DOTE SES EQUIPES COMMERCIALES D’UNE SOLUTION BIG DATA
 
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
 
Démo des nouvelles versions Dynamics CRM, L'utilisateur au centre des innovat...
Démo des nouvelles versions Dynamics CRM, L'utilisateur au centre des innovat...Démo des nouvelles versions Dynamics CRM, L'utilisateur au centre des innovat...
Démo des nouvelles versions Dynamics CRM, L'utilisateur au centre des innovat...
 

Big Data, kesako ?

  • 1. Big Data, Kesako ? Christophe Aran, Consultant décisionnel Référence : ASO-XXX Version : 1.0 Du : 06/11/2012 www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1
  • 2. Sommaire • Contexte actuel • Définition du Big Data • L’écosystème Hadoop • Les intérêts business du Big Data • Un cas concret : Karma chez Air France • Conclusion www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1
  • 3. Un déluge de données YouTube reçoit 24h de vidéo toutes les minutes 500 téraoctets de données transitent chaque jour sur Facebook 140 millions de tweets par jour 6 milliards de téléphones mobiles en activité en 2012 Des pics de 22 commandes à la seconde chez Spartoo pendant les soldes www.groupeastek.com 90% des données créées dans le monde l’ont été au cours des 2 dernières années Modèle : ASO-2007-M_PPT-0012 v2.1
  • 4. Et une collecte de données incessantes Données commerciales • Transactions Informations Client • CRM • Dossiers médicaux Informations Produits • Codes barres • RFID Web • Pages www.groupeastek.com • Journaux d’accès Informations non structurées • Réseaux sociaux • GPS • Mobile Modèle : ASO-2007-M_PPT-0012 v2.1
  • 5. Les limites des SGBD actuels Coût du stockage Scalabilité Performance Format des données Schémas figés www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1
  • 6. Le besoin Système qui peut gérer de gros volumes de données Scalable Robuste Haute disponibilité Economique www.groupeastek.com Nouvelle approche Modèle : ASO-2007-M_PPT-0012 v2.1
  • 7. Définition du Big Data « Le Big Data fait référence à l'explosion du volume des données dans l'entreprise et des nouveaux moyens technologiques proposés par les éditeurs pour y répondre » Gartner www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1
  • 8. Le concept des 3 V Volume Les entreprises sont submergées de Vitesse Parfois, 2 minutes c'est trop. Pour la volumes de données croissants de détection de fraudes par exemple, le tous types, qui se comptent en Big Data doit être utilisé au fil de l'eau, téraoctets, voire en pétaoctets. à mesure que les données sont collectées par l’entreprise afin d'en tirer le maximum de valeur. Valeur www.groupeastek.com Variété Le Big Data se présente sous la forme de données structurées ou non structurées (texte, données de capteurs, son, vidéo, fichiers journaux, etc.). Modèle : ASO-2007-M_PPT-0012 v2.1
  • 9. Hadoop, kesako ? Inspiré de publications Google (2004) Google Filesystem Google Map Reduce Créé par Doug Cutting, salarié chez Yahoo Framework Open Source écrit en Java Géré sous l'égide de la fondation Apache Communauté très active, développement rapide Un périmètre qui s’élargit constamment www.groupeastek.com Orienté « batch » Modèle : ASO-2007-M_PPT-0012 v2.1
  • 10. L’écosystème Hadoop www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1
  • 11. HDFS Système de fichiers distribué Traitement de volumes de données considérables Découpage des fichiers par blocs Fonctionne sur des serveurs “low cost” (au minimum 3) Fault Tolerant Scalable NameNode : gestion des métadonnées www.groupeastek.com DataNode : stockage des données Modèle : ASO-2007-M_PPT-0012 v2.1
  • 12. Map Reduce Calcul distribué Input | Map() | Sort | Reduce() | Output JobTracker : gestion des jobs TaskTracker : exécution des tâches Map() et Reduce() sur chaque noeud www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1
  • 13. Cas pratique (1/2) : stockage dans le HDFS Notre fichier sera réparti en un ensemble de blocs répliqués dans les nœuds du HDFS. La réplication des blocs est configurable, dans notre exemple elle est de 3. www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1
  • 14. Cas pratique (2/2) : comptage des mots www.groupeastek.com Parallélisation des traitements sur l’ensemble des nœuds du HDFS grâce à Map Reduce Modèle : ASO-2007-M_PPT-0012 v2.1
  • 15. Pig vs Hive Objectif commun : s’abstraire de la complexité de Map/Reduce PIG HIVE • Langage de script • Pseudo-SQL • Né chez Yahoo • Né chez Facebook • Flexible / simple • Rigide / Connu • ETL • Interrogation • Mise en œuvre UDF • JDBC / ODBC www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1
  • 16. Hbase et le NoSQL Montée en puissance du mouvement NoSQL Pour contourner les contraintes du modèle relationnel Pas de jointures, très flexible Forte scalabilité horizontale Une éclosion de différents paradigmes HBase Implémentation open source de Google BigTable Basé sur HDFS (non obligatoire) Base de données orientée colonnes www.groupeastek.com En concurrence avec Cassandra Modèle : ASO-2007-M_PPT-0012 v2.1
  • 17. Exemple : modélisation d’un fichier Achat Format : (Table, RowKey, Family, Column, Timestamp) -> Value Création d’une table : create ‘achat’, {NAME => ‘acheteur’}, {NAME => ‘produit’, {NAME => ‘achat’} Insertion d’une ligne : put ‘achat’, ‘1’, ‘acheteur:nom’, ‘MARIE’ put ‘achat’, ‘1’, ‘acheteur:type’, ‘particulier’ Suppression d’une ligne : delete 'achat', 1, 'achat:date‘ deleteall 'achat', 1 Lecture d’un enregistrement : www.groupeastek.com get 'achat', 1 get 'achat', 1, {COLUMN => 'produit:marque'} Modèle : ASO-2007-M_PPT-0012 v2.1
  • 18. Et pour l’intégration au SI existant Sqoop • Import / Export de données • Import automatique • Prise en charge de nombreuses bases relationnelles Flume • Collecte de logs • Data streaming www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1
  • 19. La solution Big Data de Talend Lancement de Talend Open Studio for Big Data Simplification des développements Big Data • Environnement de développement graphique • Connecteurs Big Data prêts à l’emploi Depuis Octobre 2012, support des bases de données NoSQL et connecteurs disponibles pour : • HBase www.groupeastek.com • Cassandra • MongoDB Modèle : ASO-2007-M_PPT-0012 v2.1
  • 20. Les intérêts business du Big Data Enfin un supercalculateur à la disposition de tous De nouveaux horizons jusque-là inexplorés • CRM : segmentation en exploitant les goûts et sentiments des clients/prospects récoltés sur les réseaux sociaux • Finance : contrôle en temps réel des transactions frauduleuses ou à risques • RH : exploitation des données LinkedIn (par exemple) pour anticiper la volonté de départ d’un collaborateur clé • Logistique : optimisation des flux de transport en temps réel en fonction du trafic routier www.groupeastek.com • … Modèle : ASO-2007-M_PPT-0012 v2.1
  • 21. Un cas concret : Karma chez Air France Karma : Revenue Management AF/KLM Composants Hadoop utilisées • HDFS / Map Reduce / Sqoop / Pig • Développement en interne : scheduler + interface web Mise en Production courant 2013 Quelques chiffres : • Un cluster de 90 serveurs pour déployer Hadoop • 80 développeurs à Valbonne pour l’écriture des jobs MR www.groupeastek.com • 130 jobs déjà développés, 400 d’ici 2 ans • 7h de traitement batch quotidien pour lancer les jobs MR et mettre à jour les bases Oracle • 300 analystes à Roissy pour analyser les données Modèle : ASO-2007-M_PPT-0012 v2.1
  • 22. Conclusion Un bol d’oxygène pour le traitement des données volumineuses et pour la BI en particulier Limites • Un écosystème évoluant très rapidement, nécessite encore du temps pour stabiliser les différents modules • Si les volumes sont faibles (inférieur à 10To), un SGBD classique suffira la plupart du temps A suivre • Google Dremel / Cloudera Impala / Apache Drill www.groupeastek.com • Positionnement des éditeurs « traditionnels » • Google, futur acteur majeur de la BI ? • Un nouveau métier : Data Scientist Modèle : ASO-2007-M_PPT-0012 v2.1
  • 23. Pour plus d’informations http://hadoop.apache.org/ http://pig.apache.org/ http://hive.apache.org/ https://developers.google.com/bigquery/ http://code.google.com/edu/parallel/mapreduce- tutorial.html www.groupeastek.com http://www.kimballgroup.com/html/articles.html : The Evolving Role of the Enterprise Data Warehouse in the Era of Big Data Analytics (Ralph Kimball) Modèle : ASO-2007-M_PPT-0012 v2.1
  • 24. Merci. Des questions ? www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1
  • 25. Annexe 1 : un autre exemple Map Reduce Jeu de données : Algorithme MapReduce afin de sortir le nombre d’occurrences des mots constituant le texte : www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1
  • 26. Annexe 2 : une architecture BI transformée www.groupeastek.com Modèle : ASO-2007-M_PPT-0012 v2.1

Hinweis der Redaktion

  1. Présentation : Du premier jour de l'humanité jusqu'à l'an 2003, les hommes ont produit quelque 5 millions de téraoctets de données. En 2012, deux jours suffisent pour produire la même quantité. Ces données proviennent de partout : de messages sur les médias sociaux, d'images et de vidéos publiées en ligne, d'enregistrements transactionnels d'achats en ligne, de signaux GPS de téléphones mobiles… pour ne citer que quelques sources. Ces données sont appelées Big Data ou volumes massifs de données. Les sociétés du Web tels que Google, Facebook et Amazon ont investi massivement afin de gérer ces Big Data. En effet, leur survie en dépend. C’est ainsi qu’un ensemble de technologies open source et de concepts est né : MapReduce, Apache Hadoop, bases de données NoSQL,… Qu’est-ce que le big Data et quels en sont les différents concepts ? Comment utiliser ces technologies dans des applications opérationnelles ou décisionnelles ? Pourquoi le Big Data ouvre-t-il de nouvelles perspectives ? Est-ce une révolution technologique ou un effet de mode ?
  2. http://www-01.ibm.com/software/fr/data/bigdata/ http://fr.slideshare.net/PhilippeJulio/big-data-architecture Définition du Big Data Chaque jour, nous générons 2,5 trillions d’octets de données. A tel point que 90% des données dans le monde ont été créées au cours des deux dernières années seulement. Ces données proviennent de partout : de capteurs utilisés pour collecter les informations climatiques, de messages sur les sites de médias sociaux, d'images numériques et de vidéos publiées en ligne, d'enregistrements transactionnels d'achats en ligne et de signaux GPS de téléphones mobiles, pour ne citer que quelques sources. Ces données sont appelées  Big Data ou volumes massifs de données. Le Big Data couvre trois dimensions : volume, vélocité et variété. Volume :  les entreprises sont submergées de volumes de données croissants de tous types, qui se comptent en téraoctets, voire en pétaoctets. Transformer les 12 téraoctets de Tweets créés quotidiennement en analyse poussée des opinions sur un produit Convertir les 350 milliards de relevés annuels de compteurs afin de mieux prédire la consommation d'énergie Vélocité :  parfois, 2 minutes c'est trop. Pour les processus chronosensibles tels que la détection de fraudes, le Big Data doit être utilisé au fil de l'eau, à mesure que les données sont collectées par votre entreprise afin d'en tirer le maximum de valeur. Scruter 5 millions d'événements commerciaux par jour afin d'identifier les fraudes potentielles Analyser en temps réel 500 millions d’enregistrements détaillés d’appels quotidiens Variété :  le Big Data se présente sous la forme de données structurées ou non structurées (texte, données de capteurs, son, vidéo, données sur le parcours, fichiers journaux, etc.). De nouvelles connaissances sont issues de l’analyse collective de ces données. Utiliser les centaines de flux vidéo des caméras de surveillance pour contrôler les points d'intérêt Tirer parti de la croissance de 80 % du volume de données image, vidéo et documentaires pour améliorer la satisfaction client Le Big Data va bien au-delà de la seule notion de volume : il constitue une opportunité d'obtenir des connaissances sur des types de données et de contenus nouveaux, afin de rendre votre entreprise plus agile et de trouver enfin une réponse aux questions laissées en suspens. Jusqu'à présent, il n'y avait aucun moyen d'exploiter cette opportunité. Aujourd'hui, la plateforme Big Data d'IBM a recours aux technologies les plus pointues et à des solutions d'analyse brevetées, afin d'ouvrir la porte à de nouvelles possibilités.
  3. http://blog.inovia-conseil.fr/?p=46