SlideShare ist ein Scribd-Unternehmen logo
1 von 39
BarCamp « Big Data, ou comment retrouver
une aiguille dans une botte de foin »
Janvier 2014 @ Paris
Pierre REVELLIN
Responsable Architecture
et Performance
2
Au programme
Contexte et origine du besoin
La première ébauche
Le vrai problème : les ressources CPU vs IOs
Hadoop, une vulgarisation :
Partie 1 : Le stockage
Partie 2 : Le traitement de données
Partie 3 : Quelle implémentation ?
Intégration dans un SI
Big Data au delà d'une mode
Comment valoriser des téra/pétaoctets d'informations ?
Use cases
Le Big Data en France
CONTEXTE ET ORIGINE
DU BESOIN
6
Contexte et origine du besoin
Contexte
Site de E-commerce parmi les leaders du marché
Complexe, composé d'applications multi-tiers / instances / multi-sites
Forte visibilité avec un besoin de réactivité très fort.
Problèmes pour exploiter des applications réparties
Répartition sur des périmètres différents des équipes supports /exploitations
Application statefull pour simplifier l'analyse puis statefull'less'
Quid du reporting global ?
Besoin de centraliser l'information
Les logs constituent la première source d’information.
7
LA PREMIERE EBAUCHE
88
La première ébauche
Architecture
Centralisation des logs
Ecriture sur du SAN.
Une implémentation via syslog
Solution éprouvée, multiplateforme
Plusieurs datasources : streaming / fichier
Niveau de Qos : UDP / TCP, bufferisation
Enrichissement de message post émission.
Faiblesse de la solution
Pas de loadbalancing ou failover natif
Pas de travail à la volée des messages
Périmètre de responsabilité diffus ( équ système / équ applicative /dev )
IO concentré nécessite du SAN (10000 à 30000 IO/s ).
9
RESULTATS AU DELA
DES FAIBLESSES
TECHNIQUES
1010
Résultats au delà des faiblesses techniques
Difficulté à valoriser car méconnaissance du contenu des logs
Possibilité quasi infinie, seule limite : l'information est-elle disponible ?
Information mélangée car pas de 'contextualisation' du log mais :
Information commerciale : activité clientèle
Information technique : performance du SI malgré son hétérogénéité.
Problèmes de fond : le traitement des données
Temps nécessaire pour retrouver/traiter une information
Pour traiter il faut normaliser les évènements
Sécurité des informations
Pas de réponse simple au problème du périmètre des équipes supports/exploitations.
11
LE VRAI PROBLEME :
LES RESSOURCES CPU
VS LES IOS
1212
Le vrai problème : les ressources CPU vs les IOs
Problème du CPU vs IO
Test 1 : on lit un fichier de 500mo : 4s environ 123Mos, limité par les IO disques
Test 2 : on grep une ip dans un fichier de 500mo : 12s soit 42Mo/s
Test 3 : on passe en multithread sur le grep : 118Mo/s
La contention est la CPU ou la bande passante pour alimenter le processus.
Optimisation par agrégation de ressources
Problème historique touchant toutes les strates :
Cas des supercalculateurs / RAID / Chunk&Tap sur le réseau.
Ne pas oublier qu'au delà de la largeur des données, la latence d'accès est maîtresse
Pas d'invention : c'est LE moteur de l'évolution des ordinateurs :
Augmenter le nombre d'opération en 'parallèle' : pipelining / hypethreading
La problématique d'IO est résolue par des niveaux de cache (cache niveau 2/3 partagé)
Bank RAM appairé pour doubler la BP
Enfin le multi-core.
AGREGATION DE CPU
14
Agrégation de CPU
Décomposer le problème via l’algorithme MapReduce
Plusieurs implémentations
Mongo / CouchDb / Cassandra / Hadoop.
HADOOP : UNE
VULGARISATION
16
Partie 1 : le stockage
File System issue de Google FS
Orienté : large scale (100T/Po de donnée) / lecture intensive / lowcost.
Back to basics
Un disque dur est décomposé en secteur de 512 octets
Les secteurs sont organisés en bloc par un système de fichier (FS)
Bloc totalement alloué même pour 10 utilisations.
Hadoop FileSystem : HDFS
Se repose sur les FS natif OS
Utilise des block de 64Mo par défaut
Avec un débit de 100Mo/s et un seek time de 10ms : 1% du temps en latence
Allocation optimisée.
17
Partie 1 : le stockage
HDFS
Autorise un facteur de réplication de block
Les metadatas (genre inode) sont stockés dans un NameNode
Distribution des blocs de données pour améliorer la lecture : anti-défragmentation
Adopte les normes posix.
Méthode d’accès
Accès console
Webapp
Par API (pyhon/java/ruby)
FuseFS.
18
Partie 1 : le stockage
HDFS en schéma :
19
Partie 1 : le stockage
HDFS en schéma :
20
Partie 2 : le traitement des données
La théorie
L'API repose sur 2 fonctions
MAP
Reduce.
Mise en avant de la programmation fonctionnelle vs impérative
Impact fort suivant les indicateurs attendus.
Optimisations 'cachées'
Les maps sont lancés au plus proche des données
Attention à la compression.
21
Partie 2 : le traitement des données
Répartition sur plusieurs nœuds
22
Partie 2 : le traitement des données
Dans la vraie vie … il faut coder
TDD via MRUnit
Difficile de debugger/profiler une application
Le fait d'être en large scale provoque un effet loupe sur le moindre problème de code.
… ou sous traiter
Hive
PIG
SPSS.
23
Partie 2 : le traitement des données
Pour ceux qui aiment être root : tout est disponible sous apache.org
Offre hadoop packagée
En pleine explosion ( HortonWorks/ cloudera / ….)
Attention au mode de licencing
Exemple Splunk : 800k +100k par 500g
Cloudera : au début limité à 10 nœuds puis modification du mode de licencing
Pas à l'abri d'un revirement à la Oracle.
Aucune implémentation ne remplace un expert pour l'exploitation
Les coûts cachés
Injection des données
Nettoyage des données.
INTEGRATION
DANS UN SI
25
Intégration dans un SI
Attention aux effets de bord sur le cœur du SI
On parle de centaine de giga jour, switch/cœur de réseau mutualisés
Bande passante inter-sites (Qos MPLS)
CPU/RAM consommé sur les serveurs applicatifs
Lock des ressources (Map/Reduce) de la grille : mise en place de quota
Durée de vie des données ?
Pas de place dans vos travées ?
Utilisation de serveur MoonShot HP 4U : 125 slots à repartir entre CPU est stockage
Cartouche 16 core
Disque de 1 tera.
Recyclage
Faire du capacity planning en recyclant les vieux serveurs en nœuds déstockage.
Externalisation de l’infra
Infra cloud dédiée, coûteuse si vous avez des exigences de temps de traitement.
26
COMMENT
VALORISER DES
TERRA/PETAOCTETS
D’INFORMATION ?
2727
Comment valoriser des téra/pétaoctets d'informations ?
Difficulté à valoriser car méconnaissance du contenu des logs
L'information est-elle disponible ?
Possibilité quasi infinie mais :
Un expert Big Data ne remplacera pas un datascientist
L'information a force de valeur uniquement par sa qualité et sa date de péremption.
Use case réel
GrepIt !
Facturation cliente sur plateforme mutualise
Indicateur de SLA sur du middleware
Détection d'attaque par analyse comportementale.
28
USE CASE
2929
Problématique : trouver un mot clef dans les logs
Map / Reduce basique
Map va filtrer les logs contenant le mot clé
Reduce va simplement écrire les logs lui arrivant.
Use Case 1 : GrepIT
3030
Use case 2 : facturation client sur plateforme mutualisée
Faire du SLA sur du middle tiers mutualisé
Clé de répartition composite
IP / Stats / Htpp Code / Login / URL /Plateforme.
90 percentiles sur 2 sites
3131
Use case 2 : facturation client sur plateforme mutualisée
3232
Use case 3 : détection d’attaque DOS
Problématique : détection de robots qui empêchent la vente de produit
Identifier les comportements anormaux
Map va filtrer les URL utiles, la clé de répartition est l’ip
Reduce va calculer des compteurs :
Nombre de mise en panier
Délai entre 2 mise en panier
Nombre de paiement versus nombre de mise en panier
En sortie on corrèle avec des seuils prédéfinies.
Bannissement d’IP non automatique
3333
Use case 4 : indicateur de SLA sur du middleware
Problématique : vérifier qu’on entre dans le SLA sur du middleware répartie
Identifier les comportements anormaux
Agrégation
Corrélation
Gestion de plusieurs datasources.
34
LES NOUVEAUX
BESOINS
3535
Les nouveaux besoins
Mode batch pas toujours adapté
Introduction d’ElasticSearch / Kibana.
Gestion de la durée de vie de l’information : besoin de streaming
BIG DATA AU DELA
D’UNE MODE
37
Big Data au-delà d’une mode
Solutions inventées et adoptées par et pour les leaders de marché
L’algorithme map/reduce remis au goût du jour par Google pour indexer le Web
Hadoop core vient des équipe de Yahoo pour indexer le Web
Difficile de faire mieux avec un équipe R&D (on RivoDB).
Sans engagement :
Pas de technologie propriétaire
Hardware standard
Produit Open Source massivement adopté qui devient donc un standard.
Implications stratégiques au delà du rêve
Permet d'établir des stratégies marketing a court et moyen terme, comment ?
Toute la matière première est là
Nécessite de réelles compétences de Data Scientist
Permet une évolution « maîtrisée » du SI au delà de l'amortissement CAPEX/OPEX
étalé.
CONCLUSION
39
Conclusion
N'est qu'un moyen technique, pas la finalité
Ne pas se tromper d'acteur/profil
L'analyse statistique est un métier à par entière (Data Scientist)
Exploitation d'un cluster nécessite un bon niveau d'expertise
De même pour les développements : peu très vite déraper.
Attention aux promesses des sociétés de consulting
Pose des problèmes organisationnels importants
Peu de société en France sont dotées d’un vrai retour d'expérience
40
Références
http://fr.wikipedia.org/wiki/MapReduce
Hadoop : the Definitive guide / O'Reilly
MISC Décembre 2013
Cluster Multiprocesseur / Architecture Paralelle Eyrolles.
41

Weitere ähnliche Inhalte

Was ist angesagt?

Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureBig Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureMicrosoft
 
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkPlateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkALTIC Altic
 
Cartographie du big data
Cartographie du big dataCartographie du big data
Cartographie du big dataacogoluegnes
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceLilia Sfaxi
 
Hadoop MapReduce - OSDC FR 2009
Hadoop MapReduce - OSDC FR 2009Hadoop MapReduce - OSDC FR 2009
Hadoop MapReduce - OSDC FR 2009Olivier Grisel
 
Tours JUG (oct 2010) - NoSQL, des grands du Web aux entreprises
Tours JUG (oct 2010) - NoSQL, des grands du Web aux entreprisesTours JUG (oct 2010) - NoSQL, des grands du Web aux entreprises
Tours JUG (oct 2010) - NoSQL, des grands du Web aux entreprisesMichaël Figuière
 
GTUG Nantes (Dec 2011) - BigTable et NoSQL
GTUG Nantes (Dec 2011) - BigTable et NoSQLGTUG Nantes (Dec 2011) - BigTable et NoSQL
GTUG Nantes (Dec 2011) - BigTable et NoSQLMichaël Figuière
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopLilia Sfaxi
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherLilia Sfaxi
 
20160216 - From BigData to BigProcessing
20160216 - From BigData to BigProcessing20160216 - From BigData to BigProcessing
20160216 - From BigData to BigProcessingPierre-Marie Brunet
 
Les technologies big data avec speech commentaries
Les technologies big data avec speech commentariesLes technologies big data avec speech commentaries
Les technologies big data avec speech commentariesRima Jamli Faidi
 
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigData
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigDataPetit-déjeuner MapReduce-La révolution dans l’analyse des BigData
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigDataMarc Bojoly
 
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?Microsoft Décideurs IT
 
Hadoop Introduction in Paris
Hadoop Introduction in ParisHadoop Introduction in Paris
Hadoop Introduction in ParisTed Drake
 
Aqui hadoop draft
Aqui hadoop draftAqui hadoop draft
Aqui hadoop draftEric Papet
 
Hadoop et son écosystème
Hadoop et son écosystèmeHadoop et son écosystème
Hadoop et son écosystèmeKhanh Maudoux
 
Apache Kafka, Un système distribué de messagerie hautement performant
Apache Kafka, Un système distribué de messagerie hautement performantApache Kafka, Un système distribué de messagerie hautement performant
Apache Kafka, Un système distribué de messagerie hautement performantALTIC Altic
 

Was ist angesagt? (20)

Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureBig Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
 
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkPlateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
 
Cartographie du big data
Cartographie du big dataCartographie du big data
Cartographie du big data
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
 
Hadoop MapReduce - OSDC FR 2009
Hadoop MapReduce - OSDC FR 2009Hadoop MapReduce - OSDC FR 2009
Hadoop MapReduce - OSDC FR 2009
 
Introduction à Hadoop
Introduction à HadoopIntroduction à Hadoop
Introduction à Hadoop
 
Tours JUG (oct 2010) - NoSQL, des grands du Web aux entreprises
Tours JUG (oct 2010) - NoSQL, des grands du Web aux entreprisesTours JUG (oct 2010) - NoSQL, des grands du Web aux entreprises
Tours JUG (oct 2010) - NoSQL, des grands du Web aux entreprises
 
GTUG Nantes (Dec 2011) - BigTable et NoSQL
GTUG Nantes (Dec 2011) - BigTable et NoSQLGTUG Nantes (Dec 2011) - BigTable et NoSQL
GTUG Nantes (Dec 2011) - BigTable et NoSQL
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans Hadoop
 
Tech day hadoop, Spark
Tech day hadoop, SparkTech day hadoop, Spark
Tech day hadoop, Spark
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all together
 
20160216 - From BigData to BigProcessing
20160216 - From BigData to BigProcessing20160216 - From BigData to BigProcessing
20160216 - From BigData to BigProcessing
 
Les technologies big data avec speech commentaries
Les technologies big data avec speech commentariesLes technologies big data avec speech commentaries
Les technologies big data avec speech commentaries
 
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigData
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigDataPetit-déjeuner MapReduce-La révolution dans l’analyse des BigData
Petit-déjeuner MapReduce-La révolution dans l’analyse des BigData
 
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
Big Data : SQL, NoSQL ? Pourquoi faire un choix ?
 
Hadoop Introduction in Paris
Hadoop Introduction in ParisHadoop Introduction in Paris
Hadoop Introduction in Paris
 
Aqui hadoop draft
Aqui hadoop draftAqui hadoop draft
Aqui hadoop draft
 
Hadoop et son écosystème
Hadoop et son écosystèmeHadoop et son écosystème
Hadoop et son écosystème
 
Pj hug 07_04_2016
Pj hug 07_04_2016Pj hug 07_04_2016
Pj hug 07_04_2016
 
Apache Kafka, Un système distribué de messagerie hautement performant
Apache Kafka, Un système distribué de messagerie hautement performantApache Kafka, Un système distribué de messagerie hautement performant
Apache Kafka, Un système distribué de messagerie hautement performant
 

Andere mochten auch

i-Génération : iPad, iPhone and creativity
i-Génération : iPad, iPhone and creativityi-Génération : iPad, iPhone and creativity
i-Génération : iPad, iPhone and creativityMay Abou Zahra
 
Conférence Ignite : Nous sommes tous créatifs
Conférence Ignite : Nous sommes tous créatifsConférence Ignite : Nous sommes tous créatifs
Conférence Ignite : Nous sommes tous créatifsHenri Kaufman
 
Les ecoles d ingenieurs peuvent elles former au developpement durable? Confer...
Les ecoles d ingenieurs peuvent elles former au developpement durable? Confer...Les ecoles d ingenieurs peuvent elles former au developpement durable? Confer...
Les ecoles d ingenieurs peuvent elles former au developpement durable? Confer...Said KOUTANI
 
Le tramway à Amiens, florilège de l'absurde
Le tramway à Amiens, florilège de l'absurdeLe tramway à Amiens, florilège de l'absurde
Le tramway à Amiens, florilège de l'absurdeamiens2014
 
Software libre
Software libreSoftware libre
Software libreleonelml
 
Grupo 4 usgp
Grupo 4 usgpGrupo 4 usgp
Grupo 4 usgpKleior
 
Dialyses chair
Dialyses chairDialyses chair
Dialyses chairsometltd
 
Catalogue everlife f:w 13 (1)
Catalogue everlife f:w 13 (1)Catalogue everlife f:w 13 (1)
Catalogue everlife f:w 13 (1)everlifeFW13
 
ARTICULOS DE LA LEY
ARTICULOS DE LA LEYARTICULOS DE LA LEY
ARTICULOS DE LA LEYGri Sel
 
RESUMEN EJECUTIVO SUMINISTROS AGRICOLAS S.A
RESUMEN EJECUTIVO SUMINISTROS AGRICOLAS S.ARESUMEN EJECUTIVO SUMINISTROS AGRICOLAS S.A
RESUMEN EJECUTIVO SUMINISTROS AGRICOLAS S.AYomaris Castro
 
Animation Numérique de Territoire, une nouvelle dynamique grâce à l'action de...
Animation Numérique de Territoire, une nouvelle dynamique grâce à l'action de...Animation Numérique de Territoire, une nouvelle dynamique grâce à l'action de...
Animation Numérique de Territoire, une nouvelle dynamique grâce à l'action de...Corinne Gangloff
 
Webquest de fundamentos de sistemas de lucia lavin
Webquest de fundamentos de sistemas  de lucia lavinWebquest de fundamentos de sistemas  de lucia lavin
Webquest de fundamentos de sistemas de lucia lavinlucia161095
 
Crisalida av sf dossier edición 2 2013 2014 (precio con descuento)
Crisalida av sf dossier edición 2 2013 2014 (precio con descuento)Crisalida av sf dossier edición 2 2013 2014 (precio con descuento)
Crisalida av sf dossier edición 2 2013 2014 (precio con descuento)AvanzaSf Soluciones Formativas
 

Andere mochten auch (20)

Todo sobre estepona
Todo  sobre  esteponaTodo  sobre  estepona
Todo sobre estepona
 
i-Génération : iPad, iPhone and creativity
i-Génération : iPad, iPhone and creativityi-Génération : iPad, iPhone and creativity
i-Génération : iPad, iPhone and creativity
 
Conférence Ignite : Nous sommes tous créatifs
Conférence Ignite : Nous sommes tous créatifsConférence Ignite : Nous sommes tous créatifs
Conférence Ignite : Nous sommes tous créatifs
 
Les ecoles d ingenieurs peuvent elles former au developpement durable? Confer...
Les ecoles d ingenieurs peuvent elles former au developpement durable? Confer...Les ecoles d ingenieurs peuvent elles former au developpement durable? Confer...
Les ecoles d ingenieurs peuvent elles former au developpement durable? Confer...
 
Le tramway à Amiens, florilège de l'absurde
Le tramway à Amiens, florilège de l'absurdeLe tramway à Amiens, florilège de l'absurde
Le tramway à Amiens, florilège de l'absurde
 
Software libre
Software libreSoftware libre
Software libre
 
Grupo 4 usgp
Grupo 4 usgpGrupo 4 usgp
Grupo 4 usgp
 
inma valiente
inma valienteinma valiente
inma valiente
 
EQUIPO 1 VESPERTINO
EQUIPO 1 VESPERTINOEQUIPO 1 VESPERTINO
EQUIPO 1 VESPERTINO
 
Dialyses chair
Dialyses chairDialyses chair
Dialyses chair
 
Catalogue everlife f:w 13 (1)
Catalogue everlife f:w 13 (1)Catalogue everlife f:w 13 (1)
Catalogue everlife f:w 13 (1)
 
Plaquette ogec
Plaquette ogecPlaquette ogec
Plaquette ogec
 
Bajo egito
Bajo egitoBajo egito
Bajo egito
 
ARTICULOS DE LA LEY
ARTICULOS DE LA LEYARTICULOS DE LA LEY
ARTICULOS DE LA LEY
 
Fiorella tasilla campos 3c
Fiorella tasilla campos 3cFiorella tasilla campos 3c
Fiorella tasilla campos 3c
 
RESUMEN EJECUTIVO SUMINISTROS AGRICOLAS S.A
RESUMEN EJECUTIVO SUMINISTROS AGRICOLAS S.ARESUMEN EJECUTIVO SUMINISTROS AGRICOLAS S.A
RESUMEN EJECUTIVO SUMINISTROS AGRICOLAS S.A
 
Animation Numérique de Territoire, une nouvelle dynamique grâce à l'action de...
Animation Numérique de Territoire, une nouvelle dynamique grâce à l'action de...Animation Numérique de Territoire, une nouvelle dynamique grâce à l'action de...
Animation Numérique de Territoire, une nouvelle dynamique grâce à l'action de...
 
Webquest de fundamentos de sistemas de lucia lavin
Webquest de fundamentos de sistemas  de lucia lavinWebquest de fundamentos de sistemas  de lucia lavin
Webquest de fundamentos de sistemas de lucia lavin
 
Historia universidad
Historia universidadHistoria universidad
Historia universidad
 
Crisalida av sf dossier edición 2 2013 2014 (precio con descuento)
Crisalida av sf dossier edición 2 2013 2014 (precio con descuento)Crisalida av sf dossier edición 2 2013 2014 (precio con descuento)
Crisalida av sf dossier edición 2 2013 2014 (precio con descuento)
 

Ähnlich wie Big Data ou comment retrouver une aiguille dans une botte de foin

Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel ArkéaMathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel ArkéaModern Data Stack France
 
Perfug BOF devoxx2017.pptx
Perfug BOF devoxx2017.pptxPerfug BOF devoxx2017.pptx
Perfug BOF devoxx2017.pptxMarc Bojoly
 
ch2-hadoop-L3-2023-4p (1).pdf
ch2-hadoop-L3-2023-4p (1).pdfch2-hadoop-L3-2023-4p (1).pdf
ch2-hadoop-L3-2023-4p (1).pdfsalmanakbi
 
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Modern Data Stack France
 
ICT Journal - Dossier déduplication
ICT Journal - Dossier déduplicationICT Journal - Dossier déduplication
ICT Journal - Dossier déduplicationschene
 
Spad big data - sfds - 2016
Spad   big data - sfds - 2016Spad   big data - sfds - 2016
Spad big data - sfds - 2016Julien BLAIZE
 
OSA02 - Pas de transactionnel haute performance sans un couple machine logici...
OSA02 - Pas de transactionnel haute performance sans un couple machine logici...OSA02 - Pas de transactionnel haute performance sans un couple machine logici...
OSA02 - Pas de transactionnel haute performance sans un couple machine logici...Nicolas Desachy
 
BigData_Technologies_PL.pdf
BigData_Technologies_PL.pdfBigData_Technologies_PL.pdf
BigData_Technologies_PL.pdfMissaouiWissal
 
Vision et poc EDFsur les enjeux big data
Vision et poc EDFsur les enjeux big dataVision et poc EDFsur les enjeux big data
Vision et poc EDFsur les enjeux big dataBruno Patin
 
Social Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologySocial Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologyImad ALILAT
 
BigData_Technologies_PL.pdf
BigData_Technologies_PL.pdfBigData_Technologies_PL.pdf
BigData_Technologies_PL.pdfAhmedToujani1
 
Technologies & Systèmes
Technologies & SystèmesTechnologies & Systèmes
Technologies & SystèmesPaulin CHOUDJA
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyOxalide
 
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !OCTO Technology
 
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data VirtualizationSession en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data VirtualizationDenodo
 
Les bases BI sont-elles différentes?
Les bases BI sont-elles différentes?Les bases BI sont-elles différentes?
Les bases BI sont-elles différentes?Franck Pachot
 
ADMINISTRER UN ENVIRONNeEMENT CLOUD.pptx
ADMINISTRER UN ENVIRONNeEMENT CLOUD.pptxADMINISTRER UN ENVIRONNeEMENT CLOUD.pptx
ADMINISTRER UN ENVIRONNeEMENT CLOUD.pptxHindElqasimy
 
Solution Hitachi Content Platform
Solution Hitachi Content PlatformSolution Hitachi Content Platform
Solution Hitachi Content PlatformBertrand LE QUELLEC
 

Ähnlich wie Big Data ou comment retrouver une aiguille dans une botte de foin (20)

Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel ArkéaMathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa
 
Perfug BOF devoxx2017.pptx
Perfug BOF devoxx2017.pptxPerfug BOF devoxx2017.pptx
Perfug BOF devoxx2017.pptx
 
ch2-hadoop-L3-2023-4p (1).pdf
ch2-hadoop-L3-2023-4p (1).pdfch2-hadoop-L3-2023-4p (1).pdf
ch2-hadoop-L3-2023-4p (1).pdf
 
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
 
ICT Journal - Dossier déduplication
ICT Journal - Dossier déduplicationICT Journal - Dossier déduplication
ICT Journal - Dossier déduplication
 
HADOOP + R
HADOOP + RHADOOP + R
HADOOP + R
 
Spad big data - sfds - 2016
Spad   big data - sfds - 2016Spad   big data - sfds - 2016
Spad big data - sfds - 2016
 
OSA02 - Pas de transactionnel haute performance sans un couple machine logici...
OSA02 - Pas de transactionnel haute performance sans un couple machine logici...OSA02 - Pas de transactionnel haute performance sans un couple machine logici...
OSA02 - Pas de transactionnel haute performance sans un couple machine logici...
 
BigData_Technologies_PL.pdf
BigData_Technologies_PL.pdfBigData_Technologies_PL.pdf
BigData_Technologies_PL.pdf
 
Vision et poc EDFsur les enjeux big data
Vision et poc EDFsur les enjeux big dataVision et poc EDFsur les enjeux big data
Vision et poc EDFsur les enjeux big data
 
Social Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologySocial Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data Technology
 
Afterwork hadoop
Afterwork hadoopAfterwork hadoop
Afterwork hadoop
 
BigData_Technologies_PL.pdf
BigData_Technologies_PL.pdfBigData_Technologies_PL.pdf
BigData_Technologies_PL.pdf
 
Technologies & Systèmes
Technologies & SystèmesTechnologies & Systèmes
Technologies & Systèmes
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide Academy
 
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
 
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data VirtualizationSession en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
 
Les bases BI sont-elles différentes?
Les bases BI sont-elles différentes?Les bases BI sont-elles différentes?
Les bases BI sont-elles différentes?
 
ADMINISTRER UN ENVIRONNeEMENT CLOUD.pptx
ADMINISTRER UN ENVIRONNeEMENT CLOUD.pptxADMINISTRER UN ENVIRONNeEMENT CLOUD.pptx
ADMINISTRER UN ENVIRONNeEMENT CLOUD.pptx
 
Solution Hitachi Content Platform
Solution Hitachi Content PlatformSolution Hitachi Content Platform
Solution Hitachi Content Platform
 

Mehr von PALO IT

The Agile Transformation Hell - PALO IT BarCamp
The Agile Transformation Hell - PALO IT BarCampThe Agile Transformation Hell - PALO IT BarCamp
The Agile Transformation Hell - PALO IT BarCampPALO IT
 
Design & Develop Disruptive Software
Design & Develop Disruptive SoftwareDesign & Develop Disruptive Software
Design & Develop Disruptive SoftwarePALO IT
 
Growth Mindset & Psychological Safety - High Performing Teams in Software Dev...
Growth Mindset & Psychological Safety - High Performing Teams in Software Dev...Growth Mindset & Psychological Safety - High Performing Teams in Software Dev...
Growth Mindset & Psychological Safety - High Performing Teams in Software Dev...PALO IT
 
BigText, compréhension et inférence avancées sur les textes
BigText, compréhension et inférence avancées sur les textesBigText, compréhension et inférence avancées sur les textes
BigText, compréhension et inférence avancées sur les textesPALO IT
 
Explorez l’Employee eXperience grâce au Design Thinking
Explorez l’Employee eXperience grâce au Design ThinkingExplorez l’Employee eXperience grâce au Design Thinking
Explorez l’Employee eXperience grâce au Design ThinkingPALO IT
 
Self-Organisation & Transparency: Delegation Poker
Self-Organisation & Transparency: Delegation PokerSelf-Organisation & Transparency: Delegation Poker
Self-Organisation & Transparency: Delegation PokerPALO IT
 
Framework de Digitalisation par les Organisations Exponentielles
Framework de Digitalisation par les Organisations ExponentiellesFramework de Digitalisation par les Organisations Exponentielles
Framework de Digitalisation par les Organisations ExponentiellesPALO IT
 
Project Managers, our World is Changing!
Project Managers, our World is Changing!Project Managers, our World is Changing!
Project Managers, our World is Changing!PALO IT
 
The Future of User Experience
The Future of User ExperienceThe Future of User Experience
The Future of User ExperiencePALO IT
 
Developers are from Mars, Designers are from Venus
Developers are from Mars, Designers are from VenusDevelopers are from Mars, Designers are from Venus
Developers are from Mars, Designers are from VenusPALO IT
 
Self-Organization in Agile & Digital Transformation
Self-Organization in Agile & Digital Transformation Self-Organization in Agile & Digital Transformation
Self-Organization in Agile & Digital Transformation PALO IT
 
Blockchain présenté aux Développeurs
Blockchain présenté aux Développeurs Blockchain présenté aux Développeurs
Blockchain présenté aux Développeurs PALO IT
 
Pourquoi est-ce si difficile de concevoir une API ?
Pourquoi est-ce si difficile de concevoir une API ?Pourquoi est-ce si difficile de concevoir une API ?
Pourquoi est-ce si difficile de concevoir une API ?PALO IT
 
Emerging Innovation: an exploratory journey into Design Thinking and why it m...
Emerging Innovation: an exploratory journey into Design Thinking and why it m...Emerging Innovation: an exploratory journey into Design Thinking and why it m...
Emerging Innovation: an exploratory journey into Design Thinking and why it m...PALO IT
 
Données animées
Données animéesDonnées animées
Données animéesPALO IT
 
Spark Streaming
Spark StreamingSpark Streaming
Spark StreamingPALO IT
 
Et pourquoi pas JEE ?
Et pourquoi pas JEE ?Et pourquoi pas JEE ?
Et pourquoi pas JEE ?PALO IT
 
Sarah : l’Internet des Objets au service de la maison connectée
Sarah : l’Internet des Objets au service de la maison connectée Sarah : l’Internet des Objets au service de la maison connectée
Sarah : l’Internet des Objets au service de la maison connectée PALO IT
 
Product Owner : Gardien du Cap
Product Owner : Gardien du CapProduct Owner : Gardien du Cap
Product Owner : Gardien du CapPALO IT
 
Et pourquoi pas JEE ?
Et pourquoi pas JEE ?Et pourquoi pas JEE ?
Et pourquoi pas JEE ?PALO IT
 

Mehr von PALO IT (20)

The Agile Transformation Hell - PALO IT BarCamp
The Agile Transformation Hell - PALO IT BarCampThe Agile Transformation Hell - PALO IT BarCamp
The Agile Transformation Hell - PALO IT BarCamp
 
Design & Develop Disruptive Software
Design & Develop Disruptive SoftwareDesign & Develop Disruptive Software
Design & Develop Disruptive Software
 
Growth Mindset & Psychological Safety - High Performing Teams in Software Dev...
Growth Mindset & Psychological Safety - High Performing Teams in Software Dev...Growth Mindset & Psychological Safety - High Performing Teams in Software Dev...
Growth Mindset & Psychological Safety - High Performing Teams in Software Dev...
 
BigText, compréhension et inférence avancées sur les textes
BigText, compréhension et inférence avancées sur les textesBigText, compréhension et inférence avancées sur les textes
BigText, compréhension et inférence avancées sur les textes
 
Explorez l’Employee eXperience grâce au Design Thinking
Explorez l’Employee eXperience grâce au Design ThinkingExplorez l’Employee eXperience grâce au Design Thinking
Explorez l’Employee eXperience grâce au Design Thinking
 
Self-Organisation & Transparency: Delegation Poker
Self-Organisation & Transparency: Delegation PokerSelf-Organisation & Transparency: Delegation Poker
Self-Organisation & Transparency: Delegation Poker
 
Framework de Digitalisation par les Organisations Exponentielles
Framework de Digitalisation par les Organisations ExponentiellesFramework de Digitalisation par les Organisations Exponentielles
Framework de Digitalisation par les Organisations Exponentielles
 
Project Managers, our World is Changing!
Project Managers, our World is Changing!Project Managers, our World is Changing!
Project Managers, our World is Changing!
 
The Future of User Experience
The Future of User ExperienceThe Future of User Experience
The Future of User Experience
 
Developers are from Mars, Designers are from Venus
Developers are from Mars, Designers are from VenusDevelopers are from Mars, Designers are from Venus
Developers are from Mars, Designers are from Venus
 
Self-Organization in Agile & Digital Transformation
Self-Organization in Agile & Digital Transformation Self-Organization in Agile & Digital Transformation
Self-Organization in Agile & Digital Transformation
 
Blockchain présenté aux Développeurs
Blockchain présenté aux Développeurs Blockchain présenté aux Développeurs
Blockchain présenté aux Développeurs
 
Pourquoi est-ce si difficile de concevoir une API ?
Pourquoi est-ce si difficile de concevoir une API ?Pourquoi est-ce si difficile de concevoir une API ?
Pourquoi est-ce si difficile de concevoir une API ?
 
Emerging Innovation: an exploratory journey into Design Thinking and why it m...
Emerging Innovation: an exploratory journey into Design Thinking and why it m...Emerging Innovation: an exploratory journey into Design Thinking and why it m...
Emerging Innovation: an exploratory journey into Design Thinking and why it m...
 
Données animées
Données animéesDonnées animées
Données animées
 
Spark Streaming
Spark StreamingSpark Streaming
Spark Streaming
 
Et pourquoi pas JEE ?
Et pourquoi pas JEE ?Et pourquoi pas JEE ?
Et pourquoi pas JEE ?
 
Sarah : l’Internet des Objets au service de la maison connectée
Sarah : l’Internet des Objets au service de la maison connectée Sarah : l’Internet des Objets au service de la maison connectée
Sarah : l’Internet des Objets au service de la maison connectée
 
Product Owner : Gardien du Cap
Product Owner : Gardien du CapProduct Owner : Gardien du Cap
Product Owner : Gardien du Cap
 
Et pourquoi pas JEE ?
Et pourquoi pas JEE ?Et pourquoi pas JEE ?
Et pourquoi pas JEE ?
 

Big Data ou comment retrouver une aiguille dans une botte de foin

  • 1. BarCamp « Big Data, ou comment retrouver une aiguille dans une botte de foin » Janvier 2014 @ Paris Pierre REVELLIN Responsable Architecture et Performance
  • 2. 2 Au programme Contexte et origine du besoin La première ébauche Le vrai problème : les ressources CPU vs IOs Hadoop, une vulgarisation : Partie 1 : Le stockage Partie 2 : Le traitement de données Partie 3 : Quelle implémentation ? Intégration dans un SI Big Data au delà d'une mode Comment valoriser des téra/pétaoctets d'informations ? Use cases Le Big Data en France
  • 4. 6 Contexte et origine du besoin Contexte Site de E-commerce parmi les leaders du marché Complexe, composé d'applications multi-tiers / instances / multi-sites Forte visibilité avec un besoin de réactivité très fort. Problèmes pour exploiter des applications réparties Répartition sur des périmètres différents des équipes supports /exploitations Application statefull pour simplifier l'analyse puis statefull'less' Quid du reporting global ? Besoin de centraliser l'information Les logs constituent la première source d’information.
  • 6. 88 La première ébauche Architecture Centralisation des logs Ecriture sur du SAN. Une implémentation via syslog Solution éprouvée, multiplateforme Plusieurs datasources : streaming / fichier Niveau de Qos : UDP / TCP, bufferisation Enrichissement de message post émission. Faiblesse de la solution Pas de loadbalancing ou failover natif Pas de travail à la volée des messages Périmètre de responsabilité diffus ( équ système / équ applicative /dev ) IO concentré nécessite du SAN (10000 à 30000 IO/s ).
  • 7. 9 RESULTATS AU DELA DES FAIBLESSES TECHNIQUES
  • 8. 1010 Résultats au delà des faiblesses techniques Difficulté à valoriser car méconnaissance du contenu des logs Possibilité quasi infinie, seule limite : l'information est-elle disponible ? Information mélangée car pas de 'contextualisation' du log mais : Information commerciale : activité clientèle Information technique : performance du SI malgré son hétérogénéité. Problèmes de fond : le traitement des données Temps nécessaire pour retrouver/traiter une information Pour traiter il faut normaliser les évènements Sécurité des informations Pas de réponse simple au problème du périmètre des équipes supports/exploitations.
  • 9. 11 LE VRAI PROBLEME : LES RESSOURCES CPU VS LES IOS
  • 10. 1212 Le vrai problème : les ressources CPU vs les IOs Problème du CPU vs IO Test 1 : on lit un fichier de 500mo : 4s environ 123Mos, limité par les IO disques Test 2 : on grep une ip dans un fichier de 500mo : 12s soit 42Mo/s Test 3 : on passe en multithread sur le grep : 118Mo/s La contention est la CPU ou la bande passante pour alimenter le processus. Optimisation par agrégation de ressources Problème historique touchant toutes les strates : Cas des supercalculateurs / RAID / Chunk&Tap sur le réseau. Ne pas oublier qu'au delà de la largeur des données, la latence d'accès est maîtresse Pas d'invention : c'est LE moteur de l'évolution des ordinateurs : Augmenter le nombre d'opération en 'parallèle' : pipelining / hypethreading La problématique d'IO est résolue par des niveaux de cache (cache niveau 2/3 partagé) Bank RAM appairé pour doubler la BP Enfin le multi-core.
  • 12. 14 Agrégation de CPU Décomposer le problème via l’algorithme MapReduce Plusieurs implémentations Mongo / CouchDb / Cassandra / Hadoop.
  • 14. 16 Partie 1 : le stockage File System issue de Google FS Orienté : large scale (100T/Po de donnée) / lecture intensive / lowcost. Back to basics Un disque dur est décomposé en secteur de 512 octets Les secteurs sont organisés en bloc par un système de fichier (FS) Bloc totalement alloué même pour 10 utilisations. Hadoop FileSystem : HDFS Se repose sur les FS natif OS Utilise des block de 64Mo par défaut Avec un débit de 100Mo/s et un seek time de 10ms : 1% du temps en latence Allocation optimisée.
  • 15. 17 Partie 1 : le stockage HDFS Autorise un facteur de réplication de block Les metadatas (genre inode) sont stockés dans un NameNode Distribution des blocs de données pour améliorer la lecture : anti-défragmentation Adopte les normes posix. Méthode d’accès Accès console Webapp Par API (pyhon/java/ruby) FuseFS.
  • 16. 18 Partie 1 : le stockage HDFS en schéma :
  • 17. 19 Partie 1 : le stockage HDFS en schéma :
  • 18. 20 Partie 2 : le traitement des données La théorie L'API repose sur 2 fonctions MAP Reduce. Mise en avant de la programmation fonctionnelle vs impérative Impact fort suivant les indicateurs attendus. Optimisations 'cachées' Les maps sont lancés au plus proche des données Attention à la compression.
  • 19. 21 Partie 2 : le traitement des données Répartition sur plusieurs nœuds
  • 20. 22 Partie 2 : le traitement des données Dans la vraie vie … il faut coder TDD via MRUnit Difficile de debugger/profiler une application Le fait d'être en large scale provoque un effet loupe sur le moindre problème de code. … ou sous traiter Hive PIG SPSS.
  • 21. 23 Partie 2 : le traitement des données Pour ceux qui aiment être root : tout est disponible sous apache.org Offre hadoop packagée En pleine explosion ( HortonWorks/ cloudera / ….) Attention au mode de licencing Exemple Splunk : 800k +100k par 500g Cloudera : au début limité à 10 nœuds puis modification du mode de licencing Pas à l'abri d'un revirement à la Oracle. Aucune implémentation ne remplace un expert pour l'exploitation Les coûts cachés Injection des données Nettoyage des données.
  • 23. 25 Intégration dans un SI Attention aux effets de bord sur le cœur du SI On parle de centaine de giga jour, switch/cœur de réseau mutualisés Bande passante inter-sites (Qos MPLS) CPU/RAM consommé sur les serveurs applicatifs Lock des ressources (Map/Reduce) de la grille : mise en place de quota Durée de vie des données ? Pas de place dans vos travées ? Utilisation de serveur MoonShot HP 4U : 125 slots à repartir entre CPU est stockage Cartouche 16 core Disque de 1 tera. Recyclage Faire du capacity planning en recyclant les vieux serveurs en nœuds déstockage. Externalisation de l’infra Infra cloud dédiée, coûteuse si vous avez des exigences de temps de traitement.
  • 25. 2727 Comment valoriser des téra/pétaoctets d'informations ? Difficulté à valoriser car méconnaissance du contenu des logs L'information est-elle disponible ? Possibilité quasi infinie mais : Un expert Big Data ne remplacera pas un datascientist L'information a force de valeur uniquement par sa qualité et sa date de péremption. Use case réel GrepIt ! Facturation cliente sur plateforme mutualise Indicateur de SLA sur du middleware Détection d'attaque par analyse comportementale.
  • 27. 2929 Problématique : trouver un mot clef dans les logs Map / Reduce basique Map va filtrer les logs contenant le mot clé Reduce va simplement écrire les logs lui arrivant. Use Case 1 : GrepIT
  • 28. 3030 Use case 2 : facturation client sur plateforme mutualisée Faire du SLA sur du middle tiers mutualisé Clé de répartition composite IP / Stats / Htpp Code / Login / URL /Plateforme. 90 percentiles sur 2 sites
  • 29. 3131 Use case 2 : facturation client sur plateforme mutualisée
  • 30. 3232 Use case 3 : détection d’attaque DOS Problématique : détection de robots qui empêchent la vente de produit Identifier les comportements anormaux Map va filtrer les URL utiles, la clé de répartition est l’ip Reduce va calculer des compteurs : Nombre de mise en panier Délai entre 2 mise en panier Nombre de paiement versus nombre de mise en panier En sortie on corrèle avec des seuils prédéfinies. Bannissement d’IP non automatique
  • 31. 3333 Use case 4 : indicateur de SLA sur du middleware Problématique : vérifier qu’on entre dans le SLA sur du middleware répartie Identifier les comportements anormaux Agrégation Corrélation Gestion de plusieurs datasources.
  • 33. 3535 Les nouveaux besoins Mode batch pas toujours adapté Introduction d’ElasticSearch / Kibana. Gestion de la durée de vie de l’information : besoin de streaming
  • 34. BIG DATA AU DELA D’UNE MODE
  • 35. 37 Big Data au-delà d’une mode Solutions inventées et adoptées par et pour les leaders de marché L’algorithme map/reduce remis au goût du jour par Google pour indexer le Web Hadoop core vient des équipe de Yahoo pour indexer le Web Difficile de faire mieux avec un équipe R&D (on RivoDB). Sans engagement : Pas de technologie propriétaire Hardware standard Produit Open Source massivement adopté qui devient donc un standard. Implications stratégiques au delà du rêve Permet d'établir des stratégies marketing a court et moyen terme, comment ? Toute la matière première est là Nécessite de réelles compétences de Data Scientist Permet une évolution « maîtrisée » du SI au delà de l'amortissement CAPEX/OPEX étalé.
  • 37. 39 Conclusion N'est qu'un moyen technique, pas la finalité Ne pas se tromper d'acteur/profil L'analyse statistique est un métier à par entière (Data Scientist) Exploitation d'un cluster nécessite un bon niveau d'expertise De même pour les développements : peu très vite déraper. Attention aux promesses des sociétés de consulting Pose des problèmes organisationnels importants Peu de société en France sont dotées d’un vrai retour d'expérience
  • 38. 40 Références http://fr.wikipedia.org/wiki/MapReduce Hadoop : the Definitive guide / O'Reilly MISC Décembre 2013 Cluster Multiprocesseur / Architecture Paralelle Eyrolles.
  • 39. 41