SlideShare une entreprise Scribd logo
1  sur  24
Télécharger pour lire hors ligne
Arnaud LAROCHE
Julien DAMON

Panorama des solutions analytiques existantes
SFdS Méthodes et Logiciels - 16 janvier 2014 - Données Massives
Ne sont ici considérés que les solutions autour de l’environnement Hadoop

Plusdevolume
Moinsdestructure
Plusdevitesse
Plusd’analyses

Outils d’exploitation
de l’information

Modèle de
programmation parallèle

Un nouveau paradigme de
traitement de données
massivement « parallélisable »

Bases de données Nosql,
outils de transformation,
outils de requêtage,
reporting, datamining,
machine-learning…

Système de fichiers
distribués

Un nouveau paradigme de
stockage de données,
massivement “scalable”
3
Action

Axe « Opérationnel » : La
possibilité de placer des
fonctions analytiques
complexes au cœur
d’applications
opérationnelles tempsréel (notion de DataCentric Applications
permettant d’imaginer de
nouveaux produits et
services)

Décision
Information

Données

Axe « Financier » : La promesse de
réduction de coûts liée à la possible
mutualisation des infrastructures
techniques (data-centers) et à la
« scalabilité » desdites
infrastructures

Axe « Analytique » : La
possibilité d’opérer des
analyses statistiques
complexes et des calculs
mathématiques en des
temps réduits sur de plus
grands volumes de
données, et sur des
données de nature
différente (non
structurées)

4
Exemple simplifié de traitement Map Reduce
Entrée

Répartition

Dear Deer
Beer

Complexité
algorithmique

<Bear, 2>

<Beer, 1>
<Beer, 1>
<Beer, 1>

<Beer, 3>

<Dear, 2>

<Deer, 1>
<Deer, 1>

Dear Bear
Beer

Reduce

<Dear, 1>
<Dear, 1>

Deer Bear Beer
Dear Bear Beer
Dear Deer Beer

<Deer, 1>
<Bear, 1>
<Beer,1>

Assortiment
<Bear, 1>
<Bear, 1>

Deer Bear
Beer

Map

Sortie

<Deer, 2>

<Bear,2>
<Beer,3>
<Dear,2>
<Deer,2>

<Dear, 1>
<Bear,1>
<Beer, 1>

<Dear, 1>
<Deer, 1>
<Beer, 1>

Latence liée
à l’architecture

Concevoir des
algorithmes adaptés

Certains algorithmes
n’existent pas

5
IN HADOOP

ON HADOOP

« SIDE BY SIDE »

Traitements réalisés sur le
cluster Hadoop avec le
framework Hadoop

Extractions des données
pour traitement analytiques

Mutualisation de
l’environnement Hadoop
avec la solution analytique

 Échanges de données
 Paradigme map reduce
(distribué ou non)
 Possibilité de traitements
intensifs (forte
volumétrie, modélisation
multiple)

 Échanges de données
extra-cluster (hdfs, hive,
hbase, …)

 Paradigmes non map
reduce (distribué ou non)
 Espace spécialisé pour
les traitements
analytiques

 Échanges de données
intra-cluster (hdfs, hive,
hbase, …)
 Paradigmes non map
reduce (distribué ou non)
 Partage de ressources
 Possibilité d’approches
« in memory »

6
Statistique & Datamining
vs
Informatique & Machine-learning

RAS
(Seuls les usages et la démarche changent réellement)
7
Apache
MapReduce
http://hadoop.apache.org






Open source
In Hadoop
Map Reduce
Java

Points Forts

 Standard
 Tarification
 Volumétrie manipulable

Apache Streaming

http://hadoop.apache.org/docs/stable1/streami
ng.html

Points Forts





Standard
Tarification
Souplesse sur le langage à utiliser
Possibilité d’utiliser des
bibliothèques d’analyse (scikit, …)

La solution standard de Hadoop pour réaliser
des traitements dans le cluster. Elle n’est en rien
spécifique à des traitements analytiques.

Points Faibles











Simplicité d’utilisation

Coût réel
Latence
Complexité
Besoin de tout implémenter

Open source
In Hadoop
Map Reduce
Python, C++, R, …

Fonctionnalités

Volumétrie

Intégration sous la forme d’un flux (stdin, stdout)
de la fonctionnalité MapReduce pour tous les
langages pouvant fonctionner sous ce mode.

Points Faibles
 Comme MapReduce +
 Besoin de parsing des fichiers à
chaque étape

Simplicité d’utilisation

Fonctionnalités

Volumétrie
9
Apache Mahout

http://mahout.apache.org/

Points Forts

 Open source
 In Hadoop
 Java

Solution proposée standard par la fondation
Apache pour réaliser des traitements
analytiques. Un grand nombre d’algorithme sont
implémentés.

Points Faibles

 Standard
 Tarification
 Algorithmes déjà programmés

RHadoop

https://github.com/RevolutionAnalytics/RHado
op/wiki

Points Forts
 Programmation sous R
 Tarification
 Réutilisation des bibliothèques
R possible

Simplicité d’utilisation

 Java ou ligne de commande
« complexe »
 Documentation
 Régression fonctionnelle

 Open source
 In Hadoop
 Map Reduce

Points Faibles
 Aucun algorithme fourni
 Latence
 Conversion des données
souvent nécessaire

Fonctionnalités

Volumétrie

Solution open source réalisée par Revolution
Analytics permettant de réaliser les traitement
map reduce (rmr2), hdfs (rhdfs), et hbase
(rhbase) directement sous R.
Simplicité d’utilisation

Fonctionnalités

Volumétrie
10
Spark

http://spark.incubator.apache.org

Points Forts











Open source
In Hadoop
Map Reduce
In Memory

Solution permettant d’accélérer les traitements map
reduce en utilisant les ressources mémoire du cluster
(c’est en fai tune alternative à map Reduce). Elle peut
être utilisée avec Scala, Java, Python et bientôt R.

Points Faibles

Performances
Diversité des langages utilisables
Tarification
Algorithmes existants
Adapté à la propagation de scores

RHive

http://nexr.github.io/RHive/

Points Forts
 Programmation en R
 Requêtes Hive
 Adapté à la propagation de
scores
 Tarification

Simplicité d’utilisation

 Pas adapté pour l’inférence
 En cours de développement

Fonctionnalités

Volumétrie

 Open source
 In Hadoop
 Interaction avec Hive

Intégration de R avec Hive. Dans un sens,
permet de réaliser des requêtes HQL en R, dans
l’autre sens, permet d’utiliser des fonctions R
sous Hive.

Points Faibles
 Repose sur Hive
 Pas adapté pour l’inférence

Simplicité d’utilisation

Fonctionnalités

Volumétrie
11
Storm

http://storm-project.net

 Open source
 In Hadoop
 Java

Points Forts





Performances
Diversité des langages utilisables
Tarification
Adapté à la propagation de scores
simples

0xdata H2O
http://0xdata.com

Points Forts
 Performances (réactivité)
 IHM agréable (Web)
 Algorithme existants

Solution adaptée à la réalisation de traitements
temps réel. Peut être interfacé avec un grand
nombre de langages : Ruby, Python,
Javascript, Perl, PHP, et R (avec storm-r)

Points Faibles

Simplicité d’utilisation

 Pas adapté pour l’inférence
 Non spécifique analytique

Fonctionnalités

Volumétrie






Open source
In Hadoop
Non Map Reduce
In Memory

Points Faibles
 Contraintes hardware
 Limites du « In Memory »
 Méthodes limités (en
développement)
 Pas de flux de traitement

Solution in memory déployée sur cluster
Hadoop. Permet de réaliser certains traitements
analytiques classiques sur des données
structurées.
Simplicité d’utilisation

Fonctionnalités

Volumétrie
12
ORACLE R Entreprise
http://www.oracle.com/technetwork/database/
options/advanced-analytics/renterprise/index.html

 Commercial
 In Hadoop
 Map Reduce

Points Forts

Solution comprenant :
ORCH, un connecteur Hadoop pour R ayant des
fonctionnalités proches de Rhadoop
ORE, l’intégration de R dans Oracle

Points Faibles

 Programmation sous R
 Réutilisation des bibliothèques
R possible
 Utilisation de Oracle pour les
données volumineuses

Wibidata

http://www.wibidata.com

Points Forts
 Performances
 Algorithmes existants
 Adapté à la propagation de
scores











Simplicité d’utilisation

Tarification
Aucun algorithme fourni
Latence
Conversion des données
souvent nécessaire

Commercial
On Hadoop
Interaction avec Hive
Java

Fonctionnalités

Volumétrie

Solution s’appuyant sur Kiji (open source)
permettant de réaliser des traitement
analytiques simples en HQL.

Points Faibles
 Pas adapté pour l’inférence
 Peu d’algorithmes existant
 Structuration des données

Simplicité d’utilisation

Fonctionnalités

Volumétrie
13
Datameer
http://www.datameer.com

Points Forts





Performances (réactivité)
IHM agréable (Web)
Datavisualisation
Adapté à de la propagation de
modèles

Statistica / Statsoft

http://www.statsoft.fr/

Points Forts
 Simplification des manipulation
sous Hive
 De nombreux algorithmes
 Datavisualisation
 Scoring parallélisés

 Solution commerciale
 In Hadoop
 Non Map Reduce

Plateforme intégrée permettant de faire des
reporting, de la visualisation, et de la
propagation de modèles PMML via Zementis.

Points Faibles

Simplicité d’utilisation

 Tarification (si > 1 To)
 Pas adapté pour l’inférence

Fonctionnalités

Volumétrie

 Solution commerciale
 On Hadoop
 Distribué non Map
Reduce

Points Faibles
 Tarification
 Besoin de structurer les
données sous Hive
 Estimation sur données
réduites

Plateforme Wintel adossée à un cluster Hadoop,
permettant de réaliser des traitements Hive
simplement, des modélisations sur données
distillées, et du scoring via une solution dédiée.
Simplicité d’utilisation

Fonctionnalités

Volumétrie
14
SAS High-Performance
Data Mining
http://www.sas.com/offices/europe/france/solu
tions/high-performance-analytics/






Commercial
In Hadoop
Non Map Reduce
In Memory

Points Forts






Performances (réactivité)
Programmation « classique »
IHM agréable (Flowchart)
Datavisualisation

Revolution Analytics

http://www.revolutionanalytics.com/

Points Forts
 Performances
 Programmation style R
 Datavisualisation (non
interactive)
 De nombreux algorithmes

Points Faibles






Tarification
Contraintes hardware
Limites du « In Memory »
Structuration des données

 Solution commerciale
 On Hadoop
 Distribué non Map
Reduce

Points Faibles
 Tarification
 Absence de certains
algorithmes de machine
learning
 Architecture

Solution in memory déployée sur cluster
Hadoop. Permet de réaliser l’ensemble des
traitements analytiques classiques sur des
données structurées,
Simplicité d’utilisation

Fonctionnalités

Volumétrie

Adaptation de R à l’utilisation des volumes
importants de données. Permet de réaliser des
traitements « side by side » avec Hadoop. Un
nombre important d’algorithmes est disponible.
Simplicité d’utilisation

Fonctionnalités

Volumétrie
15
IBM SPSS Modeler

http://www-01.ibm.com/
software/analytics/spss/products/modeler

Points Forts

 Commercial
 In & On Hadoop
 Non Map Reduce
Points Faibles

 Intégration de composants
multiples
 Intégration possible de R
 Méthodes « classiques » (SPSS)

Dataiku

http://www.dataiku.com

Points Forts
 Programmation « classique »
 IHM agréable (Web, Flowchart)
 Facilité à mixer les outils (Pig +
Scikit + Datavisualisation, …)

 Eco système complet
 Tarification

Solution analytique de IBM combinant la
possibilité de traitements Map Reduce en JAQL
avec du streaming avec SPSS Modeler

Simplicité d’utilisation

Fonctionnalités

Volumétrie

 Solution commerciale
 In & On Hadoop
 Non Map Reduce

Points Faibles

 Non map reduce
 Architecture

Plateforme intégrée rassemblant des solutions
open source (Pig, Hive) permettant de faire des
reporting, de la visualisation et des traitements
analytiques en python (R et Mahout à venir)
Simplicité d’utilisation

Fonctionnalités

Volumétrie
16
Alpine

http://alpinenow.com

Points Forts

 Commercial
 On Hadoop
 Non Map Reduce

Solution analytique construite sur Hive et Hbase
permettant de réaliser des traitements
analytiques via une interface de workflow

Points Faibles

 IHM agréable (Flowchart)
 Datavisualisation
 Déploiement de modèles

Skytree

http://www.skytree.net

Points Forts

 Facilitateur d’accès
 Nombreux algorithmes

Simplicité d’utilisation

 Approche base de données
 Estimation de données
 Données à inclure dans Hive ou
HBase

 Commercial
 On Hadoop
 Non Map Reduce

Points Faibles

 Sans IHM
 Hors Hadoop

Fonctionnalités

Volumétrie

Solution analytique prenant la forme d’un web
service pouvant être interfacé avec R, Weka,
C++ et Python.

Simplicité d’utilisation

Fonctionnalités

Volumétrie
17
TEMPS RÉEL

REPORTING

SCORING

Détection des Fraudes

Anticipation de surcharge
serveurs

Segmentation clients

Suivi d’indicateurs agrégés
(courbes de charges, flux, …)

Next best offert

Targeting dynamique
Personnalisation de l’offre
…

Outils légers
temps réel

…

Solutions Web et
in memory

Valorisation
…

Solutions les plus
complètes

19
Pérennité

Choix d’un éditeur
Développement interne
…

Gestion des
données
ETL
Distillation
Prise en charge des
données non structurées
…

Combiner des outils
Sous forme intégrée
En mutualisant les compétences
En minimisant les transformations de
données
…

Dimensionnement
des données
analysées
Analyse sur échantillonnage ?

Calcul segmenté ?
…

Spécificité des
analyses
Algorithmes standards ?
Approche industrielle ou R&D ?
…

Avec des
moyens
adaptés

Intégration
avec
l’existant
Format de stockage des
données
Mutualisation de la
plateforme hadoop
…

Evolutivité
Anticiper les besoins à venir
Eviter le patchwork
…

20
Tarification de la solution

+
+
+
+
+
+
+

Montée en compétence des équipes
Accompagnement
Développement d’algorithmes
Contraintes hardware
Impact sur les traitements existants
Montés de version
…

=
21
Analyses
simples sur des
volumes
morcelés

Analyses
poussées sur
des volumes
importants
Outils riches et
complexes

Solutions simples et rapides
à mettre en œuvre
Merci !
Présentation à retrouver sur : http://datascience.bluestone.fr/

Contenu connexe

En vedette

Hue: Big Data Web applications for Interactive Hadoop at Big Data Spain 2014
Hue: Big Data Web applications for Interactive Hadoop at Big Data Spain 2014Hue: Big Data Web applications for Interactive Hadoop at Big Data Spain 2014
Hue: Big Data Web applications for Interactive Hadoop at Big Data Spain 2014gethue
 
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à HadoopCasablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à HadoopBenoît de CHATEAUVIEUX
 
Visioconférence, webconférence,téléprésence
Visioconférence, webconférence,téléprésenceVisioconférence, webconférence,téléprésence
Visioconférence, webconférence,téléprésenceNeedeo
 
Hadoop et son écosystème
Hadoop et son écosystèmeHadoop et son écosystème
Hadoop et son écosystèmeKhanh Maudoux
 
Mi cole en_otono
Mi cole en_otonoMi cole en_otono
Mi cole en_otonogaviotawiki
 
Meqanique du point materiel
Meqanique du point materielMeqanique du point materiel
Meqanique du point materielsarah Benmerzouk
 
Los famosos delitos informaticos
Los famosos delitos informaticosLos famosos delitos informaticos
Los famosos delitos informaticoschecho23123
 
Concepto+hub+slides
Concepto+hub+slidesConcepto+hub+slides
Concepto+hub+slidesConectaDEL
 
Tema 6: Herramientas psicológicas de la creatividad
Tema 6: Herramientas psicológicas de la creatividadTema 6: Herramientas psicológicas de la creatividad
Tema 6: Herramientas psicológicas de la creatividaddreizabal
 
Bulletin municipal de Saint-Martial de Valette - juillet 2014
Bulletin municipal de Saint-Martial de Valette - juillet 2014Bulletin municipal de Saint-Martial de Valette - juillet 2014
Bulletin municipal de Saint-Martial de Valette - juillet 2014Mairie
 
40 portraits
40 portraits40 portraits
40 portraitsJinHyeonk
 
Salve en el_cano
Salve en el_canoSalve en el_cano
Salve en el_canogonzalvo2
 
¿Ganar pasta con apps? Tráfico y conversiones
¿Ganar pasta con apps? Tráfico y conversiones¿Ganar pasta con apps? Tráfico y conversiones
¿Ganar pasta con apps? Tráfico y conversionesLanzandoApps.com
 
Efectos ambientales en la evolución de galáxias..
Efectos ambientales en la evolución de galáxias.. Efectos ambientales en la evolución de galáxias..
Efectos ambientales en la evolución de galáxias.. SOCIEDAD JULIO GARAVITO
 

En vedette (20)

Hue: Big Data Web applications for Interactive Hadoop at Big Data Spain 2014
Hue: Big Data Web applications for Interactive Hadoop at Big Data Spain 2014Hue: Big Data Web applications for Interactive Hadoop at Big Data Spain 2014
Hue: Big Data Web applications for Interactive Hadoop at Big Data Spain 2014
 
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à HadoopCasablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
 
Visioconférence, webconférence,téléprésence
Visioconférence, webconférence,téléprésenceVisioconférence, webconférence,téléprésence
Visioconférence, webconférence,téléprésence
 
Hadoop et son écosystème
Hadoop et son écosystèmeHadoop et son écosystème
Hadoop et son écosystème
 
Mi cole en_otono
Mi cole en_otonoMi cole en_otono
Mi cole en_otono
 
Setec mars 10
Setec mars 10Setec mars 10
Setec mars 10
 
Crafting workshop
Crafting workshopCrafting workshop
Crafting workshop
 
Meqanique du point materiel
Meqanique du point materielMeqanique du point materiel
Meqanique du point materiel
 
Los famosos delitos informaticos
Los famosos delitos informaticosLos famosos delitos informaticos
Los famosos delitos informaticos
 
Te amo
Te amoTe amo
Te amo
 
Concepto+hub+slides
Concepto+hub+slidesConcepto+hub+slides
Concepto+hub+slides
 
Tema 6: Herramientas psicológicas de la creatividad
Tema 6: Herramientas psicológicas de la creatividadTema 6: Herramientas psicológicas de la creatividad
Tema 6: Herramientas psicológicas de la creatividad
 
Bulletin municipal de Saint-Martial de Valette - juillet 2014
Bulletin municipal de Saint-Martial de Valette - juillet 2014Bulletin municipal de Saint-Martial de Valette - juillet 2014
Bulletin municipal de Saint-Martial de Valette - juillet 2014
 
40 portraits
40 portraits40 portraits
40 portraits
 
Salve en el_cano
Salve en el_canoSalve en el_cano
Salve en el_cano
 
In02100c
In02100cIn02100c
In02100c
 
Narrativa audiovisual
Narrativa audiovisualNarrativa audiovisual
Narrativa audiovisual
 
La oferta
La ofertaLa oferta
La oferta
 
¿Ganar pasta con apps? Tráfico y conversiones
¿Ganar pasta con apps? Tráfico y conversiones¿Ganar pasta con apps? Tráfico y conversiones
¿Ganar pasta con apps? Tráfico y conversiones
 
Efectos ambientales en la evolución de galáxias..
Efectos ambientales en la evolución de galáxias.. Efectos ambientales en la evolución de galáxias..
Efectos ambientales en la evolución de galáxias..
 

Similaire à Bluestone - Panorama des solutions analytiques existantes

Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !OCTO Technology
 
Sahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStackSahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStackALTIC Altic
 
Aqui hadoop draft
Aqui hadoop draftAqui hadoop draft
Aqui hadoop draftEric Papet
 
Cy3902 formation-cloudera-developer-training-for-apache-hadoop
Cy3902 formation-cloudera-developer-training-for-apache-hadoopCy3902 formation-cloudera-developer-training-for-apache-hadoop
Cy3902 formation-cloudera-developer-training-for-apache-hadoopCERTyou Formation
 
SQL Saturday Paris 2015 - Polybase
SQL Saturday Paris 2015 - PolybaseSQL Saturday Paris 2015 - Polybase
SQL Saturday Paris 2015 - PolybaseRomain Casteres
 
Social Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologySocial Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologyImad ALILAT
 
SAS Forum Soft Computing Théâtre
SAS Forum Soft Computing ThéâtreSAS Forum Soft Computing Théâtre
SAS Forum Soft Computing ThéâtreSoft Computing
 
Spad big data - sfds - 2016
Spad   big data - sfds - 2016Spad   big data - sfds - 2016
Spad big data - sfds - 2016Julien BLAIZE
 
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkPlateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkALTIC Altic
 
Morning With MongoDB
Morning With MongoDBMorning With MongoDB
Morning With MongoDBFastConnect
 
Solr + Hadoop - Fouillez facilement dans votre système Big Data
Solr + Hadoop - Fouillez facilement dans votre système Big DataSolr + Hadoop - Fouillez facilement dans votre système Big Data
Solr + Hadoop - Fouillez facilement dans votre système Big Datafrancelabs
 
SSAS 2012 : Multidimensionnel et tabulaire au banc d'essai
SSAS 2012 : Multidimensionnel et tabulaire au banc d'essaiSSAS 2012 : Multidimensionnel et tabulaire au banc d'essai
SSAS 2012 : Multidimensionnel et tabulaire au banc d'essaiMicrosoft Technet France
 
Parallélisation d'algorithmes de graphes avec MapReduce sur un cluster d'ordi...
Parallélisation d'algorithmes de graphes avec MapReduce sur un cluster d'ordi...Parallélisation d'algorithmes de graphes avec MapReduce sur un cluster d'ordi...
Parallélisation d'algorithmes de graphes avec MapReduce sur un cluster d'ordi...Hadjer BENHADJ DJILALI
 
GTUG Nantes (Dec 2011) - BigTable et NoSQL
GTUG Nantes (Dec 2011) - BigTable et NoSQLGTUG Nantes (Dec 2011) - BigTable et NoSQL
GTUG Nantes (Dec 2011) - BigTable et NoSQLMichaël Figuière
 
Gtug nantes big table et nosql
Gtug nantes   big table et nosqlGtug nantes   big table et nosql
Gtug nantes big table et nosqlGDG Nantes
 
SQLSaturday Paris 2014 - HDInsight : Cas d’usages, Hive, Sqoop, Pig, …
SQLSaturday Paris 2014 - HDInsight : Cas d’usages, Hive, Sqoop, Pig, …SQLSaturday Paris 2014 - HDInsight : Cas d’usages, Hive, Sqoop, Pig, …
SQLSaturday Paris 2014 - HDInsight : Cas d’usages, Hive, Sqoop, Pig, …GUSS
 
SQL Saturday 323 Paris 2014 - HDInsight
SQL Saturday 323 Paris 2014 - HDInsightSQL Saturday 323 Paris 2014 - HDInsight
SQL Saturday 323 Paris 2014 - HDInsightRomain Casteres
 

Similaire à Bluestone - Panorama des solutions analytiques existantes (20)

Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
 
NoSQL et Big Data
NoSQL et Big DataNoSQL et Big Data
NoSQL et Big Data
 
Sahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStackSahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStack
 
Aqui hadoop draft
Aqui hadoop draftAqui hadoop draft
Aqui hadoop draft
 
Cy3902 formation-cloudera-developer-training-for-apache-hadoop
Cy3902 formation-cloudera-developer-training-for-apache-hadoopCy3902 formation-cloudera-developer-training-for-apache-hadoop
Cy3902 formation-cloudera-developer-training-for-apache-hadoop
 
Quel hadoop (#quelhadoop)
Quel hadoop (#quelhadoop)Quel hadoop (#quelhadoop)
Quel hadoop (#quelhadoop)
 
SQL Saturday Paris 2015 - Polybase
SQL Saturday Paris 2015 - PolybaseSQL Saturday Paris 2015 - Polybase
SQL Saturday Paris 2015 - Polybase
 
Social Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologySocial Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data Technology
 
SAS Forum Soft Computing Théâtre
SAS Forum Soft Computing ThéâtreSAS Forum Soft Computing Théâtre
SAS Forum Soft Computing Théâtre
 
Spad big data - sfds - 2016
Spad   big data - sfds - 2016Spad   big data - sfds - 2016
Spad big data - sfds - 2016
 
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkPlateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
 
Morning With MongoDB
Morning With MongoDBMorning With MongoDB
Morning With MongoDB
 
Solr + Hadoop - Fouillez facilement dans votre système Big Data
Solr + Hadoop - Fouillez facilement dans votre système Big DataSolr + Hadoop - Fouillez facilement dans votre système Big Data
Solr + Hadoop - Fouillez facilement dans votre système Big Data
 
SSAS 2012 : Multidimensionnel et tabulaire au banc d'essai
SSAS 2012 : Multidimensionnel et tabulaire au banc d'essaiSSAS 2012 : Multidimensionnel et tabulaire au banc d'essai
SSAS 2012 : Multidimensionnel et tabulaire au banc d'essai
 
Parallélisation d'algorithmes de graphes avec MapReduce sur un cluster d'ordi...
Parallélisation d'algorithmes de graphes avec MapReduce sur un cluster d'ordi...Parallélisation d'algorithmes de graphes avec MapReduce sur un cluster d'ordi...
Parallélisation d'algorithmes de graphes avec MapReduce sur un cluster d'ordi...
 
HADOOP + R
HADOOP + RHADOOP + R
HADOOP + R
 
GTUG Nantes (Dec 2011) - BigTable et NoSQL
GTUG Nantes (Dec 2011) - BigTable et NoSQLGTUG Nantes (Dec 2011) - BigTable et NoSQL
GTUG Nantes (Dec 2011) - BigTable et NoSQL
 
Gtug nantes big table et nosql
Gtug nantes   big table et nosqlGtug nantes   big table et nosql
Gtug nantes big table et nosql
 
SQLSaturday Paris 2014 - HDInsight : Cas d’usages, Hive, Sqoop, Pig, …
SQLSaturday Paris 2014 - HDInsight : Cas d’usages, Hive, Sqoop, Pig, …SQLSaturday Paris 2014 - HDInsight : Cas d’usages, Hive, Sqoop, Pig, …
SQLSaturday Paris 2014 - HDInsight : Cas d’usages, Hive, Sqoop, Pig, …
 
SQL Saturday 323 Paris 2014 - HDInsight
SQL Saturday 323 Paris 2014 - HDInsightSQL Saturday 323 Paris 2014 - HDInsight
SQL Saturday 323 Paris 2014 - HDInsight
 

Bluestone - Panorama des solutions analytiques existantes

  • 1. Arnaud LAROCHE Julien DAMON Panorama des solutions analytiques existantes SFdS Méthodes et Logiciels - 16 janvier 2014 - Données Massives
  • 2.
  • 3. Ne sont ici considérés que les solutions autour de l’environnement Hadoop Plusdevolume Moinsdestructure Plusdevitesse Plusd’analyses Outils d’exploitation de l’information Modèle de programmation parallèle Un nouveau paradigme de traitement de données massivement « parallélisable » Bases de données Nosql, outils de transformation, outils de requêtage, reporting, datamining, machine-learning… Système de fichiers distribués Un nouveau paradigme de stockage de données, massivement “scalable” 3
  • 4. Action Axe « Opérationnel » : La possibilité de placer des fonctions analytiques complexes au cœur d’applications opérationnelles tempsréel (notion de DataCentric Applications permettant d’imaginer de nouveaux produits et services) Décision Information Données Axe « Financier » : La promesse de réduction de coûts liée à la possible mutualisation des infrastructures techniques (data-centers) et à la « scalabilité » desdites infrastructures Axe « Analytique » : La possibilité d’opérer des analyses statistiques complexes et des calculs mathématiques en des temps réduits sur de plus grands volumes de données, et sur des données de nature différente (non structurées) 4
  • 5. Exemple simplifié de traitement Map Reduce Entrée Répartition Dear Deer Beer Complexité algorithmique <Bear, 2> <Beer, 1> <Beer, 1> <Beer, 1> <Beer, 3> <Dear, 2> <Deer, 1> <Deer, 1> Dear Bear Beer Reduce <Dear, 1> <Dear, 1> Deer Bear Beer Dear Bear Beer Dear Deer Beer <Deer, 1> <Bear, 1> <Beer,1> Assortiment <Bear, 1> <Bear, 1> Deer Bear Beer Map Sortie <Deer, 2> <Bear,2> <Beer,3> <Dear,2> <Deer,2> <Dear, 1> <Bear,1> <Beer, 1> <Dear, 1> <Deer, 1> <Beer, 1> Latence liée à l’architecture Concevoir des algorithmes adaptés Certains algorithmes n’existent pas 5
  • 6. IN HADOOP ON HADOOP « SIDE BY SIDE » Traitements réalisés sur le cluster Hadoop avec le framework Hadoop Extractions des données pour traitement analytiques Mutualisation de l’environnement Hadoop avec la solution analytique  Échanges de données  Paradigme map reduce (distribué ou non)  Possibilité de traitements intensifs (forte volumétrie, modélisation multiple)  Échanges de données extra-cluster (hdfs, hive, hbase, …)  Paradigmes non map reduce (distribué ou non)  Espace spécialisé pour les traitements analytiques  Échanges de données intra-cluster (hdfs, hive, hbase, …)  Paradigmes non map reduce (distribué ou non)  Partage de ressources  Possibilité d’approches « in memory » 6
  • 7. Statistique & Datamining vs Informatique & Machine-learning RAS (Seuls les usages et la démarche changent réellement) 7
  • 8.
  • 9. Apache MapReduce http://hadoop.apache.org     Open source In Hadoop Map Reduce Java Points Forts  Standard  Tarification  Volumétrie manipulable Apache Streaming http://hadoop.apache.org/docs/stable1/streami ng.html Points Forts     Standard Tarification Souplesse sur le langage à utiliser Possibilité d’utiliser des bibliothèques d’analyse (scikit, …) La solution standard de Hadoop pour réaliser des traitements dans le cluster. Elle n’est en rien spécifique à des traitements analytiques. Points Faibles         Simplicité d’utilisation Coût réel Latence Complexité Besoin de tout implémenter Open source In Hadoop Map Reduce Python, C++, R, … Fonctionnalités Volumétrie Intégration sous la forme d’un flux (stdin, stdout) de la fonctionnalité MapReduce pour tous les langages pouvant fonctionner sous ce mode. Points Faibles  Comme MapReduce +  Besoin de parsing des fichiers à chaque étape Simplicité d’utilisation Fonctionnalités Volumétrie 9
  • 10. Apache Mahout http://mahout.apache.org/ Points Forts  Open source  In Hadoop  Java Solution proposée standard par la fondation Apache pour réaliser des traitements analytiques. Un grand nombre d’algorithme sont implémentés. Points Faibles  Standard  Tarification  Algorithmes déjà programmés RHadoop https://github.com/RevolutionAnalytics/RHado op/wiki Points Forts  Programmation sous R  Tarification  Réutilisation des bibliothèques R possible Simplicité d’utilisation  Java ou ligne de commande « complexe »  Documentation  Régression fonctionnelle  Open source  In Hadoop  Map Reduce Points Faibles  Aucun algorithme fourni  Latence  Conversion des données souvent nécessaire Fonctionnalités Volumétrie Solution open source réalisée par Revolution Analytics permettant de réaliser les traitement map reduce (rmr2), hdfs (rhdfs), et hbase (rhbase) directement sous R. Simplicité d’utilisation Fonctionnalités Volumétrie 10
  • 11. Spark http://spark.incubator.apache.org Points Forts          Open source In Hadoop Map Reduce In Memory Solution permettant d’accélérer les traitements map reduce en utilisant les ressources mémoire du cluster (c’est en fai tune alternative à map Reduce). Elle peut être utilisée avec Scala, Java, Python et bientôt R. Points Faibles Performances Diversité des langages utilisables Tarification Algorithmes existants Adapté à la propagation de scores RHive http://nexr.github.io/RHive/ Points Forts  Programmation en R  Requêtes Hive  Adapté à la propagation de scores  Tarification Simplicité d’utilisation  Pas adapté pour l’inférence  En cours de développement Fonctionnalités Volumétrie  Open source  In Hadoop  Interaction avec Hive Intégration de R avec Hive. Dans un sens, permet de réaliser des requêtes HQL en R, dans l’autre sens, permet d’utiliser des fonctions R sous Hive. Points Faibles  Repose sur Hive  Pas adapté pour l’inférence Simplicité d’utilisation Fonctionnalités Volumétrie 11
  • 12. Storm http://storm-project.net  Open source  In Hadoop  Java Points Forts     Performances Diversité des langages utilisables Tarification Adapté à la propagation de scores simples 0xdata H2O http://0xdata.com Points Forts  Performances (réactivité)  IHM agréable (Web)  Algorithme existants Solution adaptée à la réalisation de traitements temps réel. Peut être interfacé avec un grand nombre de langages : Ruby, Python, Javascript, Perl, PHP, et R (avec storm-r) Points Faibles Simplicité d’utilisation  Pas adapté pour l’inférence  Non spécifique analytique Fonctionnalités Volumétrie     Open source In Hadoop Non Map Reduce In Memory Points Faibles  Contraintes hardware  Limites du « In Memory »  Méthodes limités (en développement)  Pas de flux de traitement Solution in memory déployée sur cluster Hadoop. Permet de réaliser certains traitements analytiques classiques sur des données structurées. Simplicité d’utilisation Fonctionnalités Volumétrie 12
  • 13. ORACLE R Entreprise http://www.oracle.com/technetwork/database/ options/advanced-analytics/renterprise/index.html  Commercial  In Hadoop  Map Reduce Points Forts Solution comprenant : ORCH, un connecteur Hadoop pour R ayant des fonctionnalités proches de Rhadoop ORE, l’intégration de R dans Oracle Points Faibles  Programmation sous R  Réutilisation des bibliothèques R possible  Utilisation de Oracle pour les données volumineuses Wibidata http://www.wibidata.com Points Forts  Performances  Algorithmes existants  Adapté à la propagation de scores         Simplicité d’utilisation Tarification Aucun algorithme fourni Latence Conversion des données souvent nécessaire Commercial On Hadoop Interaction avec Hive Java Fonctionnalités Volumétrie Solution s’appuyant sur Kiji (open source) permettant de réaliser des traitement analytiques simples en HQL. Points Faibles  Pas adapté pour l’inférence  Peu d’algorithmes existant  Structuration des données Simplicité d’utilisation Fonctionnalités Volumétrie 13
  • 14. Datameer http://www.datameer.com Points Forts     Performances (réactivité) IHM agréable (Web) Datavisualisation Adapté à de la propagation de modèles Statistica / Statsoft http://www.statsoft.fr/ Points Forts  Simplification des manipulation sous Hive  De nombreux algorithmes  Datavisualisation  Scoring parallélisés  Solution commerciale  In Hadoop  Non Map Reduce Plateforme intégrée permettant de faire des reporting, de la visualisation, et de la propagation de modèles PMML via Zementis. Points Faibles Simplicité d’utilisation  Tarification (si > 1 To)  Pas adapté pour l’inférence Fonctionnalités Volumétrie  Solution commerciale  On Hadoop  Distribué non Map Reduce Points Faibles  Tarification  Besoin de structurer les données sous Hive  Estimation sur données réduites Plateforme Wintel adossée à un cluster Hadoop, permettant de réaliser des traitements Hive simplement, des modélisations sur données distillées, et du scoring via une solution dédiée. Simplicité d’utilisation Fonctionnalités Volumétrie 14
  • 15. SAS High-Performance Data Mining http://www.sas.com/offices/europe/france/solu tions/high-performance-analytics/     Commercial In Hadoop Non Map Reduce In Memory Points Forts     Performances (réactivité) Programmation « classique » IHM agréable (Flowchart) Datavisualisation Revolution Analytics http://www.revolutionanalytics.com/ Points Forts  Performances  Programmation style R  Datavisualisation (non interactive)  De nombreux algorithmes Points Faibles     Tarification Contraintes hardware Limites du « In Memory » Structuration des données  Solution commerciale  On Hadoop  Distribué non Map Reduce Points Faibles  Tarification  Absence de certains algorithmes de machine learning  Architecture Solution in memory déployée sur cluster Hadoop. Permet de réaliser l’ensemble des traitements analytiques classiques sur des données structurées, Simplicité d’utilisation Fonctionnalités Volumétrie Adaptation de R à l’utilisation des volumes importants de données. Permet de réaliser des traitements « side by side » avec Hadoop. Un nombre important d’algorithmes est disponible. Simplicité d’utilisation Fonctionnalités Volumétrie 15
  • 16. IBM SPSS Modeler http://www-01.ibm.com/ software/analytics/spss/products/modeler Points Forts  Commercial  In & On Hadoop  Non Map Reduce Points Faibles  Intégration de composants multiples  Intégration possible de R  Méthodes « classiques » (SPSS) Dataiku http://www.dataiku.com Points Forts  Programmation « classique »  IHM agréable (Web, Flowchart)  Facilité à mixer les outils (Pig + Scikit + Datavisualisation, …)  Eco système complet  Tarification Solution analytique de IBM combinant la possibilité de traitements Map Reduce en JAQL avec du streaming avec SPSS Modeler Simplicité d’utilisation Fonctionnalités Volumétrie  Solution commerciale  In & On Hadoop  Non Map Reduce Points Faibles  Non map reduce  Architecture Plateforme intégrée rassemblant des solutions open source (Pig, Hive) permettant de faire des reporting, de la visualisation et des traitements analytiques en python (R et Mahout à venir) Simplicité d’utilisation Fonctionnalités Volumétrie 16
  • 17. Alpine http://alpinenow.com Points Forts  Commercial  On Hadoop  Non Map Reduce Solution analytique construite sur Hive et Hbase permettant de réaliser des traitements analytiques via une interface de workflow Points Faibles  IHM agréable (Flowchart)  Datavisualisation  Déploiement de modèles Skytree http://www.skytree.net Points Forts  Facilitateur d’accès  Nombreux algorithmes Simplicité d’utilisation  Approche base de données  Estimation de données  Données à inclure dans Hive ou HBase  Commercial  On Hadoop  Non Map Reduce Points Faibles  Sans IHM  Hors Hadoop Fonctionnalités Volumétrie Solution analytique prenant la forme d’un web service pouvant être interfacé avec R, Weka, C++ et Python. Simplicité d’utilisation Fonctionnalités Volumétrie 17
  • 18.
  • 19. TEMPS RÉEL REPORTING SCORING Détection des Fraudes Anticipation de surcharge serveurs Segmentation clients Suivi d’indicateurs agrégés (courbes de charges, flux, …) Next best offert Targeting dynamique Personnalisation de l’offre … Outils légers temps réel … Solutions Web et in memory Valorisation … Solutions les plus complètes 19
  • 20. Pérennité Choix d’un éditeur Développement interne … Gestion des données ETL Distillation Prise en charge des données non structurées … Combiner des outils Sous forme intégrée En mutualisant les compétences En minimisant les transformations de données … Dimensionnement des données analysées Analyse sur échantillonnage ? Calcul segmenté ? … Spécificité des analyses Algorithmes standards ? Approche industrielle ou R&D ? … Avec des moyens adaptés Intégration avec l’existant Format de stockage des données Mutualisation de la plateforme hadoop … Evolutivité Anticiper les besoins à venir Eviter le patchwork … 20
  • 21. Tarification de la solution + + + + + + + Montée en compétence des équipes Accompagnement Développement d’algorithmes Contraintes hardware Impact sur les traitements existants Montés de version … = 21
  • 22.
  • 23. Analyses simples sur des volumes morcelés Analyses poussées sur des volumes importants Outils riches et complexes Solutions simples et rapides à mettre en œuvre
  • 24. Merci ! Présentation à retrouver sur : http://datascience.bluestone.fr/