La Société Française de Statistique (SFdS) nous a fait le plaisir de convier Bluestone, le 16 janvier 2014, à son Rendez-Vous Méthodes et Logiciels consacré au Big Data.
Bluestone y a présenté un “Panorama des solutions analytiques existantes”.
3. Ne sont ici considérés que les solutions autour de l’environnement Hadoop
Plusdevolume
Moinsdestructure
Plusdevitesse
Plusd’analyses
Outils d’exploitation
de l’information
Modèle de
programmation parallèle
Un nouveau paradigme de
traitement de données
massivement « parallélisable »
Bases de données Nosql,
outils de transformation,
outils de requêtage,
reporting, datamining,
machine-learning…
Système de fichiers
distribués
Un nouveau paradigme de
stockage de données,
massivement “scalable”
3
4. Action
Axe « Opérationnel » : La
possibilité de placer des
fonctions analytiques
complexes au cœur
d’applications
opérationnelles tempsréel (notion de DataCentric Applications
permettant d’imaginer de
nouveaux produits et
services)
Décision
Information
Données
Axe « Financier » : La promesse de
réduction de coûts liée à la possible
mutualisation des infrastructures
techniques (data-centers) et à la
« scalabilité » desdites
infrastructures
Axe « Analytique » : La
possibilité d’opérer des
analyses statistiques
complexes et des calculs
mathématiques en des
temps réduits sur de plus
grands volumes de
données, et sur des
données de nature
différente (non
structurées)
4
6. IN HADOOP
ON HADOOP
« SIDE BY SIDE »
Traitements réalisés sur le
cluster Hadoop avec le
framework Hadoop
Extractions des données
pour traitement analytiques
Mutualisation de
l’environnement Hadoop
avec la solution analytique
Échanges de données
Paradigme map reduce
(distribué ou non)
Possibilité de traitements
intensifs (forte
volumétrie, modélisation
multiple)
Échanges de données
extra-cluster (hdfs, hive,
hbase, …)
Paradigmes non map
reduce (distribué ou non)
Espace spécialisé pour
les traitements
analytiques
Échanges de données
intra-cluster (hdfs, hive,
hbase, …)
Paradigmes non map
reduce (distribué ou non)
Partage de ressources
Possibilité d’approches
« in memory »
6
9. Apache
MapReduce
http://hadoop.apache.org
Open source
In Hadoop
Map Reduce
Java
Points Forts
Standard
Tarification
Volumétrie manipulable
Apache Streaming
http://hadoop.apache.org/docs/stable1/streami
ng.html
Points Forts
Standard
Tarification
Souplesse sur le langage à utiliser
Possibilité d’utiliser des
bibliothèques d’analyse (scikit, …)
La solution standard de Hadoop pour réaliser
des traitements dans le cluster. Elle n’est en rien
spécifique à des traitements analytiques.
Points Faibles
Simplicité d’utilisation
Coût réel
Latence
Complexité
Besoin de tout implémenter
Open source
In Hadoop
Map Reduce
Python, C++, R, …
Fonctionnalités
Volumétrie
Intégration sous la forme d’un flux (stdin, stdout)
de la fonctionnalité MapReduce pour tous les
langages pouvant fonctionner sous ce mode.
Points Faibles
Comme MapReduce +
Besoin de parsing des fichiers à
chaque étape
Simplicité d’utilisation
Fonctionnalités
Volumétrie
9
10. Apache Mahout
http://mahout.apache.org/
Points Forts
Open source
In Hadoop
Java
Solution proposée standard par la fondation
Apache pour réaliser des traitements
analytiques. Un grand nombre d’algorithme sont
implémentés.
Points Faibles
Standard
Tarification
Algorithmes déjà programmés
RHadoop
https://github.com/RevolutionAnalytics/RHado
op/wiki
Points Forts
Programmation sous R
Tarification
Réutilisation des bibliothèques
R possible
Simplicité d’utilisation
Java ou ligne de commande
« complexe »
Documentation
Régression fonctionnelle
Open source
In Hadoop
Map Reduce
Points Faibles
Aucun algorithme fourni
Latence
Conversion des données
souvent nécessaire
Fonctionnalités
Volumétrie
Solution open source réalisée par Revolution
Analytics permettant de réaliser les traitement
map reduce (rmr2), hdfs (rhdfs), et hbase
(rhbase) directement sous R.
Simplicité d’utilisation
Fonctionnalités
Volumétrie
10
11. Spark
http://spark.incubator.apache.org
Points Forts
Open source
In Hadoop
Map Reduce
In Memory
Solution permettant d’accélérer les traitements map
reduce en utilisant les ressources mémoire du cluster
(c’est en fai tune alternative à map Reduce). Elle peut
être utilisée avec Scala, Java, Python et bientôt R.
Points Faibles
Performances
Diversité des langages utilisables
Tarification
Algorithmes existants
Adapté à la propagation de scores
RHive
http://nexr.github.io/RHive/
Points Forts
Programmation en R
Requêtes Hive
Adapté à la propagation de
scores
Tarification
Simplicité d’utilisation
Pas adapté pour l’inférence
En cours de développement
Fonctionnalités
Volumétrie
Open source
In Hadoop
Interaction avec Hive
Intégration de R avec Hive. Dans un sens,
permet de réaliser des requêtes HQL en R, dans
l’autre sens, permet d’utiliser des fonctions R
sous Hive.
Points Faibles
Repose sur Hive
Pas adapté pour l’inférence
Simplicité d’utilisation
Fonctionnalités
Volumétrie
11
12. Storm
http://storm-project.net
Open source
In Hadoop
Java
Points Forts
Performances
Diversité des langages utilisables
Tarification
Adapté à la propagation de scores
simples
0xdata H2O
http://0xdata.com
Points Forts
Performances (réactivité)
IHM agréable (Web)
Algorithme existants
Solution adaptée à la réalisation de traitements
temps réel. Peut être interfacé avec un grand
nombre de langages : Ruby, Python,
Javascript, Perl, PHP, et R (avec storm-r)
Points Faibles
Simplicité d’utilisation
Pas adapté pour l’inférence
Non spécifique analytique
Fonctionnalités
Volumétrie
Open source
In Hadoop
Non Map Reduce
In Memory
Points Faibles
Contraintes hardware
Limites du « In Memory »
Méthodes limités (en
développement)
Pas de flux de traitement
Solution in memory déployée sur cluster
Hadoop. Permet de réaliser certains traitements
analytiques classiques sur des données
structurées.
Simplicité d’utilisation
Fonctionnalités
Volumétrie
12
13. ORACLE R Entreprise
http://www.oracle.com/technetwork/database/
options/advanced-analytics/renterprise/index.html
Commercial
In Hadoop
Map Reduce
Points Forts
Solution comprenant :
ORCH, un connecteur Hadoop pour R ayant des
fonctionnalités proches de Rhadoop
ORE, l’intégration de R dans Oracle
Points Faibles
Programmation sous R
Réutilisation des bibliothèques
R possible
Utilisation de Oracle pour les
données volumineuses
Wibidata
http://www.wibidata.com
Points Forts
Performances
Algorithmes existants
Adapté à la propagation de
scores
Simplicité d’utilisation
Tarification
Aucun algorithme fourni
Latence
Conversion des données
souvent nécessaire
Commercial
On Hadoop
Interaction avec Hive
Java
Fonctionnalités
Volumétrie
Solution s’appuyant sur Kiji (open source)
permettant de réaliser des traitement
analytiques simples en HQL.
Points Faibles
Pas adapté pour l’inférence
Peu d’algorithmes existant
Structuration des données
Simplicité d’utilisation
Fonctionnalités
Volumétrie
13
14. Datameer
http://www.datameer.com
Points Forts
Performances (réactivité)
IHM agréable (Web)
Datavisualisation
Adapté à de la propagation de
modèles
Statistica / Statsoft
http://www.statsoft.fr/
Points Forts
Simplification des manipulation
sous Hive
De nombreux algorithmes
Datavisualisation
Scoring parallélisés
Solution commerciale
In Hadoop
Non Map Reduce
Plateforme intégrée permettant de faire des
reporting, de la visualisation, et de la
propagation de modèles PMML via Zementis.
Points Faibles
Simplicité d’utilisation
Tarification (si > 1 To)
Pas adapté pour l’inférence
Fonctionnalités
Volumétrie
Solution commerciale
On Hadoop
Distribué non Map
Reduce
Points Faibles
Tarification
Besoin de structurer les
données sous Hive
Estimation sur données
réduites
Plateforme Wintel adossée à un cluster Hadoop,
permettant de réaliser des traitements Hive
simplement, des modélisations sur données
distillées, et du scoring via une solution dédiée.
Simplicité d’utilisation
Fonctionnalités
Volumétrie
14
15. SAS High-Performance
Data Mining
http://www.sas.com/offices/europe/france/solu
tions/high-performance-analytics/
Commercial
In Hadoop
Non Map Reduce
In Memory
Points Forts
Performances (réactivité)
Programmation « classique »
IHM agréable (Flowchart)
Datavisualisation
Revolution Analytics
http://www.revolutionanalytics.com/
Points Forts
Performances
Programmation style R
Datavisualisation (non
interactive)
De nombreux algorithmes
Points Faibles
Tarification
Contraintes hardware
Limites du « In Memory »
Structuration des données
Solution commerciale
On Hadoop
Distribué non Map
Reduce
Points Faibles
Tarification
Absence de certains
algorithmes de machine
learning
Architecture
Solution in memory déployée sur cluster
Hadoop. Permet de réaliser l’ensemble des
traitements analytiques classiques sur des
données structurées,
Simplicité d’utilisation
Fonctionnalités
Volumétrie
Adaptation de R à l’utilisation des volumes
importants de données. Permet de réaliser des
traitements « side by side » avec Hadoop. Un
nombre important d’algorithmes est disponible.
Simplicité d’utilisation
Fonctionnalités
Volumétrie
15
16. IBM SPSS Modeler
http://www-01.ibm.com/
software/analytics/spss/products/modeler
Points Forts
Commercial
In & On Hadoop
Non Map Reduce
Points Faibles
Intégration de composants
multiples
Intégration possible de R
Méthodes « classiques » (SPSS)
Dataiku
http://www.dataiku.com
Points Forts
Programmation « classique »
IHM agréable (Web, Flowchart)
Facilité à mixer les outils (Pig +
Scikit + Datavisualisation, …)
Eco système complet
Tarification
Solution analytique de IBM combinant la
possibilité de traitements Map Reduce en JAQL
avec du streaming avec SPSS Modeler
Simplicité d’utilisation
Fonctionnalités
Volumétrie
Solution commerciale
In & On Hadoop
Non Map Reduce
Points Faibles
Non map reduce
Architecture
Plateforme intégrée rassemblant des solutions
open source (Pig, Hive) permettant de faire des
reporting, de la visualisation et des traitements
analytiques en python (R et Mahout à venir)
Simplicité d’utilisation
Fonctionnalités
Volumétrie
16
17. Alpine
http://alpinenow.com
Points Forts
Commercial
On Hadoop
Non Map Reduce
Solution analytique construite sur Hive et Hbase
permettant de réaliser des traitements
analytiques via une interface de workflow
Points Faibles
IHM agréable (Flowchart)
Datavisualisation
Déploiement de modèles
Skytree
http://www.skytree.net
Points Forts
Facilitateur d’accès
Nombreux algorithmes
Simplicité d’utilisation
Approche base de données
Estimation de données
Données à inclure dans Hive ou
HBase
Commercial
On Hadoop
Non Map Reduce
Points Faibles
Sans IHM
Hors Hadoop
Fonctionnalités
Volumétrie
Solution analytique prenant la forme d’un web
service pouvant être interfacé avec R, Weka,
C++ et Python.
Simplicité d’utilisation
Fonctionnalités
Volumétrie
17
18.
19. TEMPS RÉEL
REPORTING
SCORING
Détection des Fraudes
Anticipation de surcharge
serveurs
Segmentation clients
Suivi d’indicateurs agrégés
(courbes de charges, flux, …)
Next best offert
Targeting dynamique
Personnalisation de l’offre
…
Outils légers
temps réel
…
Solutions Web et
in memory
Valorisation
…
Solutions les plus
complètes
19
20. Pérennité
Choix d’un éditeur
Développement interne
…
Gestion des
données
ETL
Distillation
Prise en charge des
données non structurées
…
Combiner des outils
Sous forme intégrée
En mutualisant les compétences
En minimisant les transformations de
données
…
Dimensionnement
des données
analysées
Analyse sur échantillonnage ?
Calcul segmenté ?
…
Spécificité des
analyses
Algorithmes standards ?
Approche industrielle ou R&D ?
…
Avec des
moyens
adaptés
Intégration
avec
l’existant
Format de stockage des
données
Mutualisation de la
plateforme hadoop
…
Evolutivité
Anticiper les besoins à venir
Eviter le patchwork
…
20
21. Tarification de la solution
+
+
+
+
+
+
+
Montée en compétence des équipes
Accompagnement
Développement d’algorithmes
Contraintes hardware
Impact sur les traitements existants
Montés de version
…
=
21