Bluestone - Panorama des solutions analytiques existantes

Arnaud LAROCHE
Julien DAMON

Panorama des solutions analytiques existantes
SFdS Méthodes et Logiciels - 16 janvier 2014 - Données Massives

Ne sont ici considérés que les solutions autour de l’environnement Hadoop

Plusdevolume
Moinsdestructure
Plusdevitesse
Plusd’analyses

Outils d’exploitation
de l’information

Modèle de
programmation parallèle

Un nouveau paradigme de
traitement de données
massivement « parallélisable »

Bases de données Nosql,
outils de transformation,
outils de requêtage,
reporting, datamining,
machine-learning…

Système de fichiers
distribués

Un nouveau paradigme de
stockage de données,
massivement “scalable”
3

Action

Axe « Opérationnel » : La
possibilité de placer des
fonctions analytiques
complexes au cœur
d’applications
opérationnelles tempsréel (notion de DataCentric Applications
permettant d’imaginer de
nouveaux produits et
services)

Décision
Information

Données

Axe « Financier » : La promesse de
réduction de coûts liée à la possible
mutualisation des infrastructures
techniques (data-centers) et à la
« scalabilité » desdites
infrastructures

Axe « Analytique » : La
possibilité d’opérer des
analyses statistiques
complexes et des calculs
mathématiques en des
temps réduits sur de plus
grands volumes de
données, et sur des
données de nature
différente (non
structurées)

4

Exemple simplifié de traitement Map Reduce
Entrée

Répartition

Dear Deer
Beer

Complexité
algorithmique

<Bear, 2>

<Beer, 1>
<Beer, 1>
<Beer, 1>

<Beer, 3>

<Dear, 2>

<Deer, 1>
<Deer, 1>

Dear Bear
Beer

Reduce

<Dear, 1>
<Dear, 1>

Deer Bear Beer
Dear Bear Beer
Dear Deer Beer

<Deer, 1>
<Bear, 1>
<Beer,1>

Assortiment
<Bear, 1>
<Bear, 1>

Deer Bear
Beer

Map

Sortie

<Deer, 2>

<Bear,2>
<Beer,3>
<Dear,2>
<Deer,2>

<Dear, 1>
<Bear,1>
<Beer, 1>

<Dear, 1>
<Deer, 1>
<Beer, 1>

Latence liée
à l’architecture

Concevoir des
algorithmes adaptés

Certains algorithmes
n’existent pas

5

IN HADOOP

ON HADOOP

« SIDE BY SIDE »

Traitements réalisés sur le
cluster Hadoop avec le
framework Hadoop

Extractions des données
pour traitement analytiques

Mutualisation de
l’environnement Hadoop
avec la solution analytique

 Échanges de données
 Paradigme map reduce
(distribué ou non)
 Possibilité de traitements
intensifs (forte
volumétrie, modélisation
multiple)

extra-cluster (hdfs, hive,
hbase, …)

 Paradigmes non map
reduce (distribué ou non)
 Espace spécialisé pour
les traitements
analytiques

intra-cluster (hdfs, hive,
hbase, …)
 Paradigmes non map
reduce (distribué ou non)
 Partage de ressources
 Possibilité d’approches
« in memory »

6

Statistique & Datamining
vs
Informatique & Machine-learning

RAS
(Seuls les usages et la démarche changent réellement)
7

Apache
MapReduce
http://hadoop.apache.org






Open source
In Hadoop
Map Reduce
Java

Points Forts

 Standard
 Tarification
 Volumétrie manipulable

Apache Streaming

http://hadoop.apache.org/docs/stable1/streami
ng.html

Points Forts





Standard
Tarification
Souplesse sur le langage à utiliser
Possibilité d’utiliser des
bibliothèques d’analyse (scikit, …)

La solution standard de Hadoop pour réaliser
des traitements dans le cluster. Elle n’est en rien
spécifique à des traitements analytiques.

Points Faibles











Simplicité d’utilisation

Coût réel
Latence
Complexité
Besoin de tout implémenter

Open source
In Hadoop
Map Reduce
Python, C++, R, …

Fonctionnalités

Volumétrie

Intégration sous la forme d’un flux (stdin, stdout)
de la fonctionnalité MapReduce pour tous les
langages pouvant fonctionner sous ce mode.

Points Faibles
 Comme MapReduce +
 Besoin de parsing des fichiers à
chaque étape


Fonctionnalités

Volumétrie
9

Apache Mahout

http://mahout.apache.org/

Points Forts

 Open source
 In Hadoop
 Java

Solution proposée standard par la fondation
Apache pour réaliser des traitements
analytiques. Un grand nombre d’algorithme sont
implémentés.

Points Faibles

 Standard
 Tarification
 Algorithmes déjà programmés

RHadoop

https://github.com/RevolutionAnalytics/RHado
op/wiki

Points Forts
 Programmation sous R
 Tarification
 Réutilisation des bibliothèques
R possible


 Java ou ligne de commande
« complexe »
 Documentation
 Régression fonctionnelle

 Open source
 In Hadoop
 Map Reduce

Points Faibles
 Aucun algorithme fourni
 Latence
 Conversion des données
souvent nécessaire

Fonctionnalités

Volumétrie

Solution open source réalisée par Revolution
Analytics permettant de réaliser les traitement
map reduce (rmr2), hdfs (rhdfs), et hbase
(rhbase) directement sous R.

Fonctionnalités

Volumétrie
10

Spark

http://spark.incubator.apache.org

Points Forts











Open source
In Hadoop
Map Reduce
In Memory

Solution permettant d’accélérer les traitements map
reduce en utilisant les ressources mémoire du cluster
(c’est en fai tune alternative à map Reduce). Elle peut
être utilisée avec Scala, Java, Python et bientôt R.

Points Faibles

Performances
Diversité des langages utilisables
Tarification
Algorithmes existants
Adapté à la propagation de scores

RHive

http://nexr.github.io/RHive/

Points Forts
 Programmation en R
 Requêtes Hive
 Adapté à la propagation de
scores
 Tarification


 Pas adapté pour l’inférence
 En cours de développement

Fonctionnalités

Volumétrie

 Open source
 In Hadoop
 Interaction avec Hive

Intégration de R avec Hive. Dans un sens,
permet de réaliser des requêtes HQL en R, dans
l’autre sens, permet d’utiliser des fonctions R
sous Hive.

Points Faibles
 Repose sur Hive


Fonctionnalités

Volumétrie
11

Storm

http://storm-project.net

 Open source
 In Hadoop
 Java

Points Forts





Performances
Diversité des langages utilisables
Tarification
Adapté à la propagation de scores
simples

0xdata H2O
http://0xdata.com

Points Forts
 Performances (réactivité)
 IHM agréable (Web)
 Algorithme existants

Solution adaptée à la réalisation de traitements
temps réel. Peut être interfacé avec un grand
nombre de langages : Ruby, Python,
Javascript, Perl, PHP, et R (avec storm-r)

Points Faibles


 Non spécifique analytique

Fonctionnalités

Volumétrie






Open source
In Hadoop
Non Map Reduce
In Memory

Points Faibles
 Contraintes hardware
 Limites du « In Memory »
 Méthodes limités (en
développement)
 Pas de flux de traitement

Solution in memory déployée sur cluster
Hadoop. Permet de réaliser certains traitements
analytiques classiques sur des données
structurées.

Fonctionnalités

Volumétrie
12

ORACLE R Entreprise
http://www.oracle.com/technetwork/database/
options/advanced-analytics/renterprise/index.html

 Commercial
 In Hadoop
 Map Reduce

Points Forts

Solution comprenant :
ORCH, un connecteur Hadoop pour R ayant des
fonctionnalités proches de Rhadoop
ORE, l’intégration de R dans Oracle

Points Faibles

 Programmation sous R
 Réutilisation des bibliothèques
R possible
 Utilisation de Oracle pour les
données volumineuses

Wibidata

http://www.wibidata.com

Points Forts
 Performances
 Algorithmes existants
 Adapté à la propagation de
scores












Tarification
Aucun algorithme fourni
Latence
Conversion des données
souvent nécessaire

Commercial
On Hadoop
Interaction avec Hive
Java

Fonctionnalités

Volumétrie

Solution s’appuyant sur Kiji (open source)
permettant de réaliser des traitement
analytiques simples en HQL.

Points Faibles
 Peu d’algorithmes existant
 Structuration des données


Fonctionnalités

Volumétrie
13

Datameer
http://www.datameer.com

Points Forts





Performances (réactivité)
IHM agréable (Web)
Datavisualisation
Adapté à de la propagation de
modèles

Statistica / Statsoft

http://www.statsoft.fr/

Points Forts
 Simplification des manipulation
sous Hive
 De nombreux algorithmes
 Datavisualisation
 Scoring parallélisés

 Solution commerciale
 In Hadoop
 Non Map Reduce

Plateforme intégrée permettant de faire des
reporting, de la visualisation, et de la
propagation de modèles PMML via Zementis.

Points Faibles


 Tarification (si > 1 To)

Fonctionnalités

Volumétrie

 On Hadoop
 Distribué non Map
Reduce

Points Faibles
 Tarification
 Besoin de structurer les
données sous Hive
 Estimation sur données
réduites

Plateforme Wintel adossée à un cluster Hadoop,
permettant de réaliser des traitements Hive
simplement, des modélisations sur données
distillées, et du scoring via une solution dédiée.

Fonctionnalités

Volumétrie
14

SAS High-Performance
Data Mining
http://www.sas.com/offices/europe/france/solu
tions/high-performance-analytics/






Commercial
In Hadoop
Non Map Reduce
In Memory

Points Forts






Performances (réactivité)
Programmation « classique »
IHM agréable (Flowchart)
Datavisualisation

Revolution Analytics

http://www.revolutionanalytics.com/

Points Forts
 Performances
 Programmation style R
 Datavisualisation (non
interactive)
 De nombreux algorithmes

Points Faibles






Tarification
Contraintes hardware
Limites du « In Memory »
Structuration des données

 On Hadoop
 Distribué non Map
Reduce

Points Faibles
 Tarification
 Absence de certains
algorithmes de machine
learning
 Architecture

Solution in memory déployée sur cluster
Hadoop. Permet de réaliser l’ensemble des
traitements analytiques classiques sur des
données structurées,

Fonctionnalités

Volumétrie

Adaptation de R à l’utilisation des volumes
importants de données. Permet de réaliser des
traitements « side by side » avec Hadoop. Un
nombre important d’algorithmes est disponible.

Fonctionnalités

Volumétrie
15

IBM SPSS Modeler

http://www-01.ibm.com/
software/analytics/spss/products/modeler

Points Forts

 Commercial
 In & On Hadoop
 Non Map Reduce
Points Faibles

 Intégration de composants
multiples
 Intégration possible de R
 Méthodes « classiques » (SPSS)

Dataiku

http://www.dataiku.com

Points Forts
 Programmation « classique »
 IHM agréable (Web, Flowchart)
 Facilité à mixer les outils (Pig +
Scikit + Datavisualisation, …)

 Eco système complet
 Tarification

Solution analytique de IBM combinant la
possibilité de traitements Map Reduce en JAQL
avec du streaming avec SPSS Modeler


Fonctionnalités

Volumétrie

 In & On Hadoop
 Non Map Reduce

Points Faibles

 Non map reduce
 Architecture

Plateforme intégrée rassemblant des solutions
open source (Pig, Hive) permettant de faire des
reporting, de la visualisation et des traitements
analytiques en python (R et Mahout à venir)

Fonctionnalités

Volumétrie
16

Alpine

http://alpinenow.com

Points Forts

 Commercial
 On Hadoop
 Non Map Reduce

Solution analytique construite sur Hive et Hbase
permettant de réaliser des traitements
analytiques via une interface de workflow

Points Faibles

 IHM agréable (Flowchart)
 Datavisualisation
 Déploiement de modèles

Skytree

http://www.skytree.net

Points Forts

 Facilitateur d’accès
 Nombreux algorithmes


 Approche base de données
 Estimation de données
 Données à inclure dans Hive ou
HBase

 Commercial
 On Hadoop
 Non Map Reduce

Points Faibles

 Sans IHM
 Hors Hadoop

Fonctionnalités

Volumétrie

Solution analytique prenant la forme d’un web
service pouvant être interfacé avec R, Weka,
C++ et Python.


Fonctionnalités

Volumétrie
17

TEMPS RÉEL

REPORTING

SCORING

Détection des Fraudes

Anticipation de surcharge
serveurs

Segmentation clients

Suivi d’indicateurs agrégés
(courbes de charges, flux, …)

Next best offert

Targeting dynamique
Personnalisation de l’offre
…

Outils légers
temps réel

…

Solutions Web et
in memory

Valorisation
…

Solutions les plus
complètes

19

Pérennité

Choix d’un éditeur
Développement interne
…

Gestion des
données
ETL
Distillation
Prise en charge des
données non structurées
…

Combiner des outils
Sous forme intégrée
En mutualisant les compétences
En minimisant les transformations de
données
…

Dimensionnement
des données
analysées
Analyse sur échantillonnage ?

Calcul segmenté ?
…

Spécificité des
analyses
Algorithmes standards ?
Approche industrielle ou R&D ?
…

Avec des
moyens
adaptés

Intégration
avec
l’existant
Format de stockage des
données
Mutualisation de la
plateforme hadoop
…

Evolutivité
Anticiper les besoins à venir
Eviter le patchwork
…

20

Tarification de la solution

+
+
+
+
+
+
+

Montée en compétence des équipes
Accompagnement
Développement d’algorithmes
Contraintes hardware
Impact sur les traitements existants
Montés de version
…

=
21

Analyses
simples sur des
volumes
morcelés

Analyses
poussées sur
des volumes
importants
Outils riches et
complexes

Solutions simples et rapides
à mettre en œuvre

Merci !
Présentation à retrouver sur : http://datascience.bluestone.fr/

Bluestone - Panorama des solutions analytiques existantes

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (20)

Similaire à Bluestone - Panorama des solutions analytiques existantes

Similaire à Bluestone - Panorama des solutions analytiques existantes (20)

Bluestone - Panorama des solutions analytiques existantes