Weitere ähnliche Inhalte
Ähnlich wie Etat de l art business intelligence (20)
Mehr von Joseph Glorieux (10)
Etat de l art business intelligence
- 2. Agenda
Le contexte de la business Intelligence aujourd’hui
Etat de l’art - architecture décisionnelle
Etat de l’art - Système de collecte et d’intégration
ETL
Stockage (Appliance, SGBD, NoSQL, Hadoop)
Etat de l’art - Système de diffusion et de présentation
Plateforme décisionnelle
Dataviz
Plateforme analytique
Open space sur la BI
2
© OCTO 2012
- 8. SOLOMO
Crowd Multi
sourcing Nouveaux terminaux
usages
Internet Capteurs,
Des objets RFID/NFC
8
© OCTO 2012
- 9. Fin de
l’hégémonie du
SGBDR
Machine Event-based
Learning Nouveaux
Systèmes
IT
d’information
SI composite
Open API/Data Cloud
9
© OCTO 2012
- 10. Interfaces
Dataviz
cérébrales
Nouvelles
interfaces
Réalité
augmentée Reconnaissance
10
© OCTO 2012
- 11. Nouveaux Nouvelles
usages interfaces
Nouveaux
systèmes
d’information
11
© OCTO 2012
- 13. Diminution du coût du stockage
1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 2015
1,000,000.00
100k $/GB
100,000.00
10,000.00
1,000.00
HDD
100.00 RAM
10.00
1.00
0,10 $/GB0.10
0.01
Source :http://www.mkomo.com/cost-per-gigabyte
13
© OCTO 2012
- 15. Performance des disques toujours
croissante, mais…
70
Seagate
Barracuda
7200.10
64 MB/s
60
Le débit des disques augmente
50 Sans parler de SSD
Et de stockage in memory
…Salutaire pour
Débit (MB/s)
40
Seagate
Barracuda
ATA IV
Plus de traitement
30 Plus rapide
Gain : x91 Mais pas aussi rapidement que la
20
capacité de stockage (*100 vs *100
IBM DTTA
000)
10 35010
0,7 MB/s
0
1991 1996 1998 2001 2006
15
© OCTO 2012
- 16. La frontière du débit
ms µs ns
0.000,000,000,000 L2, L1 Cache
Disk Local
network Memory
Challenge : Comment allez au-delà?
Idée #1 : en parallèle
Idée #2 : la mémoire / le cache
16
© OCTO 2012
- 17. Derniers benchmarks sur le coût des machines
Comparatif à « puissance équivalente (RAM/CPU) »
Attention, à prendre avec des pincettes du fait :
des modes de facturation,
des autres coûts cachés (compétence, exploitation…)
des points de comparaison
17
© OCTO 2012
- 18. Et coté stockage
SAN Filers NAS Local storage
$2 - $10 par GB $1 - $5 par GB $0,05 par GB
Available storage 0,5 PB 1 PB 20 PB
for 1 million $ 200 000 IOPS 400 000 IOPS 10 000 000 IOPS
1 GB per second 2 GB per second 800 GB per second
Source :
http://www.slideshare.net/lucenerevolution/the-search-is-over-integrating-solr-and-
hadoop-in-the-same-cluster-to-simplify-big-data-analytics
18
© OCTO 2012
- 20. Overview Architecture fonctionnelle
Transverse
Données opérationnelles de l’entreprise Données externes
Data Quality
Data Alimentation (Extract, Transform, load)
gouvernance
Système de collecte
et d’intégration Réception
Historisation Nettoyage /
Stockage enrichissement /
Extraction stockage
Administration
Publication
Ordonnancement
Alimentation (Extract, Transform, load)
Sécurité
Tracabilité Système de diffusion et de présentation
Business Activity Reporting Analyse Datamining Portail Stockage
Monitoring
20
© OCTO 2012
- 21. Overview Architecture Technique
SIO SIExternes
ETL, EAI, FTP
Transverse Back-up (SCI) SCI Contrôle
Staging ETL DQM
Habilitation Archive
ETL/ELT
Référentiels
Audit
ODS
ETL/ELT
BAM DWH
Archive
SDP
Scheduler
Datamarts
21
© OCTO 2012
- 22. Ces architectures décisionnelles…
…ont 20 ans
Si on peut leur souhaiter de vivre aussi longtemps que le
mainframe, il va être nécessaire de s’adapter à un contexte
riche en changement
22
© OCTO 2012
- 23. SID : un changement nécessaire
Les coûts
Les délais et le peu de flexibilité
La volumétrie Faiblesses La qualité de données
Le réglementaire Satisfaction utilisateur
SLA Nouvelles
contraintes
Séparation TP et AP Système
J+1 Anciennes Système
décisionnel
MOLAP croyances décisionnel
Datamart physique NG
historique
Nouveaux
besoins
L’autonomie des utilisateurs La BI agile
Le temps réel Nouveaux Les appliances
La mobilité paradigmes L’Open Source
Données exogènes et non structurées NoSQL et Big data
Commodities
Le cloud
23
© OCTO 2012
- 24. Localisation des maux
Diminution
des coûts SIO SIExternes
Données non
Temps réel, structurées
Frontière gestion des EAI, FTP
ETL, (réseau sociaux,
Transverse Back-up (SCI) SIO/SID
SCI évènements Contrôle
pdf, videos…)
TTM
Staging ETL DQM
Habilitation Archive
Commodities
ETL/ELT
Référentiels
Audit
ODS
Appliance
ETL/ELT
MDM
BAM NoSQL DWH
Archive Column
base
SDP
Scheduler
Datamarts
Machine
Mobile In memory Dataviz
24 learning
© OCTO 2012
- 25. Identification de 3 modèles d’architecture
3 modèles d’architectures répondent à ces nouveaux enjeux
La richesse de notre job est que ces 3 modèles sont bien entendu
déclinables et combinables à l’infini selon les critères de choix retenus
25
© OCTO 2012
- 26. Architecture historique
ETL Operational Datastore
(ODS)
Contrôle, enrichissement et
traitements des données
opérationnelles
Modèle relationnel
ETL
Datawarehouse (DWH)
Stockage, archivage
Modèle relationnel
ETL
Datamart (DM)
Agrégats, cube d’analyse
Modèle en étoile,
Outils de Business multidimensionnel
Intelligence
Visualisation, export
bureautique
26
© OCTO 2012
- 27. Architecture in memory ou virtualisée
Fichiers de données bruts
Stockage, archivage …
…ou pas
Base de données en
mémoire (RAM) distribuée
Contrôle, calculs,
agrégation
Modèle multidimensionnel
Outils de Business
Intelligence
Visualisation, export
bureautique
27
© OCTO 2012
- 28. Architecture distribuée
Grille de stockage de
données, combinée à une
grille de traitement des
données
Contrôle, calculs, agrégation
Outils de Business
Intelligence
Visualisation, export
bureautique
28
© OCTO 2012
- 31. Analyse du quadrant (1/2)
Correspond à notre observation de la présence de ces logiciels en
entreprise avec une poussée de Talend (open source) sur les PME
Ces outils restent indiscutables face à une hétérogénéité de formats et
de sources de données…
… mais leurs concurrents historiques gardent le cap, voir accélèrent :
Développement in House
EAI, ESB, FTP…
Approche ELT/ETL qui est une guerre en train d’être perdue par les ETL
depuis 2008 surtout face aux appliances et autres systèmes de stockage
dopés.
ELT ETL ELT
2002 2008
31
© OCTO 2012
- 32. Analyse du quadrant (2/2)
Stratégie de consolidation affichée par ces acteurs sur une approche
plateforme d’intégration
DQM et MDM notamment
Qui fait face à de nouvelles stratégies issues du SIO …
CEP sur le temps réel
Les offres de virtualisation de données
Indexation de données
Et un dernier challenger que l’on attendait pas forcément :
32
© OCTO 2012
- 33. ETL : avis
• ERP
En voie d’essoufflement… • CRM
• Gestion d’identité
Premières • Portails
adoptions • NoSQL
Se limiter aux use cases pertinents :
• Virtualisation
Sources très hétérogènes • Moteur de recherche
Volumétrie mesurée Émergent • Monitoring
• Middleware de messagerie
Réutilisation des flux • Outils d’infrastructure
ETL • Systèmes de gestion d
Privilégier l’OpenSource • Outillage de test
Répandu • Frameworks applicatif
• Intégration continue
• CMS et GED
Ne pas payer 2 fois
• Système d’expl
l’infra (ETL et appliance) • Serveur Web
• Serveur d’appli
Fortement répandu • Base de donné
• Wiki
• IDE
33
© OCTO 2012
- 36. Analyse du quadrant
2 approches correspondant à des use cases différents :
Stockage old school
Appliance (dont IQ un peu inclassable, problème de positionnement)
Stockage old school < 15 To
Oracle, DB2 le plus souvent observé
Quelques incursions de Microsoft, Postgre et Mysql
Appliance > 15 To
Marché en forte consolidation, il ne reste plus que 4 offres sur le marché
Teradata et Oracle sont les mieux positionnés dans les grandes
entreprises
Ces offres se sont complétés de toutes les technologies « hype »
(MapReduce, SGBD colonne, in memory, disque flash, connecteur
Hadoop…)
36
© OCTO 2012
- 37. Et le NoSQL dans tout ça : un seul driver…
€
• Performance
(latence)
• Parallélisation
• Volume
• Transactions /
sec.
37
© OCTO 2012
- 38. A CID comme variable d’ajustement
« Il est impossible pour un système informatique de calcul distribué de garantir en
même temps la consistance, la disponibilité et la résistance au morcellement »
Eric Brewer
« Availability »
Les clients peuvent
A toujours accéder au
système (lecture écriture)
La stratégie des sites
L’univers des
à gros trafic.
SGBRD
Avec cohérence in fine
« Partition tolerance »
« Consistency » Le système continue a
Tous les clients ont
la même vue de la
C P fonctionner en cas de
« partition » - plusieurs
donnée sous-ensembles n’arrivent
plus à communiquer
38
© OCTO 2012
- 39. En fait, rien de très neuf…
Stockage de gros
Volume
Approche historique HDFS
Exadata HBase
Approche mémoire
Approche distribuée Hadoop
Teradata
Hana
HDFS
MapReduce
Hive
Quartet
Projets
ActivePivot Architecture
associés Voldemort
Prise en compte Cassandra BI
NoSQL Accès et lecture
des évènements standard
Pig multiple en parallèle
en temps réel Esper SGBDR,
Hive
ETL…
Chuckwa
Cassandra,
Hbase iGraph
Mahout Hama
Pig
ZooKeeper
Grid Computing
Map Reduce
39
Capacité de calcul en
© OCTO 2012 paralléle
- 40. Y’a Hadoop quand même…
Reporting Workflow
IBM BigSheets Pentaho Hue Beeswax Oozie / Azkaban
Outil de requêtage Reporting Interface web de requêtage Workflow pour jobs Hadoops dépendants
Requêtage Traitement distribué avancé
Pig Hive Mahout Hama
Langage de flux de données DSL de requêtage « SQL-like » Machine learning Bulk Synchronous Processing
Traitement Supervision
Platform Management
MapReduce Hue
Console
Framework permettant de traiter des données en parallèle
Intégration au SI
Stockage Hbase Sqoop
Intégration RDBMS & Hadoop
Base de données pour des accès aléatoires read/write
HDFS Flume, Chukwa, Scribe…
Un système de fichiers distribué write-once, read-many Collection de données fiable et résiliente
Infrastructure
40
© OCTO 2012
- 41. Hadoop Distributed File System,
la couche de stockage « non structurée »
Utilisation de « commodity disk » plutôt que d’un SAN
Stockage de fichiers plus volumineux qu’un unique disque
Répartition des données sur plusieurs machines
Réplication des données pour assurer le « fail-over » : « rack awareness »
NameNode
DataNode
DataNode
DataNode
DataNode
File#1 File#1
Block#1 Block#2
File#2 File#2 File#2
Block#1 Block#2 Block#3
File#1 File#1
Block#1 Block#2
41
© OCTO 2012
- 42. MapReduce, le système de requêtage
Paralléliser / Distribuer les traitements
Traiter plus rapidement des volumes de données unitaires plus faibles
Co-localiser traitements / données
42
© OCTO 2012
- 43. Le requêtage
Deux DSL pour masquer la complexité
PIG: un langage de flux HIVE: un SQL-like
records = LOAD ‘/input/cashflows.txt’ CREATE TABLE cash_flow (BookID STRING,
AS (BookID:chararray, ProductID:chararray, ProductID STRING, TraderID STRING, DueDate
TraderID:chararray, DueDate:int, BIGINT, Currency STRING, Amount DOUBLE,
Currency:chararray, Amount:double, Direction STRING, Counterparty STRING) ROW
Direction:chararray, Counterparty:chararray); FORMAT DELIMITED FIELDS TERMINATED BY
't' LINES TERMINATED BY 'n' STORED AS
ccy_grouped = GROUP records BY Currency TEXTFILE;
results = FOREACH ccy_grouped GENERATE LOAD DATA INPATH '/data/cashflows.txt'
group, SUM(records.Amount); OVERWRITE INTO TABLE cash_flow;
DUMP results; select Currency, sum(Amount) from
cash_flow where Direction='Credit' group
by Currency;
Metastore
HDFS
HDFS
43
© OCTO 2012
- 46. Base de données clés-valeurs
Modélisation de type Hashtable Papier de recherche
Origine
A une clef correspond une (et une seule) valeur d’Amazon sur Dynamo
Le type de la valeur n’est pas à spécifier
La valeur peut être de n’importe quel type
Clés Valeurs
Opérations
Valeur : Objet
Put Clé : Objet Objet 1 Objet 3
Get Ligne Objet 2
Delete Valeur : Objet
Objet 1 Objet 3
Pas de possibilité de requêtage autre que par la clé Clé : Objet
Ligne
Valeur : Objet
Cas d’usage Clé : Objet Objet 1 Objet 3
Stockage de données identifié par une valeur unique Ligne Objet 4
session
préférence utilisateur
Cache de données
Maintien de contextes hautement accessibles
Redis, Riak, Voldemort,
Dédoublonnage de données Exemple …
46
© OCTO 2012
- 47. Exemple : modélisation clé/valeur
Directement utilisatble pour de nombreux use cases
HTTP sessions, …
Dans les autres cas, cela nécessite une modélisation en accord
avec les patterns d’accès aux données
Clé composité
Contenu agrégé
Attention jointur = full scan
Customer
Cst1
Account
Cst2
Acc1 Key/Value
Cst1#Acc1 { Op1=100, Op2 =-50}
Acc2
Cst2#Acc2
Operation
Op1 +100
Op2 -50
47
© OCTO 2012
- 48. Base de données colonnes
Modélisation dérivé du clé-valeur mais orienté colonnes Papier de recherche de
Origine
Des familles de colonnes pour remplacer le concept de Google sur BigTable
tables dans les SGBDR
Et des données semi-structurées dont les blocs
colonnes sont stockés de manière triée
Clé Famille de colonnes 1
Opérations Colonne1 Colonne2 Colonne3
Clé : Objet Objet 1 Objet 21 Objet 31
Requêtage par clé ou ensemble de clé Ligne
Requêtage possible sur valeur d’index secondaire
Colonne2
Sélection d’une ou plusieurs colonnes résultat Clé : Objet
Objet 22
Ligne
Cas d’usage Colonne3 Colonne4
Clé : Objet Objet 32 Objet 4
Web Ligne
Priorité à la disponibilité plutôt qu’à la consistance des
données
Haut débit et faible latence
Schéma de données évolutif HBase (slide 103) et
Exemple
Beaucoup d’écritures, peu de lectures Cassandra (slide 104)
48
© OCTO 2012
- 49. Base de données documents
Modélisation dérivé du clé-valeur avec des documents
Origine Lotus Notes
Les documents sont des données structurées
sous la forme d’arbres hiérarchiques (sous-documents)
Les données peuvent être de différentes natures
Chaînes de caractères, valeurs scalaires, tableaux…
Clé Documents
Les documents sont auto-portants
Contient les informations décrivant sa structure et les valeurs Document: Objet
{ Champ1: Objet,
Clé : Objet
associés Ligne Champ2: [Objet, Objet] }
Plusieurs formats de stockage du document
XML, JSON, BSON, … Document: Objet
{Champ1: Objet,
Clé : Objet
Champ3: Sous-Doc: {Champ21:
Ligne Objet} }
Opérations Document: Objet
{Champ4: Objet }
Clé : Objet
Requêtage évolué (autre que par la clé) Ligne
Cas d’usage
Recherche documentaire, catalogue produits, CMS…
Fort besoin de schéma faiblement structuré
Exemple MongoDB (slide 105)
Beaucoup de lectures, peu d’écritures
49
© OCTO 2012
- 50. Base de données graphes
Modélisation de type nœuds/relations
Origine Théorie des graphes
Repose sur l’interconnectivité des données
(contrairement aux autres types de solutions NoSQL qui
ne supportent pas les relations)
Les données sont non seulement attachées aux nœuds
mais également aux relations (property graph) Noeud1
Prop10
Opérations
Parcours de graphes (traversal) Relation1 Relation2
Algorithmes de traitement de graphes (Dijkstra, …)
Prop11 Prop12 Prop20
Noeud2 Noeud3
Cas d’usage Prop21 Prop22 Prop3
Réseaux sociaux
Réseaux de transports
Réseaux logistiques
Réseaux électriques
Réseaux télécoms Exemple Neo4j (slide 106)
…
50
© OCTO 2012
- 53. Le stockage : avis
Une certitude : « one size doesn’t fit all »
Quelques alternatives intéressantes à surveiller
Intrusion des moteurs de recherche (Exalead)
Solution en rupture VB-DBMS (Iluminate)
La virtualisation
Mon architecture décisionnelle composite de demain :
Reporting sous datawarehouse Postgre alimenté par Talend
Analytique sous Exadata + complément Hadoop en stockage,
traitements supplémentaires et historisation des données froides
Une base Titan pour les réseaux sociaux
53
© OCTO 2012
- 54. Pourquoi cette frilosité entre BI et NoSQL?
Parce que la plupart de ces technologies sont inadaptées à l& BI,
Parce qu’on sait gérer des To depuis longtemps et qu’on a 20 ans
d’expérience sur des problématiques de forte volumétrie (stockage et
performance)
Parce que c’est OpenSource et que c’est un milieu gangréné par les
grands éditeurs (Oracle, IBM…)
Mais surtout parce qu’on affronte un changement comparable à migrer
des cobolistes vers de l’Open :
Environnement BI actuel (SQL, L4G, basic, C et Shell au pire) vs
environnement NoSQL (java généralement)
Les BICC au mieux qualifient négativement ces solutions, voir font l’impasse
dans l’attente de solutions propriétaires (connecteur avec couche
d’abstraction)
L’âge de pierre de l’ingénierie logicielle (pas de test, pas d’usine)
L’enjeu est de parvenir à réunir ces 2 mondes sur les compétences et sur
les pratiques
54
© OCTO 2012
- 58. Analyse des quadrants
Les leaders du marché sont peu challengés et profitent pleinement de
leur base installée (ceux sont les mêmes depuis 10 ans…):
Ils disposent d’une couverture de service très étendue
L’innovation est faite par acquisition ou reproduction
Ils profitent de la politique de rationalisation des DSI
Ils profitent de tous les freins propres au changement (habitudes des DSI,
habitudes des utilisateurs…)
De nouveaux acteurs perturbent ce marché avec une approche
utilisateur final et métier
Qliktech, Tableau Software, BIME
Le facteur prix est ensuite un facteur de positionnement dans un
contexte assez gris
Microsoft
OpenSource : Jaspersoft et Pentaho
58
© OCTO 2012
- 59. Tendances du marché
Poursuite de la rationalisation du marché et dans les DSI dans une
optique d’économie
Génère de nouveaux achats de solution par les métiers
L’ « in memory » est une approche de référence introduite pas
Qliktech et devenue un incontournable aujourd’hui.
La tendance s’est diffusée au niveau hardware (appliance), des SGBD
(HANA, Ibm, Oracle, MySql), ou au niveau software (Powerpivot…)
MOLAP est mort… ou du moins en fin de vie en dehors de use cases
complètement balisés (comptabilité avec Hypérion)
Arrivée d’approche non dépendante (moins) de la modélisation : les
approches NoSQL (mongoDB), les technologies
associative/corrélative (CDBMS illuminate : VBS, indexation par
contexte et relation gérée en métadonnée) tendent à ne plus
forcément structurer un projet autour de la modélisation
la panacée du ad hoc (attention au perf au chargement)
59
© OCTO 2012
- 60. Compatibilité Hadoop
Hive QL MapReduce
HDFS File scripting
Datamining
SAS (SAS/ACCESS et SAS BASE)
R RevoScale
Business Intelligence
SAP Business Object
Oracle BIEE
MicroStrategy
IBM BigSheets
IBM Cognos
Tableau
Tibco Spotfire
Pentaho
QlikTech (through DataRocket)
Datameer
60
© OCTO 2012
- 61. Plateforme décisionnelle : avis
Si on construit un système décisionnel de zéro, il est raisonnablement
difficile de choisir une acteur du marché historique
Une certitude : « one size doesn’t fit all »
3 critères de choix apportent des différentiants forts en dehors des cas
d’usages :
Le prix
Le contexte (technologique, compétence…)
L’expérience utilisateur
Excel reste le meilleur choix dans bien des situations
Quid du dataviz?
61
© OCTO 2012
- 63. L’importance de la visualisation des données
L’objectif de la data visualisation est de communiquer une
information claire et efficiente à l’aide de moyen graphique
La data visualisation est un outil fondamental de l’analyse et est
un support de communication du résultat
Donne du sens
Impact visuel
Lisibilité du message
Cohérence entre données et messages
Stimuler l’attention et l’engagement
La data visualisation est devenu un domaine de recherche à
part entière (à ce titre des enseignements existent)
63
© OCTO 2012
- 64. Les typologies de représentation visuelle (1/6)
De l‘âge de pierre…
64
© OCTO 2012
- 65. Les typologies de représentation visuelle (2/6)
Cumulative
Histogramm histogramm
65
© OCTO 2012
- 66. Les typologies de représentation visuelle (3/6)
Scatter chart
Bubble chart
66
© OCTO 2012
- 67. Les typologies de représentation visuelle (4/6)
…A l‘âge de l’information…
Geo chart Graph/Cluste
r
67
© OCTO 2012
- 68. Les typologies de représentation visuelle (5/6)
…A l‘âge de l’information…
Heat map Tree map
68
© OCTO 2012
- 69. Les typologies de représentation visuelle (6/6)
…A l‘âge du dataviz
Illustration – D3.js
69
© OCTO 2012
- 70. Comment présenter efficacement des données
analytiques?
A chaque typologie de donnée correspond un mode de
représentation privilégié
Type de données Mode de représentation
Statistique descriptive mono-variable • PieChart
• Histogramme
• CDF (line chart)
Statistique descriptive multi-variable • Geo Map
• Tree map
• Heat map
Relations • Graph
Série temporelle • Line chart
• Timeline
Statistique explicative • Scatter Chart+ line
• BubbleChart + line
70
© OCTO 2012
- 73. Les outils de visualisation spécialisés
Analyse de données multi variés : Analyse de textes
R IBM BigSheets
Revolution Analytics IN-SPIRE. IN-SPIRE™ provides
IBM Attribute explorer tools for exploring
Ggobi, XGobi
Mondrian (rosuda.org) Toolkit
JUNG
Analyse de réseaux et de graph Gephi toolkit
Gephi Google Chart
Graphviz Processing (http://processing.org)
NodeXL Protovis/ D3.js
http://selection.datavisualization.ch
Analyse de cartes (maps)
Google Fusion Tables
73
© OCTO 2012
- 74. Dataviz : avis
Une réponse aux nouveaux enjeux
Volumétrie, temps réel, big data
Synthèse, convaincre en peu de temps, capter l’attention
Rien de plus frustrant que de parvenir aux résultats sans arriver à
l’expliquer/le démontrer simplement
Dataviz = l’usabilité étendue à la business intelligence :
proposer des représentations de la donnée utiles utilisables
Si ce n’est pas votre métier : limitez-vous aux outils du marché
en attendant la démocratisation d’outils spécifiques
De nouveaux métiers apparaissent, on ne parle plus de web
agency mais de data agency
74
© OCTO 2012
- 76. De quoi parle t’on?
Corrélation
Classification
Identification
Simulation
76
© OCTO 2012
- 77. 3 philosophies complémentaires de l’analyse
L’analyse se focalise sur les
propriétés intrinsèques des
données
Ex : moyenne, saisonnalité,
stationnarité, …
L’analyse se focalise sur
l’identification d’un modèle Statistiques
mathématique robuste à
partir des données
Ex : régression, classification,
descriptives
L’analyse se focalise sur
réduction de dimensions, … l’apprentissage à identifier
des propriétés et des
modèles mathématiques à
partir des données
Ex : clustering, pattern
matching, Support Vector
Machine, …
Machine
Data mining
learning
77
© OCTO 2012
- 78. On nous a menti!!!
Rien de neuf sous le soleil…
Statistiques Machine
descriptives learning = Data
mining
78
© OCTO 2012
- 79. J’exagère?
Différence sémantique évidente…
Une possibilité (parmi plusieurs dizaines…) : le Data
Mining, c’est l’application du machine learning
Ma meilleure proposition issue de l’usage que l’on en fait (vrai
dans 90% des cas):
Now, increasingly, people are comfortable using the term "machine
learning" for cases where "data mining" was used in the past.
79
© OCTO 2012
- 81. Vision du marché
2 leaders :
Des challengers
Sans oublier l’OpenSource
Software Library
81
© OCTO 2012
©OCTO 2012
- 82. Plateforme analytique : avis
Attention ces outils ne sont pas à la portée de tout le monde
Les bases de la statistiques sont nécessaires
On parle de data scientist
Utiliser les bons modèles/méthodes…
Le modèle de pricing de ces solutions ne peut pas être qualifié
d’amical
Montée en puissance de R au détriment des leaders (changement
d’époque : on utilise R dans les écoles d’ingénieur, plus SAS…)
82
© OCTO 2012
- 84. MDM : Master Data Management ?
Les acteurs du MDM sont
les mêmes que les
plateforme d’intégration
Dans 90% des cas le sujet
est abordé par le prisme SIO
Le MDM est un univers
complexe
Solution généraliste
(orchestra)
Solution spécifique objet
(PIM, CDI)
Solution métier
(masterI, ERP)
Sans oublier le
développement spécifique
84
© OCTO 2012
- 85. DQM : Data Quality Management ?
Les acteurs du DQM sont les mêmes
que les plateformes d’intégration et
MDM…
Ces outils regroupent des
fonctionnalités de …
Découverte (profilage)
Nettoyage
Normalisation
… couplés généralement avec un
ETL
85
© OCTO 2012
- 86. MDM, DQM : avis
Une recommandation concernant le MDM est un sujet d’architecture
en soit (gouvernance de la donnée, échange, choix d’architecture et
de solution…).
Ce que l’on peut en dire sans se mouiller:
Ça fonctionne même sur des grosses archis (en spécifique)
C’est très dur à vendre au business et ça coûte cher
Dans 90% des cas hébergement par l’ERP
C’est le saint graal des urbanistes, donc méfiance
Concernant les outils de DQM, leur tarification leur interdit une
utilisation massive qui pourrait être intéressante car cela reste des
outils très puissants
Dans 90% des cas les entreprises développent en spécifique et limitent
les fonctions de DQM aux données de références via des outils
spécifiques (normalisation des adresses)
86
© OCTO 2012
- 87. La gestion des métadonnées ?
Pour quels usages?
Analyse d’impact
Documentation
Dictionnaire
Génération de code automatique…
Malheureusement cette gestion est propre à chaque outil ce qui profite
aux architectures mono-éditeur…
…alors que des standards existent : Common Warehouse Metamodel
(CWM™) Metadata Interchange Patterns (MIP)
Nous n’avons pas identifié de solution miracle:
Développement spécifique
Adresser par d’autres référentiels (MDM), référentiel d’architecture
(Aris,PowerAMC, Mega…)
Wiki…
Des solutions existent par éditeur (IBM information server
metadata, informatica metadata manager...) qui nécessitent du spécifique
pour une intégration complète
87
© OCTO 2012
- 88. Bi & OpenSource?
Les outils Open source arrivent à maturité sur le marché du décisionnel
avec une pénétration PME et Grands Comptes
Les solutions couvrent aujourd’hui tout le spectre du décisionnel et
constituent une alternative pertinente avec par exemple :
ETL Reporting OLAP
- Kettle - JasperReports - Mondrian
- Talend - Birt - JPivot
Plateforme Datamining
- Weka
- Pentaho
- Jasper Soft
Sans oublier et d’autres solutions présentées dans cet
état de l’art
88
© OCTO 2012
- 89. Cloud computing et BI?
« Permettant de contrôler des données volumineuses, l'informatique
dans les nuages devrait bouleverser substantiellement le marché de la
Business Intelligence grâce à son coût peu élevé, à son extensibilité
et sa flexibilité »
Dans les faits, la BI dans le cloud est confrontée à:
Une crainte des clients relative à la localisation des données
Une offre SAAS des éditeurs historiques très loin d’une approche self-
service (c’est une nouveau paradigme pour ces acteurs)
Un avantage économique encore incertain
A court terme nous recommandons de :
Privilégier les offres IaaS et PaaS (Amazon Elastic, Google bigQuery….)
Privilégier les offre SaaS natives (BIME partenaire google)
Tester Amazon marketplace (jaspersoft et BO)
89
© OCTO 2012
- 90. Mobilité et BI?
source: DAS Mobile Business Intelligence Market Study – October 2011, DRESNER ADVISORY SERVICE
Microstrategy comme
précurseur et leader
3ème usage mobile recensé
dans le cadre professionnel
68% des organisations jugent
le sujet très important
Préférence d’une approche
native et sur de l’iOS (non
tenable sur la durée
HTML5)
Avis : suit le changement des
usages. Réellement une
priorité?
90
© OCTO 2012
- 91. Agilité et BI?
Aujourd’hui de nombreux retours d’expériences de projets décisionnels mettent en
évidences les carences suivantes :
La difficulté de lutter contre l’effet tunnel
Le retard important dans la mise en œuvre et les budgets en augmentation
Un problème d’agilité pour faire évoluer ou adapter la solution aux besoins changeants
Un rejet de l’application par les utilisateurs
Les méthodes agiles ont fait leur preuve et constituent une approche pertinente
dans la construction du SI Décisionnel (SID), afin de soulager les carences
précitées qui sont au cœur des apports potentiels de ces méthodes
Les méthodes agiles répondent très bien à une adage du Décisionnel « voir grand en
commençant petit »
L’approche des méthodes agiles doit être adaptée en prenant en compte les spécificités
des projets décisionnels
Elle nécessite cependant les pré-requis suivants propres à l’industrialisation des
pratiques de développement (vrais freins):
Politique de test (automatisation)
Pratique de modélisation (refactoring database et approche verticale et itérative)
91
© OCTO 2012
- 92. BI self-service?
Une demande récurrente adressée au DSI est de fournir une BI self-
service
Recevant des regards torves des DSI, les métiers achètent de
nouvelles solutions éditeur pour parvenir à une fonctionnalité…
…déjà présente dans les outils de la maison proposés par la DSI mais
dont la mise en oeuvre est bridée au niveau logiciel ou par les
processus et la gestion des habilitation
La Bi self-service est avant tout un problème d’organisation et de
processus même si la dimension logicielle peut aider :
Virtualisation
Outils graphique user friendly + in memory
Data discovery
92
© OCTO 2012
- 93. Une offre de service BI?
Un letmotiv
« One size doesn’t fit all »
Que cela soit au
niveau des outils, des
architectures, de la
méthodologie ou des
processus
Processus
Architecture
Méthodologie
93
© OCTO 2012
- 94. Competence center et BI?
La notion de BICC est à la mode et s’est généralisée avec les modes
d’interventions suivants : Développement
« Expertise » Exploitation +
MCO
« Pilotage »
+
Gestion de projet
« Opérationnel partiel » Gestion qualité
Conseil +
« Opérationnel » Veille Cadre de
Prototypage référence
Education
Expertise Pilotage Opérationnel partiel Opérationnel
Ces organisations issues de rationalisation/outsourcing sont
challengées par les tendances suivantes :
La décentralisation des compétences et des outils vers le métier la
prise de pouvoir par le métier
Les nouvelles technologies associées à la donnée (hadoop)
L’agilité
94
© OCTO 2012
- 95. Et la business intelligence en temps réel?
1er problème: trouver le cas d’usage…
Rappel : Un système d’analyse de données temps réel est un
système évènementiel disponible, scalable et stable, capable de
prendre des décisions (actions) avec une latence inférieure à … la
fréquence des évènements
Les architectures historiques fonctionnent en J+1…
… mais ces limites peuvent largement être dépassées avec une revue de
la cinématique des traitements :
Chargement toutes les heures
Chargement toutes les 5 minutes
Donc attendez avant de sortir la Maserati et trouvez un use cases qui
en vaille la peine
95
© OCTO 2012
©OCTO 2012
- 96. Architecture BI Real-time :
approche « In-memory »
IHM édition des règles IHM données historiques IHM données temps-réel
latence : 100 ms
évènements
Moteur CEP
structurés
Event/Condition/Action
Calculs et état en
Capture
Stream-based querying Applis
mémoire : décision / transactionnelles,
fenêtres de temps, Analyse multi-dim. action BPM, ESB
opérateurs, règles
…
évènements
non-structurés
Cache / Cache distribué
Historique des
Données de référence, DWH, évènements
interrogation de services
96
© OCTO 2012
- 97. Architecture BI Real-time : approche « Grille de
données »
STORM
latence : 100 ms
évènements
Moteur CEP
structurés
Event/Condition/Action
Calculs et état en
Capture
Stream-based querying Applis
mémoire : décision / transactionnelles,
fenêtres de temps, Analyse multi-dim. action BPM, ESB
opérateurs, règles
…
évènements
non-structurés
Cache / Cache distribué
Historique des
Données de référence, DWH,
évènements
interrogation de services
97
© OCTO 2012
- 98. Architecture BI Real-time :
approche « CEP »
latence : 100 ms
évènements
Moteur CEP
structurés
Event/Condition/Action
Calculs et état en
Capture
Stream-based querying Applis
mémoire : décision / transactionnelles,
fenêtres de temps, Analyse multi-dim. action BPM, ESB
opérateurs, règles
…
évènements
non-structurés
Cache / Cache distribué
Historique des
Données de référence, DWH, évènements
interrogation de services
98
© OCTO 2012
- 99. Le SID existe-il encore?
La frontière SIO/SID tend à disparaître du fait …
De la virtualisation des données
De l’utilisation des outils « BI » dans le monde opérationnel
De l’arrivée du temps réel
De la gouvernance des données
Des Boucles de feedback (CRM)
… et finalement ce n’est pas plus mal
Stigmatisation des architectures et des hommes
+ de partage de pratiques notamment sur l’industrialisation des
développements
Besoin de dépoussiérage des pratiques du monde SID
99
© OCTO 2012
- 100. EXPERTISE ARCHITECTURE
ERGONOMICS
PRAGMATISM SECURITY
The two most important asset of a company can not be
seen in its balance sheet: its reputation and its people
Henry Ford, car industry
INTEGRATION EXPERIENCE
TRAINING MOBILITY
AUDITS
AUTEUR
Joseph Glorieux Julien cabot
jglorieux@octo.com jcabot@octo.com TOOLS
AGILITY
100
© OCTO 2012