3. UN PEU D’HISTOIRE
• Pourquoi la BI ?
1 entreprise =
N progiciels
• Sortir la donnée « de sa boite »
• L’analyser
• LA RENDRE « Décisionnelle »
Des approches pour cela :
Reporting : Interroger la / les bases de données des progiciels pour
sortir la donnée sur des rapports
Infocentre : Dupliquer la / les bases de données des progiciels pour
sortir la donnée en minimisant l’impact sur les progiciels
Entrepôt de données : Utiliser des outils / processus ETL
(Extract Transform & Load)
Structurer la donnée au mieux afin de la sortir et l’analyser.
On veut 1 seule version de la « vérité ». Pas d’informations à priori
identiques mais définies différemment.
4. UN PEU D’HISTOIRE(2)
• Cohabitation de 2 mondes
• Dans les démarches dites « reporting » et « infocentre »
(principalement années 70 à 90)
– Le système décisionnel se place en bout de chaîne
– Les données des différents systèmes sont peu croisées
– Sens unique Transactionnel Décisionnel
– Il est généralement utilisé uniquement par le management, donc
peu diffusé
– Peu optimisé pour une recherche rapide
• Avec l’entrepôt de données (90 à aujourdhui)
– Les données sont historisées, croisées, préparées
– Des outils sont diffusés plus largement
– Sens Décisionnel Transactionnel pas encore en standard
– Une structuration de la donnée est mise en place pour rendre aisée
et rapide les recherches (historisation avec Slowly Changing
Dimension, modélisation en étoile/flocon,…)
Transactionnel
/ opérationnel
Décisionnel
7. • BI Mobile
Ce n’est plus un sujet en soi, les éditeurs de
solutions ont des applis / des portails adaptés au
support Mobile.
• Cloud BI
Les offres de BI en SaaS sont largement diffusées.
L’externalisation des données peut parfois soulever
des problématiques de sécurité des données.
BI MOBILE & CLOUD
8. • Compte tenu de l’accroissement exponentiel des
volumes de données à traiter, la gestion de la
qualité des données devient primordiale. C'est la
qualité (plus que la quantité) de leurs données
qui va devenir un critère de différenciation
concurrentielle pour les entreprises. La gestion
de la qualité de données devient un pan entier
du décisionnel, incluant divers outils, depuis le
nettoyage de données jusqu'à la gestion des
données de référence (MDM).
MDM & QUALITÉ DE DONNÉES
9. • La plupart des outils BI existants se sont appuyés soit sur le requêtage
direct de la base en SQL, ou sur un modèle (Univers BO, etc) construit
pour permettre aux utilisateurs de la solution de construire leurs
analyse et leurs rapports.
• Analyse non anticipée Analyse infaisable
• La data discovery utilisent des algorithmes pour découvrir des
corrélations entre les données, et les outils estampillés « DD » se
focalisent surtout sur des analyses dynamiques et un croisement
rapide des données, rendu possibles par l’augmentation de la capacité
de stockage et de la puissance des machines.
DATA DISCOVERY / DATA EXPLORATION
10. • Une source de données supplémentaires à
l’heure du « data » déluge
• La problématique principale est que les formats
proposés sont hétérogènes
• Données figées / et / ou temps réel
• Accès gratuit / payant (ex de la SNCF)
OPEN DATA
12. • Social (Media) Mobile Analytics Cloud, ou
l'association des réseaux Sociaux, de la Mobilité,
de l‘Analytique et du Cloud.
• Cet acronyme désigne les 4 grands éléments qui
convergent dans le secteur des technologies de
l’information. Ceux-ci s’entremêlent, le social
pouvant être une source de données pour
l’analytique, l’analytique pouvant se faire dans le
cloud et être publié sur les médias sociaux…
S(M)MAC
13. Qu’est ce que le big data
13
Difference big data & bi « classique »
Les environnements d’analyses Big data ne visent pas à remplacer la BI / data warehouse
traditionnels mais à les compléter, ils doivent être totalement intégrés en permettant de
faire émerger des phénomènes depuis des données brutes
BI traditionnelle
•Sources de données essentiellement internes, connues
et structurées
•Modèles de données stables
•La majorité des données sont des données historiques
•De nombreux rapports produits de manière récurrente
PLATEFORME BIG DATA
•Nombreuses sources externes
•Importants volumes de données non-structurées
•Besoin d’itérations rapides pour expérimenter des
hypothèses
•L’analyse est faite sur des données qui peuvent rester
dans leur état brut
Croisement
14. • Les données dans un entrepôts de données sont structurées. Des choix sont
faits dans leur alimentation, des sources sont écartées, ou tout le détail n’est
pas intégré. Une structuration est faite. Son alimentation et évolution
engendre des copûts non négligeables.
• LE « DW » reste la structure la mieux adaptée à l’analyse répétitive et
comparative des données structurées mais :
• La baisse du cout de stockage et l’apparition de systèmes de stockage
arborescents (ex: Hadoop HDFS,…) permet de faire le choix de stocker des
données à toutes fins utiles, sans changer sa structure (et d’intégrer des
données semi ou non structurées) sans à savoir quelle analyse sera faite
ultérieurement sur celle-ci DATA LAKE
Ex : logs d’un site web sur plusieurs années, tweets mentionnant des sujets,
statuts sociaux, commentaires de blogues, photos identifiées
Cela ne dispense pas d’avoir des moyens de connaitre ce que contient le data
lake, et d’y avoir appliqué une sécurité, sinon :
DATA LAKE / DATA RESERVOIR
15. • L’apprentissage automatique, c’est la capacité d’un
ordinateur à apprendre sans avoir été explicitement
programmé.
Les analyses liées au Big Data utilisent l’apprentissage
automatique entre autre pour affiner les modèles
d’analyse, ainsi que pour découvrir des structures non
visibles dans les données. Le développement de ces
outils est encouragé par l’amélioration de l’expérience
d’analyse de données de très forte volumétrie.
MACHINE LEARNING – APPRENTISSAGE
AUTOMATIQUE
16. • Dans la mouvance "Big Data", on va voir le marché
décisionnel donner un nouveau souffle aux outils
d’analyse sémantique des données textuelles (données
semi-ou non structurées issues du web et circulant sur
Internet: mails, réseaux sociaux, blogs, messageries
instantanées, chats, etc.). Les enjeux sont l'analyse
d'opinions et de comportements des clients internautes
("Sentiment Analysis") – pour l’ecommerce notamment,
l'analyse de l'e-reputation…
TEXT MINING
17. • Predictive Analytics – Analyse prédictive
– Des possibilités d’analyse prédictive (simples) existent
depuis longtemps dans les outils BI. Le besoin croissant
d’information nécessite d’intégrer des algorithmes
statistiques plus poussés, s’appuyant sur des langages
plus spécialisés et un volume de données plus
important.
• What if analysis
– Celle-ci permet de définir des règles pour permettre de
prescrire les actions à réaliser en fonction de
paramètres définies au début de l’analyse
ACTIONABLE DATA
18. • Le CEP est une technique qui permet de découvrir les
événements complexes, par déduction, analyse et
corrélation d'événements élémentaires. La plupart des
solutions CEP et concepts peuvent être classés en deux
catégories principales:
– Calcul orienté CEP
Une solution Calcul orienté CEP est axée sur l'exécution
d'algorithmes en ligne en réponse à des événements entrant dans le
système. Un exemple simple consiste à calculer en permanence une
moyenne basée dans les données contenues dans les événements
entrants. (ex : cellule de crise pour une compagnie aérienne)
– Détection orientée CEP.
Une solution Détection orientée CEP est axée sur la détection des
combinaisons de modèles d'événements appelés situations. Un
exemple simple consiste à détecter une situation par la
reconnaissance d'une séquence spécifique d'événements.
COMPLEX EVENT PROCESSING
19. • L’abondance de données, leur complexité, notamment issues du big data
oblige à porter la réflexion sur la manière de les visualiser / interpréter.
• L’objectif est de communiquer et de « faire comprendre » simplement une/ ou
des informations complexes pour améliorer la prise de décision.
Pour répondre à ces objectifs, la DataViz doit fournir une information :
• Interprétable, c’est-à-dire claire, quelque soit le volume, la nature ou la
provenance des données
• Pertinente, c’est à dire qui réponde à un objectif métier dans un contexte
défini
• Novatrice, en fournissant une perspective différente qui permet de découvrir
de nouvelles opportunités
Exemple du quartet d’Ascombe - un graphique vaut mieux que mille tableaux
DATAVIZ
20. • Jusqu’à présent les bases de données
opérationnelles et analytiques sont séparées, car
elles n’ont pas les mêmes contraintes et besoins
d’optimisation.
• HTAP désigne les bases possédant une
architecture leur permettant de :
– Traiter indifféremment des requêtes analytiques ou
opérationnelles avec un délai raisonnable.
– Eviter de stocker plusieurs fois la même donnée
– Potentiellement proposer des analyses
en temps réel
HTAP (HYBRID TRANSACTIONNAL AND
ANALYTICAL PROCESSING)
21. Certains annoncent la mort du Big Data car :
• Collecter une masse de données est inutile si celle-ci n’est pas utilisée
correctement.
• Il faut explorer les données en se posant les bonnes questions : Y a-t-il une
variation significative dans le jeu de données ? Est-ce que les données sont
uniformes ou irrégulières ? La donnée est elle cachée dans une masse
d’informations insignifiantes ? Peut elle être facilement extraite et transformée
? Est-ce possible de charger les données à une vitesse raisonnable ? Si ce n’est
pas le cas le big data en lui-même est obsolète et il y a des substituts :
• Fast Data, ou le fait de traiter en temps réelle des masses importantes de
données pour obtenir des alertes instantanées et détecter des signaux sur le
moment (Storm, Spark,… )
• Actionable Data, qui synthétise analyse prédictive et les scénarios Et-Si (What
If) pour prescrire des recommandations permettant de planifier des actions
futures.
• Relevant Data, ou le fait de s’appuyer sur les relations entre les données pour
déterminer la pertinence des informations dans les jeux de données, et permet
de mieux comprendre les relations d’évènement semblant non reliés.
• Smart Data, ou l’application d’algorithmes se basant sur les sens des données ,
permettant de rendre les solutions intelligentes et capables de s’améliorer.
LE BIG DATA EST MORT !