Ces dernières années, nous avons assisté à une évolution majeure de l’écosystème des solutions de gestion de la donnée. Les usages ont également évolué tant sur les aspects analytiques que transactionnels : le batch J+1 n'est plus une fatalité !
Quels constats et quelles perspectives pour les SI traditionnels à l'heure où les technologies événementielles sont de plus en plus accessibles et adoptées ?
Les nouvelles architectures de stockage et traitement de la donnée
Face à l'accroissement du volume de données et de traitements ainsi que la course en avant vers des systèmes toujours plus temps réel, quelles problématiques rencontrent aujourd’hui les grandes DSI ? Toutes ces évolutions sont autant d’opportunités pour de nouvelles innovations dans les Systèmes d’Informations et relever les challenges d’aujourd’hui.
Petit Déjeuner Datastax 14-04-15 : Les nouvelles architectures de stockage et de traitement de la donnée
1. www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 1PARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY
PETIT- DÉJEUNER
NOUVELLES
ARCHITECTURES
DE DONNÉES
2. www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 2
NOUVELLES ARCHITECTURES DE DONNÉES
MERIEM BERKANE - LEADER OFFRE NAD OCTO TECHNOLOGY
Agenda du petit-déjeuner
COURBO SPARK : EXEMPLE DE MACHINE LEARNING SUR DES SÉRIES
TEMPORELLES
CHRISTOPHE SALPERWYCK - INGÉNIEUR CHERCHEUR EDF R&D
SIMON MABY - DATA SCIENTIST OCTO TECHNOLOGY
SPARK + CASSANDRA POUR UNE ARCHITECTURE ÉVÉNEMENTIELLE ET
DE L'ANALYTIQUE TEMPS RÉEL
VICTOR COUSTENOBLE - SOLUTIONS ENGINEER DATASTAX
2
5
1
4
3 PAUSE
ECHANGE
3. www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 3
NOUVELLES ARCHITECTURES DE DONNÉES
Agenda du petit-déjeuner
COURBO SPARKSPARK : EXEMPLE DE MACHINE
LEARNING SUR DES SÉRIES TEMPORELLES
SPARK + CASSANDRA POUR UNE ARCHITECTURE
ÉVÉNEMENTIELLE ET DE L'ANALYTIQUE TEMPS RÉEL
2
5
1
4
3 PAUSE
ECHANGE
7. www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 7
Catalogue
produit
Analyses et
promotion
Panier
Commandes
et facturation
E-Commerce
Serveur
d’application
Base de
données
Serveur
d’application
Base de
données
Serveur
d’application
Base de
données
Serveur
d’application
Base de
données
BATCHS
SI traditionnels
8. www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 8
SI traditionnels
CRM Vision client 360 Sinistres
Assurance
Serveur
d’application
Base de
données
Serveur
d’application
Base de
données
Serveur
d’application
Base de
données
BATCHS
9. www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 9
Catalogue
d’équipements
Analyses et
promotion
Données de
signalisation
Incidents
Industrie / Telcos
Serveur
d’application
Base de
données
Serveur
d’application
Base de
données
BATCHS
SI traditionnels
Serveur
d’application
Base de
données
Serveur
d’application
Base de
données
10. www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 10
Des évolutions technologiques majeures
ces dernières années nous ouvrent des
nouvelles opportunités métier
11. www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 11
Traiter au
fil de l’eau
Le bon
stockage
pour le bon
usage
Tout
collecter
Nouvelles archi
de données
Décloisonner
la donnée
Quatre principes directeurs
13. www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 13
Collecteur d’événements
Commandes
Sinistres
Mouvements
de stocks
Paiements par
carte, retraits
Données externes
brutes
Relevés bruts de
capteurs Mouvements de
panier
Activité client
Appels, SMS
Premier principe : tout collecter
14. www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 14
Traiter au
fil de l’eau
Tout
collecter
Nouvelles archi
de données
Deuxième principe
15. www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 15
Collecteur d’événements
Événements
& données
Processus
Processus
Router immédiatement vers les
systèmes et applications
concernées par l’événement
Détection d’abandon de panier
Remarketing
Détection d’une panne matérielle
Contacter le client au plus tôt
Relevé de consommation
Optimisation de ressources
Un nouveau sinistre déclaré
La vision 360 est à jour !
Deuxième principe : tout traiter au fil de l’eau
Processus
16. www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 16
Traiter au
fil de l’eau
Tout
collecter
Nouvelles archi
de données
Décloisonner
la donnée
Troisième principe
17. www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 17
Collecteur d’évènements
Troisième principe : décloisonner la donnée
Commandes et
facturation
Vision 360PanierAnalytique
Et promotion
Process
Donnée
enrichie
18. www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 18
Traiter au
fil de l’eau
Le bon
stockage
pour le bon
usage
Tout
collecter
Nouvelles archi
de données
Décloisonner
la donnée
Quatrième principe
19. www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 19
Persistance polyglotte
Recherche/
Vision 360
Graphe
social
des clients
Archivage
Catalogue
Produit
Session
utilisateur /
panier
Analytique
temps-réel
USAGESDonnées
transaction-
nelles
Outils de
reporting
Cassandra
HDFS
Vectorwise
Neo4J
Couchbase
/Cassandra
PostgreSQL
Elasticsearch
Couchbase
20. www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 20
Expertise
et
Polyvalence
Se donner les moyens d’y arriver
La donnée est :
• dupliquée,
• enrichie,
• partagée,
Elle doit donc être
gouvernée
Environnements
complexes
Automatisation
de bout en bout
DevOps
21. www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 21
Intégration/recetteStation de
développement
- 1 instance Kafka
- 1 instance Spark
- 1 instances Zookeeper
- 1 instance Cassandra
- 1 IDE
- 1 injecteur
- 1 jeu de données
Une station de développement
par développeur
- 3 nœuds Kafka
- > 4 nœuds Spark
- 1 nœuds Zookeeper
- > 4 nœuds Cassandra
- 1 nœud applicatif
- 1 jeu de données
représentatif du flux
- EDI /EAI
Nombre de plateforme
d’intégration en fonction du
nombre de développeurs
Pré-production/Production
- 3 nœuds Kafka
- > 4 nœuds Spark
- 1 nœuds Zookeeper
- > 4 nœuds Cassandra
- 2 nœuds applicatifs
- EDI/EAI
- Connection vers le
DataLake
Une plateforme de pré-
production « iso » avec une
plateforme de production
23. www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 23
Le « Batch à
J+1 » n’est plus
une fatalité !
Ce qu’il faut retenir
Quatre principes
directeurs
• Tout collecter
• Traiter en
temps-réel
• Décloisonner
• Stocker
intelligemment
• Se former
• S’outiller
• POCer !
SI Opérationnel => Analytique : Voie sans retour
Architectures des années 2000,
Et je ne parle pas de main frame
Eviter big data
SI Opérationnel => Analytique : Voie sans retour
Architectures des années 2000,
Et je ne parle pas de main frame
SI Opérationnel => Analytique : Voie sans retour
Architectures des années 2000,
Et je ne parle pas de main frame
SI Opérationnel => Analytique : Voie sans retour
Architectures des années 2000,
Et je ne parle pas de main frame
Eviter big data
Collecter toutes les données en temps réel, trier et traiter dans un deuxième temps
Evènements critiques : commandes, paiements, etc.
Evènements autres: Clics, etc.
Persistance polyglotte : Le bon stockage pour le bon usage
Réduire les frontières entre les systèmes de stockage,
un événement peut être retravaillé et réinjecté pour qu’il alimente d’autres systèmes de stockage
création d’index dans le moteur de recherche suite à l’ajout d’un nouveau client,
mise à jour du graphe social suite à l’ajout d’une relation entre deux clients, etc.
Traitement sur les évènements :
aggrégation,
event sourcing,
CQRS
Le flux d’événement alimente des systèmes hyper-spécialisés
Et d’autre processus pour produire de nouveaux flux d’événements
Cassandra + Spark
EDF R&D
Le collecteur d’évènements doit encaisser beaucoup de volumes, et surtout savoir scaler : Outils comme Kafka (Kinesis aussi?) savent faire ça
Des process dépilent les évènements, font du traitement dessus : CEP : Complex event processing, du routage, de l’event sourcing, de l’enrichissement, etc. Approfondir cette partie patterns évènementiels.
Stockage adapté à l’usage (slide d’après)
Le flux d’événement alimente des systèmes hyper-spécialisés
Et d’autre processus pour produire de nouveaux flux d’événements
Le collecteur d’évènements doit encaisser beaucoup de volumes, et surtout savoir scaler : Outils comme Kafka (Kinesis aussi?) savent faire ça
Des process dépilent les évènements, font du traitement dessus : CEP : Complex event processing, du routage, de l’event sourcing, de l’enrichissement, etc. Approfondir cette partie patterns évènementiels.
Stockage adapté à l’usage (slide d’après)
=> Réconciliation
Ce n’est pas exhaustif, ça n’est pas le but, c’est un exemple
Catalogue produit => Couchbase : in-memory pour une faible latence, forts accès en lecture
Session utilisateur : Cache => Redis, accès en écriture et en lecture, données volatiles
Panier : Riak, Cassandra ? Haute dispo, multi-site
Données transactionnelles : pas mieux que les bases relationnelles, Le NoSql par définition n’est pas la meilleure techno pour, mais y a des tentatives : Cassandra tx, etc. Très complexe à mettre en place et très limité. A voir selon le besoin. Mais surtout, challenger le besoin du transactionnel. Beaucoup de uses cases sont implémentés avec des transactions alors que ce n’est pas nécessaire (trouver exemple?). Y a des uses cases où le relationnel est néanmoins très pertinent : données financières avec des données structurées figées, et des traitements hautements transactionnels (batchs du coup)
Graphe social, recommandations : Neo4j, OrientDB (pertinence du sémantique)?
Reporting : Beaucoup d’outils de reporting s’intègrent bien avec des bases Sql
Analytics temps réel, traitement des logs : Bases colonne : besoin de scalabilité fort, clustering bien géré, multi-site : Cassandra, hadoop