SlideShare ist ein Scribd-Unternehmen logo
1 von 56
DataStax Enterprise
La plate-forme de base de données pour le Cloud
Victor Coustenoble Matinée Cloud / Google, WeScale, DataStax,WattGo
Ingénieur Solutions 29/05/15
victor.coustenoble@datastax.com
@vizanalytics
Agenda
Confidential 2
• Introduction
• Qu’est-ce qu’une base de données « Cloud » ?
• Apache Cassandra et DataStax Enterprise
• Google Cloud Platform et DataStax
• Cas d’utilisation
DataStax
Fondé en avril 2010
~35 500+
Santa Clara, Austin, New York, London, Paris, Sydney
400+
Employés Pourcent Clients
3
Qu’est ce qu’une base de données “Cloud” ?
©2014 DataStax. Do not distribute without consent. 4
Base de données optimisée pour gérer les limites et
les particularités d’une infrastructure partagée et
géographiquement dispersée : coupures, serveurs
partagés, sécurité des données, réseau variable …
A qui la faute quand votre application tombe ?
Est-ce vous allez être dédommagé ?
Est-ce que cela va encore arriver ? Oui
=> Acceptez ce risque ou désignez convenablement votre application!
“Design for Failure” pour le Cloud
©2014 DataStax. Do not distribute without consent. 5
 Les composants de votre application doit être déployés à travers des
composants du cloud redondant, idéalement sans point unique de
défaillance.
 Chaque composant de l’application ne doit pas faire de supposition sur
l’infrastructure sous-jacente – adaptable aux changement de
l’infrastructure sans arrêt de service.
 Chaque composant de l’application doit être tolérant au partitionnement
– on doit survivre à des problèmes de latence du réseau (ou perte de
communication) sur les noeuds supportant le composant.
 Des outils d’automatisation doivent être en place afin d’orchestrer les
réponses de l’application aux coupures ou changements de l’infrastructure.
Quid de ma base de données ?
©2014 DataStax. Do not distribute without consent. 6
C’est la partie difficile n’est-ce pas?
• Replication de mes données entre des régions?
• Problème réseau et réplication de données ?
• Comment être actif à travers plusieurs régions?
• Comment étendre la capacité?
• Des mises à jour sans arrêt de service?
• Etc..etc…
En fait ce n’est pas compliqué – c’est exactement ce que Apache
Cassandra et DataStax rendent simples
7
Une base de données pour le Cloud ?
Ce qu’une base de données Cloud n’est pas
©2014 DataStax. Do not distribute without consent. 8
Une base de données Cloud n’est pas simplement une
base de données traditionnel (SGBDR) que l’on fait
fonctionner chez un founisseur Cloud
Attributs clés d’une base de données Cloud
©2014 DataStax. Do not distribute without consent. 9
Elasticité Transparente
• Ajout et suppression de noeuds (physique ou virtuel)
suivant la demande
• Pas d’arrêt de service pour cela
• Redistribution simple
• Compliqué avec les SGBDR et les bases de données
NoSLQ maître/esclave (complexité d’administration
Attributs clés d’une base de données Cloud
©2014 DataStax. Do not distribute without consent. 10
Scalabilité - Montée en charge
Transparente
• L’ajout de noeuds augmentent les performances en terme
de débit mais aussi de volume de données traité (big data)
• L’idéal est d’avoir une scalabilité linéaire
• Quelque soit le volume de données, les temps de
réponses des requêtes doivent être les mêmes
Attributs clés d’une base de données Cloud
©2014 DataStax. Do not distribute without consent. 11
Haute Disponibilité
• Toujours en ligne, pas de point unique de défaillance
• L’effet d’un arrêt de service est aujourd’hui négatif, 100%
en ligne est la norme
• Coût important pour des arrêts ou des coupures
Attributs clés d’une base de données Cloud
©2014 DataStax. Do not distribute without consent. 12
Distribution Simple des Données
• Important d’avoir la possibilité d’écrire et de lire sur
n’importe quel noeud du Cloud
• Distribution sur de multiples régions géographiques, data-
center, zones du founisseur Cloud => Haute disponibilité si
une région tombe, simplification du plan de reprise, la donnée est
protégée
Attributs clés d’une base de données Cloud
©2014 DataStax. Do not distribute without consent. 13
Redondance des Données
• La données est protégée par de multiples copies sur différents
endroits physiques
• Si la première copie est détruite, une autre copie sera utilisée
• La possibilité de configurer cette redondance permettant de survivre
à plusieurs niveaux:
• Serveur
• Rack / Zone de Disponibilité
• Region / Data Center
• Provider Cloud (AWS, GCE etc..)
Attributs clés d’une base de données Cloud
©2014 DataStax. Do not distribute without consent. 14
Support de Multiple Type de Données
• Pouvoir gérer des données structurées, semi-structurées
ou non structurées
• Pouvoir accepter différents types de données
• Réponses des bases NoSQL
Attributs clés d’une base de données Cloud
©2014 DataStax. Do not distribute without consent. 15
Simple à Administrer
• Facilité d’administration d’une base de données logique
réparties sur différents noeuds
• Gérer une base de données distribuée géographique reste
compliqué
• Des outils appropriés pour la supervision, gestion
automatique et l’alerting sont essentiels
Attributs clés d’une base de données Cloud
©2014 DataStax. Do not distribute without consent. 16
Support de Multiples Infrastructures
• Doit pouvoir se déployer sur différents fournisseurs Cloud
(publiques ou privés) comme sur une infrastructure
traditionnelle
• Ne pas être lié à un seul fournisseur Cloud
• Support d’un déploiement hybride entre un Cloud publique
et une infrastructure privée
Attributs clés d’une base de données Cloud
©2014 DataStax. Do not distribute without consent. 17
Sécurité
• Les données doivent est sécurisées à la fois lors de leur
déplacement (communication intra-noeuds ou client-
noeud) et au repos (sur disque).
• Besoin d’audit des requêtes
• Sur une infrastructure partagé la sécurité est essentielle!
Attributs clés d’une base de données Cloud
©2014 DataStax. Do not distribute without consent. 18
• Elasticité Transparente
• Scalabilité Transparente
• Haute Disponibilité
• Distribution Simple des Données
• Redondance des Données
• Support de Multiples Types de Données
• Simple à Administrer
• Support de Multiples Infrastructures
• Sécurité
Mais mon SGBDR peut faire ça non ?
Confidential 19
Plus scale up que scale out
Réplication Maître/Esclave
Compléxité de la Répartition, de l’Administration
…
Quelle base de données “Cloud” ?
20
Deux choix principaux:
• Utilisation d’une base de données du fournisseur Cloud
Avantage: Boîte noire, pas d’administration (vraiment?)
Inconvénient: Boîte noire, coût, performances, lien fort avec le founisseur
• Déployer sa propre base de données (Cassandra par exemple)
Avantage: Pas de lien fort avec le fournisseur, optimisation des
performances, moindre coût, intallation hybride, plus grande adoption
Inconvénient: Administration
21
Apache Cassandra et DataStax Enterprise
Apache Cassandra™
• Apache Cassandra™ est une base de données NoSQL, Open Source, Distribuée et créée
pour les applications en ligne, modernes, critiques et avec des montée en charge massive.
• Développé en Java c’est un hybride entre Amazon Dynamo et Google BigTable
• Sans Maître-Esclave, sans Point Unique de Défaillance (Single Point Of Failure)
• Distribuée avec la possibilité de Centres de Données (Data Center)
• 100% Disponible
• Scalabilité en charge linéaire
• Haute Performance
• Séries Temporelles
• Simple à Exploiter
• Language CQL (comme SQL)
• Outils OpsCenter / DevCenter
©2014 DataStax Confidential. Do not distribute without consent. 22
Dynamo
BigTable
BigTable: http://research.google.com/archive/bigtable-osdi06.pdf
Dynamo: http://www.allthingsdistributed.com/files/amazon-dynamo-sosp2007.pdf
Node 1
Node 2
Node 3Node 4
Node 5
Haute Disponibilité et Cohérence Immédiate!
• La défaillance d’un seul noeud ne doit pas entraîner de défaillance du système
• Facteur de Réplication + Niveau de Cohérence = Succès
• Exemple:
• RF = 3
• CL = QUORUM
©2014 DataStax Confidential. Do not distribute without consent. 23
Node 1
1st copy
Node 4
Node 5
Node 2
2nd copy
Node 3
3rd copy
Parallel
Write
Write
CL=QUORUM
5 μs ack
12 μs ack
12 μs ack
>51% de réponses – donc la requête est réussie
CL(Lecture) + CL(Ecriture) > RF => Cohérence Immédiate
Configuration en Data Center
©2014 DataStax Confidential. Do not distribute without consent. 24
Node 1
1st copy
Node 4
Node 5
Node 2
2nd copy
Node 3
3rd copy
Node 1
1st copy
Node 4
Node 5
Node 2
2nd copy
Node 3
3rd copy
DC: EUROPEDC: USA
• Actif partout – lecture/écriture dans tous les DC
• Le client écrit localement dans un DC
• Données synchronisées à travers le WAN
• Facteur de Réplication par DC
Utilisations
• DC de sauvegarde
• Distribution géographique
• Charge différente entre DC
• Prod -> Pré-prod
Cloud & Cloud Hybride
• DataStax Enterprise et Cassandra sont disponibles en multi-data center et dans le cloud (Amazon
AWS, Google Cloud et Microsoft Azure)
• Les données écrites dans n’importe quel noeud sont aussi automatiquement et de manière
transparente écrites sur tous les autres noeuds dans les autres data centers sans ETL
Data Centre 1
Data Centre 2
Public Cloud
Example Application
©2014 DataStax Confidential. Do not distribute without consent. 26
Cassandra
Replication
Cassandra
Replication
• Active-Active-Active
• Service based DNS routing
DC: USA DC: Europe DC: Asia
Web Tier
App Tier App TierApp Tier
Web Tier Web Tier Web Tier
Example Application - Uptime
©2014 DataStax Confidential. Do not distribute without consent. 27
Cassandra
Replication
Cassandra
Replication
• Normal service maintenance
• Application is unaware
DC: USA DC: Europe DC: Asia
Web Tier
Web Tier Web Tier Web Tier
App Tier App TierApp Tier
App Tier
Example Application – DC Failure
©2014 DataStax Confidential. Do not distribute without consent. 28
Cassandra
Replication
Cassandra
Replication
• Data is safe.
• Route Traffic
DC: USA DC: Europe DC: Asia
Web Tier
Web Tier Web Tier Web Tier
App TierApp Tier
Example Application – Tier Failure
©2014 DataStax Confidential. Do not distribute without consent. 29
Cassandra
Replication
• App Tier is aware of the other DC
• Switches to access remote DC automatically
DC: USA DC: Europe
DC: Asia
Web Tier
Web Tier Web Tier Web Tier
App Tier App TierApp Tier
Example Application – WAN Failure
©2014 DataStax Confidential. Do not distribute without consent. 30
Cassandra
Replication
Cassandra
Replication
DC: USA DC: Europe DC: Asia
Web Tier
Consistency level?
Web Tier Web Tier Web Tier
App Tier App TierApp Tier
Confidential 31
DataStax Enterprise
Robustesse et
Support pour la
Production
Puissance pour le
Développement
Support 24/7
Cassandra certifié
Administration avancée
Sécurité avancée
Recherche
Analytique
Analytique avec DataStax Enterprise
• Isolation des ressources pour différents cas d’utilisation : OLTP, Recherche, Analytique
Cassandra est fait pour ça!
• Vous pouvez créer des data centers isolés, virtuels et optimisés suivant les besoins –
différentes charges de travail, matériels, disponibilité, etc …
• Cassandra repliquera les données pour vous – sans ETL
32
Replication
Cassandra
Application
Opérationnelle
Analytique
Rappel : Attributs clés d’une base de données Cloud
• Elasticité Transparente
• Scalabilité Transparente
• Haute Disponibilité
• Distribution Simple des Données
• Redondance des Données
• Support de Multiples Types de Données
• Simple à Administrer
• Support de Multiples Infrastructures
• Sécurité
Elasticité Transparente
1
2
3
4
5
6
1
7
10
4
2
3
5
6
8
9
11
12
Scalabilité Transparente
1
2
3
4
5
6
1
7
10
4
2
3
5
6
8
9
11
12
Performance
throughput = N
Performance
throughput = N x 2
Haute Disponibilité
• Architecture peer-to-peer et masterless de Cassandra
• 100% en ligne est la norme!
Distribution Simple des Données
Redondance des Données
Support de Multiples Types de Données
• Le modèle de données de Cassandra (basé sur Google Bigtable)
améne une flexibilité du stockage
• Stratégie DataStax de Multi-Modèle : Bientôt support de JSON et d’un
modèle de données Graphe (via l’acquisition Aurelius/TitanDB)
ID Name SSN DOB
Portfolio Keyspace
Customer Table
Simple à Administrer
• OpsCenter et les outils fournis dans les différents fournisseurs Cloud permettent
des installation et configurations rapides.
• Tout peut être administré et supervisé via une application Web ou via des API
REST.
• Services automatiques d’administration et de supervision (performance), Alertes,
Backup/Restore, PITR …
• Accès sécurisé
Support de Multiples Infrastructures
Cassandra est supporté par les plus importants fournisseurs Cloud et
Operating Systems.
Securité
• Fonctionnalités de sécurité standard: Authentification, Autorisation,
Chiffrement à la volée
• Support de fonctionnalités avancées : LDAP, Kerberos, Chiffrement
sur disque, pistes d’Audit
DataStax et Google Cloud Platform
Confidential 44
Guide de Déploiement DataStax pour GCE
Confidential 45
https://academy.datastax.com/demos/datastax-
enterprise-deployment-guide-google-compute-engine
• Pour jusqu’à 200 GB de données par noeud, instances n1-standard-8 avec 30 GB ram
• Plus de 1 TB de données par noeud, instances n1-highmem-16 avec 104 GB ram
• Recommandation de disque SSD (local ou persistant)
• Snitch “GoogleCloudSnitch” disponible pour déterminer la topologie des noeuds d’un cluster
Cassandra en fonction des zones (racks) et régions (data centers) de GCP.
• Cassandra atteint 1 Millions d’écriture par seconde dans Google Compute Platform
Deployer Cassandra dans Google Compute Platform
©2014 DataStax. Do not distribute without consent.
47
DataStax & Google Cloud Platform
= Ferrari & The Autobahn
Blazing Fast Performance
"In the past we've had high performance and high throughput options ... for our
network attached persistent disk (a great offering). But, sometimes you need to
take it up a notch ... and you want to have access to local flash for your
application, especially if you are doing something like a high
performance Cassandra Cluster. And the way that works on Cloud
Platform is somewhat unique. You can take any standard VM and attach flash to that.”
- Navneet Joneja, Product Manager, Google Cloud Platform at Google Cloud Platform
Live 2014, November 2014, San Francisco
40px in height.
• One Million writes per
second to Cassandra with a median
latency of 10.3 ms and 95%
completing under 23 ms
• Ideal for potentially spiky workloads,
such as machine data generated
across millions of devices with peaks
Google Cloud Platform & DataStax: Blazing-Fast Apps
© 2014 DataStax, All Rights Reserved. Company Confidential 48
• 330 Google Compute Engine virtual machines, 300 1TB Persistent Disk volumes, Debian Linux,
and DataStax/Cassandra
http://googlecloudplatform.blogspot.co.uk/2014/03/cassandra-
hits-one-million-writes-per-second-on-google-compute-
engine.html
DataStax & Cassandra – Cas d’utilisation
Cas d’usage fréquents
Messagerie
Collections/
Playlists
Détection de
Fraude
Recommandation/
Personnalisation
Objets connectés/
Données de Capteurs
Cassandra @ Netflix
• 80+ Clusters
• 2500+ noeuds
• 4 Data Centres (Régions Amazon)
• > 1 Trillion transactions par jour
http://planetcassandra.org/functional-use-cases/
Performance et Montée en Charge dans le Cloud
©2014 DataStax Confidential. Do not distribute without consent. 51
The Smart Way to Manage Sensors for Energy and Cost Savings
Thousands of sensors on rooftop machines in commercial buildings
Poor performance and limited scale with legacy technologies
Live in production in ~2 months ingesting, normalizing, and analyzing time-series sensor data
Reduced TCO by over 67% compared to relational systems
Linear scale, 100% uptime with DataStax Enterprise and Google Cloud Platform Use Case: Internet of Things
©2013 DataStax Confidential. Do not distribute without consent. 53
Plus d’information
• http://www.datastax.com/deliver-blazingly-fast-online-applications-with-apache-cassandra-on-google-
cloud-platform
• Cassandra Performance Benchmark
http://planetcassandra.org/blog/post/cassandra-performance-benchmark-aws-google-compute-engine-
rackspace-cloud/
• Cassandra Hits One Million Writes Per Second on Google Compute Engine
http://googlecloudplatform.blogspot.co.uk/2014/03/cassandra-hits-one-million-writes-per-second-on-
google-compute-engine.html
• DataStax http://www.datastax.com
• Getting Started http://www.datastax.com/documentation/gettingstarted/
• Training http://www.datastax.com/what-we-offer/products-services/training
• Downloads http://www.datastax.com/download
• Documentation http://www.datastax.com/docs
• Developer Blog http://www.datastax.com/dev/blog
• Academy https://academy.datastax.com
• Community Site http://planetcassandra.org
Cassandra Days
Company Confidential 55
Merci, Questions ?
We power the big data apps
that transform business.
©2013 DataStax Confidential. Do not distribute without consent.
victor.coustenoble@datastax.com
@vizanalytics

Weitere ähnliche Inhalte

Was ist angesagt?

Introduction à Cassandra
Introduction à CassandraIntroduction à Cassandra
Introduction à CassandraVMware Tanzu
 
Azure Camp 9 Décembre - slides session développeurs webmedia
Azure Camp 9 Décembre - slides session développeurs webmediaAzure Camp 9 Décembre - slides session développeurs webmedia
Azure Camp 9 Décembre - slides session développeurs webmediaMicrosoft
 
Apache Kafka, Un système distribué de messagerie hautement performant
Apache Kafka, Un système distribué de messagerie hautement performantApache Kafka, Un système distribué de messagerie hautement performant
Apache Kafka, Un système distribué de messagerie hautement performantALTIC Altic
 
Azure Camp 9 Décembre 2014 - slides Keynote
Azure Camp 9 Décembre 2014 - slides KeynoteAzure Camp 9 Décembre 2014 - slides Keynote
Azure Camp 9 Décembre 2014 - slides KeynoteMicrosoft
 
Architecture Big Data open source S.M.A.C.K
Architecture Big Data open source S.M.A.C.KArchitecture Big Data open source S.M.A.C.K
Architecture Big Data open source S.M.A.C.KJulien Anguenot
 
Apache Cassandra - Concepts et fonctionnalités
Apache Cassandra - Concepts et fonctionnalitésApache Cassandra - Concepts et fonctionnalités
Apache Cassandra - Concepts et fonctionnalitésRomain Hardouin
 
Realtime Web avec Akka, Kafka, Spark et Mesos - Devoxx Paris 2014
Realtime Web avec Akka, Kafka, Spark et Mesos - Devoxx Paris 2014Realtime Web avec Akka, Kafka, Spark et Mesos - Devoxx Paris 2014
Realtime Web avec Akka, Kafka, Spark et Mesos - Devoxx Paris 2014Ippon
 
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big DataAzure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big DataMicrosoft
 
Cartographie du big data
Cartographie du big dataCartographie du big data
Cartographie du big dataacogoluegnes
 
Webinar - Enterprise Cloud Databases
Webinar - Enterprise Cloud DatabasesWebinar - Enterprise Cloud Databases
Webinar - Enterprise Cloud DatabasesOVHcloud
 
[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel
[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel
[USI] Lambda-Architecture : comment réconcilier BigData et temps-réelMathieu DESPRIEE
 
Sahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStackSahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStackALTIC Altic
 
SQL Saturday Paris 2015 - Polybase
SQL Saturday Paris 2015 - PolybaseSQL Saturday Paris 2015 - Polybase
SQL Saturday Paris 2015 - PolybaseRomain Casteres
 
Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureBig Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureMicrosoft
 
Panorama des offres NoSQL disponibles dans Azure
Panorama des offres NoSQL disponibles dans AzurePanorama des offres NoSQL disponibles dans Azure
Panorama des offres NoSQL disponibles dans AzureMicrosoft Décideurs IT
 

Was ist angesagt? (20)

Introduction à Cassandra
Introduction à CassandraIntroduction à Cassandra
Introduction à Cassandra
 
DataStax Enterprise BBL
DataStax Enterprise BBLDataStax Enterprise BBL
DataStax Enterprise BBL
 
Azure Camp 9 Décembre - slides session développeurs webmedia
Azure Camp 9 Décembre - slides session développeurs webmediaAzure Camp 9 Décembre - slides session développeurs webmedia
Azure Camp 9 Décembre - slides session développeurs webmedia
 
Apache Kafka, Un système distribué de messagerie hautement performant
Apache Kafka, Un système distribué de messagerie hautement performantApache Kafka, Un système distribué de messagerie hautement performant
Apache Kafka, Un système distribué de messagerie hautement performant
 
Azure Camp 9 Décembre 2014 - slides Keynote
Azure Camp 9 Décembre 2014 - slides KeynoteAzure Camp 9 Décembre 2014 - slides Keynote
Azure Camp 9 Décembre 2014 - slides Keynote
 
Architecture Big Data open source S.M.A.C.K
Architecture Big Data open source S.M.A.C.KArchitecture Big Data open source S.M.A.C.K
Architecture Big Data open source S.M.A.C.K
 
Apache Cassandra - Concepts et fonctionnalités
Apache Cassandra - Concepts et fonctionnalitésApache Cassandra - Concepts et fonctionnalités
Apache Cassandra - Concepts et fonctionnalités
 
Realtime Web avec Akka, Kafka, Spark et Mesos - Devoxx Paris 2014
Realtime Web avec Akka, Kafka, Spark et Mesos - Devoxx Paris 2014Realtime Web avec Akka, Kafka, Spark et Mesos - Devoxx Paris 2014
Realtime Web avec Akka, Kafka, Spark et Mesos - Devoxx Paris 2014
 
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big DataAzure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
 
Cartographie du big data
Cartographie du big dataCartographie du big data
Cartographie du big data
 
Webinar - Enterprise Cloud Databases
Webinar - Enterprise Cloud DatabasesWebinar - Enterprise Cloud Databases
Webinar - Enterprise Cloud Databases
 
NoSQL et Big Data
NoSQL et Big DataNoSQL et Big Data
NoSQL et Big Data
 
DataStax Enterprise - Cas d'usage
DataStax Enterprise - Cas d'usageDataStax Enterprise - Cas d'usage
DataStax Enterprise - Cas d'usage
 
[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel
[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel
[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel
 
Hadoop
HadoopHadoop
Hadoop
 
Sahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStackSahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStack
 
SQL Saturday Paris 2015 - Polybase
SQL Saturday Paris 2015 - PolybaseSQL Saturday Paris 2015 - Polybase
SQL Saturday Paris 2015 - Polybase
 
Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureBig Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
 
Aws vs azure
Aws vs azureAws vs azure
Aws vs azure
 
Panorama des offres NoSQL disponibles dans Azure
Panorama des offres NoSQL disponibles dans AzurePanorama des offres NoSQL disponibles dans Azure
Panorama des offres NoSQL disponibles dans Azure
 

Andere mochten auch

Wayne State University & DataStax: World's best data modeling tool for Apache...
Wayne State University & DataStax: World's best data modeling tool for Apache...Wayne State University & DataStax: World's best data modeling tool for Apache...
Wayne State University & DataStax: World's best data modeling tool for Apache...DataStax Academy
 
Spark SQL principes et fonctions
Spark SQL principes et fonctionsSpark SQL principes et fonctions
Spark SQL principes et fonctionsMICHRAFY MUSTAFA
 
Wikimedia Content API: A Cassandra Use-case
Wikimedia Content API: A Cassandra Use-caseWikimedia Content API: A Cassandra Use-case
Wikimedia Content API: A Cassandra Use-caseEric Evans
 
Wikimedia Content API: A Cassandra Use-case
Wikimedia Content API: A Cassandra Use-caseWikimedia Content API: A Cassandra Use-case
Wikimedia Content API: A Cassandra Use-caseEric Evans
 
Webinaire Business&Decision - Trifacta
Webinaire  Business&Decision - TrifactaWebinaire  Business&Decision - Trifacta
Webinaire Business&Decision - TrifactaVictor Coustenoble
 
Time Series Data with Apache Cassandra (ApacheCon EU 2014)
Time Series Data with Apache Cassandra (ApacheCon EU 2014)Time Series Data with Apache Cassandra (ApacheCon EU 2014)
Time Series Data with Apache Cassandra (ApacheCon EU 2014)Eric Evans
 
Wikimedia Content API (Strangeloop)
Wikimedia Content API (Strangeloop)Wikimedia Content API (Strangeloop)
Wikimedia Content API (Strangeloop)Eric Evans
 
Castle enhanced Cassandra
Castle enhanced CassandraCastle enhanced Cassandra
Castle enhanced CassandraEric Evans
 
CQL In Cassandra 1.0 (and beyond)
CQL In Cassandra 1.0 (and beyond)CQL In Cassandra 1.0 (and beyond)
CQL In Cassandra 1.0 (and beyond)Eric Evans
 
Cassandra by Example: Data Modelling with CQL3
Cassandra by Example:  Data Modelling with CQL3Cassandra by Example:  Data Modelling with CQL3
Cassandra by Example: Data Modelling with CQL3Eric Evans
 
Virtual Nodes: Rethinking Topology in Cassandra
Virtual Nodes: Rethinking Topology in CassandraVirtual Nodes: Rethinking Topology in Cassandra
Virtual Nodes: Rethinking Topology in CassandraEric Evans
 
Virtual Nodes: Rethinking Topology in Cassandra
Virtual Nodes: Rethinking Topology in CassandraVirtual Nodes: Rethinking Topology in Cassandra
Virtual Nodes: Rethinking Topology in CassandraEric Evans
 
CQL: SQL In Cassandra
CQL: SQL In CassandraCQL: SQL In Cassandra
CQL: SQL In CassandraEric Evans
 
It's not you, it's me: Ending a 15 year relationship with RRD
It's not you, it's me: Ending a 15 year relationship with RRDIt's not you, it's me: Ending a 15 year relationship with RRD
It's not you, it's me: Ending a 15 year relationship with RRDEric Evans
 
Rethinking Topology In Cassandra (ApacheCon NA)
Rethinking Topology In Cassandra (ApacheCon NA)Rethinking Topology In Cassandra (ApacheCon NA)
Rethinking Topology In Cassandra (ApacheCon NA)Eric Evans
 
Time Series Data with Apache Cassandra
Time Series Data with Apache CassandraTime Series Data with Apache Cassandra
Time Series Data with Apache CassandraEric Evans
 
Lightning fast analytics with Cassandra and Spark
Lightning fast analytics with Cassandra and SparkLightning fast analytics with Cassandra and Spark
Lightning fast analytics with Cassandra and SparkVictor Coustenoble
 

Andere mochten auch (20)

Wayne State University & DataStax: World's best data modeling tool for Apache...
Wayne State University & DataStax: World's best data modeling tool for Apache...Wayne State University & DataStax: World's best data modeling tool for Apache...
Wayne State University & DataStax: World's best data modeling tool for Apache...
 
Cassandra 2.2 & 3.0
Cassandra 2.2 & 3.0Cassandra 2.2 & 3.0
Cassandra 2.2 & 3.0
 
Spark SQL principes et fonctions
Spark SQL principes et fonctionsSpark SQL principes et fonctions
Spark SQL principes et fonctions
 
Cassandra 3.0
Cassandra 3.0Cassandra 3.0
Cassandra 3.0
 
Introduction spark
Introduction sparkIntroduction spark
Introduction spark
 
Wikimedia Content API: A Cassandra Use-case
Wikimedia Content API: A Cassandra Use-caseWikimedia Content API: A Cassandra Use-case
Wikimedia Content API: A Cassandra Use-case
 
Wikimedia Content API: A Cassandra Use-case
Wikimedia Content API: A Cassandra Use-caseWikimedia Content API: A Cassandra Use-case
Wikimedia Content API: A Cassandra Use-case
 
Webinaire Business&Decision - Trifacta
Webinaire  Business&Decision - TrifactaWebinaire  Business&Decision - Trifacta
Webinaire Business&Decision - Trifacta
 
Time Series Data with Apache Cassandra (ApacheCon EU 2014)
Time Series Data with Apache Cassandra (ApacheCon EU 2014)Time Series Data with Apache Cassandra (ApacheCon EU 2014)
Time Series Data with Apache Cassandra (ApacheCon EU 2014)
 
Wikimedia Content API (Strangeloop)
Wikimedia Content API (Strangeloop)Wikimedia Content API (Strangeloop)
Wikimedia Content API (Strangeloop)
 
Castle enhanced Cassandra
Castle enhanced CassandraCastle enhanced Cassandra
Castle enhanced Cassandra
 
CQL In Cassandra 1.0 (and beyond)
CQL In Cassandra 1.0 (and beyond)CQL In Cassandra 1.0 (and beyond)
CQL In Cassandra 1.0 (and beyond)
 
Cassandra by Example: Data Modelling with CQL3
Cassandra by Example:  Data Modelling with CQL3Cassandra by Example:  Data Modelling with CQL3
Cassandra by Example: Data Modelling with CQL3
 
Virtual Nodes: Rethinking Topology in Cassandra
Virtual Nodes: Rethinking Topology in CassandraVirtual Nodes: Rethinking Topology in Cassandra
Virtual Nodes: Rethinking Topology in Cassandra
 
Virtual Nodes: Rethinking Topology in Cassandra
Virtual Nodes: Rethinking Topology in CassandraVirtual Nodes: Rethinking Topology in Cassandra
Virtual Nodes: Rethinking Topology in Cassandra
 
CQL: SQL In Cassandra
CQL: SQL In CassandraCQL: SQL In Cassandra
CQL: SQL In Cassandra
 
It's not you, it's me: Ending a 15 year relationship with RRD
It's not you, it's me: Ending a 15 year relationship with RRDIt's not you, it's me: Ending a 15 year relationship with RRD
It's not you, it's me: Ending a 15 year relationship with RRD
 
Rethinking Topology In Cassandra (ApacheCon NA)
Rethinking Topology In Cassandra (ApacheCon NA)Rethinking Topology In Cassandra (ApacheCon NA)
Rethinking Topology In Cassandra (ApacheCon NA)
 
Time Series Data with Apache Cassandra
Time Series Data with Apache CassandraTime Series Data with Apache Cassandra
Time Series Data with Apache Cassandra
 
Lightning fast analytics with Cassandra and Spark
Lightning fast analytics with Cassandra and SparkLightning fast analytics with Cassandra and Spark
Lightning fast analytics with Cassandra and Spark
 

Ähnlich wie DataStax Enterprise - La plateforme de base de données pour le Cloud

Réussir sa migration vers le Cloud grâce à la virtualisation des données
Réussir sa migration vers le Cloud grâce à la virtualisation des donnéesRéussir sa migration vers le Cloud grâce à la virtualisation des données
Réussir sa migration vers le Cloud grâce à la virtualisation des donnéesDenodo
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDenodo
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDenodo
 
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Modern Data Stack France
 
Claranet vdc juillet 2013
Claranet vdc juillet 2013Claranet vdc juillet 2013
Claranet vdc juillet 2013Claranet
 
Les données on-premise et dans le cloud. Quelles options ?
Les données on-premise et dans le cloud. Quelles options ?Les données on-premise et dans le cloud. Quelles options ?
Les données on-premise et dans le cloud. Quelles options ?Microsoft
 
Introduction nosql
Introduction nosqlIntroduction nosql
Introduction nosqlInes Slimene
 
Simplifiez vos architectures Cloud avec la Data Virtualization
Simplifiez vos architectures Cloud avec la Data VirtualizationSimplifiez vos architectures Cloud avec la Data Virtualization
Simplifiez vos architectures Cloud avec la Data VirtualizationDenodo
 
BlueData EPIC datasheet (en Français)
BlueData EPIC datasheet (en Français)BlueData EPIC datasheet (en Français)
BlueData EPIC datasheet (en Français)BlueData, Inc.
 
Stockage Cloud : il y en aura pour tout le monde
Stockage Cloud : il y en aura pour tout le mondeStockage Cloud : il y en aura pour tout le monde
Stockage Cloud : il y en aura pour tout le mondeMicrosoft Technet France
 
Demain tous dans le cloud - journée web innovation lorient 2011
Demain tous dans le cloud -  journée web innovation lorient 2011Demain tous dans le cloud -  journée web innovation lorient 2011
Demain tous dans le cloud - journée web innovation lorient 2011dgerges
 
Monter en charge, tester et surveiller avec une application Windows Azure : l...
Monter en charge, tester et surveiller avec une application Windows Azure : l...Monter en charge, tester et surveiller avec une application Windows Azure : l...
Monter en charge, tester et surveiller avec une application Windows Azure : l...Microsoft Technet France
 
Couchbase Capella.pptx
Couchbase Capella.pptxCouchbase Capella.pptx
Couchbase Capella.pptxSaraHmida1
 
Qu'est-ce que le cloud ?
Qu'est-ce que le cloud ?Qu'est-ce que le cloud ?
Qu'est-ce que le cloud ?Vincent Misson
 
Xebicon2019 m icroservices
Xebicon2019   m icroservicesXebicon2019   m icroservices
Xebicon2019 m icroservicesCédrick Lunven
 
Les clés de succès pour moderniser votre architecture de données en 2022
Les clés de succès pour moderniser votre architecture de données en 2022Les clés de succès pour moderniser votre architecture de données en 2022
Les clés de succès pour moderniser votre architecture de données en 2022Denodo
 
JSS2013 : Haute disponibilité
JSS2013 : Haute disponibilitéJSS2013 : Haute disponibilité
JSS2013 : Haute disponibilitéChristophe Laporte
 
AWS Summit Paris - Track 2 - Session 2 - Préparez-vous à l'imprévu
AWS Summit Paris - Track 2 - Session 2 - Préparez-vous à l'imprévuAWS Summit Paris - Track 2 - Session 2 - Préparez-vous à l'imprévu
AWS Summit Paris - Track 2 - Session 2 - Préparez-vous à l'imprévuAmazon Web Services
 

Ähnlich wie DataStax Enterprise - La plateforme de base de données pour le Cloud (20)

Réussir sa migration vers le Cloud grâce à la virtualisation des données
Réussir sa migration vers le Cloud grâce à la virtualisation des donnéesRéussir sa migration vers le Cloud grâce à la virtualisation des données
Réussir sa migration vers le Cloud grâce à la virtualisation des données
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data Virtualization
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data Virtualization
 
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
 
Claranet vdc juillet 2013
Claranet vdc juillet 2013Claranet vdc juillet 2013
Claranet vdc juillet 2013
 
Les données on-premise et dans le cloud. Quelles options ?
Les données on-premise et dans le cloud. Quelles options ?Les données on-premise et dans le cloud. Quelles options ?
Les données on-premise et dans le cloud. Quelles options ?
 
Introduction nosql
Introduction nosqlIntroduction nosql
Introduction nosql
 
Openstack proposition
Openstack propositionOpenstack proposition
Openstack proposition
 
Simplifiez vos architectures Cloud avec la Data Virtualization
Simplifiez vos architectures Cloud avec la Data VirtualizationSimplifiez vos architectures Cloud avec la Data Virtualization
Simplifiez vos architectures Cloud avec la Data Virtualization
 
BlueData EPIC datasheet (en Français)
BlueData EPIC datasheet (en Français)BlueData EPIC datasheet (en Français)
BlueData EPIC datasheet (en Français)
 
Stockage Cloud : il y en aura pour tout le monde
Stockage Cloud : il y en aura pour tout le mondeStockage Cloud : il y en aura pour tout le monde
Stockage Cloud : il y en aura pour tout le monde
 
Demain tous dans le cloud - journée web innovation lorient 2011
Demain tous dans le cloud -  journée web innovation lorient 2011Demain tous dans le cloud -  journée web innovation lorient 2011
Demain tous dans le cloud - journée web innovation lorient 2011
 
Monter en charge, tester et surveiller avec une application Windows Azure : l...
Monter en charge, tester et surveiller avec une application Windows Azure : l...Monter en charge, tester et surveiller avec une application Windows Azure : l...
Monter en charge, tester et surveiller avec une application Windows Azure : l...
 
Couchbase Capella.pptx
Couchbase Capella.pptxCouchbase Capella.pptx
Couchbase Capella.pptx
 
Qu'est-ce que le cloud ?
Qu'est-ce que le cloud ?Qu'est-ce que le cloud ?
Qu'est-ce que le cloud ?
 
Xebicon2019 m icroservices
Xebicon2019   m icroservicesXebicon2019   m icroservices
Xebicon2019 m icroservices
 
Les clés de succès pour moderniser votre architecture de données en 2022
Les clés de succès pour moderniser votre architecture de données en 2022Les clés de succès pour moderniser votre architecture de données en 2022
Les clés de succès pour moderniser votre architecture de données en 2022
 
JSS2013 : Haute disponibilité
JSS2013 : Haute disponibilitéJSS2013 : Haute disponibilité
JSS2013 : Haute disponibilité
 
AWS Summit Paris - Track 2 - Session 2 - Préparez-vous à l'imprévu
AWS Summit Paris - Track 2 - Session 2 - Préparez-vous à l'imprévuAWS Summit Paris - Track 2 - Session 2 - Préparez-vous à l'imprévu
AWS Summit Paris - Track 2 - Session 2 - Préparez-vous à l'imprévu
 
Cloud computing
Cloud computingCloud computing
Cloud computing
 

Mehr von Victor Coustenoble

Préparation de Données pour la Détection de Fraude
Préparation de Données pour la Détection de FraudePréparation de Données pour la Détection de Fraude
Préparation de Données pour la Détection de FraudeVictor Coustenoble
 
Préparation de Données dans le Cloud
Préparation de Données dans le CloudPréparation de Données dans le Cloud
Préparation de Données dans le CloudVictor Coustenoble
 
Préparation de Données Hadoop avec Trifacta
Préparation de Données Hadoop avec TrifactaPréparation de Données Hadoop avec Trifacta
Préparation de Données Hadoop avec TrifactaVictor Coustenoble
 
BI, Reporting and Analytics on Apache Cassandra
BI, Reporting and Analytics on Apache CassandraBI, Reporting and Analytics on Apache Cassandra
BI, Reporting and Analytics on Apache CassandraVictor Coustenoble
 
DataStax - Analytics on Apache Cassandra - Paris Tech Talks meetup
DataStax - Analytics on Apache Cassandra - Paris Tech Talks meetupDataStax - Analytics on Apache Cassandra - Paris Tech Talks meetup
DataStax - Analytics on Apache Cassandra - Paris Tech Talks meetupVictor Coustenoble
 
Spark + Cassandra = Real Time Analytics on Operational Data
Spark + Cassandra = Real Time Analytics on Operational DataSpark + Cassandra = Real Time Analytics on Operational Data
Spark + Cassandra = Real Time Analytics on Operational DataVictor Coustenoble
 

Mehr von Victor Coustenoble (6)

Préparation de Données pour la Détection de Fraude
Préparation de Données pour la Détection de FraudePréparation de Données pour la Détection de Fraude
Préparation de Données pour la Détection de Fraude
 
Préparation de Données dans le Cloud
Préparation de Données dans le CloudPréparation de Données dans le Cloud
Préparation de Données dans le Cloud
 
Préparation de Données Hadoop avec Trifacta
Préparation de Données Hadoop avec TrifactaPréparation de Données Hadoop avec Trifacta
Préparation de Données Hadoop avec Trifacta
 
BI, Reporting and Analytics on Apache Cassandra
BI, Reporting and Analytics on Apache CassandraBI, Reporting and Analytics on Apache Cassandra
BI, Reporting and Analytics on Apache Cassandra
 
DataStax - Analytics on Apache Cassandra - Paris Tech Talks meetup
DataStax - Analytics on Apache Cassandra - Paris Tech Talks meetupDataStax - Analytics on Apache Cassandra - Paris Tech Talks meetup
DataStax - Analytics on Apache Cassandra - Paris Tech Talks meetup
 
Spark + Cassandra = Real Time Analytics on Operational Data
Spark + Cassandra = Real Time Analytics on Operational DataSpark + Cassandra = Real Time Analytics on Operational Data
Spark + Cassandra = Real Time Analytics on Operational Data
 

Kürzlich hochgeladen

Bidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from TransformersBidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from Transformersbahija babzine
 
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel AttalELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attalcontact Elabe
 
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...France Travail
 
analyse husseindey AMIROUCHE Abdeslem.pptx
analyse husseindey AMIROUCHE Abdeslem.pptxanalyse husseindey AMIROUCHE Abdeslem.pptx
analyse husseindey AMIROUCHE Abdeslem.pptxHadJer61
 
Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023France Travail
 
To_understand_transformers_together presentation
To_understand_transformers_together presentationTo_understand_transformers_together presentation
To_understand_transformers_together presentationbahija babzine
 

Kürzlich hochgeladen (6)

Bidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from TransformersBidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from Transformers
 
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel AttalELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
 
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
 
analyse husseindey AMIROUCHE Abdeslem.pptx
analyse husseindey AMIROUCHE Abdeslem.pptxanalyse husseindey AMIROUCHE Abdeslem.pptx
analyse husseindey AMIROUCHE Abdeslem.pptx
 
Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023
 
To_understand_transformers_together presentation
To_understand_transformers_together presentationTo_understand_transformers_together presentation
To_understand_transformers_together presentation
 

DataStax Enterprise - La plateforme de base de données pour le Cloud

  • 1. DataStax Enterprise La plate-forme de base de données pour le Cloud Victor Coustenoble Matinée Cloud / Google, WeScale, DataStax,WattGo Ingénieur Solutions 29/05/15 victor.coustenoble@datastax.com @vizanalytics
  • 2. Agenda Confidential 2 • Introduction • Qu’est-ce qu’une base de données « Cloud » ? • Apache Cassandra et DataStax Enterprise • Google Cloud Platform et DataStax • Cas d’utilisation
  • 3. DataStax Fondé en avril 2010 ~35 500+ Santa Clara, Austin, New York, London, Paris, Sydney 400+ Employés Pourcent Clients 3
  • 4. Qu’est ce qu’une base de données “Cloud” ? ©2014 DataStax. Do not distribute without consent. 4 Base de données optimisée pour gérer les limites et les particularités d’une infrastructure partagée et géographiquement dispersée : coupures, serveurs partagés, sécurité des données, réseau variable … A qui la faute quand votre application tombe ? Est-ce vous allez être dédommagé ? Est-ce que cela va encore arriver ? Oui => Acceptez ce risque ou désignez convenablement votre application!
  • 5. “Design for Failure” pour le Cloud ©2014 DataStax. Do not distribute without consent. 5  Les composants de votre application doit être déployés à travers des composants du cloud redondant, idéalement sans point unique de défaillance.  Chaque composant de l’application ne doit pas faire de supposition sur l’infrastructure sous-jacente – adaptable aux changement de l’infrastructure sans arrêt de service.  Chaque composant de l’application doit être tolérant au partitionnement – on doit survivre à des problèmes de latence du réseau (ou perte de communication) sur les noeuds supportant le composant.  Des outils d’automatisation doivent être en place afin d’orchestrer les réponses de l’application aux coupures ou changements de l’infrastructure.
  • 6. Quid de ma base de données ? ©2014 DataStax. Do not distribute without consent. 6 C’est la partie difficile n’est-ce pas? • Replication de mes données entre des régions? • Problème réseau et réplication de données ? • Comment être actif à travers plusieurs régions? • Comment étendre la capacité? • Des mises à jour sans arrêt de service? • Etc..etc… En fait ce n’est pas compliqué – c’est exactement ce que Apache Cassandra et DataStax rendent simples
  • 7. 7 Une base de données pour le Cloud ?
  • 8. Ce qu’une base de données Cloud n’est pas ©2014 DataStax. Do not distribute without consent. 8 Une base de données Cloud n’est pas simplement une base de données traditionnel (SGBDR) que l’on fait fonctionner chez un founisseur Cloud
  • 9. Attributs clés d’une base de données Cloud ©2014 DataStax. Do not distribute without consent. 9 Elasticité Transparente • Ajout et suppression de noeuds (physique ou virtuel) suivant la demande • Pas d’arrêt de service pour cela • Redistribution simple • Compliqué avec les SGBDR et les bases de données NoSLQ maître/esclave (complexité d’administration
  • 10. Attributs clés d’une base de données Cloud ©2014 DataStax. Do not distribute without consent. 10 Scalabilité - Montée en charge Transparente • L’ajout de noeuds augmentent les performances en terme de débit mais aussi de volume de données traité (big data) • L’idéal est d’avoir une scalabilité linéaire • Quelque soit le volume de données, les temps de réponses des requêtes doivent être les mêmes
  • 11. Attributs clés d’une base de données Cloud ©2014 DataStax. Do not distribute without consent. 11 Haute Disponibilité • Toujours en ligne, pas de point unique de défaillance • L’effet d’un arrêt de service est aujourd’hui négatif, 100% en ligne est la norme • Coût important pour des arrêts ou des coupures
  • 12. Attributs clés d’une base de données Cloud ©2014 DataStax. Do not distribute without consent. 12 Distribution Simple des Données • Important d’avoir la possibilité d’écrire et de lire sur n’importe quel noeud du Cloud • Distribution sur de multiples régions géographiques, data- center, zones du founisseur Cloud => Haute disponibilité si une région tombe, simplification du plan de reprise, la donnée est protégée
  • 13. Attributs clés d’une base de données Cloud ©2014 DataStax. Do not distribute without consent. 13 Redondance des Données • La données est protégée par de multiples copies sur différents endroits physiques • Si la première copie est détruite, une autre copie sera utilisée • La possibilité de configurer cette redondance permettant de survivre à plusieurs niveaux: • Serveur • Rack / Zone de Disponibilité • Region / Data Center • Provider Cloud (AWS, GCE etc..)
  • 14. Attributs clés d’une base de données Cloud ©2014 DataStax. Do not distribute without consent. 14 Support de Multiple Type de Données • Pouvoir gérer des données structurées, semi-structurées ou non structurées • Pouvoir accepter différents types de données • Réponses des bases NoSQL
  • 15. Attributs clés d’une base de données Cloud ©2014 DataStax. Do not distribute without consent. 15 Simple à Administrer • Facilité d’administration d’une base de données logique réparties sur différents noeuds • Gérer une base de données distribuée géographique reste compliqué • Des outils appropriés pour la supervision, gestion automatique et l’alerting sont essentiels
  • 16. Attributs clés d’une base de données Cloud ©2014 DataStax. Do not distribute without consent. 16 Support de Multiples Infrastructures • Doit pouvoir se déployer sur différents fournisseurs Cloud (publiques ou privés) comme sur une infrastructure traditionnelle • Ne pas être lié à un seul fournisseur Cloud • Support d’un déploiement hybride entre un Cloud publique et une infrastructure privée
  • 17. Attributs clés d’une base de données Cloud ©2014 DataStax. Do not distribute without consent. 17 Sécurité • Les données doivent est sécurisées à la fois lors de leur déplacement (communication intra-noeuds ou client- noeud) et au repos (sur disque). • Besoin d’audit des requêtes • Sur une infrastructure partagé la sécurité est essentielle!
  • 18. Attributs clés d’une base de données Cloud ©2014 DataStax. Do not distribute without consent. 18 • Elasticité Transparente • Scalabilité Transparente • Haute Disponibilité • Distribution Simple des Données • Redondance des Données • Support de Multiples Types de Données • Simple à Administrer • Support de Multiples Infrastructures • Sécurité
  • 19. Mais mon SGBDR peut faire ça non ? Confidential 19 Plus scale up que scale out Réplication Maître/Esclave Compléxité de la Répartition, de l’Administration …
  • 20. Quelle base de données “Cloud” ? 20 Deux choix principaux: • Utilisation d’une base de données du fournisseur Cloud Avantage: Boîte noire, pas d’administration (vraiment?) Inconvénient: Boîte noire, coût, performances, lien fort avec le founisseur • Déployer sa propre base de données (Cassandra par exemple) Avantage: Pas de lien fort avec le fournisseur, optimisation des performances, moindre coût, intallation hybride, plus grande adoption Inconvénient: Administration
  • 21. 21 Apache Cassandra et DataStax Enterprise
  • 22. Apache Cassandra™ • Apache Cassandra™ est une base de données NoSQL, Open Source, Distribuée et créée pour les applications en ligne, modernes, critiques et avec des montée en charge massive. • Développé en Java c’est un hybride entre Amazon Dynamo et Google BigTable • Sans Maître-Esclave, sans Point Unique de Défaillance (Single Point Of Failure) • Distribuée avec la possibilité de Centres de Données (Data Center) • 100% Disponible • Scalabilité en charge linéaire • Haute Performance • Séries Temporelles • Simple à Exploiter • Language CQL (comme SQL) • Outils OpsCenter / DevCenter ©2014 DataStax Confidential. Do not distribute without consent. 22 Dynamo BigTable BigTable: http://research.google.com/archive/bigtable-osdi06.pdf Dynamo: http://www.allthingsdistributed.com/files/amazon-dynamo-sosp2007.pdf Node 1 Node 2 Node 3Node 4 Node 5
  • 23. Haute Disponibilité et Cohérence Immédiate! • La défaillance d’un seul noeud ne doit pas entraîner de défaillance du système • Facteur de Réplication + Niveau de Cohérence = Succès • Exemple: • RF = 3 • CL = QUORUM ©2014 DataStax Confidential. Do not distribute without consent. 23 Node 1 1st copy Node 4 Node 5 Node 2 2nd copy Node 3 3rd copy Parallel Write Write CL=QUORUM 5 μs ack 12 μs ack 12 μs ack >51% de réponses – donc la requête est réussie CL(Lecture) + CL(Ecriture) > RF => Cohérence Immédiate
  • 24. Configuration en Data Center ©2014 DataStax Confidential. Do not distribute without consent. 24 Node 1 1st copy Node 4 Node 5 Node 2 2nd copy Node 3 3rd copy Node 1 1st copy Node 4 Node 5 Node 2 2nd copy Node 3 3rd copy DC: EUROPEDC: USA • Actif partout – lecture/écriture dans tous les DC • Le client écrit localement dans un DC • Données synchronisées à travers le WAN • Facteur de Réplication par DC Utilisations • DC de sauvegarde • Distribution géographique • Charge différente entre DC • Prod -> Pré-prod
  • 25. Cloud & Cloud Hybride • DataStax Enterprise et Cassandra sont disponibles en multi-data center et dans le cloud (Amazon AWS, Google Cloud et Microsoft Azure) • Les données écrites dans n’importe quel noeud sont aussi automatiquement et de manière transparente écrites sur tous les autres noeuds dans les autres data centers sans ETL Data Centre 1 Data Centre 2 Public Cloud
  • 26. Example Application ©2014 DataStax Confidential. Do not distribute without consent. 26 Cassandra Replication Cassandra Replication • Active-Active-Active • Service based DNS routing DC: USA DC: Europe DC: Asia Web Tier App Tier App TierApp Tier Web Tier Web Tier Web Tier
  • 27. Example Application - Uptime ©2014 DataStax Confidential. Do not distribute without consent. 27 Cassandra Replication Cassandra Replication • Normal service maintenance • Application is unaware DC: USA DC: Europe DC: Asia Web Tier Web Tier Web Tier Web Tier App Tier App TierApp Tier
  • 28. App Tier Example Application – DC Failure ©2014 DataStax Confidential. Do not distribute without consent. 28 Cassandra Replication Cassandra Replication • Data is safe. • Route Traffic DC: USA DC: Europe DC: Asia Web Tier Web Tier Web Tier Web Tier App TierApp Tier
  • 29. Example Application – Tier Failure ©2014 DataStax Confidential. Do not distribute without consent. 29 Cassandra Replication • App Tier is aware of the other DC • Switches to access remote DC automatically DC: USA DC: Europe DC: Asia Web Tier Web Tier Web Tier Web Tier App Tier App TierApp Tier
  • 30. Example Application – WAN Failure ©2014 DataStax Confidential. Do not distribute without consent. 30 Cassandra Replication Cassandra Replication DC: USA DC: Europe DC: Asia Web Tier Consistency level? Web Tier Web Tier Web Tier App Tier App TierApp Tier
  • 31. Confidential 31 DataStax Enterprise Robustesse et Support pour la Production Puissance pour le Développement Support 24/7 Cassandra certifié Administration avancée Sécurité avancée Recherche Analytique
  • 32. Analytique avec DataStax Enterprise • Isolation des ressources pour différents cas d’utilisation : OLTP, Recherche, Analytique Cassandra est fait pour ça! • Vous pouvez créer des data centers isolés, virtuels et optimisés suivant les besoins – différentes charges de travail, matériels, disponibilité, etc … • Cassandra repliquera les données pour vous – sans ETL 32 Replication Cassandra Application Opérationnelle Analytique
  • 33. Rappel : Attributs clés d’une base de données Cloud • Elasticité Transparente • Scalabilité Transparente • Haute Disponibilité • Distribution Simple des Données • Redondance des Données • Support de Multiples Types de Données • Simple à Administrer • Support de Multiples Infrastructures • Sécurité
  • 36. Haute Disponibilité • Architecture peer-to-peer et masterless de Cassandra • 100% en ligne est la norme!
  • 39. Support de Multiples Types de Données • Le modèle de données de Cassandra (basé sur Google Bigtable) améne une flexibilité du stockage • Stratégie DataStax de Multi-Modèle : Bientôt support de JSON et d’un modèle de données Graphe (via l’acquisition Aurelius/TitanDB) ID Name SSN DOB Portfolio Keyspace Customer Table
  • 40. Simple à Administrer • OpsCenter et les outils fournis dans les différents fournisseurs Cloud permettent des installation et configurations rapides. • Tout peut être administré et supervisé via une application Web ou via des API REST. • Services automatiques d’administration et de supervision (performance), Alertes, Backup/Restore, PITR … • Accès sécurisé
  • 41. Support de Multiples Infrastructures Cassandra est supporté par les plus importants fournisseurs Cloud et Operating Systems.
  • 42. Securité • Fonctionnalités de sécurité standard: Authentification, Autorisation, Chiffrement à la volée • Support de fonctionnalités avancées : LDAP, Kerberos, Chiffrement sur disque, pistes d’Audit
  • 43. DataStax et Google Cloud Platform
  • 45. Guide de Déploiement DataStax pour GCE Confidential 45 https://academy.datastax.com/demos/datastax- enterprise-deployment-guide-google-compute-engine
  • 46. • Pour jusqu’à 200 GB de données par noeud, instances n1-standard-8 avec 30 GB ram • Plus de 1 TB de données par noeud, instances n1-highmem-16 avec 104 GB ram • Recommandation de disque SSD (local ou persistant) • Snitch “GoogleCloudSnitch” disponible pour déterminer la topologie des noeuds d’un cluster Cassandra en fonction des zones (racks) et régions (data centers) de GCP. • Cassandra atteint 1 Millions d’écriture par seconde dans Google Compute Platform Deployer Cassandra dans Google Compute Platform ©2014 DataStax. Do not distribute without consent.
  • 47. 47 DataStax & Google Cloud Platform = Ferrari & The Autobahn Blazing Fast Performance "In the past we've had high performance and high throughput options ... for our network attached persistent disk (a great offering). But, sometimes you need to take it up a notch ... and you want to have access to local flash for your application, especially if you are doing something like a high performance Cassandra Cluster. And the way that works on Cloud Platform is somewhat unique. You can take any standard VM and attach flash to that.” - Navneet Joneja, Product Manager, Google Cloud Platform at Google Cloud Platform Live 2014, November 2014, San Francisco 40px in height.
  • 48. • One Million writes per second to Cassandra with a median latency of 10.3 ms and 95% completing under 23 ms • Ideal for potentially spiky workloads, such as machine data generated across millions of devices with peaks Google Cloud Platform & DataStax: Blazing-Fast Apps © 2014 DataStax, All Rights Reserved. Company Confidential 48 • 330 Google Compute Engine virtual machines, 300 1TB Persistent Disk volumes, Debian Linux, and DataStax/Cassandra http://googlecloudplatform.blogspot.co.uk/2014/03/cassandra- hits-one-million-writes-per-second-on-google-compute- engine.html
  • 49. DataStax & Cassandra – Cas d’utilisation
  • 50. Cas d’usage fréquents Messagerie Collections/ Playlists Détection de Fraude Recommandation/ Personnalisation Objets connectés/ Données de Capteurs
  • 51. Cassandra @ Netflix • 80+ Clusters • 2500+ noeuds • 4 Data Centres (Régions Amazon) • > 1 Trillion transactions par jour http://planetcassandra.org/functional-use-cases/ Performance et Montée en Charge dans le Cloud ©2014 DataStax Confidential. Do not distribute without consent. 51
  • 52. The Smart Way to Manage Sensors for Energy and Cost Savings Thousands of sensors on rooftop machines in commercial buildings Poor performance and limited scale with legacy technologies Live in production in ~2 months ingesting, normalizing, and analyzing time-series sensor data Reduced TCO by over 67% compared to relational systems Linear scale, 100% uptime with DataStax Enterprise and Google Cloud Platform Use Case: Internet of Things
  • 53. ©2013 DataStax Confidential. Do not distribute without consent. 53
  • 54. Plus d’information • http://www.datastax.com/deliver-blazingly-fast-online-applications-with-apache-cassandra-on-google- cloud-platform • Cassandra Performance Benchmark http://planetcassandra.org/blog/post/cassandra-performance-benchmark-aws-google-compute-engine- rackspace-cloud/ • Cassandra Hits One Million Writes Per Second on Google Compute Engine http://googlecloudplatform.blogspot.co.uk/2014/03/cassandra-hits-one-million-writes-per-second-on- google-compute-engine.html • DataStax http://www.datastax.com • Getting Started http://www.datastax.com/documentation/gettingstarted/ • Training http://www.datastax.com/what-we-offer/products-services/training • Downloads http://www.datastax.com/download • Documentation http://www.datastax.com/docs • Developer Blog http://www.datastax.com/dev/blog • Academy https://academy.datastax.com • Community Site http://planetcassandra.org
  • 56. Merci, Questions ? We power the big data apps that transform business. ©2013 DataStax Confidential. Do not distribute without consent. victor.coustenoble@datastax.com @vizanalytics

Hinweis der Redaktion

  1. Key Takeaway- Introduce the company, our incredible growth and global presence, that we are in about 25% of the FORTUNE 100, and the fact that many of the online and mobile applications you already use every day are actually built on DataStax. Talk Track- DataStax, the leading distributed database technology, delivers Apache Cassandra to the world’s most innovative companies such as Netflix, Rackspace, Pearson Education and Constant Contact. DataStax is built to be agile, always-on, and predictably scalable to any size. We were founded in April 2010, so we are a little over 4 years old. We are headquartered in Santa Clara, California and have offices in Austin TX, New York, London, England and Sydney Australia. We now have over 330 employees; this number will reach well over 400 by the end of our fiscal year (Jan 31 2015) and double by the end of FY16. Currently 25% of the Fortune 100 use us, and our success has been built on our customers success and today and we have over 500 customers worldwide, in over 40 countries. The logos you see here are ones that you are already using every day. These applications are all built on DataStax and Apache Cassandra. So how have we come so far in such a short time…..?
  2. In addition, a clustered database configuration should allow for some sort of easy load balancing so that an even distribution of the total workload is experienced.
  3. In addition, a clustered database configuration should allow for some sort of easy load balancing so that an even distribution of the total workload is experienced.
  4. In addition, a clustered database configuration should allow for some sort of easy load balancing so that an even distribution of the total workload is experienced.
  5. In addition, a clustered database configuration should allow for some sort of easy load balancing so that an even distribution of the total workload is experienced.
  6. In addition, a clustered database configuration should allow for some sort of easy load balancing so that an even distribution of the total workload is experienced.
  7. In addition, a clustered database configuration should allow for some sort of easy load balancing so that an even distribution of the total workload is experienced.
  8. In addition, a clustered database configuration should allow for some sort of easy load balancing so that an even distribution of the total workload is experienced.
  9. In addition, a clustered database configuration should allow for some sort of easy load balancing so that an even distribution of the total workload is experienced.
  10. In addition, a clustered database configuration should allow for some sort of easy load balancing so that an even distribution of the total workload is experienced.
  11. In addition, a clustered database configuration should allow for some sort of easy load balancing so that an even distribution of the total workload is experienced.
  12. Cassandra is designed to handle big data workloads across multiple data centers with no single point of failure, providing enterprises with continuous availability without compromising performance. It uses aspects of Dynamos partitioning and replication and a log-structured data model similar to Bigtable’s. It takes its distribution algorithm from Dynamo and its data model from Bigtable. Cassandra is a reinvented database which is lightening fast and always on ideal for todays online applications where relational databases like Oracle can’t keep up. This means that in todays world, cassandra stores and processes real time information at fast, predictive performance and built in fault tolerance
  13. Replacing nodes, upgrading nodes
  14. Talk about consistency levels i.e. all, local quorum Automatically drop down to a weaker consistency etc..
  15. In addition, a clustered database configuration should allow for some sort of easy load balancing so that an even distribution of the total workload is experienced.
  16. Masterless with no single point of failure - all nodes are equal and can perform all functions. Out of the box Cassandra is datacenter and rack aware. It will attempt to have replica data placed on nodes in different racks. Out of the box replication of data between data centres. Out of the box active/active across multiple data centres. Out of the box support for hybrid cloud deployments. Cassandra clusters can be set-up and used to achieve zero RPO i.e. zero data loss on failure No outage required for upgrades No outage required for capacity expansion/reduction. Cassandra was architected from the outset to be completely masterless, rack aware and deployed across multiple data centres. High availability in Cassandra is a core part of its design and architecture and is one of the most compelling reasons to use Cassandra.
  17. sustain one million writes per second to Cassandra with a median latency of 10.3 ms and 95% completing under 23 ms sustain a loss of ⅓ of the instances and volumes and still maintain the 1 million writes per second (though with higher latency) scale up and down linearly so that the configuration described can be used to create a cost effective solution go from nothing in existence to a fully configured and deployed instances hitting 1 million writes per second took just 70 minutes. A configured environment can achieve the same throughput in 20 minutes.
  18. Key Takeaway- Rip Tide I/O delivered an IoT (Internet of Things) application ingesting vast amounts of time-series data from thousands of building sensors entirely with DataStax in Google Cloud Platform within 2 months with a very lean team Talk Track- Riptide IO helps large enterprises navigate the transition to an internet based, data-driven world of integrated device management. Their team turns small commercial buildings into “smart buildings” to save the world’s energy resources & retailers’ operating expenses. They connect sensors on rooftop machines in commercial buildings that house retailers small & large. By ingesting, organizing, tagging, normalizing, & analyzing time-series sensor data from machines. Rip Tide IO helps retailers optimize their customers’ experience, improve operations, reduce energy footprints & save millions of dollars. Data points from these sensors are captured every few minutes, legacy relational systems could not ingest that tremendous amount of data. It is necessary for them to have an always-on system set up quickly with a lean team to capture, analyze & optimize the time-series sensor data. Total cost of ownership was also an issue as retailers needed to achieve high performance, at the lowest possible cost. DataStax Enterprise provides data management for time-series data, scalability and 100% uptime. Large community support was also available for them to tap into. When deployed on Google Cloud Platform, they were able to bring their application to market within 2 months with a very lean time with huge cost savings. Saved retailers millions of dollars in energy usage and operational costs . Reduced TCO by over 67% compared to traditional relational systems