IBM Cloud Paris Meetup - 20180911 - Common Ledger for Public Administration
IBM Bluemix Paris meetup - Big Data & Analytics dans le Cloud - Epitech- 201611094
1. Big Data & Analytics
dans le Cloud
Francis Arnaudiès & Victor Hatinguais
2. Big Data & Analytics dans le Cloud - Apports
Our Mission
Make Data
Simple
Open
access
with trust &
security
Remove
silos created
by systems
& tools
Drive more
intelligence
faster than
ever before
Innovate with
Open Source
and the
community
MAKE DATA SIMPLE AND ACCESSIBLE TO ALL
3. Big Data & Analytics dans le Cloud - Overview
Common Processes
Common Data
Business
Analyst
BI
Developer
API
Data
Scientist
DSxTools
Data &
Analytics
Processing
Protected
Data Access
Data
Sources
StreamsPublicExternalAppsCloudOn Prem
Data
Engineer
Data Hub
Data Flows, Models,
Machine Learning
Security, Governance,
Auditing, etc.
Productive use
experiences geared to
specific personas
Broad set of connectivity
What is it?
4. Big Data & Analytics dans le Cloud – Architecture détaillée
Integrated
Tools
Data &
Analytics
Processing
Protected
Data Access
Data
Sources
Data Scientist
Analysis
Model Building
Tools
Content
Business Analyst
Visualization
Dashboards
Interactive Query
Developers
Custom Apps
3rd Party Apps
Add-ons
Data Engineer
Data Flows
Data Provisioning
Scheduler
Streams
API Data Flow (Canvas) Deployment
Runtimes
Catalog / Search
Auditing
Security / Access
On Prem
DB2
Oracle
SAP
Cloud
Swift Obj
AWS S3
HDFS
Apps
Salesforce
Google
Analytics
External
Twitter
Financial
Shipping
Public
Census
ACS
Streams
Kafka
IBM
Streams
… … … … … …
Master Data
Lineage
Data Store
Ingest and Transform
Find Share
Data Science
Business
Intelligence
Data Engineering
Policy Enforcement
Development
Collaborate
Analytics
API
Governance Open Meta Data
Data Flows, Models,
Machine Learning
Security, Governance,
Auditing, etc.
Productive use
experiences geared to
specific personas
Broad set of connectivity
5. Integrated
Tools
Data &
Analytics
Processing
Protected
Data Access
Data
Sources
Data Scientist
Data Science
Experience
Business Analyst
Watson Analytics
Cognos Analytics
Developers
Bluemix
Data Engineer
Data Connect
Data Hub
Scheduler
Streams
API Data Flow (Canvas) MLaaS
Spark
On Prem
DB2
Oracle
SAP
Cloud
Swift Obj
AWS S3
HDFS
Apps
Salesforce
Google
Analytics
External
Twitter
Financial
Shipping
Public
Census
ACS
Streams
Kafka
IBM
Streams
… … … … … …
Architecture
Search Projects
Data Science
Business
Intelligence
Data EngineeringDevelopment
Community
API
Governance Service Open Meta Data Service
Predictive | Prescriptive | Text | ...
Object Store Compose Cloudant IBM dashDB IBM BigInsights
Connectors Data Connect Lift Msg Hub Streams
Data Flows, Models,
Machine Learning
Security, Governance,
Auditing, etc.
Productive use
experiences geared to
specific personas
Broad set of connectivity
Big Data & Analytics dans le Cloud – IBM Bluemix & IBM Watson Data
Platform
7. Projet PaaS: IBM Bluemix DashDB for Analytics
For apps that need:
• Elastic scalability
• High availability
• Data model flexibility
• Data mobility
• Text search
• Geospatial
Available as:
• Fully managed DBaaS
• On-premises private cloud
• Hybrid architecture
BLU
Acceleration
Netezza
In-Database
Analytics
In-database analytics capabilities for best performance atop a fully-managed warehouse
dashDB MPP
for
Analytics
Fully-managed data warehouse on cloud
Choice of SoftLayer or Amazon Web Services
Columnar Technology
In-Memory Database
High Compression Level
Massively Parallel Processiong (MPP)
In-Database Analytics (Native predictive
Analytic algorithms)
Fully Integrated with RStudio & R
Language
On disk data encryption and
secure connectivity
8. Enjeux métiers :
• Expérimentation avec des nouveaux outils Analytiques (Watson Analytics),
• Simplicité,
• Agilité,
• Performance (DashDB),…
Architecture et Prototypage validés avec succés par les métiers (mode
PaaS)
Enjeux IT :
• Sécurité,
• Qualité de services,
• Mise en place de nouveaux services,…
Points de vigilance
Projet PaaS: IBM Bluemix DashDB for Analytics
9. Projet PaaS: IBM Bluemix DashDB for Analytics
Points de vigilance :
• Sécurité :
• Localisation de votre Data Center,
• Solution dédiée ou partagée,
• Zone sécurisée dédié au client (DMZ),
• Chiffrement des données (réseaux et Stockage),
• Accès Sécurisé (VPN, …),
• Chargement des données,
• Audit,
• Conformité avec nos normes de sécurité ou autres
• Qualité de service :
• Backup&Recovery,
• Disponibilité,
• Performance,
• Scalabilité
• Administration & Monitoring, …
10. Cluster HadoopIBM BigInsights for Apache Hadoop
Big Sheets
Big SQL Big R
Text Analytics
IBM Open Platform with Apache Hadoop
HDFS MapReduce Spark Hive PigOozie
YARN Ambari HBase Flume Sqoop Solr
Kafka
Knox
Ranger Titan Phoenix SystemML Slider Zookeeper etc.
Big IntegrateBig Quality
Big Match Big Replicate
SPSS Analytic Server
Streams Cognos Analytics Watson Explorer
Information Governance Catalog Guardium
Projet IaaS: IBM Bluemix BigInsights for Apache Hadoop
11. Projet IaaS: IBM Bluemix BigInsights for Apache Hadoop
Hadoop est une plateforme très spécifique :
• Open Source
• Maturité
• Ensemble de briques logicielles
• Evolution forte et régulière
Le modèle PaaS/SaaS présente des contraintes :
• Pas d’accès administrateur aux machines
• Difficulté d’installer des logiciels tiers / complémentaires
Mais a d’énormes avantages:
• Peu de connaissances techniques requises
• Rapidité de mise en place d’une plateforme pilote
12. Points d’attention et recommandations lors du prototypage
Localisation des données et législation
Disponibilité de l’offre en fonction de la géographie
Niveau de sécurité fourni
Vérification de la stack logicielle
Vérification des connecteurs et de l’intégration avec l’écosystème
Vérification de l’évolutivité attendue
13. Choix du modèle (IaaS vs PaaS)
Modèle IaaS:
• Non managé
• Plus de libertés sur les composants logiciels, versions, librairies
• Intégrations entre les composants logiciels de la responsabilité de l’utilisateur
• Choix des composants et des numéros de version
• Sécurité adaptée suivant les besoins du projet
• Des coûts de déploiement/installation/configuration et d’administration importants en
termes de ressources compétentes et de temps
• Implication forte des équipes IT devant répondre aux demandes métiers
Modèle PaaS:
• Prêt à l’emploi très rapidement, clé en main
• Disponibilité des services garantie
• Intégration des composants testée et éprouvée
• Niveau de sécurité strict
• Moins de compétences bas niveau requises
• Implication forte du métier, la plateforme est prête pour le déploiement d’applications
14. Big Data & Analytics
dans le Cloud
Francis Arnaudiès & Victor Hatinguais
15. IBM offers tens of Data & Analytics services through the Bluemix
catalog
16. dashDB
• SQL interface, ACID compliant
• Columnar, in-memory performance
• BLU augmented with
Netezza in-DB analytics
• RStudio & Spark for Analytics
• Built for Systems of Insight
• MPP
IBM Cloud Data Services
BigInsights on Cloud
• Spark for in-memory Hadoop
• Built on IBM Open Platform
• Bare metal performance
• BigInsights enterprise features
• Deploy sandboxes is cheap and fast
Cloudant
• Database as a Service (DBaaS)
• Massively scalable for global data distribution
• Eventually consistent data model
• Built for mobile, Systems of Engagement
ANALYTICAL TRANSACTIONAL
UNSTRUCTURE
D
STRUCTURED
IBM CDS solutions combine workloads and data types for true hybrid services and faster
innovation
Watson Analytics
Analytics & Visualization Services
Data Connect
Data Refinery Services
dashDB Transactional
• SQL interface, ACID compliant
• Optimized for transactional workloads
• Built for Systems of Record
• Oracle Compatibility