4×4: Big Data in der Cloud

SMART DATA Developer
Conference
Köln 06.12.2016
4x4:
Big Data in der Cloud

Danny Linden
twitter: @CodingDanny
LinkedIn: linkedin.com/in/danny-linden
Xing: xing.com/profile/Danny_Linden
✉ danny@onpage.org
Über mich
1989 – Im wunderschönen Gelsenkirchen geboren
2005 – Softwaredeveloper
2011 – Auswandern nach München
2013 – Start bei OnPage.org
Interessen:
Webcrawling, Suchmaschinen, skalierbare Big Data Systeme
Gründer der Spark Meetup Gruppe München:
• http://www.meetup.com/de-DE/spark-munich/

> 250,000 User
40 mitarbeiter
> 300,000 Projects
bootstrapped
SaaS
Based in Munich

„Unter Cloud Computing (deutsch Rechnerwolke[1]) versteht man die Ausführung von
Programmen, die nicht auf dem lokalen Rechner installiert sind, sondern auf einem
anderen Rechner, der aus der Ferne aufgerufen wird (bspw. über das Internet).“
Cloud Computing

Maslowsche Entwickler Bedürfnispyramide
SaaS
(Machine Learning, ELK Stack,
Textanalyse)
PaaS
(Hadoop, Serverless Backend,
MySQL)
IaaS
(Computing, Storage, Network)

Infrastructure as a Service
Computing:
• Virtuelle Server
• Pay Per Use (Stunde/Minute)
• Schnelle skalierbakeit
• Standorte
• Nerviges Thema
• Spezialisierung
• CPU
• RAM
• Lokaler Storage (keine gute Idee)
• Netzwerk

IaaS: Computing
• Riesige Auswahl an Typen
• Art und Größe
• 14 Regionen
• EU: Irland & Frankfurt
• Bald: Paris & London
• 54 Edge Locations
• Spot
• Spot Fleets
• Reserved Instances
• Bandbreite Typabhängig
• 18 Server Typen
• Custom Typen
• 6 Regionen
• EU: Belgien
• Rabatt nach usage

Wahl der richtigen Instanz am Beispiel AWS EC2
• Wahl der richtigen Instanz-Familie
• M4: Die Haus & Hof Instanz
• C4: CPU Optimiert
• R4 & X1: Memory Optimiert
• G2 & P2: Grafiklastige Anwendungen
• I2: I/O Optimiert
• D2: Storage Optimiert
• F1: FPGAs

On Demand vs. Spot
Instanz Typ ECU Memory(GB) Preis/Stunde Preis/Stunde Spot
Preis/Mon
at Preis/Monat Spot
m4.large 6,5 8 $0,13
$0,02 $92,88 $15,12
m4.xlarge 13 16 $0,26
$0,03 $185,04 $24,12
m4.2xlarge 26 32 $0,51
$0,17 $369,36 $120,17
m4.4xlarge 53,5 64 $1,03
$0,17 $738,72 $119,66
m4.10xlarge 124,5 160 $2,57
$0,43 $1.846,80 $308,16
m4.16xlarge 188 256 $4,10
$0,67 $2.954,88 $485,64
• Applikation muss „Fault Tolerant“ gebaut sein
• Weitere Möglichkeit: Reserved Instances für 1 oder 3 Jahre (19% - 71%)

IaaS: AWS EC2 Spot (Fleets)

IaaS: Storage in der Cloud
• Objekt Storage
• z.b für Hadoop/Spark (HDFS Replacement)
• AWS: Simple Storage Service (S3)
• Google: Cloud Storage
• Azure: Blob Storage
• IBM: Object Storage
• Block Storage
• Virtuelle Festplatte für Compute Instanzen
• AWS: EBS
• Google: Persistant Disk
• Azure: Disk Storage
• IBM: Block Storage

Platform as a Service
„Herr Meier, installieren sie uns
doch mal dieses Hadoop“

PaaS: Hadoop/Spark/Hive/HBase/PIG/Impala/Presto...
AWS EMR Google Dataproc HDInsight(HDP 2.4.2) BigInsights
Hadoop 2.7.3 2.7.3 2.7.1 2.7.2
Spark 2.0.2 2.0.2 2.0.1 1.6.1
Hbase 1.2.3 - (Datastore) 1.1.2 1.2.0
Hive 2.1.0 2.1.0 1.2.1 1.2.1
Presto 0.152.3 - - -
Impala 1.2.4 - - -
Apache Storm -(Kinesis) 0.10.0 -

„Wir wollen auch BigData machen!
Können wir nicht unser $90erJahreDBMS
in die Cloud packen?“

PaaS: Datenbanken nach Provider
AWS
RDS
Aurora
DynamoDB
Redshift
ElastiCache
ElasticSearch
Athena
Google
Cloud SQL
Datastore
BigTable
BigQuery
Azure
MSSQL
SQL-MPP-DW
SQL Server Stretch
DB
DocumentDB
Table Storage
Redis Cache
Bluemix
Elasticsearch
Cloudant NoSQL
DB
MongoDB
dashDB
RethinkDB
Redis

Wer braucht mehr?
[...] Datenverarbeitungs- und Arbeitsspeicherressourcen skalieren und die Leistung Ihrer Bereitstellung
anpassen, bis zu einem Maximum von 32 vCPUs und 244 GiB RAM.
Automatische Skalierung von Speicher
Amazon Aurora vergrößert Ihr Datenbank-Volume automatisch, wenn der Datenbankspeicher mehr Platz
benötigt. Ihr Volume wächst in 10 GB-Schritten bis maximal 64 TB.

„Können wir dieses Serverless bei
uns installieren?“

PaaS: Serverless mit Appengine
• Es skaliert von Geisterhand
• Budgetlimit / Tag
• Custom Domain
• HTTP
• Scheduled Tasks / Cronjobs
• Module
• Versionen
• Lokales Entwickeln

PaaS: Serverless mit Appengine

PaaS: AWS Lambda
• Diverse, generische Trigger
• DynamoDB
• S3
• SNS
• HTTP
• ....
• Java 8
• NodeJs
• C# (seit letzter Woche)

SaaS: AWS Machine Learning

SaaS: IBM Bluemix / Watson

Meine <3 zu
Das ist doch geil oder?

SMART DATA Developer
Conference
Köln 06.12.2016
Vielen Dank
Danny Linden
LinkedIn: linkedin.com/in/danny-linden
Xing: xing.com/profile/Danny_Linden
✉ danny@onpage.org

4×4: Big Data in der Cloud

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (18)

Andere mochten auch

Andere mochten auch (19)

Ähnlich wie 4×4: Big Data in der Cloud

Ähnlich wie 4×4: Big Data in der Cloud (20)

4×4: Big Data in der Cloud

Hinweis der Redaktion