SMART DATA Developer
Conference
Köln 06.12.2016
4x4:
Big Data in der Cloud
Danny Linden
twitter: @CodingDanny
LinkedIn: linkedin.com/in/danny-linden
Xing: xing.com/profile/Danny_Linden
✉ danny@onpa...
> 250,000 User
40 mitarbeiter
> 300,000 Projects
bootstrapped
SaaS
Based in Munich
„Unter Cloud Computing (deutsch Rechnerwolke[1]) versteht man die Ausführung von
Programmen, die nicht auf dem lokalen Rec...
Die vier Provider
Maslowsche Entwickler Bedürfnispyramide
SaaS
(Machine Learning, ELK Stack,
Textanalyse)
PaaS
(Hadoop, Serverless Backend,
...
Infrastructure as a Service
Computing:
• Virtuelle Server
• Pay Per Use (Stunde/Minute)
• Schnelle skalierbakeit
• Standor...
IaaS: Computing
• Riesige Auswahl an Typen
• Art und Größe
• 14 Regionen
• EU: Irland & Frankfurt
• Bald: Paris & London
•...
Wahl der richtigen Instanz am Beispiel AWS EC2
• Wahl der richtigen Instanz-Familie
• M4: Die Haus & Hof Instanz
• C4: CPU...
On Demand vs. Spot
Instanz Typ ECU Memory(GB) Preis/Stunde Preis/Stunde Spot
Preis/Mon
at Preis/Monat Spot
m4.large 6,5 8 ...
IaaS: AWS EC2 Spot (Fleets)
twitter: @CodingDanny
IaaS: Storage in der Cloud
• Objekt Storage
• z.b für Hadoop/Spark (HDFS Replacement)
• AWS: Simple Storage Service (S3)
•...
Platform as a Service
„Herr Meier, installieren sie uns
doch mal dieses Hadoop“
PaaS: Hadoop/Spark/Hive/HBase/PIG/Impala/Presto...
AWS EMR Google Dataproc HDInsight(HDP 2.4.2) BigInsights
Hadoop 2.7.3 2...
Platform as a Service
„Wir wollen auch BigData machen!
Können wir nicht unser $90erJahreDBMS
in die Cloud packen?“
PaaS: Datenbanken nach Provider
AWS
RDS
Aurora
DynamoDB
Redshift
ElastiCache
ElasticSearch
Athena
Google
Cloud SQL
Datasto...
Wer braucht mehr?
[...] Datenverarbeitungs- und Arbeitsspeicherressourcen skalieren und die Leistung Ihrer Bereitstellung
...
Platform as a Service
„Können wir dieses Serverless bei
uns installieren?“
PaaS: Serverless mit Appengine
• Es skaliert von Geisterhand
• Budgetlimit / Tag
• Custom Domain
• HTTP
• Scheduled Tasks ...
PaaS: Serverless mit Appengine
twitter: @CodingDanny
PaaS: AWS Lambda
• Diverse, generische Trigger
• DynamoDB
• S3
• SNS
• HTTP
• ....
• Java 8
• NodeJs
• C# (seit letzter Wo...
SaaS: AWS Machine Learning
twitter: @CodingDanny
SaaS: IBM Bluemix / Watson
twitter: @CodingDanny
Meine <3 zu
twitter: @CodingDanny
Das ist doch geil oder?
SMART DATA Developer
Conference
Köln 06.12.2016
Vielen Dank
Danny Linden
twitter: @CodingDanny
LinkedIn: linkedin.com/in/d...
4×4: Big Data in der Cloud
4×4: Big Data in der Cloud
Nächste SlideShare
Wird geladen in …5
×

4×4: Big Data in der Cloud

23 Aufrufe

Veröffentlicht am

Big Data in die Cloud auslagern? Warum und wenn ja, bei welchem Provider? Anhand von vier Beispielen können Sie eine geeignete Lösung finden. Verglichen werden AWS, Google Cloud, IBM Bluemix und Microsoft Azure

Veröffentlicht in: Technologie
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
23
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
0
Aktionen
Geteilt
0
Downloads
1
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie
  • möglichst viel mitnehmen kann
    aws ec2 ecs
    docker
    wer von 4x großen eingesetzt
    wer entscheident
  • Wer sich schonmal mit HTML beschäftigt hat
  • Cloud bedeutet das wir die Programme nicht lokal installeren
  • Die vier großen
    AWS in 2006
    Azure Für M$ relevant
    IBM Für Enterprise und Watson
  • Die vier großen
    AWS in 2006
    Azure Für M$ relevant Digital Ocean
    Rightscale
    IBM Für Enterprise und Watson
  • AWS, Bluemix, Azure, Google Cloud
    redshift
  • marktplätze saas
  • Stunde Minute, selten nötig (Ticketverkauf, TV Werbung)
    Oracle DBA will kein Elasticsearch
    AWS x99999

  • SSD, HDD, EBS(i/o), learnings: Bandbreite
    ----- Besprechungsnotizen (05.12.16 22:37) -----
    rightscale
  • SSD, HDD, EBS(i/o), learnings: Bandbreite
  • SSD, HDD, EBS(i/o), learnings: Bandbreite
    ----- Besprechungsnotizen (05.12.16 22:37) -----
    os
  • SSD, HDD, EBS(i/o), learnings: Bandbreite

    HÄLFTE DES VORTRAGS
  • SSD, HDD, EBS(i/o), learnings: Bandbreite
  • In der Regel immer Compute Instanzen + Fee für die Konfiguration
    s3 komp api
  • Stunde Minute, selten nötig (Ticketverkauf, TV Werbung)
    mysql admin traut sich nichts anderes zu
    Macht sinn: Scale zu seiner zeit
    Beispiel: Aurora ?TB
  • MPP-Architektur (Massively Parallel Processing)
    SQL Server Stretch: Cold vs Hot in Cloud shiften einen Endpoint Cloudant NoSQL DB: CouchDB Based DB
    dashDB: DB2 + InMemory
    S3 redshift Aurora
    TB?
    BigTable AWS? Athena RethinkDB für JSON
  • Stunde Minute, selten nötig (Ticketverkauf, TV Werbung)
  • Stunde Minute, selten nötig (Ticketverkauf, TV Werbung)
  • Sprachen
    Docker
  • Sprachen
    Docker
  • Sprachen
    Docker
  • Sprachen
    Docker
  • Sprachen
    Docker
  • Sprachen
    Docker
  • möglichst viel mitnehmen kann
    aws ec2 ecs
    docker
    wer von 4x großen eingesetzt
    wer entscheident
  • 4×4: Big Data in der Cloud

    1. 1. SMART DATA Developer Conference Köln 06.12.2016 4x4: Big Data in der Cloud
    2. 2. Danny Linden twitter: @CodingDanny LinkedIn: linkedin.com/in/danny-linden Xing: xing.com/profile/Danny_Linden ✉ danny@onpage.org Über mich 1989 – Im wunderschönen Gelsenkirchen geboren 2005 – Softwaredeveloper 2011 – Auswandern nach München 2013 – Start bei OnPage.org Interessen: Webcrawling, Suchmaschinen, skalierbare Big Data Systeme Gründer der Spark Meetup Gruppe München: • http://www.meetup.com/de-DE/spark-munich/
    3. 3. > 250,000 User 40 mitarbeiter > 300,000 Projects bootstrapped SaaS Based in Munich
    4. 4. „Unter Cloud Computing (deutsch Rechnerwolke[1]) versteht man die Ausführung von Programmen, die nicht auf dem lokalen Rechner installiert sind, sondern auf einem anderen Rechner, der aus der Ferne aufgerufen wird (bspw. über das Internet).“ Cloud Computing
    5. 5. Die vier Provider
    6. 6. Maslowsche Entwickler Bedürfnispyramide SaaS (Machine Learning, ELK Stack, Textanalyse) PaaS (Hadoop, Serverless Backend, MySQL) IaaS (Computing, Storage, Network) twitter: @CodingDanny
    7. 7. Infrastructure as a Service Computing: • Virtuelle Server • Pay Per Use (Stunde/Minute) • Schnelle skalierbakeit • Standorte • Nerviges Thema • Spezialisierung • CPU • RAM • Lokaler Storage (keine gute Idee) • Netzwerk twitter: @CodingDanny
    8. 8. IaaS: Computing • Riesige Auswahl an Typen • Art und Größe • 14 Regionen • EU: Irland & Frankfurt • Bald: Paris & London • 54 Edge Locations • Spot • Spot Fleets • Reserved Instances • Bandbreite Typabhängig • 18 Server Typen • Custom Typen • 6 Regionen • EU: Belgien • Rabatt nach usage twitter: @CodingDanny
    9. 9. Wahl der richtigen Instanz am Beispiel AWS EC2 • Wahl der richtigen Instanz-Familie • M4: Die Haus & Hof Instanz • C4: CPU Optimiert • R4 & X1: Memory Optimiert • G2 & P2: Grafiklastige Anwendungen • I2: I/O Optimiert • D2: Storage Optimiert • F1: FPGAs twitter: @CodingDanny
    10. 10. On Demand vs. Spot Instanz Typ ECU Memory(GB) Preis/Stunde Preis/Stunde Spot Preis/Mon at Preis/Monat Spot m4.large 6,5 8 $0,13 $0,02 $92,88 $15,12 m4.xlarge 13 16 $0,26 $0,03 $185,04 $24,12 m4.2xlarge 26 32 $0,51 $0,17 $369,36 $120,17 m4.4xlarge 53,5 64 $1,03 $0,17 $738,72 $119,66 m4.10xlarge 124,5 160 $2,57 $0,43 $1.846,80 $308,16 m4.16xlarge 188 256 $4,10 $0,67 $2.954,88 $485,64 • Applikation muss „Fault Tolerant“ gebaut sein • Weitere Möglichkeit: Reserved Instances für 1 oder 3 Jahre (19% - 71%) twitter: @CodingDanny
    11. 11. IaaS: AWS EC2 Spot (Fleets) twitter: @CodingDanny
    12. 12. IaaS: Storage in der Cloud • Objekt Storage • z.b für Hadoop/Spark (HDFS Replacement) • AWS: Simple Storage Service (S3) • Google: Cloud Storage • Azure: Blob Storage • IBM: Object Storage • Block Storage • Virtuelle Festplatte für Compute Instanzen • AWS: EBS • Google: Persistant Disk • Azure: Disk Storage • IBM: Block Storage twitter: @CodingDanny
    13. 13. Platform as a Service „Herr Meier, installieren sie uns doch mal dieses Hadoop“
    14. 14. PaaS: Hadoop/Spark/Hive/HBase/PIG/Impala/Presto... AWS EMR Google Dataproc HDInsight(HDP 2.4.2) BigInsights Hadoop 2.7.3 2.7.3 2.7.1 2.7.2 Spark 2.0.2 2.0.2 2.0.1 1.6.1 Hbase 1.2.3 - (Datastore) 1.1.2 1.2.0 Hive 2.1.0 2.1.0 1.2.1 1.2.1 Presto 0.152.3 - - - Impala 1.2.4 - - - Apache Storm -(Kinesis) 0.10.0 - twitter: @CodingDanny
    15. 15. Platform as a Service „Wir wollen auch BigData machen! Können wir nicht unser $90erJahreDBMS in die Cloud packen?“
    16. 16. PaaS: Datenbanken nach Provider AWS RDS Aurora DynamoDB Redshift ElastiCache ElasticSearch Athena Google Cloud SQL Datastore BigTable BigQuery Azure MSSQL SQL-MPP-DW SQL Server Stretch DB DocumentDB Table Storage Redis Cache Bluemix Elasticsearch Cloudant NoSQL DB MongoDB dashDB RethinkDB Redis
    17. 17. Wer braucht mehr? [...] Datenverarbeitungs- und Arbeitsspeicherressourcen skalieren und die Leistung Ihrer Bereitstellung anpassen, bis zu einem Maximum von 32 vCPUs und 244 GiB RAM. Automatische Skalierung von Speicher Amazon Aurora vergrößert Ihr Datenbank-Volume automatisch, wenn der Datenbankspeicher mehr Platz benötigt. Ihr Volume wächst in 10 GB-Schritten bis maximal 64 TB.
    18. 18. Platform as a Service „Können wir dieses Serverless bei uns installieren?“
    19. 19. PaaS: Serverless mit Appengine • Es skaliert von Geisterhand • Budgetlimit / Tag • Custom Domain • HTTP • Scheduled Tasks / Cronjobs • Module • Versionen • Lokales Entwickeln twitter: @CodingDanny
    20. 20. PaaS: Serverless mit Appengine twitter: @CodingDanny
    21. 21. PaaS: AWS Lambda • Diverse, generische Trigger • DynamoDB • S3 • SNS • HTTP • .... • Java 8 • NodeJs • C# (seit letzter Woche) twitter: @CodingDanny
    22. 22. SaaS: AWS Machine Learning twitter: @CodingDanny
    23. 23. SaaS: IBM Bluemix / Watson twitter: @CodingDanny
    24. 24. Meine <3 zu twitter: @CodingDanny Das ist doch geil oder?
    25. 25. SMART DATA Developer Conference Köln 06.12.2016 Vielen Dank Danny Linden twitter: @CodingDanny LinkedIn: linkedin.com/in/danny-linden Xing: xing.com/profile/Danny_Linden ✉ danny@onpage.org

    ×