4×4: Big Data in der Cloud

187 Aufrufe

Veröffentlicht am

Big Data in die Cloud auslagern? Warum und wenn ja, bei welchem Provider? Anhand von vier Beispielen können Sie eine geeignete Lösung finden. Verglichen werden AWS, Google Cloud, IBM Bluemix und Microsoft Azure

Veröffentlicht in: Technologie
  • Als Erste(r) kommentieren

4×4: Big Data in der Cloud

  1. 1. SMART DATA Developer Conference Köln 06.12.2016 4x4: Big Data in der Cloud
  2. 2. Danny Linden twitter: @CodingDanny LinkedIn: linkedin.com/in/danny-linden Xing: xing.com/profile/Danny_Linden ✉ danny@onpage.org Über mich 1989 – Im wunderschönen Gelsenkirchen geboren 2005 – Softwaredeveloper 2011 – Auswandern nach München 2013 – Start bei OnPage.org Interessen: Webcrawling, Suchmaschinen, skalierbare Big Data Systeme Gründer der Spark Meetup Gruppe München: • http://www.meetup.com/de-DE/spark-munich/
  3. 3. > 250,000 User 40 mitarbeiter > 300,000 Projects bootstrapped SaaS Based in Munich
  4. 4. „Unter Cloud Computing (deutsch Rechnerwolke[1]) versteht man die Ausführung von Programmen, die nicht auf dem lokalen Rechner installiert sind, sondern auf einem anderen Rechner, der aus der Ferne aufgerufen wird (bspw. über das Internet).“ Cloud Computing
  5. 5. Die vier Provider
  6. 6. Maslowsche Entwickler Bedürfnispyramide SaaS (Machine Learning, ELK Stack, Textanalyse) PaaS (Hadoop, Serverless Backend, MySQL) IaaS (Computing, Storage, Network) twitter: @CodingDanny
  7. 7. Infrastructure as a Service Computing: • Virtuelle Server • Pay Per Use (Stunde/Minute) • Schnelle skalierbakeit • Standorte • Nerviges Thema • Spezialisierung • CPU • RAM • Lokaler Storage (keine gute Idee) • Netzwerk twitter: @CodingDanny
  8. 8. IaaS: Computing • Riesige Auswahl an Typen • Art und Größe • 14 Regionen • EU: Irland & Frankfurt • Bald: Paris & London • 54 Edge Locations • Spot • Spot Fleets • Reserved Instances • Bandbreite Typabhängig • 18 Server Typen • Custom Typen • 6 Regionen • EU: Belgien • Rabatt nach usage twitter: @CodingDanny
  9. 9. Wahl der richtigen Instanz am Beispiel AWS EC2 • Wahl der richtigen Instanz-Familie • M4: Die Haus & Hof Instanz • C4: CPU Optimiert • R4 & X1: Memory Optimiert • G2 & P2: Grafiklastige Anwendungen • I2: I/O Optimiert • D2: Storage Optimiert • F1: FPGAs twitter: @CodingDanny
  10. 10. On Demand vs. Spot Instanz Typ ECU Memory(GB) Preis/Stunde Preis/Stunde Spot Preis/Mon at Preis/Monat Spot m4.large 6,5 8 $0,13 $0,02 $92,88 $15,12 m4.xlarge 13 16 $0,26 $0,03 $185,04 $24,12 m4.2xlarge 26 32 $0,51 $0,17 $369,36 $120,17 m4.4xlarge 53,5 64 $1,03 $0,17 $738,72 $119,66 m4.10xlarge 124,5 160 $2,57 $0,43 $1.846,80 $308,16 m4.16xlarge 188 256 $4,10 $0,67 $2.954,88 $485,64 • Applikation muss „Fault Tolerant“ gebaut sein • Weitere Möglichkeit: Reserved Instances für 1 oder 3 Jahre (19% - 71%) twitter: @CodingDanny
  11. 11. IaaS: AWS EC2 Spot (Fleets) twitter: @CodingDanny
  12. 12. IaaS: Storage in der Cloud • Objekt Storage • z.b für Hadoop/Spark (HDFS Replacement) • AWS: Simple Storage Service (S3) • Google: Cloud Storage • Azure: Blob Storage • IBM: Object Storage • Block Storage • Virtuelle Festplatte für Compute Instanzen • AWS: EBS • Google: Persistant Disk • Azure: Disk Storage • IBM: Block Storage twitter: @CodingDanny
  13. 13. Platform as a Service „Herr Meier, installieren sie uns doch mal dieses Hadoop“
  14. 14. PaaS: Hadoop/Spark/Hive/HBase/PIG/Impala/Presto... AWS EMR Google Dataproc HDInsight(HDP 2.4.2) BigInsights Hadoop 2.7.3 2.7.3 2.7.1 2.7.2 Spark 2.0.2 2.0.2 2.0.1 1.6.1 Hbase 1.2.3 - (Datastore) 1.1.2 1.2.0 Hive 2.1.0 2.1.0 1.2.1 1.2.1 Presto 0.152.3 - - - Impala 1.2.4 - - - Apache Storm -(Kinesis) 0.10.0 - twitter: @CodingDanny
  15. 15. Platform as a Service „Wir wollen auch BigData machen! Können wir nicht unser $90erJahreDBMS in die Cloud packen?“
  16. 16. PaaS: Datenbanken nach Provider AWS RDS Aurora DynamoDB Redshift ElastiCache ElasticSearch Athena Google Cloud SQL Datastore BigTable BigQuery Azure MSSQL SQL-MPP-DW SQL Server Stretch DB DocumentDB Table Storage Redis Cache Bluemix Elasticsearch Cloudant NoSQL DB MongoDB dashDB RethinkDB Redis
  17. 17. Wer braucht mehr? [...] Datenverarbeitungs- und Arbeitsspeicherressourcen skalieren und die Leistung Ihrer Bereitstellung anpassen, bis zu einem Maximum von 32 vCPUs und 244 GiB RAM. Automatische Skalierung von Speicher Amazon Aurora vergrößert Ihr Datenbank-Volume automatisch, wenn der Datenbankspeicher mehr Platz benötigt. Ihr Volume wächst in 10 GB-Schritten bis maximal 64 TB.
  18. 18. Platform as a Service „Können wir dieses Serverless bei uns installieren?“
  19. 19. PaaS: Serverless mit Appengine • Es skaliert von Geisterhand • Budgetlimit / Tag • Custom Domain • HTTP • Scheduled Tasks / Cronjobs • Module • Versionen • Lokales Entwickeln twitter: @CodingDanny
  20. 20. PaaS: Serverless mit Appengine twitter: @CodingDanny
  21. 21. PaaS: AWS Lambda • Diverse, generische Trigger • DynamoDB • S3 • SNS • HTTP • .... • Java 8 • NodeJs • C# (seit letzter Woche) twitter: @CodingDanny
  22. 22. SaaS: AWS Machine Learning twitter: @CodingDanny
  23. 23. SaaS: IBM Bluemix / Watson twitter: @CodingDanny
  24. 24. Meine <3 zu twitter: @CodingDanny Das ist doch geil oder?
  25. 25. SMART DATA Developer Conference Köln 06.12.2016 Vielen Dank Danny Linden twitter: @CodingDanny LinkedIn: linkedin.com/in/danny-linden Xing: xing.com/profile/Danny_Linden ✉ danny@onpage.org

×