Big Data Webinar (Deutsch)

1.673 Aufrufe

Veröffentlicht am

Die Aufzeichnung dieses Webinars steht demnächst hier zur Verfügung: http://aws.amazon.com/de/recorded-webinar/
Big Data ist eines der großen Schlagworte der letzten Jahre. Aber was ist das? In vielen Unternehmen gibt es heute große Datenbestände, die nicht oder nicht ausreichend genutzt werden. Das können Logfiles eines Webservers, Bon-Daten eines Einzelhandelsunternehmens oder Sensordaten einer Produktionsstraße sein. In diesem Webinar geben wir einen Überblick über Big Data und die benutzten Technologien.

Veröffentlicht in: Technologie
0 Kommentare
1 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

Keine Downloads
Aufrufe
Aufrufe insgesamt
1.673
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
8
Aktionen
Geteilt
0
Downloads
32
Kommentare
0
Gefällt mir
1
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Big Data Webinar (Deutsch)

  1. 1. Big Data Steffen Krause Technical Evangelist @AWS_Aktuell skrause@amazon.de
  2. 2. Die Big Data Revolution
  3. 3. Was ist das?
  4. 4. Die Sammlung und Analyse von großen Datenmengen, um einen Wettbewerbsvorteil zu erlangen BIG-DATA
  5. 5. Medien/Werbung Gezielte Werbung Bild und Video Verarbeitung Telco Netz- optimierung Traffic Analyse Preis- optimierung Retail Empfehlungen Transaktions- Analyse Life Sciences Genom Analyse Finanz-Dienstl. Monte Carlo Simulationen Risiko-Analyse Security Antivirus Betrugs- erkennung Bild- erkennung Soziales Netz/Spiele User Demographics Usage analysis In-game metrics Produk- tion Maschinen- daten-Analyse Ausfall- Vorhersage Big Data Branchen
  6. 6. Habe Daten
  7. 7. Kann speichern Habe Daten
  8. 8. Kann speichern Kann analysieren Habe Daten
  9. 9. Kann speichern Kann analysieren Habe Daten kostengünstig & schnell
  10. 10. Wer ist Ihr Kunde wirklich? Was mögen Kunden wirklich? Was geschieht sozial mit Ihren Produkten? Wie verwenden Ihre Kunden Ihre Produkte tatsächlich?
  11. 11. 12
  12. 12. Erkenntnis 1: Lassen Sie Ihr Amazon Konto zu Hause nicht eingeloggt Erkenntnis 2: Verwenden Sie Ihre vorhandenen Daten für proaktive Prozesse
  13. 13. Warum jetzt?
  14. 14. HPC Computing Große Algorithmen & Modelle Websites Blogs/Reviews/Emails/Bilder Soziale Graphen Facebook, Linked In, Kontakte Application Server Logs Websites, Spiele... Datensammlung und -auswertung Bioanalyse, Bergbau, Ingenieurwesen Sensordaten Wetter, Wasser, Smart Grids Bilder/Videos Verkehr, Überwachungskameras Twitter 50m Tweets/Tag, 1400% Wachstum pro Jahr Warum jetzt? ComputeStorage Big Data
  15. 15. HPC Computing Große Algorithmen & Modelle Websites Blogs/Reviews/Emails/Bilder Soziale Graphen Facebook, Linked In, Kontakte Application Server Logs Websites, Spiele... Datensammlung und - auswertung Bioanalyse, Bergbau, Ingenieurwesen Sensordaten Wetter, Wasser, Smart Grids Bilder/Videos Verkehr, Überwachungskameras Twitter 50m Tweets/Tag, 1400% Wachstum pro Jahr Warum jetzt? ComputeStorage Big Data Mobil verbundene Welt (Daten einfacher zu sammeln, mehr Menschen generieren Daten)
  16. 16. HPC Computing Große Algorithmen & Modelle Websites Blogs/Reviews/Emails/Bilder Soziale Graphen Facebook, Linked In, Kontakte Application Server Logs Websites, Spiele... Datensammlung und - auswertung Bioanalyse, Bergbau, Ingenieurwesen Sensordaten Wetter, Wasser, Smart Grids Bilder/Videos Verkehr, Überwachungskameras Twitter 50m Tweets/Tag, 1400% Wachstum pro Jahr Warum jetzt? ComputeStorage Big Data Mehr Aspekte der Daten (Vielfalt, Tiefe, Ort, Häufigkeit)
  17. 17. HPC Computing Große Algorithmen & Modelle Websites Blogs/Reviews/Emails/Bilder Soziale Graphen Facebook, Linked In, Kontakte Application Server Logs Websites, Spiele... Datensammlung und - auswertung Bioanalyse, Bergbau, Ingenieurwesen Sensordaten Wetter, Wasser, Smart Grids Bilder/Videos Verkehr, Überwachungskameras Twitter 50m Tweets/Tag, 1400% Wachstum pro Jahr Warum jetzt? ComputeStorage Big Data Reichhaltigkeit erhalten (man muss nicht mitteln, aggregieren oder löschen)
  18. 18. ComputeStorage Big Data 100 GB 1,000 PB Herausforderungen fangen bei relativ kleinen Datenmengen an Big Data mit AWS
  19. 19. Wenn Datenmengen und Datenanalysen so weit skalieren müssen, dass Sie innovativ sein müssen mit Sammlung, Speicherung, Organisation, Analyse und Weitergabe der Daten ComputeStorage Big Data Big Data mit AWS
  20. 20. DatenApp App http://blog.mccrory.me/2010/12/07/data-gravity-in-the-clouds/ Daten haben Schwerkraft ComputeStorage Big Data
  21. 21. Daten http://blog.mccrory.me/2010/12/07/data-gravity-in-the-clouds/ …und in großen Mengen Trägheit… ComputeStorage Big Data
  22. 22. Daten http://blog.mccrory.me/2010/12/07/data-gravity-in-the-clouds/ …was es einfacher macht, die Anwendungen zu verschieben als die Daten ComputeStorage Big Data
  23. 23. Big Data Pipeline Sammeln | Speichern | Organisieren | Analysieren | Weitergeben
  24. 24. Wohin packen Sie Ihren Anteil? Sammlung - Laden AWS Direct Connect Dedizierte Leitung zwischen Ihrem RZ und AWS Queuing Zuverlässiges Messaging für verteilte Aufgaben Amazon Storage Gateway Gateway zwischen Ihrer Storage und AWS Storage AWS Import/Export Datentransfer auf physischen Medien von und nach AWS ComputeStorage Big Data
  25. 25. ComputeStorage Big Data Relational Database Service Voll verwaltete Datenbank (MySQL, Oracle, MSSQL) DynamoDB NoSQL, schemafreie Datenbank mit provisioniertem Durchsatz Simple Storage Service (S3) Objektspeicher mit bis zu 5TB pro Objekt 99,999999999% Dauerhaftigkeit Wohin packen Sie Ihren Anteil?
  26. 26. ComputeStorage Big Data Glacier Archv-Langzeitspeicher Ab $0,01 pro GB/Month 99.999999999% Dauerhaftigkeit Wohin packen Sie Ihren Anteil?
  27. 27. ComputeStorage Big Data Glacier – Komplettes Lifecycle Management Daten-Import Physische Datenträger an AWS zum Laden der Daten z.B. 50TB Sensordaten in ein EBS Volumes mit einem Gluster Filesystem Berechnung & Visualisierung HPC & EMR Cluster Jobs auf vielen tausend Cores z.B. 200TB Visualisierungsdaten generiert von der Clusterverarbeitung Langzeitarchiv Nach Abschluss der Analyse werden die Daten ins Glacier Archiv statt auf Tapes gespeichert Kosteneffizient im Vergleich mit Tape, Zugriffszeit 3-5 Stunden wenn Daten benötigt werden
  28. 28. ComputeStorage Big Data Scale Price Performance Wie schnell müssen Sie Daten lesen können? Einstellige Millisekunden 10 -100te Millisekunden <5 Stunden DynamoDB Skalierbare Anwendungen Provisionierter Durchsatz Flexible Konsistenzmodelle S3 Jedes Objekt, jede App 99,999999999% Dauerhaftigkeit Objekte bis 5TB Größe Glacier Media & Asset Archiv Sehr geringe Kosten Dauerhaftigkeit wie S3
  29. 29. ComputeStorage Big Data Scale Price Performance Verarbeitung in jeder Größe Unbegrenzte Datenmengen
  30. 30. ComputeStorage Big Data Scale Price Performance Bezahlung nach Verbrauch Provisioned IOPS Provisionierte Lese/Schreibperformance pro DynamoDB Tabelle/EBS Volume Bezahlung für provisionierte Kapazität, unabhängig von der Nutzung Genutzter Speicherplatz Bezahlung nach gespeichertem Volumen & Lese/Schreibvorgänge Keine Kapazitätsplanung erforderlich für unbegrenzten Speicherplatz
  31. 31. ComputeStorage Big Data „Big Data“ ändert die Dynamik von Berechnung und Datenweitergabe Sammlung ZusammenarbeitBerechnung Wie beschaffe ich die Daten? Wohin packe ich sie? Welche Rechenleistung kann ich anwenden? Wie arbeite ich mit anderen zusammen?
  32. 32. ComputeStorage Big Data Direct Connect Import/Export S3 DynamoDB EC2 GPUs Elastic Map Reduce Cloud Formation Simple Workflow S3 „Big Data“ ändert die Dynamik von Berechnung und Datenweitergabe Sammlung ZusammenarbeitBerechnung Wie beschaffe ich die Daten? Wohin packe ich sie? Welche Rechenleistung kann ich anwenden? Wie arbeite ich mit anderen zusammen?
  33. 33. Aber was ist das?
  34. 34. Ein Framework Teilt Daten auf Führt Berechnungen aus Sammelt die Ergebnisse zusammen
  35. 35. Sehr großes Klick-Log (TeraByte)
  36. 36. Sehr großes Klick-Log (TeraByte) Viele Aktivitäten von Hans Meier
  37. 37. Sehr großes Klick-Log (TeraByte) Viele Aktivitäten von Hans Meier Splitte das Log in viele kleine Teile
  38. 38. Sehr großes Klick-Log (TeraByte) Verarbeitung in einem EMR Cluster Viele Aktivitäten von Hans Meier Splitte das Log in viele kleine Teile
  39. 39. Sehr großes Klick-Log (TeraByte) Aggregiere die Ergebnisse von allen Knoten Verarbeitung in einem EMR Cluster Viele Aktivitäten von Hans Meier Splitte das Log in viele kleine Teile
  40. 40. Sehr großes Klick-Log (TeraByte) Was Hans Meier getan hat Aggregiere die Ergebnisse von allen Knoten Verarbeitung in einem EMR Cluster Viele Aktivitäten von Hans Meier Splitte das Log in viele kleine Teile
  41. 41. Sehr großes Klick-Log (TeraByte) Erkenntnisse in einem Bruchteil der Zeit Was Hans Meier getan hat
  42. 42. Amazon Elastic MapReduce
  43. 43. ComputeStorage Big Data Elastic MapReduce Verwalteter, elastischer Hadoop Cluster Integration mit S3 & DynamoDB Nutzt Hive & Pig Analytics Scripts Integration mit EC2 Optionen wie Spot Instanzen Hadoop-as-a-Service – Elastic MapReduce
  44. 44. Feature Details Skalierbar Verwenden Sie so viele Hadoop Compute Instanzen wie Sie wollen. Ändern Sie die Anzahl der Instanzen während der Job Flow läuft Integriert mit anderen Diensten Nahtlose Integration mit S3 als Quelle oder Ausgabe Integration mit DynamoDB Umfassend Unterstützt Hive und Pig für Definition der Analysen, und komplexe Jobs in Cascading, Java, Ruby, Perl, Python, PHP, R, oder C++ Kosteneffizient Unterstützt Spot Instanzen Monitoring Überwachung der Job Flows aus der AWS Konsole Elastic MapReduce Verwalteter, elastischer Hadoop Cluster Integration mit S3 & DynamoDB Nutzt Hive & Pig Analytics Scripts Integration mit EC2 Optionen wie Spot Instanzen
  45. 45. Von einer Instanz… ComputeStorage Big Data
  46. 46. …zu tausenden ComputeStorage Big Data
  47. 47. …und zurück zu einer ComputeStorage Big Data
  48. 48. 1 Instanz für 100 Stunden = 100 Instanzen für 1 Stunde
  49. 49. Small Instance = $6
  50. 50. 1 Instanz für 1000 Stunden = 1000 Instanzen für 1 Stunde
  51. 51. Small Instance = $60
  52. 52. Big Data Architekturen
  53. 53. S3, DynamoDB, Redshift Eingabedaten
  54. 54. Elastic MapReduce Code S3, DynamoDB, Redshift Eingabedaten
  55. 55. Elastic MapReduce Code S3, DynamoDB, Redshift Eingabedaten Name Node
  56. 56. Elastic MapReduce Code Elastic cluster S3, DynamoDB, Redshift S3/HDFS Eingabedaten Name Node
  57. 57. Elastic MapReduce Code S3/HDFS Via JDBC, Pig, Hive S3, DynamoDB, Redshift Elastic cluster Eingabedaten Name Node Abfragen + BI
  58. 58. Elastic MapReduce Code Name Node Ausgabe Eingabedaten Abfragen + BI Via JDBC, Pig, Hive S3, DynamoDB, Redshift Elastic cluster S3/HDFS
  59. 59. S3, DynamoDB, Redshift Eingabedaten Ausgabe
  60. 60. Nicht vergessen: Schalten Sie Ihre Cloud Ressourcen aus, wenn Sie sie nicht brauchen
  61. 61. S3 DYNAMODB EMR EMR REDSHIFT DYNAMODB DATA PIPELINE Integration
  62. 62. create external table items_db (id string, votes bigint, views bigint) stored by 'org.apache.hadoop.hive.dynamodb.DynamoDBStorageHandler' tblproperties ("dynamodb.table.name" = "items", "dynamodb.column.mapping" = "id:id,votes:votes,views:views"); Integration DynamoDB
  63. 63. select id, likes, views from items_db order by views desc; Direkte Abfrage
  64. 64. CREATE EXTERNAL TABLE orders_s3_new_export ( order_id string, customer_id string, order_date int, total double ) PARTITIONED BY (year string, month string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LOCATION 's3://export_bucket'; INSERT OVERWRITE TABLE orders_s3_new_export PARTITION (year='2012', month='01') SELECT* from orders_ddb_2012_01; Integration S3
  65. 65. Data Pipeline
  66. 66. Data Architecture Data Analyst Raw Data Get Data Join via Facebook Add a Skill Page Invite Friends Web Servers Amazon S3 User Action Trace Events EMR Hive Scripts Process Content • Process log files with regular expressions to parse out the info we need. • Processes cookies into useful searchable data such as Session, UserId, API Security token. • Filters surplus info like internal varnish logging. Amazon S3 Aggregated Data Raw Events Internal Web Excel Tableau Amazon Redshift
  67. 67. Features, die Amazon Elastic MapReduce nutzen: Diese Geschäfte könnten dich auch interessieren... Beitrags-Highlights Automatische Ergänzung bei der Eingabe Rechtschreib-Vorschläge Top Suchen Werbung 200 Elastic MapReduce Jobs pro Tag verarbeiten 3TB Daten
  68. 68. Alles, was eine beschränkte Ressource war ist jetzt eine programmierbare Ressource
  69. 69. Die Cloud ermöglicht die Sammlung von Big Data
  70. 70. Die Cloud ermöglicht die Verarbeitung von Big Data
  71. 71. Die Cloud ermöglicht die Nutzung von Big Data
  72. 72. • Hadoop Technik und Cases: http://www.powerof60.com/ • http://aws.amazon.com/de • Beginnen Sie mit dem Free Tier: http://aws.amazon.com/de/free/ • 25 US$ Startguthaben für Neukunden: http://aws.amazon.com/de/campaigns/account/ • Twitter: @AWS_Aktuell • Facebook: http://www.facebook.com/awsaktuell • Webinare: http://aws.amazon.com/de/about-aws/events/ Ressourcen

×