Daten ohne Grenzen – Big Data

837 Aufrufe

Veröffentlicht am

Mein Vortrag von der Storage & Data Management Conference 2013

Veröffentlicht in: Technologie
0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
837
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
2
Aktionen
Geteilt
0
Downloads
19
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Daten ohne Grenzen – Big Data

  1. 1. Daten ohne Grenzen – Big Data Steffen Krause Technical Evangelist @AWS_Aktuell skrause@amazon.de
  2. 2. Ein Supercomputer in den Händen eines jeden Entwicklers
  3. 3. 50000 CoreCycleCloud Super Computer in der Amazon Cloud
  4. 4. Wie groß sind 50000 Cores?Warum ist das wichtig?
  5. 5. Neue Krebsfälle pro Jahr: 12,66 Millionen(W.H.O./Globocan 2008)
  6. 6. Jeder Tag ist wichtig – und teuer
  7. 7. Ein führender Entwickler von algorithmischer Chemie
  8. 8. Medikamenten-Desgin:Identifikation der Protein-Ziele
  9. 9. „Das Schloss“
  10. 10. Finde Moleküle, die hineinpassen
  11. 11. Finde Treffer in Millionen Schlüsseln
  12. 12. Herausforderung: Virtuelle Tests mit höhererGenauigkeit und 21 Millionen Verbindungen
  13. 13. Metrik AnzahlRechen-Stunden 109927 Stunden Rechen-Tage 4580 Tage Using CycleCloud & Amazon Cloud The impossible 12,55 Jahre Rechen-Jahre run finished in...Anzahl Liganden Ca. 21 Millionen Liganden
  14. 14. Metrik Anzahl Rechen-Stunden 109927 Stunden Rechen-Tage 4580 Tage Using CycleCloud & Amazon Cloud The impossible 12,55 Jahre Rechen-Jahre run finished in... Anzahl Liganden Ca. 21 Millionen Liganden Mit CycleCloud & Amazon CloudDer unmögliche Rechenlauf dauerte...
  15. 15. 3 Stundenfü 4828,85$/h r
  16. 16. Statt einer>20 MillionenInfrastructure
  17. 17. Die Big Data Revolution
  18. 18. Was ist das?
  19. 19. BIG-DATA Die Sammlung und Analyse von großenDatenmengen, um einen Wettbewerbsvorteil zu erlangen
  20. 20. Big Data Branchen Netz- User Antivirus optimierung Demographics Gezielte Monte Carlo Maschinen- WerbungMedien/Werbun Telco Empfehlungen Retail Life Sciences Simulationen Finanz-Dienstl. Security Soziales Produk- daten-Analyse g Netz/Spiele tion Genom Betrugs- Traffic Analyse Usage analysis Analyse erkennung Bild und Video Transaktions- Ausfall- Risiko-Analyse Verarbeitung Analyse Vorhersage Preis- Bild- In-game optimierung erkennung metrics
  21. 21. Die Revolution
  22. 22. Habe Daten
  23. 23. Habe DatenKann speichern
  24. 24. Habe DatenKann speichern Kann analysieren
  25. 25. kostengünstig
  26. 26. schnell
  27. 27. n e Wer ist Ihr Kunde wirklich? ndKu Was mögen Kunden wirklich? Was geschieht sozial mit Ihren Produkten? Wie verwenden Ihre Kunden Ihre Produkte tatsächlich?
  28. 28. 29
  29. 29. Erkenntnis 1: Lassen Sie Ihr Amazon Konto zu Hause nicht eingeloggtErkenntnis 2: Verwenden Sie Ihre vorhandenen Daten für proaktive Prozesse
  30. 30. Big Data mit AWS Storage Big Data Compute Herausforderungen fangen bei relativ kleinen Datenmengen an 100 GB 1,000 PB
  31. 31. Big Data mit AWS Storage Big Data Compute Wenn Datenmengen und Datenanalysen so weit skalieren müssen, dass Sie innovativ sein müssen mit Sammlung, Speicherung, Organisation, Analyse und Weitergabe der Daten
  32. 32. Storage Big Data Compute Daten haben SchwerkraftApp Daten App http://blog.mccrory.me/2010/12/07/data-gravity-in-the-clouds/
  33. 33. Storage Big Data Compute …und in großen Mengen Trägheit…App App Latenz Durch satz Daten http://blog.mccrory.me/2010/12/07/data-gravity-in-the-clouds/
  34. 34. Storage Big Data Compute…was es einfacher macht, die Anwendungen zu verschieben als die Daten A Daten App pp http://blog.mccrory.me/2010/12/07/data-gravity-in-the-clouds/
  35. 35. Warum jetzt?
  36. 36. Storage Big Data Compute Warum jetzt? Datensammlung undHPC Computing -auswertungGroße Algorithmen & Modelle Bioanalyse, Bergbau, IngenieurwesenWebsites SensordatenBlogs/Reviews/Emails/Bilder Wetter, Wasser, Smart GridsSoziale Graphen Bilder/VideosFacebook, Linked In, Kontakte Verkehr, ÜberwachungskamerasApplication Server Logs TwitterWebsites, Spiele... 50m Tweets/Tag, 1400% Wachstum pro Jahr
  37. 37. Storage Big Data Compute Warum jetzt? Datensammlung undHPC Computing -auswertungGroße Algorithmen & Modelle Bioanalyse, Bergbau, IngenieurwesenMobil verbundene WeltWebsitesBlogs/Reviews/Emails/Bilder Sensordaten Wetter, Wasser, Smart GridsSoziale Graphen (Daten einfacher zu sammeln, Bilder/VideosFacebook, Linked In, Kontakte Verkehr, Überwachungskameras mehr Menschen generieren Daten)Application Server Logs TwitterWebsites, Spiele... 50m Tweets/Tag, 1400% Wachstum pro Jahr
  38. 38. Storage Big Data Compute Warum jetzt? Datensammlung undHPC Computing -auswertungGroße Algorithmen & Modelle Bioanalyse, Bergbau, IngenieurwesenWebsites SensordatenMehr Aspekte der DatenBlogs/Reviews/Emails/BilderSoziale Graphen Wetter, Wasser, Smart Grids Bilder/Videos (Vielfalt, Tiefe,Facebook, Linked In, Kontakte Ort, Häufigkeit) Verkehr, ÜberwachungskamerasApplication Server Logs TwitterWebsites, Spiele... 50m Tweets/Tag, 1400% Wachstum pro Jahr
  39. 39. Storage Big Data Compute Warum jetzt? Datensammlung undHPC Computing -auswertungGroße Algorithmen & Modelle Bioanalyse, Bergbau, IngenieurwesenWebsites SensordatenReichhaltigkeit erhaltenBlogs/Reviews/Emails/BilderSoziale Graphen Wetter, Wasser, Smart Grids Bilder/VideosFacebook,muss nicht mitteln, (man Linked In, Kontakte aggregieren oder löschen) Verkehr, ÜberwachungskamerasApplication Server Logs TwitterWebsites, Spiele... 50m Tweets/Tag, 1400% Wachstum pro Jahr
  40. 40. Storage Big Data Compute Von einer Instanz…
  41. 41. Storage Big Data Compute …zu tausenden
  42. 42. Storage Big Data Compute …und zurück zu einer
  43. 43. 1 Instanz für 100 Stunden =100 Instanzen für 1 Stunde
  44. 44. Small Instance = $6
  45. 45. Aber was ist das?
  46. 46. Ein Framework Teilt Daten auf Führt Berechnungen ausSammelt die Ergebnisse zusammen
  47. 47. Sehr großes Klick-Log (TeraByte)
  48. 48. Viele Aktivitäten von Hans MeierSehr großes Klick-Log (TeraByte)
  49. 49. Viele Aktivitäten von Hans MeierSehr großes Klick-Log (TeraByte) Splitte das Log in viele kleine Teile
  50. 50. Verarbeitung in einem EMR Cluster Viele Aktivitäten von Hans MeierSehr großes Klick-Log (TeraByte) Splitte das Log in viele kleine Teile
  51. 51. Verarbeitung in einem EMR Cluster Viele Aktivitäten von Hans MeierSehr großes Klick-Log (TeraByte) Splitte das Aggregiere Log in viele die kleine Teile Ergebnisse von allen Knoten
  52. 52. Verarbeitung in einem EMR Cluster Viele Aktivitäten von Hans MeierSehr großes Was Klick-Log Hans (TeraByte) Splitte das Log in viele Aggregiere die Meier kleine Teile Ergebnisse von allen Knoten getan hat
  53. 53. Sehr großes Was Klick-Log Hans (TeraByte) Erkenntnisse in einem Bruchteil der Zeit Meier getan hat
  54. 54. 1 Instanz für 100 Stunden =100 Instanzen für 1 Stunde
  55. 55. Small Instance = $6
  56. 56. 1 Instanz für 1000 Stunden =1000 Instanzen für 1 Stunde
  57. 57. Small Instance = $60
  58. 58. Features, die Amazon Elastic MapReduce nutzen: Diese Geschäfte könnten dich auch interessieren... Beitrags-Highlights Automatische Ergänzung bei der Eingabe Rechtschreib-Vorschläge Top Suchen Werbung200 Elastic MapReduce Jobs pro Tag verarbeiten 3TB Daten
  59. 59. Alles, was eine beschränkte Ressource war ist jetzt eine programmierbare Ressource
  60. 60. Nicht vergessen: Schalten Sie Ihre Cloud Ressourcen aus,wenn Sie sie nicht brauchen
  61. 61. Die Cloud ermöglicht die Sammlung von Big Data
  62. 62. Die Cloud ermöglicht die Verarbeitung von Big Data
  63. 63. Die Cloud ermöglicht die Nutzung von Big Data
  64. 64. Ressourcen• Hadoop Technik und Cases: http://www.powerof60.com/• http://aws.amazon.com/de• Beginnen Sie mit dem Free Tier: http://aws.amazon.com/de/free/• 25 US$ Startguthaben für Neukunden: http://aws.amazon.com/de/campaigns/account/• Twitter: @AWS_Aktuell• Facebook: http://www.facebook.com/awsaktuell• Webinare: http://aws.amazon.com/de/about-aws/events/

×