SlideShare ist ein Scribd-Unternehmen logo
Daten ohne Grenzen – Big Data


            Steffen Krause
          Technical Evangelist
            @AWS_Aktuell
         skrause@amazon.de
Ein Supercomputer in den Händen eines jeden Entwicklers
50000 Core
CycleCloud Super Computer
   in der Amazon Cloud
Wie groß sind 50000 Cores?
Warum ist das wichtig?
Neue Krebsfälle pro Jahr: 12,66 Millionen




(W.H.O./Globocan 2008)
Jeder Tag ist wichtig – und teuer
Ein führender Entwickler von algorithmischer Chemie
Medikamenten-Desgin:
Identifikation der Protein-Ziele
„Das Schloss“
Finde Moleküle, die hineinpassen
Finde Treffer in Millionen Schlüsseln
Herausforderung: Virtuelle Tests mit höherer
Genauigkeit und 21 Millionen Verbindungen
Metrik          Anzahl
Rechen-Stunden          109927 Stunden

   Rechen-Tage          4580 Tage
       Using CycleCloud & Amazon Cloud

        The impossible 12,55 Jahre
   Rechen-Jahre        run finished in...


Anzahl Liganden         Ca. 21 Millionen Liganden
Metrik          Anzahl
        Rechen-Stunden          109927 Stunden

           Rechen-Tage          4580 Tage
               Using CycleCloud & Amazon Cloud

                The impossible 12,55 Jahre
           Rechen-Jahre        run finished in...

        Anzahl Liganden         Ca. 21 Millionen Liganden



  Mit CycleCloud & Amazon Cloud
Der unmögliche Rechenlauf dauerte...
3 Stunden
fü 4828,85$/h
  r
Statt einer
>20 Millionen
Infrastructure
Die Big Data Revolution
Was ist das?
BIG-DATA
  Die Sammlung und Analyse von großen
Datenmengen, um einen Wettbewerbsvorteil
              zu erlangen
Big Data Branchen




                      Netz-                                                                          User
                                                                                      Antivirus
                   optimierung                                                                    Demographics
   Gezielte                                                          Monte Carlo                                    Maschinen-
  Werbung
Medien/Werbun
                      Telco
                                    Empfehlungen
                                       Retail       Life Sciences
                                                                     Simulationen
                                                                    Finanz-Dienstl.    Security
                                                                                                    Soziales       Produk-
                                                                                                                   daten-Analyse
      g                                                                                            Netz/Spiele
                                                                                                                     tion
                                                      Genom                            Betrugs-
                  Traffic Analyse                                                                 Usage analysis
                                                      Analyse                         erkennung



 Bild und Video                     Transaktions-                                                                    Ausfall-
                                                                    Risiko-Analyse
  Verarbeitung                         Analyse                                                                      Vorhersage
                      Preis-                                                             Bild-       In-game
                   optimierung                                                        erkennung       metrics
Die Revolution
Habe Daten
Habe Daten

Kann speichern
Habe Daten

Kann speichern Kann analysieren
kostengünstig
schnell
n e        Wer ist Ihr Kunde wirklich?
   nd
Ku




            Was mögen Kunden wirklich?
            Was geschieht sozial mit Ihren
                              Produkten?
          Wie verwenden Ihre Kunden Ihre
                   Produkte tatsächlich?
29
Erkenntnis 1: Lassen Sie Ihr Amazon Konto zu
           Hause nicht eingeloggt

Erkenntnis 2: Verwenden Sie Ihre vorhandenen
        Daten für proaktive Prozesse
Big Data mit AWS




                   Storage                Big Data                Compute




                     Herausforderungen fangen bei relativ kleinen Datenmengen an

        100 GB                                                               1,000 PB
Big Data mit AWS




                   Storage    Big Data         Compute




  Wenn Datenmengen und Datenanalysen so weit skalieren müssen, dass
   Sie innovativ sein müssen mit Sammlung, Speicherung, Organisation,
                     Analyse und Weitergabe der Daten
Storage     Big Data                     Compute
          Daten haben Schwerkraft




App                    Daten                                 App




                                    http://blog.mccrory.me/2010/12/07/data-gravity-in-the-clouds/
Storage         Big Data                    Compute
          …und in großen Mengen Trägheit…




App                                                             App
      Latenz                                   Durch
                                                    satz
                        Daten




                                      http://blog.mccrory.me/2010/12/07/data-gravity-in-the-clouds/
Storage                Big Data                     Compute
…was es einfacher macht, die Anwendungen zu verschieben als die Daten




                 A               Daten




                                                         App
                  pp




                                                http://blog.mccrory.me/2010/12/07/data-gravity-in-the-clouds/
Warum jetzt?
Storage         Big Data                Compute
                              Warum jetzt?



                                                   Datensammlung und
HPC Computing                                             -auswertung
Große Algorithmen & Modelle             Bioanalyse, Bergbau, Ingenieurwesen
Websites                                                    Sensordaten
Blogs/Reviews/Emails/Bilder                     Wetter, Wasser, Smart Grids
Soziale Graphen                                            Bilder/Videos
Facebook, Linked In, Kontakte                Verkehr, Überwachungskameras
Application Server Logs                                           Twitter
Websites, Spiele...                      50m Tweets/Tag, 1400% Wachstum
                                                                pro Jahr
Storage         Big Data                Compute
                              Warum jetzt?



                                                   Datensammlung und
HPC Computing                                             -auswertung
Große Algorithmen & Modelle             Bioanalyse, Bergbau, Ingenieurwesen


Mobil verbundene Welt
Websites
Blogs/Reviews/Emails/Bilder
                                                            Sensordaten
                                                Wetter, Wasser, Smart Grids
Soziale Graphen
             (Daten einfacher zu sammeln, Bilder/Videos
Facebook, Linked In, Kontakte                Verkehr, Überwachungskameras
             mehr Menschen generieren Daten)
Application Server Logs                                           Twitter
Websites, Spiele...                      50m Tweets/Tag, 1400% Wachstum
                                                                pro Jahr
Storage        Big Data                 Compute
                              Warum jetzt?



                                                   Datensammlung und
HPC Computing                                             -auswertung
Große Algorithmen & Modelle             Bioanalyse, Bergbau, Ingenieurwesen
Websites                                                    Sensordaten
Mehr Aspekte der Daten
Blogs/Reviews/Emails/Bilder
Soziale Graphen
                                                Wetter, Wasser, Smart Grids
                                                           Bilder/Videos
               (Vielfalt, Tiefe,
Facebook, Linked In, Kontakte           Ort, Häufigkeit)
                                           Verkehr, Überwachungskameras
Application Server Logs                                           Twitter
Websites, Spiele...                      50m Tweets/Tag, 1400% Wachstum
                                                                pro Jahr
Storage        Big Data                 Compute
                              Warum jetzt?



                                                   Datensammlung und
HPC Computing                                             -auswertung
Große Algorithmen & Modelle             Bioanalyse, Bergbau, Ingenieurwesen
Websites                                                    Sensordaten
Reichhaltigkeit erhalten
Blogs/Reviews/Emails/Bilder
Soziale Graphen
                                                Wetter, Wasser, Smart Grids
                                                           Bilder/Videos
Facebook,muss nicht mitteln,
  (man Linked In, Kontakte              aggregieren oder löschen)
                                           Verkehr, Überwachungskameras
Application Server Logs                                           Twitter
Websites, Spiele...                      50m Tweets/Tag, 1400% Wachstum
                                                                pro Jahr
Storage   Big Data             Compute
          Von einer Instanz…
Storage   Big Data         Compute
           …zu tausenden
Storage   Big Data               Compute
          …und zurück zu einer
1 Instanz für 100 Stunden
             =
100 Instanzen für 1 Stunde
Small Instance = $6
Aber was ist das?
Ein Framework
                   Teilt Daten auf
         Führt Berechnungen aus
Sammelt die Ergebnisse zusammen
Sehr großes
  Klick-Log
 (TeraByte)
Viele Aktivitäten von
              Hans Meier




Sehr großes
  Klick-Log
 (TeraByte)
Viele Aktivitäten von
              Hans Meier




Sehr großes
  Klick-Log
 (TeraByte)    Splitte das
               Log in viele
               kleine Teile
Verarbeitung in
                                      einem EMR Cluster
              Viele Aktivitäten von
              Hans Meier




Sehr großes
  Klick-Log
 (TeraByte)    Splitte das
               Log in viele
               kleine Teile
Verarbeitung in
                                      einem EMR Cluster
              Viele Aktivitäten von
              Hans Meier




Sehr großes
  Klick-Log
 (TeraByte)    Splitte das                  Aggregiere
               Log in viele                     die
               kleine Teile                 Ergebnisse
                                             von allen
                                              Knoten
Verarbeitung in
                                      einem EMR Cluster
              Viele Aktivitäten von
              Hans Meier




Sehr großes                                                Was
  Klick-Log                                               Hans
 (TeraByte)    Splitte das
               Log in viele
                                            Aggregiere
                                                die       Meier
               kleine Teile                 Ergebnisse
                                             von allen
                                              Knoten
                                                          getan
                                                           hat
Sehr großes                                               Was
  Klick-Log                                              Hans
 (TeraByte)   Erkenntnisse in einem Bruchteil der Zeit
                                                         Meier
                                                         getan
                                                          hat
1 Instanz für 100 Stunden
             =
100 Instanzen für 1 Stunde
Small Instance = $6
1 Instanz für 1000 Stunden
              =
1000 Instanzen für 1 Stunde
Small Instance = $60
Features, die Amazon Elastic
       MapReduce nutzen:
    Diese Geschäfte könnten dich auch interessieren...
                   Beitrags-Highlights
        Automatische Ergänzung bei der Eingabe
                Rechtschreib-Vorschläge
                       Top Suchen
                        Werbung


200 Elastic MapReduce Jobs pro Tag
       verarbeiten 3TB Daten
Alles, was eine beschränkte
       Ressource war
   ist jetzt eine programmierbare
               Ressource
Nicht vergessen: Schalten Sie Ihre Cloud Ressourcen aus,
wenn Sie sie nicht brauchen
Die Cloud ermöglicht die Sammlung von Big
                  Data
Die Cloud ermöglicht die Verarbeitung von
                Big Data
Die Cloud ermöglicht die Nutzung von Big
                  Data
Ressourcen


• Hadoop Technik und Cases: http://www.powerof60.com/
• http://aws.amazon.com/de
• Beginnen Sie mit dem Free Tier:
  http://aws.amazon.com/de/free/
• 25 US$ Startguthaben für Neukunden:
  http://aws.amazon.com/de/campaigns/account/
• Twitter: @AWS_Aktuell
• Facebook:
  http://www.facebook.com/awsaktuell
• Webinare: http://aws.amazon.com/de/about-aws/events/

Weitere ähnliche Inhalte

Was ist angesagt?

Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...
Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...
Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...
Spark Summit
 
Data Warehouse (DWH) with MySQL
Data Warehouse (DWH) with MySQLData Warehouse (DWH) with MySQL
Data Warehouse (DWH) with MySQL
FromDual GmbH
 

Was ist angesagt? (13)

Big/Smart/Fast Data – a very compact overview
Big/Smart/Fast Data – a very compact overviewBig/Smart/Fast Data – a very compact overview
Big/Smart/Fast Data – a very compact overview
 
Wirksames Stammdatenmanagement
Wirksames StammdatenmanagementWirksames Stammdatenmanagement
Wirksames Stammdatenmanagement
 
Big Data Anwendungen und Infrastrukturen
Big Data Anwendungen und InfrastrukturenBig Data Anwendungen und Infrastrukturen
Big Data Anwendungen und Infrastrukturen
 
Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...
Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...
Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...
 
GraphTalk Berlin - Deutschlands erstes Entscheidernetzwerk mit Neo4j
GraphTalk Berlin - Deutschlands erstes Entscheidernetzwerk mit Neo4jGraphTalk Berlin - Deutschlands erstes Entscheidernetzwerk mit Neo4j
GraphTalk Berlin - Deutschlands erstes Entscheidernetzwerk mit Neo4j
 
Big Data, Big Brother
Big Data, Big BrotherBig Data, Big Brother
Big Data, Big Brother
 
Analytics meets Big Data – R/Python auf der Hadoop/Spark-Plattform
Analytics meets Big Data – R/Python auf der Hadoop/Spark-PlattformAnalytics meets Big Data – R/Python auf der Hadoop/Spark-Plattform
Analytics meets Big Data – R/Python auf der Hadoop/Spark-Plattform
 
Neo4j Use Cases - Graphdatenbanken im Einsatz
Neo4j Use Cases - Graphdatenbanken im EinsatzNeo4j Use Cases - Graphdatenbanken im Einsatz
Neo4j Use Cases - Graphdatenbanken im Einsatz
 
Marvin, Data Science & Spark – haben wir ohne Mathematik und Technik noch ein...
Marvin, Data Science & Spark – haben wir ohne Mathematik und Technik noch ein...Marvin, Data Science & Spark – haben wir ohne Mathematik und Technik noch ein...
Marvin, Data Science & Spark – haben wir ohne Mathematik und Technik noch ein...
 
Dlr v1.2
Dlr v1.2Dlr v1.2
Dlr v1.2
 
Azure Data Factory – Data Management für die Cloud
Azure Data Factory – Data Management für die CloudAzure Data Factory – Data Management für die Cloud
Azure Data Factory – Data Management für die Cloud
 
Data Warehouse (DWH) with MySQL
Data Warehouse (DWH) with MySQLData Warehouse (DWH) with MySQL
Data Warehouse (DWH) with MySQL
 
Einfuhrung datascience
Einfuhrung datascienceEinfuhrung datascience
Einfuhrung datascience
 

Andere mochten auch

Carpa Recreación
Carpa RecreaciónCarpa Recreación
Carpa Recreación
RedesCemefi
 
Urteil lg frankfurt am main vom 02.11.2011
Urteil lg frankfurt am main vom 02.11.2011Urteil lg frankfurt am main vom 02.11.2011
Urteil lg frankfurt am main vom 02.11.2011
SpruchZ
 
Cambio de actitud
Cambio de actitudCambio de actitud
Cambio de actitud
tonymachaca
 

Andere mochten auch (20)

Big Data, Augmented Ubiquity, Quantified Self
Big Data, Augmented Ubiquity, Quantified SelfBig Data, Augmented Ubiquity, Quantified Self
Big Data, Augmented Ubiquity, Quantified Self
 
Carpa Recreación
Carpa RecreaciónCarpa Recreación
Carpa Recreación
 
Dss megaeventos JBreilh encuentro enf 08 2013
Dss megaeventos JBreilh encuentro enf 08 2013Dss megaeventos JBreilh encuentro enf 08 2013
Dss megaeventos JBreilh encuentro enf 08 2013
 
Urteil lg frankfurt am main vom 02.11.2011
Urteil lg frankfurt am main vom 02.11.2011Urteil lg frankfurt am main vom 02.11.2011
Urteil lg frankfurt am main vom 02.11.2011
 
Berlin
BerlinBerlin
Berlin
 
Cambio de actitud
Cambio de actitudCambio de actitud
Cambio de actitud
 
Kalabrien und Apulien Mystische Städtchen im Herzen des Mittagsland, einfach...
Kalabrien und Apulien  Mystische Städtchen im Herzen des Mittagsland, einfach...Kalabrien und Apulien  Mystische Städtchen im Herzen des Mittagsland, einfach...
Kalabrien und Apulien Mystische Städtchen im Herzen des Mittagsland, einfach...
 
SESION 1 Y 2
SESION  1  Y  2SESION  1  Y  2
SESION 1 Y 2
 
Presentación1
Presentación1Presentación1
Presentación1
 
TABIMED - Catálogo de productos
TABIMED - Catálogo de productosTABIMED - Catálogo de productos
TABIMED - Catálogo de productos
 
Letras
LetrasLetras
Letras
 
Laneuroplasticidad
LaneuroplasticidadLaneuroplasticidad
Laneuroplasticidad
 
Panel discapacidad jb 11 01 2012
Panel discapacidad jb 11 01 2012Panel discapacidad jb 11 01 2012
Panel discapacidad jb 11 01 2012
 
Semantic & Conversational Search - Daniel Herndler | Content Day 2014
Semantic & Conversational Search - Daniel Herndler | Content Day 2014Semantic & Conversational Search - Daniel Herndler | Content Day 2014
Semantic & Conversational Search - Daniel Herndler | Content Day 2014
 
Spruch z 2014_2
Spruch z 2014_2Spruch z 2014_2
Spruch z 2014_2
 
Spruchverfahren aktuell (SpruchZ) Nr. 6/2015
Spruchverfahren aktuell (SpruchZ) Nr. 6/2015Spruchverfahren aktuell (SpruchZ) Nr. 6/2015
Spruchverfahren aktuell (SpruchZ) Nr. 6/2015
 
2469 sexo y_salud
2469 sexo y_salud2469 sexo y_salud
2469 sexo y_salud
 
Herbari digital
Herbari digitalHerbari digital
Herbari digital
 
7 principios del cerebro
7 principios del cerebro7 principios del cerebro
7 principios del cerebro
 
Feedbackstr Einsatz bei Kino-Veranstaltungen
Feedbackstr Einsatz bei Kino-VeranstaltungenFeedbackstr Einsatz bei Kino-Veranstaltungen
Feedbackstr Einsatz bei Kino-Veranstaltungen
 

Ähnlich wie Daten ohne Grenzen – Big Data

Aras PLM Software Digital Natives
Aras PLM Software Digital NativesAras PLM Software Digital Natives
Aras PLM Software Digital Natives
Aras
 
Splunk corporate overview German 2012
Splunk corporate overview German 2012Splunk corporate overview German 2012
Splunk corporate overview German 2012
jenny_splunk
 

Ähnlich wie Daten ohne Grenzen – Big Data (20)

Folien2 spss watson roadshow_predictive
Folien2 spss watson roadshow_predictiveFolien2 spss watson roadshow_predictive
Folien2 spss watson roadshow_predictive
 
Innovation in der Instandhaltung - Motor für die Zukunft
Innovation in der Instandhaltung - Motor für die ZukunftInnovation in der Instandhaltung - Motor für die Zukunft
Innovation in der Instandhaltung - Motor für die Zukunft
 
Big Data - Die große Innovation?
Big Data - Die große Innovation?Big Data - Die große Innovation?
Big Data - Die große Innovation?
 
Big Data - Eine Tour d'Horizon
Big Data - Eine Tour d'HorizonBig Data - Eine Tour d'Horizon
Big Data - Eine Tour d'Horizon
 
Cloud Wars – what‘s the smartest data platform? Vergleich Microsoft Azure, Am...
Cloud Wars – what‘s the smartest data platform? Vergleich Microsoft Azure, Am...Cloud Wars – what‘s the smartest data platform? Vergleich Microsoft Azure, Am...
Cloud Wars – what‘s the smartest data platform? Vergleich Microsoft Azure, Am...
 
PLM-Zukunftsthemen
PLM-ZukunftsthemenPLM-Zukunftsthemen
PLM-Zukunftsthemen
 
ENGINEERING Cyber Security für Public, Energy, Health Feb. 2023.pdf
ENGINEERING Cyber Security für Public, Energy, Health Feb. 2023.pdfENGINEERING Cyber Security für Public, Energy, Health Feb. 2023.pdf
ENGINEERING Cyber Security für Public, Energy, Health Feb. 2023.pdf
 
Aras PLM Software Digital Natives
Aras PLM Software Digital NativesAras PLM Software Digital Natives
Aras PLM Software Digital Natives
 
Die Experton Big Data Studie und Splunk
Die Experton Big Data Studie und SplunkDie Experton Big Data Studie und Splunk
Die Experton Big Data Studie und Splunk
 
Oracle Cloud
Oracle CloudOracle Cloud
Oracle Cloud
 
Namics & Adobe Industrie-Workshop "Be smart" vom 23.05.2017
Namics & Adobe Industrie-Workshop "Be smart" vom 23.05.2017Namics & Adobe Industrie-Workshop "Be smart" vom 23.05.2017
Namics & Adobe Industrie-Workshop "Be smart" vom 23.05.2017
 
Dotnet Cologne 2015: //Rebuild - Big Data Analysis End-to-End
Dotnet Cologne 2015: //Rebuild - Big Data Analysis End-to-EndDotnet Cologne 2015: //Rebuild - Big Data Analysis End-to-End
Dotnet Cologne 2015: //Rebuild - Big Data Analysis End-to-End
 
Clash of Cultures: Agile Microservices & Business Intelligence (Frank Schmidt...
Clash of Cultures: Agile Microservices & Business Intelligence (Frank Schmidt...Clash of Cultures: Agile Microservices & Business Intelligence (Frank Schmidt...
Clash of Cultures: Agile Microservices & Business Intelligence (Frank Schmidt...
 
Splunk corporate overview German 2012
Splunk corporate overview German 2012Splunk corporate overview German 2012
Splunk corporate overview German 2012
 
Stermedia Profile und Portfolio
Stermedia Profile und PortfolioStermedia Profile und Portfolio
Stermedia Profile und Portfolio
 
Smec ebusiness breakfast bmw münchen
Smec ebusiness breakfast bmw münchenSmec ebusiness breakfast bmw münchen
Smec ebusiness breakfast bmw münchen
 
Internet of Things Architecture
Internet of Things ArchitectureInternet of Things Architecture
Internet of Things Architecture
 
Mobile, Social, Local, Realtime
Mobile, Social, Local, RealtimeMobile, Social, Local, Realtime
Mobile, Social, Local, Realtime
 
Wie ein einziges Byte im großen Datenstrom Millionen sparen kann
Wie ein einziges Byte im großen Datenstrom Millionen sparen kannWie ein einziges Byte im großen Datenstrom Millionen sparen kann
Wie ein einziges Byte im großen Datenstrom Millionen sparen kann
 
Digitale Zwillinge
Digitale ZwillingeDigitale Zwillinge
Digitale Zwillinge
 

Mehr von AWS Germany

Mehr von AWS Germany (20)

Analytics Web Day | From Theory to Practice: Big Data Stories from the Field
Analytics Web Day | From Theory to Practice: Big Data Stories from the FieldAnalytics Web Day | From Theory to Practice: Big Data Stories from the Field
Analytics Web Day | From Theory to Practice: Big Data Stories from the Field
 
Analytics Web Day | Query your Data in S3 with SQL and optimize for Cost and ...
Analytics Web Day | Query your Data in S3 with SQL and optimize for Cost and ...Analytics Web Day | Query your Data in S3 with SQL and optimize for Cost and ...
Analytics Web Day | Query your Data in S3 with SQL and optimize for Cost and ...
 
Modern Applications Web Day | Impress Your Friends with Your First Serverless...
Modern Applications Web Day | Impress Your Friends with Your First Serverless...Modern Applications Web Day | Impress Your Friends with Your First Serverless...
Modern Applications Web Day | Impress Your Friends with Your First Serverless...
 
Modern Applications Web Day | Manage Your Infrastructure and Configuration on...
Modern Applications Web Day | Manage Your Infrastructure and Configuration on...Modern Applications Web Day | Manage Your Infrastructure and Configuration on...
Modern Applications Web Day | Manage Your Infrastructure and Configuration on...
 
Modern Applications Web Day | Container Workloads on AWS
Modern Applications Web Day | Container Workloads on AWSModern Applications Web Day | Container Workloads on AWS
Modern Applications Web Day | Container Workloads on AWS
 
Modern Applications Web Day | Continuous Delivery to Amazon EKS with Spinnaker
Modern Applications Web Day | Continuous Delivery to Amazon EKS with SpinnakerModern Applications Web Day | Continuous Delivery to Amazon EKS with Spinnaker
Modern Applications Web Day | Continuous Delivery to Amazon EKS with Spinnaker
 
Building Smart Home skills for Alexa
Building Smart Home skills for AlexaBuilding Smart Home skills for Alexa
Building Smart Home skills for Alexa
 
Hotel or Taxi? "Sorting hat" for travel expenses with AWS ML infrastructure
Hotel or Taxi? "Sorting hat" for travel expenses with AWS ML infrastructureHotel or Taxi? "Sorting hat" for travel expenses with AWS ML infrastructure
Hotel or Taxi? "Sorting hat" for travel expenses with AWS ML infrastructure
 
Wild Rydes with Big Data/Kinesis focus: AWS Serverless Workshop
Wild Rydes with Big Data/Kinesis focus: AWS Serverless WorkshopWild Rydes with Big Data/Kinesis focus: AWS Serverless Workshop
Wild Rydes with Big Data/Kinesis focus: AWS Serverless Workshop
 
Log Analytics with AWS
Log Analytics with AWSLog Analytics with AWS
Log Analytics with AWS
 
Deep Dive into Concepts and Tools for Analyzing Streaming Data on AWS
Deep Dive into Concepts and Tools for Analyzing Streaming Data on AWS Deep Dive into Concepts and Tools for Analyzing Streaming Data on AWS
Deep Dive into Concepts and Tools for Analyzing Streaming Data on AWS
 
AWS Programme für Nonprofits
AWS Programme für NonprofitsAWS Programme für Nonprofits
AWS Programme für Nonprofits
 
Microservices and Data Design
Microservices and Data DesignMicroservices and Data Design
Microservices and Data Design
 
Serverless vs. Developers – the real crash
Serverless vs. Developers – the real crashServerless vs. Developers – the real crash
Serverless vs. Developers – the real crash
 
Query your data in S3 with SQL and optimize for cost and performance
Query your data in S3 with SQL and optimize for cost and performanceQuery your data in S3 with SQL and optimize for cost and performance
Query your data in S3 with SQL and optimize for cost and performance
 
Secret Management with Hashicorp’s Vault
Secret Management with Hashicorp’s VaultSecret Management with Hashicorp’s Vault
Secret Management with Hashicorp’s Vault
 
EKS Workshop
 EKS Workshop EKS Workshop
EKS Workshop
 
Scale to Infinity with ECS
Scale to Infinity with ECSScale to Infinity with ECS
Scale to Infinity with ECS
 
Containers on AWS - State of the Union
Containers on AWS - State of the UnionContainers on AWS - State of the Union
Containers on AWS - State of the Union
 
Deploying and Scaling Your First Cloud Application with Amazon Lightsail
Deploying and Scaling Your First Cloud Application with Amazon LightsailDeploying and Scaling Your First Cloud Application with Amazon Lightsail
Deploying and Scaling Your First Cloud Application with Amazon Lightsail
 

Daten ohne Grenzen – Big Data

  • 1. Daten ohne Grenzen – Big Data Steffen Krause Technical Evangelist @AWS_Aktuell skrause@amazon.de
  • 2. Ein Supercomputer in den Händen eines jeden Entwicklers
  • 3. 50000 Core CycleCloud Super Computer in der Amazon Cloud
  • 4. Wie groß sind 50000 Cores? Warum ist das wichtig?
  • 5. Neue Krebsfälle pro Jahr: 12,66 Millionen (W.H.O./Globocan 2008)
  • 6. Jeder Tag ist wichtig – und teuer
  • 7. Ein führender Entwickler von algorithmischer Chemie
  • 10. Finde Moleküle, die hineinpassen
  • 11. Finde Treffer in Millionen Schlüsseln
  • 12. Herausforderung: Virtuelle Tests mit höherer Genauigkeit und 21 Millionen Verbindungen
  • 13. Metrik Anzahl Rechen-Stunden 109927 Stunden Rechen-Tage 4580 Tage Using CycleCloud & Amazon Cloud The impossible 12,55 Jahre Rechen-Jahre run finished in... Anzahl Liganden Ca. 21 Millionen Liganden
  • 14. Metrik Anzahl Rechen-Stunden 109927 Stunden Rechen-Tage 4580 Tage Using CycleCloud & Amazon Cloud The impossible 12,55 Jahre Rechen-Jahre run finished in... Anzahl Liganden Ca. 21 Millionen Liganden Mit CycleCloud & Amazon Cloud Der unmögliche Rechenlauf dauerte...
  • 16.
  • 18. Die Big Data Revolution
  • 20. BIG-DATA Die Sammlung und Analyse von großen Datenmengen, um einen Wettbewerbsvorteil zu erlangen
  • 21. Big Data Branchen Netz- User Antivirus optimierung Demographics Gezielte Monte Carlo Maschinen- Werbung Medien/Werbun Telco Empfehlungen Retail Life Sciences Simulationen Finanz-Dienstl. Security Soziales Produk- daten-Analyse g Netz/Spiele tion Genom Betrugs- Traffic Analyse Usage analysis Analyse erkennung Bild und Video Transaktions- Ausfall- Risiko-Analyse Verarbeitung Analyse Vorhersage Preis- Bild- In-game optimierung erkennung metrics
  • 25. Habe Daten Kann speichern Kann analysieren
  • 28. n e Wer ist Ihr Kunde wirklich? nd Ku Was mögen Kunden wirklich? Was geschieht sozial mit Ihren Produkten? Wie verwenden Ihre Kunden Ihre Produkte tatsächlich?
  • 29. 29
  • 30.
  • 31. Erkenntnis 1: Lassen Sie Ihr Amazon Konto zu Hause nicht eingeloggt Erkenntnis 2: Verwenden Sie Ihre vorhandenen Daten für proaktive Prozesse
  • 32. Big Data mit AWS Storage Big Data Compute Herausforderungen fangen bei relativ kleinen Datenmengen an 100 GB 1,000 PB
  • 33. Big Data mit AWS Storage Big Data Compute Wenn Datenmengen und Datenanalysen so weit skalieren müssen, dass Sie innovativ sein müssen mit Sammlung, Speicherung, Organisation, Analyse und Weitergabe der Daten
  • 34. Storage Big Data Compute Daten haben Schwerkraft App Daten App http://blog.mccrory.me/2010/12/07/data-gravity-in-the-clouds/
  • 35. Storage Big Data Compute …und in großen Mengen Trägheit… App App Latenz Durch satz Daten http://blog.mccrory.me/2010/12/07/data-gravity-in-the-clouds/
  • 36. Storage Big Data Compute …was es einfacher macht, die Anwendungen zu verschieben als die Daten A Daten App pp http://blog.mccrory.me/2010/12/07/data-gravity-in-the-clouds/
  • 38. Storage Big Data Compute Warum jetzt? Datensammlung und HPC Computing -auswertung Große Algorithmen & Modelle Bioanalyse, Bergbau, Ingenieurwesen Websites Sensordaten Blogs/Reviews/Emails/Bilder Wetter, Wasser, Smart Grids Soziale Graphen Bilder/Videos Facebook, Linked In, Kontakte Verkehr, Überwachungskameras Application Server Logs Twitter Websites, Spiele... 50m Tweets/Tag, 1400% Wachstum pro Jahr
  • 39. Storage Big Data Compute Warum jetzt? Datensammlung und HPC Computing -auswertung Große Algorithmen & Modelle Bioanalyse, Bergbau, Ingenieurwesen Mobil verbundene Welt Websites Blogs/Reviews/Emails/Bilder Sensordaten Wetter, Wasser, Smart Grids Soziale Graphen (Daten einfacher zu sammeln, Bilder/Videos Facebook, Linked In, Kontakte Verkehr, Überwachungskameras mehr Menschen generieren Daten) Application Server Logs Twitter Websites, Spiele... 50m Tweets/Tag, 1400% Wachstum pro Jahr
  • 40. Storage Big Data Compute Warum jetzt? Datensammlung und HPC Computing -auswertung Große Algorithmen & Modelle Bioanalyse, Bergbau, Ingenieurwesen Websites Sensordaten Mehr Aspekte der Daten Blogs/Reviews/Emails/Bilder Soziale Graphen Wetter, Wasser, Smart Grids Bilder/Videos (Vielfalt, Tiefe, Facebook, Linked In, Kontakte Ort, Häufigkeit) Verkehr, Überwachungskameras Application Server Logs Twitter Websites, Spiele... 50m Tweets/Tag, 1400% Wachstum pro Jahr
  • 41. Storage Big Data Compute Warum jetzt? Datensammlung und HPC Computing -auswertung Große Algorithmen & Modelle Bioanalyse, Bergbau, Ingenieurwesen Websites Sensordaten Reichhaltigkeit erhalten Blogs/Reviews/Emails/Bilder Soziale Graphen Wetter, Wasser, Smart Grids Bilder/Videos Facebook,muss nicht mitteln, (man Linked In, Kontakte aggregieren oder löschen) Verkehr, Überwachungskameras Application Server Logs Twitter Websites, Spiele... 50m Tweets/Tag, 1400% Wachstum pro Jahr
  • 42. Storage Big Data Compute Von einer Instanz…
  • 43. Storage Big Data Compute …zu tausenden
  • 44. Storage Big Data Compute …und zurück zu einer
  • 45. 1 Instanz für 100 Stunden = 100 Instanzen für 1 Stunde
  • 47.
  • 48. Aber was ist das?
  • 49. Ein Framework Teilt Daten auf Führt Berechnungen aus Sammelt die Ergebnisse zusammen
  • 50. Sehr großes Klick-Log (TeraByte)
  • 51. Viele Aktivitäten von Hans Meier Sehr großes Klick-Log (TeraByte)
  • 52. Viele Aktivitäten von Hans Meier Sehr großes Klick-Log (TeraByte) Splitte das Log in viele kleine Teile
  • 53. Verarbeitung in einem EMR Cluster Viele Aktivitäten von Hans Meier Sehr großes Klick-Log (TeraByte) Splitte das Log in viele kleine Teile
  • 54. Verarbeitung in einem EMR Cluster Viele Aktivitäten von Hans Meier Sehr großes Klick-Log (TeraByte) Splitte das Aggregiere Log in viele die kleine Teile Ergebnisse von allen Knoten
  • 55. Verarbeitung in einem EMR Cluster Viele Aktivitäten von Hans Meier Sehr großes Was Klick-Log Hans (TeraByte) Splitte das Log in viele Aggregiere die Meier kleine Teile Ergebnisse von allen Knoten getan hat
  • 56. Sehr großes Was Klick-Log Hans (TeraByte) Erkenntnisse in einem Bruchteil der Zeit Meier getan hat
  • 57. 1 Instanz für 100 Stunden = 100 Instanzen für 1 Stunde
  • 59. 1 Instanz für 1000 Stunden = 1000 Instanzen für 1 Stunde
  • 61. Features, die Amazon Elastic MapReduce nutzen: Diese Geschäfte könnten dich auch interessieren... Beitrags-Highlights Automatische Ergänzung bei der Eingabe Rechtschreib-Vorschläge Top Suchen Werbung 200 Elastic MapReduce Jobs pro Tag verarbeiten 3TB Daten
  • 62.
  • 63.
  • 64.
  • 65.
  • 66. Alles, was eine beschränkte Ressource war ist jetzt eine programmierbare Ressource
  • 67. Nicht vergessen: Schalten Sie Ihre Cloud Ressourcen aus, wenn Sie sie nicht brauchen
  • 68. Die Cloud ermöglicht die Sammlung von Big Data
  • 69. Die Cloud ermöglicht die Verarbeitung von Big Data
  • 70. Die Cloud ermöglicht die Nutzung von Big Data
  • 71. Ressourcen • Hadoop Technik und Cases: http://www.powerof60.com/ • http://aws.amazon.com/de • Beginnen Sie mit dem Free Tier: http://aws.amazon.com/de/free/ • 25 US$ Startguthaben für Neukunden: http://aws.amazon.com/de/campaigns/account/ • Twitter: @AWS_Aktuell • Facebook: http://www.facebook.com/awsaktuell • Webinare: http://aws.amazon.com/de/about-aws/events/