Big Data
Steffen Krause
Technical Evangelist
@AWS_Aktuell
skrause@amazon.de
Die Big Data Revolution
Was ist das?
Die Sammlung und Analyse von großen
Datenmengen, um einen Wettbewerbsvorteil
zu erlangen
BIG-DATA
Medien/Werbung
Gezielte
Werbung
Bild und Video
Verarbeitung
Telco
Netz-
optimierung
Traffic Analyse
Preis-
optimierung
Retail
Empfehlungen
Transaktions-
Analyse
Life Sciences
Genom
Analyse
Finanz-Dienstl.
Monte Carlo
Simulationen
Risiko-Analyse
Security
Antivirus
Betrugs-
erkennung
Bild-
erkennung
Soziales
Netz/Spiele
User
Demographics
Usage analysis
In-game
metrics
Produk-
tion
Maschinen-
daten-Analyse
Ausfall-
Vorhersage
Big Data Branchen
Habe Daten
Kann speichern
Habe Daten
Kann speichern Kann analysieren
Habe Daten
Kann speichern Kann analysieren
Habe Daten
kostengünstig & schnell
Wer ist Ihr Kunde wirklich?
Was mögen Kunden wirklich?
Was geschieht sozial mit Ihren
Produkten?
Wie verwenden Ihre Kunden Ihre
Produkte tatsächlich?
12
Erkenntnis 1: Lassen Sie Ihr Amazon
Konto zu Hause nicht eingeloggt
Erkenntnis 2: Verwenden Sie Ihre
vorhandenen Daten für proaktive
Prozesse
Warum jetzt?
HPC Computing
Große Algorithmen & Modelle
Websites
Blogs/Reviews/Emails/Bilder
Soziale Graphen
Facebook, Linked In, Kontakte
Application Server Logs
Websites, Spiele...
Datensammlung und
-auswertung
Bioanalyse, Bergbau, Ingenieurwesen
Sensordaten
Wetter, Wasser, Smart Grids
Bilder/Videos
Verkehr, Überwachungskameras
Twitter
50m Tweets/Tag, 1400% Wachstum
pro Jahr
Warum jetzt?
ComputeStorage Big Data
HPC Computing
Große Algorithmen & Modelle
Websites
Blogs/Reviews/Emails/Bilder
Soziale Graphen
Facebook, Linked In, Kontakte
Application Server Logs
Websites, Spiele...
Datensammlung und -
auswertung
Bioanalyse, Bergbau, Ingenieurwesen
Sensordaten
Wetter, Wasser, Smart Grids
Bilder/Videos
Verkehr, Überwachungskameras
Twitter
50m Tweets/Tag, 1400% Wachstum
pro Jahr
Warum jetzt?
ComputeStorage Big Data
Mobil verbundene Welt
(Daten einfacher zu sammeln,
mehr Menschen generieren Daten)
HPC Computing
Große Algorithmen & Modelle
Websites
Blogs/Reviews/Emails/Bilder
Soziale Graphen
Facebook, Linked In, Kontakte
Application Server Logs
Websites, Spiele...
Datensammlung und -
auswertung
Bioanalyse, Bergbau, Ingenieurwesen
Sensordaten
Wetter, Wasser, Smart Grids
Bilder/Videos
Verkehr, Überwachungskameras
Twitter
50m Tweets/Tag, 1400% Wachstum
pro Jahr
Warum jetzt?
ComputeStorage Big Data
Mehr Aspekte der Daten
(Vielfalt, Tiefe, Ort, Häufigkeit)
HPC Computing
Große Algorithmen & Modelle
Websites
Blogs/Reviews/Emails/Bilder
Soziale Graphen
Facebook, Linked In, Kontakte
Application Server Logs
Websites, Spiele...
Datensammlung und -
auswertung
Bioanalyse, Bergbau, Ingenieurwesen
Sensordaten
Wetter, Wasser, Smart Grids
Bilder/Videos
Verkehr, Überwachungskameras
Twitter
50m Tweets/Tag, 1400% Wachstum
pro Jahr
Warum jetzt?
ComputeStorage Big Data
Reichhaltigkeit erhalten
(man muss nicht mitteln, aggregieren oder löschen)
ComputeStorage Big Data
100 GB 1,000 PB
Herausforderungen fangen bei relativ kleinen Datenmengen an
Big Data mit AWS
Wenn Datenmengen und Datenanalysen so weit skalieren müssen, dass
Sie innovativ sein müssen mit
Sammlung, Speicherung, Organisation, Analyse und Weitergabe der
Daten
ComputeStorage Big Data
Big Data mit AWS
DatenApp App
http://blog.mccrory.me/2010/12/07/data-gravity-in-the-clouds/
Daten haben Schwerkraft
ComputeStorage Big Data
Daten
http://blog.mccrory.me/2010/12/07/data-gravity-in-the-clouds/
…und in großen Mengen Trägheit…
ComputeStorage Big Data
Daten
http://blog.mccrory.me/2010/12/07/data-gravity-in-the-clouds/
…was es einfacher macht, die Anwendungen zu verschieben als die Daten
ComputeStorage Big Data
Big Data Pipeline
Sammeln | Speichern | Organisieren |
Analysieren | Weitergeben
Wohin packen Sie Ihren Anteil?
Sammlung - Laden
AWS Direct Connect
Dedizierte Leitung zwischen Ihrem
RZ und AWS
Queuing
Zuverlässiges Messaging für
verteilte Aufgaben
Amazon Storage Gateway
Gateway zwischen Ihrer
Storage und AWS Storage
AWS Import/Export
Datentransfer auf physischen
Medien von und nach AWS
ComputeStorage Big Data
ComputeStorage Big Data
Relational Database Service
Voll verwaltete Datenbank
(MySQL, Oracle, MSSQL)
DynamoDB
NoSQL, schemafreie
Datenbank mit
provisioniertem Durchsatz
Simple Storage Service (S3)
Objektspeicher mit bis zu 5TB
pro Objekt
99,999999999% Dauerhaftigkeit
Wohin packen Sie Ihren Anteil?
ComputeStorage Big Data
Glacier
Archv-Langzeitspeicher
Ab $0,01 pro GB/Month
99.999999999% Dauerhaftigkeit
Wohin packen Sie Ihren Anteil?
ComputeStorage Big Data
Glacier – Komplettes Lifecycle Management
Daten-Import
Physische Datenträger an
AWS zum Laden der Daten
z.B. 50TB Sensordaten in ein
EBS Volumes mit einem
Gluster Filesystem
Berechnung &
Visualisierung
HPC & EMR Cluster Jobs auf
vielen tausend Cores
z.B. 200TB
Visualisierungsdaten
generiert von der
Clusterverarbeitung
Langzeitarchiv
Nach Abschluss der Analyse
werden die Daten ins Glacier
Archiv statt auf Tapes
gespeichert
Kosteneffizient im Vergleich
mit Tape, Zugriffszeit 3-5
Stunden wenn Daten benötigt
werden
ComputeStorage Big Data
Scale Price
Performance
Wie schnell müssen Sie Daten lesen können?
Einstellige
Millisekunden
10 -100te
Millisekunden
<5 Stunden
DynamoDB
Skalierbare Anwendungen
Provisionierter Durchsatz
Flexible Konsistenzmodelle
S3
Jedes Objekt, jede App
99,999999999% Dauerhaftigkeit
Objekte bis 5TB Größe
Glacier
Media & Asset Archiv
Sehr geringe Kosten
Dauerhaftigkeit wie S3
ComputeStorage Big Data
Scale Price
Performance
Verarbeitung in jeder Größe
Unbegrenzte Datenmengen
ComputeStorage Big Data
Scale Price
Performance
Bezahlung nach Verbrauch
Provisioned
IOPS
Provisionierte
Lese/Schreibperformance pro
DynamoDB Tabelle/EBS Volume
Bezahlung für provisionierte
Kapazität, unabhängig von der
Nutzung
Genutzter
Speicherplatz
Bezahlung nach gespeichertem
Volumen &
Lese/Schreibvorgänge
Keine Kapazitätsplanung
erforderlich für unbegrenzten
Speicherplatz
ComputeStorage Big Data
„Big Data“ ändert die Dynamik von Berechnung und Datenweitergabe
Sammlung ZusammenarbeitBerechnung
Wie beschaffe ich die Daten?
Wohin packe ich sie?
Welche Rechenleistung
kann ich anwenden?
Wie arbeite ich mit
anderen zusammen?
ComputeStorage Big Data
Direct Connect
Import/Export
S3
DynamoDB
EC2
GPUs
Elastic Map Reduce
Cloud Formation
Simple Workflow
S3
„Big Data“ ändert die Dynamik von Berechnung und Datenweitergabe
Sammlung ZusammenarbeitBerechnung
Wie beschaffe ich die Daten?
Wohin packe ich sie?
Welche Rechenleistung
kann ich anwenden?
Wie arbeite ich mit
anderen zusammen?
Aber was ist das?
Ein Framework
Teilt Daten auf
Führt Berechnungen aus
Sammelt die Ergebnisse zusammen
Sehr großes
Klick-Log
(TeraByte)
Sehr großes
Klick-Log
(TeraByte)
Viele Aktivitäten von
Hans Meier
Sehr großes
Klick-Log
(TeraByte)
Viele Aktivitäten von
Hans Meier
Splitte das
Log in viele
kleine Teile
Sehr großes
Klick-Log
(TeraByte)
Verarbeitung in
einem EMR Cluster
Viele Aktivitäten von
Hans Meier
Splitte das
Log in viele
kleine Teile
Sehr großes
Klick-Log
(TeraByte) Aggregiere
die
Ergebnisse
von allen
Knoten
Verarbeitung in
einem EMR Cluster
Viele Aktivitäten von
Hans Meier
Splitte das
Log in viele
kleine Teile
Sehr großes
Klick-Log
(TeraByte)
Was
Hans
Meier
getan
hat
Aggregiere
die
Ergebnisse
von allen
Knoten
Verarbeitung in
einem EMR Cluster
Viele Aktivitäten von
Hans Meier
Splitte das
Log in viele
kleine Teile
Sehr großes
Klick-Log
(TeraByte) Erkenntnisse in einem Bruchteil der Zeit
Was
Hans
Meier
getan
hat
Amazon Elastic MapReduce
ComputeStorage Big Data
Elastic MapReduce
Verwalteter, elastischer Hadoop Cluster
Integration mit S3 & DynamoDB
Nutzt Hive & Pig Analytics Scripts
Integration mit EC2 Optionen wie Spot
Instanzen
Hadoop-as-a-Service – Elastic MapReduce
Feature Details
Skalierbar Verwenden Sie so viele Hadoop Compute Instanzen
wie Sie wollen. Ändern Sie die Anzahl der Instanzen
während der Job Flow läuft
Integriert mit anderen
Diensten
Nahtlose Integration mit S3 als Quelle oder Ausgabe
Integration mit DynamoDB
Umfassend Unterstützt Hive und Pig für Definition der Analysen,
und komplexe Jobs in Cascading, Java, Ruby, Perl,
Python, PHP, R, oder C++
Kosteneffizient Unterstützt Spot Instanzen
Monitoring Überwachung der Job Flows aus der AWS Konsole
Elastic MapReduce
Verwalteter, elastischer Hadoop Cluster
Integration mit S3 & DynamoDB
Nutzt Hive & Pig Analytics Scripts
Integration mit EC2 Optionen wie Spot
Instanzen
Von einer Instanz…
ComputeStorage Big Data
…zu tausenden
ComputeStorage Big Data
…und zurück zu einer
ComputeStorage Big Data
1 Instanz für 100 Stunden
=
100 Instanzen für 1 Stunde
Small Instance = $6
1 Instanz für 1000 Stunden
=
1000 Instanzen für 1 Stunde
Small Instance = $60
Big Data Architekturen
S3, DynamoDB, Redshift
Eingabedaten
Elastic
MapReduce
Code
S3, DynamoDB, Redshift
Eingabedaten
Elastic
MapReduce
Code
S3, DynamoDB, Redshift
Eingabedaten
Name
Node
Elastic
MapReduce
Code
Elastic
cluster
S3, DynamoDB, Redshift
S3/HDFS
Eingabedaten
Name
Node
Elastic
MapReduce
Code
S3/HDFS
Via JDBC, Pig, Hive
S3, DynamoDB, Redshift
Elastic
cluster
Eingabedaten
Name
Node
Abfragen
+ BI
Elastic
MapReduce
Code Name
Node
Ausgabe
Eingabedaten
Abfragen
+ BI
Via JDBC, Pig, Hive
S3, DynamoDB, Redshift
Elastic
cluster
S3/HDFS
S3, DynamoDB, Redshift
Eingabedaten
Ausgabe
Nicht vergessen: Schalten Sie Ihre Cloud Ressourcen aus,
wenn Sie sie nicht brauchen
S3
DYNAMODB EMR EMR REDSHIFT DYNAMODB
DATA
PIPELINE
Integration
create external table items_db
(id string, votes bigint, views bigint) stored by
'org.apache.hadoop.hive.dynamodb.DynamoDBStorageHandler'
tblproperties
("dynamodb.table.name" = "items",
"dynamodb.column.mapping" =
"id:id,votes:votes,views:views");
Integration DynamoDB
select id, likes, views
from items_db
order by views desc;
Direkte Abfrage
CREATE EXTERNAL TABLE orders_s3_new_export ( order_id string,
customer_id string, order_date int, total double )
PARTITIONED BY (year string, month string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
LOCATION 's3://export_bucket';
INSERT OVERWRITE TABLE orders_s3_new_export
PARTITION (year='2012', month='01')
SELECT* from orders_ddb_2012_01;
Integration S3
Data Pipeline
Data Architecture
Data Analyst
Raw Data
Get
Data
Join via Facebook
Add a Skill Page
Invite Friends
Web Servers Amazon S3
User Action Trace Events
EMR
Hive Scripts Process Content
• Process log files with regular
expressions to parse out the info
we need.
• Processes cookies into useful
searchable data such as Session,
UserId, API Security token.
• Filters surplus info like internal
varnish logging.
Amazon S3
Aggregated Data
Raw Events
Internal Web
Excel Tableau
Amazon Redshift
Features, die Amazon Elastic
MapReduce nutzen:
Diese Geschäfte könnten dich auch interessieren...
Beitrags-Highlights
Automatische Ergänzung bei der Eingabe
Rechtschreib-Vorschläge
Top Suchen
Werbung
200 Elastic MapReduce Jobs pro Tag
verarbeiten 3TB Daten
Alles, was eine beschränkte
Ressource war
ist jetzt eine programmierbare
Ressource
Die Cloud ermöglicht die
Sammlung von Big Data
Die Cloud ermöglicht die
Verarbeitung von Big Data
Die Cloud ermöglicht die
Nutzung von Big Data
• Hadoop Technik und Cases: http://www.powerof60.com/
• http://aws.amazon.com/de
• Beginnen Sie mit dem Free Tier:
http://aws.amazon.com/de/free/
• 25 US$ Startguthaben für Neukunden:
http://aws.amazon.com/de/campaigns/account/
• Twitter: @AWS_Aktuell
• Facebook:
http://www.facebook.com/awsaktuell
• Webinare: http://aws.amazon.com/de/about-aws/events/
Ressourcen

Big Data Webinar (Deutsch)