AIR: Architecture for Interoperable Retrieval on Distributed and Heterogeneou...
Effiziente Verarbeitung von großen Datenmengen
1. Effiziente Verarbeitung von großen Datenmengen
Andreas Eisenkolb
January 7, 2014
Andreas Eisenkolb
Effiziente Verarbeitung von großen Datenmengen
January 7, 2014
1 / 11
4. Big Data
speichert ca. 2,5 Petabytes
1 Petabyte = 1 048 576 Gigabytes
IBM Festplatten-Cluster speichert 20 Petabayte
1
1
Quelle: http://www.dailytech.com/article.aspx?newsid=22558
Andreas Eisenkolb
Effiziente Verarbeitung von großen Datenmengen
January 7, 2014
4 / 11
5. Was versteht man unter Big Data?
Big Data
Big Data bezeichnet große Datenmengen aus vielf¨ltigen Quellen, die mit
a
Hilfe neu entwickelter Methoden und Technologien erfasst, verteilt,
gespeichert, durchsucht, analysiert und visualisiert werden k¨nnena .
o
a
Wissenschaftliche Dienste des Deutschen Bundestages
Andreas Eisenkolb
Effiziente Verarbeitung von großen Datenmengen
January 7, 2014
5 / 11
7. Die 4 ”Vs” von Big Data
Andreas Eisenkolb
Effiziente Verarbeitung von großen Datenmengen
January 7, 2014
7 / 11
8. Was ist MapReduce?
MapReduce
MapReduce ist ein vom Unternehmen Google Inc. eingef¨hrtes
u
Programmiermodell f¨r nebenl¨ufige Berechnungen uber große
u
a
¨
Datenmengen auf Computerclustern.
Andreas Eisenkolb
Effiziente Verarbeitung von großen Datenmengen
January 7, 2014
8 / 11
9. Warum MapReduce?
Effiziente Verarbeitung großer Datenmengen
Einfache Benutzung (Fehlerbehandlung, Datenverteilung, etc.)
Andreas Eisenkolb
Effiziente Verarbeitung von großen Datenmengen
January 7, 2014
9 / 11