2. 5/6/13 Stefan Schiller
Inhalte
1) Was ist “Big Data”?
2) Wo kommen die Daten her?
3) Wer verfügt über “Big Data”?
4) Wie können die Daten ausgewertet werden?
5) Wofür werden Social Media Daten genutzt?
06. Mai 2013 Stefan Schiller Seminar Online Reputation
3. 5/6/13 Stefan Schiller
(1) Was ist “Big Data”?
● Immer mehr Daten:
– Jeden Tag: 2.5 Trillionen (10^18) Bytes [1]
25.0000000000.0000000 Byte
2.500.000 Terabyte
– 1-TB Festplatte: 8 x 5 x 1 cm
– DHL-Paket: 60 x 30 x 15 cm
=> 630 Festplatten pro Paket
Foto: conskeptical
DHL
30
15 60
cm
06. Mai 2013 Stefan Schiller Seminar Online Reputation
3969 Pakete! Jeden Tag!
4. 5/6/13 Stefan Schiller
Drei Dimensionen
Volume
Velocity
Variety
Unterschiedlichste
Datentypen Datenumfang
Geschwindigkeit
06. Mai 2013 Stefan Schiller Seminar Online Reputation
[2]
5. 5/6/13 Stefan Schiller
(2) Wo kommen die Daten her?
● Bewusst
– Erzeugte Dokumente und Dateien
– Digitale Fotos und Videos
– Posts auf Social Media Webseiten
● Unbewusst
– Suchmaschinen
– Aufgezeichnete Transaktionen
– Logging: Webseiten-Statistiken
Foto: s2art
Foto: bandarji
06. Mai 2013 Stefan Schiller Seminar Online Reputation
6. 5/6/13 Stefan Schiller
(3) Wer verfügt über “Big Data”?
→ Beispiele
● Large Hardon Collider
– Teilchenbeschleuniger im CERN bei Genf
– 150 Mill. Sensoren → 40 Mill. Daten pro Sekunde
– Datenvolumen 500 Exabyte pro Tag
→ 500.000.000 Terabyte
– Filterung: 99,999% der Daten
06. Mai 2013 Stefan Schiller Seminar Online Reputation
7. 5/6/13 Stefan Schiller
(3) Wer verfügt über “Big Data”?
→ Beispiele
● Wissenschaft und Forschung
● Staatliche Datenbanken
– CIA, NASA, ...
● Privatsektor
– Amazon
● Linux-basierende Datenbanken
● 59 Mill. aktive Kunden → 42 Terabyte Daten [3]
– Google
– YouTube
06. Mai 2013 Stefan Schiller Seminar Online Reputation
8. 5/6/13 Stefan Schiller
(4) Wie können die Daten
ausgewertet werden?
● Problem: Extraktion relevanter Informationen
aus riesiger Datenmenge
● “Den Wald vor lauter Bäumen nicht sehen”
● → Daten müssen aufbereitet werden
– Verschiedene Techniken:
● Mustererkennung
● Kluster-Analyse
● Assoziationsanalyse
● ...
06. Mai 2013 Stefan Schiller Seminar Online Reputation
9. 5/6/13 Stefan Schiller
Assoziationsanalyse
● Wie stark stehen verschiedene Gegenstände
in Beziehung zueinander?
● Anwendung: Crossmarketing
● → Warenkorbanalyse
● Vorhandene Daten werden gezielt für
Werbung genutzt
● “Kunden, die diesen Artikel gekauft haben,
kauften auch ...”
06. Mai 2013 Stefan Schiller Seminar Online Reputation
11. 5/6/13 Stefan Schiller
(5) Wofür werden Social Media
Daten genutzt?
● Große Menge an öffentlichen Daten
● Bislang nicht da gewesene Analysen möglich
● Wozu können die Daten genutzt werden?
– Finanzsektor: Bloomberg und WiseWindow nutzen
Daten für gezieltes Investment (+30% Gewinn)
– Naturkatastrophen: Erdbeben in Virginia – Twitter
– Marketing: Nestle ersetzt Umfragen durch Analyse
– Kriminalität: Wichtige Ermittlungsinformationen
06. Mai 2013 Stefan Schiller Seminar Online Reputation
12. 5/6/13 Stefan Schiller
06. Mai 2013 Stefan Schiller Seminar Online Reputation
Fragen und DiskussionFragen und Diskussion
13. 5/6/13 Stefan Schiller
Bilder und Quellen
● Bilder
– http://www.flickr.com/photos/conskeptical/1569962306/
– http://www.flickr.com/photos/s2art/126605647/lightbox/
– http://www.flickr.com/photos/s_w_ellis/3877534599/
– http://www.flickr.com/photos/judy-van-der-
velden/6700513557/sizes/o/in/photostream/
● Quellen
– [1]: http://www.cisco.com/en/US/solutions/collateral/ns341/ns525/
ns537/ns705/ns1175/Cloud_Index_White_Paper.html
– [2]: http://www-01.ibm.com/software/data/bigdata/
– [3]: http://www.comparebusinessproducts.com/fyi/10-largest-
databases-in-the-world
06. Mai 2013 Stefan Schiller Seminar Online Reputation