5/6/13 Stefan Schiller
06. Mai 2013 Stefan Schiller Seminar Online Reputation
5/6/13 Stefan Schiller
Inhalte
1) Was ist “Big Data”?
2) Wo kommen die Daten her?
3) Wer verfügt über “Big Data”?
4) Wie können die Daten ausgewertet werden?
5) Wofür werden Social Media Daten genutzt?
06. Mai 2013 Stefan Schiller Seminar Online Reputation
5/6/13 Stefan Schiller
(1) Was ist “Big Data”?
● Immer mehr Daten:
– Jeden Tag: 2.5 Trillionen (10^18) Bytes [1]
25.0000000000.0000000 Byte
2.500.000 Terabyte
– 1-TB Festplatte: 8 x 5 x 1 cm
– DHL-Paket: 60 x 30 x 15 cm
=> 630 Festplatten pro Paket
Foto: conskeptical
DHL
30
15 60
cm
06. Mai 2013 Stefan Schiller Seminar Online Reputation
3969 Pakete! Jeden Tag!
5/6/13 Stefan Schiller
Drei Dimensionen
Volume
Velocity
Variety
Unterschiedlichste
Datentypen Datenumfang
Geschwindigkeit
06. Mai 2013 Stefan Schiller Seminar Online Reputation
[2]
5/6/13 Stefan Schiller
(2) Wo kommen die Daten her?
● Bewusst
– Erzeugte Dokumente und Dateien
– Digitale Fotos und Videos
– Posts auf Social Media Webseiten
● Unbewusst
– Suchmaschinen
– Aufgezeichnete Transaktionen
– Logging: Webseiten-Statistiken
Foto: s2art
Foto: bandarji
06. Mai 2013 Stefan Schiller Seminar Online Reputation
5/6/13 Stefan Schiller
(3) Wer verfügt über “Big Data”?
→ Beispiele
● Large Hardon Collider
– Teilchenbeschleuniger im CERN bei Genf
– 150 Mill. Sensoren → 40 Mill. Daten pro Sekunde
– Datenvolumen 500 Exabyte pro Tag
→ 500.000.000 Terabyte
– Filterung: 99,999% der Daten
06. Mai 2013 Stefan Schiller Seminar Online Reputation
5/6/13 Stefan Schiller
(3) Wer verfügt über “Big Data”?
→ Beispiele
● Wissenschaft und Forschung
● Staatliche Datenbanken
– CIA, NASA, ...
● Privatsektor
– Amazon
● Linux-basierende Datenbanken
● 59 Mill. aktive Kunden → 42 Terabyte Daten [3]
– Google
– YouTube
06. Mai 2013 Stefan Schiller Seminar Online Reputation
5/6/13 Stefan Schiller
(4) Wie können die Daten
ausgewertet werden?
● Problem: Extraktion relevanter Informationen
aus riesiger Datenmenge
● “Den Wald vor lauter Bäumen nicht sehen”
● → Daten müssen aufbereitet werden
– Verschiedene Techniken:
● Mustererkennung
● Kluster-Analyse
● Assoziationsanalyse
● ...
06. Mai 2013 Stefan Schiller Seminar Online Reputation
5/6/13 Stefan Schiller
Assoziationsanalyse
● Wie stark stehen verschiedene Gegenstände
in Beziehung zueinander?
● Anwendung: Crossmarketing
● → Warenkorbanalyse
● Vorhandene Daten werden gezielt für
Werbung genutzt
● “Kunden, die diesen Artikel gekauft haben,
kauften auch ...”
06. Mai 2013 Stefan Schiller Seminar Online Reputation
5/6/13 Stefan Schiller
2
5
= 40%
0,4
0,6
= 67%
0,4
0,6 * 0,4
= 167%
0
5
= 0%
0,0
0,6
= 0%
0,0
0,6 * 0,2
= 0%
1
5
= 20%
0,2
0,6
= 33%
0,2
0,6 * 0,4
= 83%
3
5
= 60%
0,6
0,6
= 100%
0,6
0,6 * 0,8
= 125%
06. Mai 2013 Stefan Schiller Seminar Online Reputation
5/6/13 Stefan Schiller
(5) Wofür werden Social Media
Daten genutzt?
● Große Menge an öffentlichen Daten
● Bislang nicht da gewesene Analysen möglich
● Wozu können die Daten genutzt werden?
– Finanzsektor: Bloomberg und WiseWindow nutzen
Daten für gezieltes Investment (+30% Gewinn)
– Naturkatastrophen: Erdbeben in Virginia – Twitter
– Marketing: Nestle ersetzt Umfragen durch Analyse
– Kriminalität: Wichtige Ermittlungsinformationen
06. Mai 2013 Stefan Schiller Seminar Online Reputation
5/6/13 Stefan Schiller
06. Mai 2013 Stefan Schiller Seminar Online Reputation
Fragen und DiskussionFragen und Diskussion
5/6/13 Stefan Schiller
Bilder und Quellen
● Bilder
– http://www.flickr.com/photos/conskeptical/1569962306/
– http://www.flickr.com/photos/s2art/126605647/lightbox/
– http://www.flickr.com/photos/s_w_ellis/3877534599/
– http://www.flickr.com/photos/judy-van-der-
velden/6700513557/sizes/o/in/photostream/
● Quellen
– [1]: http://www.cisco.com/en/US/solutions/collateral/ns341/ns525/
ns537/ns705/ns1175/Cloud_Index_White_Paper.html
– [2]: http://www-01.ibm.com/software/data/bigdata/
– [3]: http://www.comparebusinessproducts.com/fyi/10-largest-
databases-in-the-world
06. Mai 2013 Stefan Schiller Seminar Online Reputation

Big Data

  • 1.
    5/6/13 Stefan Schiller 06.Mai 2013 Stefan Schiller Seminar Online Reputation
  • 2.
    5/6/13 Stefan Schiller Inhalte 1)Was ist “Big Data”? 2) Wo kommen die Daten her? 3) Wer verfügt über “Big Data”? 4) Wie können die Daten ausgewertet werden? 5) Wofür werden Social Media Daten genutzt? 06. Mai 2013 Stefan Schiller Seminar Online Reputation
  • 3.
    5/6/13 Stefan Schiller (1)Was ist “Big Data”? ● Immer mehr Daten: – Jeden Tag: 2.5 Trillionen (10^18) Bytes [1] 25.0000000000.0000000 Byte 2.500.000 Terabyte – 1-TB Festplatte: 8 x 5 x 1 cm – DHL-Paket: 60 x 30 x 15 cm => 630 Festplatten pro Paket Foto: conskeptical DHL 30 15 60 cm 06. Mai 2013 Stefan Schiller Seminar Online Reputation 3969 Pakete! Jeden Tag!
  • 4.
    5/6/13 Stefan Schiller DreiDimensionen Volume Velocity Variety Unterschiedlichste Datentypen Datenumfang Geschwindigkeit 06. Mai 2013 Stefan Schiller Seminar Online Reputation [2]
  • 5.
    5/6/13 Stefan Schiller (2)Wo kommen die Daten her? ● Bewusst – Erzeugte Dokumente und Dateien – Digitale Fotos und Videos – Posts auf Social Media Webseiten ● Unbewusst – Suchmaschinen – Aufgezeichnete Transaktionen – Logging: Webseiten-Statistiken Foto: s2art Foto: bandarji 06. Mai 2013 Stefan Schiller Seminar Online Reputation
  • 6.
    5/6/13 Stefan Schiller (3)Wer verfügt über “Big Data”? → Beispiele ● Large Hardon Collider – Teilchenbeschleuniger im CERN bei Genf – 150 Mill. Sensoren → 40 Mill. Daten pro Sekunde – Datenvolumen 500 Exabyte pro Tag → 500.000.000 Terabyte – Filterung: 99,999% der Daten 06. Mai 2013 Stefan Schiller Seminar Online Reputation
  • 7.
    5/6/13 Stefan Schiller (3)Wer verfügt über “Big Data”? → Beispiele ● Wissenschaft und Forschung ● Staatliche Datenbanken – CIA, NASA, ... ● Privatsektor – Amazon ● Linux-basierende Datenbanken ● 59 Mill. aktive Kunden → 42 Terabyte Daten [3] – Google – YouTube 06. Mai 2013 Stefan Schiller Seminar Online Reputation
  • 8.
    5/6/13 Stefan Schiller (4)Wie können die Daten ausgewertet werden? ● Problem: Extraktion relevanter Informationen aus riesiger Datenmenge ● “Den Wald vor lauter Bäumen nicht sehen” ● → Daten müssen aufbereitet werden – Verschiedene Techniken: ● Mustererkennung ● Kluster-Analyse ● Assoziationsanalyse ● ... 06. Mai 2013 Stefan Schiller Seminar Online Reputation
  • 9.
    5/6/13 Stefan Schiller Assoziationsanalyse ●Wie stark stehen verschiedene Gegenstände in Beziehung zueinander? ● Anwendung: Crossmarketing ● → Warenkorbanalyse ● Vorhandene Daten werden gezielt für Werbung genutzt ● “Kunden, die diesen Artikel gekauft haben, kauften auch ...” 06. Mai 2013 Stefan Schiller Seminar Online Reputation
  • 10.
    5/6/13 Stefan Schiller 2 5 =40% 0,4 0,6 = 67% 0,4 0,6 * 0,4 = 167% 0 5 = 0% 0,0 0,6 = 0% 0,0 0,6 * 0,2 = 0% 1 5 = 20% 0,2 0,6 = 33% 0,2 0,6 * 0,4 = 83% 3 5 = 60% 0,6 0,6 = 100% 0,6 0,6 * 0,8 = 125% 06. Mai 2013 Stefan Schiller Seminar Online Reputation
  • 11.
    5/6/13 Stefan Schiller (5)Wofür werden Social Media Daten genutzt? ● Große Menge an öffentlichen Daten ● Bislang nicht da gewesene Analysen möglich ● Wozu können die Daten genutzt werden? – Finanzsektor: Bloomberg und WiseWindow nutzen Daten für gezieltes Investment (+30% Gewinn) – Naturkatastrophen: Erdbeben in Virginia – Twitter – Marketing: Nestle ersetzt Umfragen durch Analyse – Kriminalität: Wichtige Ermittlungsinformationen 06. Mai 2013 Stefan Schiller Seminar Online Reputation
  • 12.
    5/6/13 Stefan Schiller 06.Mai 2013 Stefan Schiller Seminar Online Reputation Fragen und DiskussionFragen und Diskussion
  • 13.
    5/6/13 Stefan Schiller Bilderund Quellen ● Bilder – http://www.flickr.com/photos/conskeptical/1569962306/ – http://www.flickr.com/photos/s2art/126605647/lightbox/ – http://www.flickr.com/photos/s_w_ellis/3877534599/ – http://www.flickr.com/photos/judy-van-der- velden/6700513557/sizes/o/in/photostream/ ● Quellen – [1]: http://www.cisco.com/en/US/solutions/collateral/ns341/ns525/ ns537/ns705/ns1175/Cloud_Index_White_Paper.html – [2]: http://www-01.ibm.com/software/data/bigdata/ – [3]: http://www.comparebusinessproducts.com/fyi/10-largest- databases-in-the-world 06. Mai 2013 Stefan Schiller Seminar Online Reputation