Big Data ist hier um zu bleiben
(auch wenn es noch oft den Namen wechseln wird)
André Csillaghy
Institut für 4D-Technologien
Hochschule für Technik
Fachhochschule Nordwestschweiz
BIG DATA:
VERBLASSENDER HYPE?
Die Blogosphäre:
Zeigt Zusammenhänge zwischen
kommunizierdende Menschen
Offensichtlich ist die Information nicht
zufällig verteilt.
Solar Dynamics Observatory, ein NASA
Satellit
Nimmt soviele Daten wie 3
Fernsehkanäle, die 24 / 7 laufen.
Die Beobachtungen können nicht mehr
von Hand ausgewertet werden.
Quelle: (via) Wikipedia
NSA -- 
Ebay:
7.5PB in Teradata Enterprise Data Warehouse
40 PB Hadoop Cluster
40PB auf ein Custom-System für deep-dive Analysis
100 TB / Tag neue Daten
500 Milliarden aktuellen Angebote
Facebook:
50 Milliarden Fotos, automatische Gesichtserkennung
Kreditkartenschutz:
2.1 Milliarden Karten werden geschützt
Soure: OECD Digital Economy Outlook 2015
Internet of Things
Anzahl am Internet angeschlossenen Geräte pro 100 Einwohnen
BUSINESS NUTZEN
BIG DATA ANALYTICS
Daten-Aufwertungskette
Original Data
Target
Data
Preprocessed
Data
Patterns
Knowledge
Data
Integration
and Selection
Preprocessing
Model
Construction
Interpretation
Quelle: Ramakrishnan & Gehrke
Institute of 4D Technologies: Management, Processing, and Visualization
of Data
www.fhnw.ch/i4ds, facebook.com/fhnw.i4ds
Data Science am Institut für 4D-Technologien
Trans_id Kunde_id Datum Objekt Menge
111 201 2.2.2006 Kugelschreiber 2
111 201 2.2.2006 Tinte 1
111 201 2.2.2006 Milch 3
111 201 2.2.2006 Saft 6
112 105 6.3.2006 Kugelschreiber 1
112 105 6.3.2006 Tinte 1
112 105 6.3.2006 Milch 1
113 106 5.5.2006 Kaffee 1
113 106 5.5.2006 Milch 1
114 201 25.5.2006 Kugelschreiber 2
114 201 25.5.2006 Tinte 2
114 201 25.5.2006 Saft 4
114 201 25.5.2006 Wasser 1
http://gravitationallensing.pbworks.com/w/
page/15553245/Cosmic%20Lensing
https://s3.amazonaws.com/datarobotblog/images/deepLearningIntro/013.png
TECHNOLOGIEN
•  Datenbanken:
– Teradata, Cloudera
– SQL / NOSQL
•  Data analysis
– Weka toolkit (data mining)
– OpenCV (feature extraction)
•  HPC
– Pydron (HBC)
– Hadoop / Spark
•  Resource management
– Mesos
•  Usw., usw., usw….
Open Data Analysis Stack
Application
Storage
Data Processing
Infrastructure
Aus: ganges.usc.edu/pgroupW/.../Berkley_Data_Analysis_Stack_(BDAS).pptx
CHANCEN UND RISIKEN
LEBEN ZUSAMMEN
•  Verlust der Kontrolle: auch wenn ich
nichts zu verstecken habe, habe ich
keine Möglichkeit zu kontrollieren, für
was meine Daten benutzt werden
•  Mein Gefühl sagt mir, dass es mehr den
Unternehmen profitiert als mich selbst
•  Ich kann das Datensammeln nicht mehr
ausweichen
Quelle:TheGuardian24.6.2014
Storage Model: the Data Warehouse
Quelle: http://www.hammer.net/images/data_storage_diagram2.jpg
Computing infrastructure
•  Scalability = data + computing power
– Parallelization
•  Google: Map / Reduce
•  Pydron
Astronomische Datenmengen
In Betrieb
2 TB / Tag
Start 2019
100 PB
Im Bau
13 TB/ Nacht
Design
Mehr als das gesamte Internet
Is Big Data too big for SMEs?
•  Wir geben eher mehr Daten an
Grossunternehmen, als wir von denen
zurückbekommen (Beispiel: Google Mail)
•  Tatsache #1: jede Firma – jede Person –
baut sich ein kleines Daten-Imperium
– kann aber dieses nicht verarbeiten….
•  Tatsache #2: Es ist immer besser wenn man
bescheid über die eigenen Daten weiss
Es geht um Leute
•  Wie kreiert man Wert aus Daten?
•  Data Analysts  Data Scientists
– Neues Profil, ein mix von Hacker, Analyst,
Communicator, trusted Advisor
•  Wie können KMUs die notwendigen
Skills bekommnen?
Aus dem Wild West zur Zivilisation
•  Big Data is here to stay
•  Big Data kennt keine Grenzen
•  Im Moment mischen sich riesige Chancen mit
noch undenkbaren Risiken
•  Der Technologie sind die Chancen und Risiken
egal. Sie wird sich weiter entwickeln
•  Chancen können nur überwiegen, wenn wir
eine Ethik der Datennutzung einführen, wo die
Risken unter Kontrolle gebracht werden
Es geht aber auch um
Infrastruktur
•  Zu viel für KMUs?
•  Clouds
•  Schon wenig kann mehr sein
•  Macht der Job attraktiv
Vielen Dank!

Big Data ist hier um zu bleiben

  • 1.
    Big Data isthier um zu bleiben (auch wenn es noch oft den Namen wechseln wird) André Csillaghy Institut für 4D-Technologien Hochschule für Technik Fachhochschule Nordwestschweiz
  • 2.
  • 3.
    Die Blogosphäre: Zeigt Zusammenhängezwischen kommunizierdende Menschen Offensichtlich ist die Information nicht zufällig verteilt.
  • 4.
    Solar Dynamics Observatory,ein NASA Satellit Nimmt soviele Daten wie 3 Fernsehkanäle, die 24 / 7 laufen. Die Beobachtungen können nicht mehr von Hand ausgewertet werden.
  • 5.
    Quelle: (via) Wikipedia NSA--  Ebay: 7.5PB in Teradata Enterprise Data Warehouse 40 PB Hadoop Cluster 40PB auf ein Custom-System für deep-dive Analysis 100 TB / Tag neue Daten 500 Milliarden aktuellen Angebote Facebook: 50 Milliarden Fotos, automatische Gesichtserkennung Kreditkartenschutz: 2.1 Milliarden Karten werden geschützt
  • 6.
    Soure: OECD DigitalEconomy Outlook 2015 Internet of Things Anzahl am Internet angeschlossenen Geräte pro 100 Einwohnen
  • 7.
  • 15.
  • 16.
  • 17.
    Institute of 4DTechnologies: Management, Processing, and Visualization of Data www.fhnw.ch/i4ds, facebook.com/fhnw.i4ds Data Science am Institut für 4D-Technologien
  • 18.
    Trans_id Kunde_id DatumObjekt Menge 111 201 2.2.2006 Kugelschreiber 2 111 201 2.2.2006 Tinte 1 111 201 2.2.2006 Milch 3 111 201 2.2.2006 Saft 6 112 105 6.3.2006 Kugelschreiber 1 112 105 6.3.2006 Tinte 1 112 105 6.3.2006 Milch 1 113 106 5.5.2006 Kaffee 1 113 106 5.5.2006 Milch 1 114 201 25.5.2006 Kugelschreiber 2 114 201 25.5.2006 Tinte 2 114 201 25.5.2006 Saft 4 114 201 25.5.2006 Wasser 1
  • 19.
  • 21.
  • 22.
  • 24.
    •  Datenbanken: – Teradata, Cloudera – SQL/ NOSQL •  Data analysis – Weka toolkit (data mining) – OpenCV (feature extraction) •  HPC – Pydron (HBC) – Hadoop / Spark •  Resource management – Mesos •  Usw., usw., usw….
  • 25.
    Open Data AnalysisStack Application Storage Data Processing Infrastructure Aus: ganges.usc.edu/pgroupW/.../Berkley_Data_Analysis_Stack_(BDAS).pptx
  • 26.
  • 28.
    •  Verlust derKontrolle: auch wenn ich nichts zu verstecken habe, habe ich keine Möglichkeit zu kontrollieren, für was meine Daten benutzt werden •  Mein Gefühl sagt mir, dass es mehr den Unternehmen profitiert als mich selbst •  Ich kann das Datensammeln nicht mehr ausweichen
  • 29.
  • 31.
    Storage Model: theData Warehouse Quelle: http://www.hammer.net/images/data_storage_diagram2.jpg
  • 32.
    Computing infrastructure •  Scalability= data + computing power – Parallelization •  Google: Map / Reduce •  Pydron
  • 34.
    Astronomische Datenmengen In Betrieb 2TB / Tag Start 2019 100 PB Im Bau 13 TB/ Nacht Design Mehr als das gesamte Internet
  • 36.
    Is Big Datatoo big for SMEs? •  Wir geben eher mehr Daten an Grossunternehmen, als wir von denen zurückbekommen (Beispiel: Google Mail) •  Tatsache #1: jede Firma – jede Person – baut sich ein kleines Daten-Imperium – kann aber dieses nicht verarbeiten…. •  Tatsache #2: Es ist immer besser wenn man bescheid über die eigenen Daten weiss
  • 37.
    Es geht umLeute •  Wie kreiert man Wert aus Daten? •  Data Analysts  Data Scientists – Neues Profil, ein mix von Hacker, Analyst, Communicator, trusted Advisor •  Wie können KMUs die notwendigen Skills bekommnen?
  • 38.
    Aus dem WildWest zur Zivilisation •  Big Data is here to stay •  Big Data kennt keine Grenzen •  Im Moment mischen sich riesige Chancen mit noch undenkbaren Risiken •  Der Technologie sind die Chancen und Risiken egal. Sie wird sich weiter entwickeln •  Chancen können nur überwiegen, wenn wir eine Ethik der Datennutzung einführen, wo die Risken unter Kontrolle gebracht werden
  • 39.
    Es geht aberauch um Infrastruktur •  Zu viel für KMUs? •  Clouds •  Schon wenig kann mehr sein •  Macht der Job attraktiv
  • 40.