1. Wilfried Hoge
Leading Technical Sales Professional
Senior IT Architect Information Management
IBM Deutschland
Big Value from Big Data
Fertig werden mit den 3 wichtigsten
Herausforderungen: Volume, Velocity und
Variety [=V3]
Seite : 1
2. Information Management
Was ist Big Data? 2020
• Datenmengen wachsen immer
schneller – in allen Unternehmen
44x
mehr Daten im
35 zettabytes
und in allen Branchen kommenden
Jahrzehnt
• Die Daten werden häufig von
einer großen Anzahl Menschen
(z.B. Social Media) oder von
80%
der Daten sind
Maschinen (z.B. Ticker oder
unstrukturiert
Messgeräte) generiert
• Die meisten Daten sind nicht
einfach strukturiert sondern 2009
haben komplexe oder 800,000 petabytes
unbekannte Strukturen und
der Aufwand für die Analyse und
Anpassung der Strukturierung ist sehr groß
• Informationen in diesen Daten enthalten große Chancen und großen Wert und
daher ist die effiziente Analyse dieser Daten von strategischer Bedeutung
• Big ist relativ zu dem, was bisher an Daten in einem Unternehmen verarbeitet
werden konnte, und bezieht sich sowohl auf die Datenmenge als auch auf die
Verarbeitungsgeschwindigkeit
Seite : 2
3. Information Management
Die Big Data Herausforderung
Nutzen zu ziehen aus diesen riesigen Datenmengen, die so verschieden
strukturiert sind und so schnell entstehen, ist mit bisherigen Technologien nicht
möglich gewesen.
Eine Technologie für BigData muss geeignet sein, die drei wichtigsten Dimensionen von
BigData zu beherrschen: Variety, Velocity, Volume (=V3)
Verarbeitung der Komplexität
von relationalen und nicht-
Variety relationalen Datentypen und
Schemas
Analyse von Daten direkt
Velocity während sie entstehen
Effizientes skalieren für große
Volume Datenmengen
Seite : 3
4. Information Management
Volume und Velocity – zwei Dimensionen für Big Data
Exa
Wind Turbine Placement &
Operation
Up to
10,000 PBs of data
Times Analysis time to 3 days from 3 weeks
Peta larger 1220 IBM iDataPlex nodes
Data Scale
DeepQA
Tera
100s GB for Deep Analytics
Data at Rest
Data Scale
3 sec/decision
Power7, 15TB memory
Giga
Telco Promotions
100,000 records/sec, 6B/day
Traditional Data 10 ms/decision
Mega Warehouse and 270TB for Deep Analytics
Business Intelligence
Up to 10,000
Data in Motion times faster Security
600,000 records/sec, 50B/day
Kilo
1-2 ms/decision
yr mo wk day hr min sec … ms µs
320TB for Deep Analytics
Occasional Frequent Real-time
Decision Frequency
Seite : 4
5. Information Management
Massiv parallele Verarbeitung für Volume und Velocity
• Divide and conquer ist eine bewährte Methode zur Bewältigung von
umfangreichen Berechnungen
• Jeder Knoten verwaltet einen Teil der Daten
• Jeder Knoten kann Algorithmen auf seinen Daten ausführen
• Viele verteilte Knoten lösen ein Problem, indem sie parallel Teilaufgaben lösen
• Eine übergeordnete Kontrolle schickt die passenden Algorithmen zu den Daten
Anfrageknoten
Berechnungs-/Speicherknoten
Seite : 5
6. Information Management
Variety – Speicherung und Analyse neuer Datentypen
• Daten aus den Quellen Web (z.B. Logs, Clickstream),
Dokumente (z.B. Texte, Protokolle, E-Mails), RFIDs (XML,
Spatial) werden in vielen Unternehmen bereits gesammelt
• Die Datenstrukturen sind in den wenigsten Fällen geeignet für
die Verarbeitung in traditionellen DWH Umgebungen, die
meist auf relationale Datenstrukturen beschränkt sind
• Aufwändige ETL Prozesse und/oder Betrachtung von
Ausschnitten machen sie konsumierbar
• Diese Daten aber in Gänze zu analysieren erfordert eine
direkte Verarbeitung von komplexeren Datentypen
• Hinzu kommen Datentypen, die nicht leicht in relationale
Strukturen zu überführen sind und daher i.d.R. gar nicht
berücksichtigt wurden (z.B. Audio, Bilder, Video)
• Datenspeicher, die in der Lage sind die Daten in ihrer Vielfalt
direkt zu behandeln, und Algorithmen, die diese Daten
verarbeiten, sind notwendig.
Seite : 6
7. Information Management
Variety – Explorative Analysen für Big Data
• IBM Research hat Algorithmen zur explorativen
Analyse entwickelt
• Diese Algorithmen erlauben die Analyse von Daten
in ihrem ursprünglichen Datenformat
Text Statistics
Image & Video Mining
Acoustic Predictive Times Series
Financial Geospatial Mathematical
IBM macht den Unterschied – signifikante Investitionen in die
Forschung und Entwicklung von Analysealgorithmen für Big Data
Seite : 7
8. Information Management
Big
Data
Ansatz
ergänzt
das
bisherige
Vorgehensmodell
Traditionelles Vorgehen Big Data Vorgehen
Strukturierung & Wiederholbare Analyse Iterative & Forschende Analyse
Fachbereich IT
Bestimmen, welche Stellen eine Plattform
Fragen gestellt werden für kreative Erkundung
bereit
IT Fachbereich
Strukturiert die Daten, Erkundet, welche
um die Fragen zu Informationen in den
beantworten Daten stecken
Monatlicher Umsatz Reputation der Marke
Profitabilität Produkt Strategie
Kundenanalyse Maximierung der Ausutzung
Seite : 8
9. Information Management
Eine Kombination von zwei Technologien für Big Data
• Um den 3 Dimensionen von Big Data – Volume, Velocity und Variety – gerecht
zu werden ist eine Kombination von zwei Technologien sinnvoll
• Analyse von Big Data während der Entstehung – Streaming Analytics
• Die Daten werden analysiert sobald sie im System ankommen
• Die einfließenden Datenströme werden analysiert und können mit gespeicherten
Informationen in Verbindung gebracht werden
• Aus der Analyse werden sofort Aktivitäten (Events) abgeleitet
➯ InfoSphere Streams
• Speicherung von großen Datenmengen und flexible Analyse dieser Daten –
Internet Scale Analytics
• Die Daten werden gespeichert und stehen für verschiedenste Analysen bereit
• Operationen auf diesen Daten können effizient ausgeführt werden
• Basiert auf dem Hadoop Framework
➯ InfoSphere BigInsights
Seite : 9
10. Information Management
IBM Big Data Platform
IBM Big Data Client and Partner Marketing
Solutions Solutions
IBM Unica
Big Data Accelerators Content
Analytics
ECM
Text Statistics Financial Geospatial Acoustic
Image/Video Mining Times Series Mathematical Business
Analytics
Cognos & SPSS
Connectors Applications Blueprints
Warehouse
InforSphere Information Server
Appliance
Big Data Enterprise Engines
IBM Netezza
Master Data
Management
InfoSphere MDM
InfoSphere Streams InfoSphere BigInsights
Data Warehouse
Productivity Tools and Optimization InfoSphere
Warehouse
Workload Management Consumability and
and Optimization Management Tools Database
DB2
Open Source Foundation Compnents
Data Growth
Management
Eclipse Oozie Hadoop HBase Pig Lucene Jaql
InfoSphere Optim
Seite : 10
11. Information Management
IBM Netezza für Big Data Analyse
• IBM Netezza ist eine DWH Appliance mit MPP
Architektur, Hardware basierender
Abfragebeschleunigung und in-Datenbank
Ausführung von Analysealgorithmen
• Das Appliance Konzept ermöglicht extrem hohe
Analyse Leistung ohne Tuning
• Ideal geeignet für Big Data Analyse auf Daten, die im
relationalen Modell untergebracht werden können
• In-Database Analysen (z.B. Data Mining, Spatial,
Predictive Analysis) out of the box
• Zusätzlich Unterstützung von Hadoop Map/Reduce
Algorithmen direkt auf Netezza
Seite : 11
12. Information Management
Integration von IBM Data Warehouse und BigInsights
Netezza Infosphere Warehouse
SQL
Cubing services DB2
JDBC Connector Jaql client JaqlSubmit UDF HDFSRead UDF
Http
Http
Infosphere BigInsights
Jaql server
Persistent data (MapReduce repository)
Seite : 12
13. Information Management
Streams und BigInsights – Verfeinerung eines
Analysemodells
• Da die Algorithmen sowohl in Streams als auch in
Visualisierung sowohl von
BigInsights verwendet werden können lassen Echzeit-Analysen als auch
sich closed-loop Projekte leicht umsetzen von Analysen auf Basis
historischer Daten
InfoSphere InfoSphere
Streams BigInsights &
Data Warehouse
1. Daten laden
Daten
2. Modell erzeugen
und verfeinern Daten-
Integration,
Laden von Daten, Data Mining,
Datenaufbereitung, Control Machine
Echtzeit-Analyse, flow Learning,
Modell Validierung Statistical
Modelling
3. Adaptives
analytisches Modell
Seite : 13
14. Information Management
Big Data muss ein integrierter Bestandteil der
Informationsarchitektur eines Unternehmens sein
Enterprise Business Analytics
Content Management
Information Integration &
Federation
Data Warehouse
Big Data
Big Data
Information
Data Governance
Management
Seite : 14
15. Information Management
BigInsights in der IBM SmartCloud Enterprise
• Ihr eigener Hadoop Cluster in der IBM
Cloud in weniger als 30 Minuten
• Benötigt keine eigene Hardware, keine
Installation, keine Wartung
• Hadoop Cluster kann in einem
beliebigen IBM Cloud Data Center
platziert werden
• Geringe Gebühren, die pro Stunde
berechnet werden
• Start mit lizenzfreiem BigInsights Basic
und einfache Umstellung auf die
BigInsights Enterprise Version
Seite : 15
16. Information Management
BigInsights in der Cloud
Einfaches Kennenlernen von Hadoop
• Online Kurs erlaubt das Lernen am
Standort ihrer Wahl mit freier
Zeiteinteilung
• Kurse und Kursmaterial kostenfrei
• Cloud basierte Sandbox für Übungen
• Bereits mehr als 8500 Teilnehmer
Seite : 16
17. Information Management
Big Data und Watson
Big Data Technology wurde genutzt um die Watson kann Informationen aus Big Data
Wissensdatenbank von Watson zu bauen! zur erweiterten Analyse konsumieren!
Watson verwendete das Apache
Hadoop Framework zur Verteilung der
Workload beim Laden der Informationen CRM Data
in das Memory" POS Data Social Media
~200 Millionen Textseiten
(Um Jeopardy zu spielen!)
Analyseergebnisse
- Kaufverhalten
- Soziale Beziehungen
- Trends
InfoSphere BigInsights
Watson‘s
Memory Erweiterte
Analyse und
Suche
Seite : 17
18. THINK
Information Management
Variety Nutzen sie bereits das Potential ihrer
unstrukturierten Daten?
Können sie durch Analyse in Echtzeit besser
Velocity werden?
Sammeln sie die Daten nur oder nutzen sie
Volume diese auch?
ibm.com/bigdata
Seite : 18