SlideShare ist ein Scribd-Unternehmen logo
1 von 72
1© Cloudera, Inc. All rights reserved.
BARC Studie Webinar:
Ausgereifte Analysen mit
Apache Hadoop
Wim Stoop
Senior PMM, Cloudera
@TheWimster
Timm Grosser
VP BI Consulting, BARC
@timmgrosser
Ergebnisse der BARC Studie
Hadoop und Data Lakes 2016
Webinar, 13.12.2016
Timm Grosser, VP Head of BI Consulting
Über die CXP Group
32016
BARC: Expertise für datengetriebene Unternehmen
52016
Warum diskutieren wir Hadoop?
13.12.2016 © BARC 2016 6
Management & Fachbereiche
• Der Wert und Nutzen von Daten
steigt
• Gestiegene Erwartungshaltung im
Management und Fachbereich
• Optimierung und Innovation
IT
• Re-Definition der IT – IT als
Business Partner oder technischer
Enabler?
• IT-Kostendruck und Service-
Qualität (Optimierung der
bestehenden
Datenmanagementaufgaben)
Daten & Analyse
• Mehr und umfangreichere Analysen
sind machbar
• Mehr Daten sind verfügbar
• Abdeckung verschiedener Analyse-
Disziplinen: Klassische BI –
Explorativ – Operativ
Klassische BI Umgebungen stoßen an Ihre Grenzen.
Heutige Anforderungen erfordern teils neue Technologien, Skills und Prozesse.
Ist Hadoop die Lösung?
13.12.2016 © BARC 2016 7
Bildquelle: http://www.gobraithwaite.com/blog/wp-content/
uploads/2011/07/Blog-Brand-Evangelist.jpg
Höret und
staunet
Thesen, die es zu hinterfragen gilt:
• ist kostengünstig
• ist flexibel, schnell und einfach in der Implementierung
• bietet umfangreiche Unterstützung für unterschiedlich
strukturierte Daten
• liefert funktionale Vorteile ggü. Werkzeugen, die in der
klassischen BI Fabrik eingesetzt werden
• skaliert einfach und schnell entlang Daten und
Funktionen auf Basis einer parallelen
Datenverarbeitung
• ist die präferierte Technologie zum Aufbau des Data
Lakes
• kann gleichzeitig für Analysen und auch online/real-time
Anwendungen verwendet werden
Was ist Apache Hadoop?
13.12.2016 © BARC 2016 8
HDFS2 (Redundant, Reliable Storage)
YARN (Cluster Resource Management)
BATCH
(MapReduce)
INTERACTIVE
(Tez)
STREAMING
(Storm, S4,…)
GRAPH
(Giraph)
IN-MEMORY
(Spark)
HPC MPI
(OpenMPI)
ONLINE
(HBase)
OTHER
(Search)
(Weave…)
“Hadoop is an open-source software framework for storing data and running
applications on clusters of commodity hardware. It provides massive storage for any
kind of data, enormous processing power and the ability to handle virtually limitless
concurrent tasks or jobs.”
13.12.2016 © BARC 2016 9
Was erwarten wir von Hadoop?
Hilfe, wo Data Warehouse Landschaften an die
Grenzen stoßen.
Datenkategorien und ihre Merkmale
13.12.2016 © BARC 2016 10
Quelldaten
Kategorie
Qualität Komplexität Interpretierbarkeit Störgeräusch
Transaktionale
Daten
Maschinen-
generiert
Mensch-
generiert
Data Warehouse Prozessaffinität
Big Data Prozessaffinität
Mind shift durch Big Data
Analyseprozess, Datenpersistenz und Datenmenge
11
13.12.2016
13.12.2016 © BARC 2016
Mind shift durch Big Data
Analyseprozess, Datenpersistenz und Datenmenge
12
Datenaufbereitung
Datenanalyse
Visualisierung
Analytik
Datenbereitstellung
Datenspeicherung
Data Warehousing Prozess
13.12.2016
13.12.2016 © BARC 2016
Mind shift durch Big Data
Analyseprozess, Datenpersistenz und Datenmenge
13
Datenaufbereitung
Datenanalyse
Visualisierung
Analytik
Datenbereitstellung
Datenspeicherung
Data Warehousing Prozess
Erst prüfen, dann
sammeln
13.12.2016
13.12.2016 © BARC 2016
Mind shift durch Big Data
Analyseprozess, Datenpersistenz und Datenmenge
14
Datenaufbereitung
Datenanalyse
Visualisierung
Analytik
Datenbereitstellung
Datenspeicherung
Datenaufbereitung
Datenanalyse
Visualisierung
Analytik
Datenbereitstellung
Datenspeicherung
Data Warehousing Prozess Big Data Prozess
Erst prüfen, dann
sammeln
13.12.2016
13.12.2016 © BARC 2016
Mind shift durch Big Data
Analyseprozess, Datenpersistenz und Datenmenge
15
Datenaufbereitung
Datenanalyse
Visualisierung
Analytik
Datenbereitstellung
Datenspeicherung
Datenaufbereitung
Datenanalyse
Visualisierung
Analytik
Datenbereitstellung
Datenspeicherung
Data Warehousing Prozess Big Data Prozess
Erst prüfen, dann
sammeln
Erst (alles) sammeln,
dann prüfen
Sicheres Ergebnis
Unsicheres Ergebnis
(„fast fail“)
13.12.2016
13.12.2016 © BARC 2016
Mind shift durch Big Data
Analyseprozess, Datenpersistenz und Datenmenge
16
Datenaufbereitung
Datenanalyse
Visualisierung
Analytik
Datenbereitstellung
Datenspeicherung
Datenaufbereitung
Datenanalyse
Visualisierung
Analytik
Datenbereitstellung
Datenspeicherung
Data Warehousing Prozess Big Data Prozess
Erst prüfen, dann
sammeln
Erst (alles) sammeln,
dann prüfen
Sicheres Ergebnis
Unsicheres Ergebnis
(„fast fail“)
Reglementierte,
verifizierende Analyse
Explorative Analyse auf
alle Daten
13.12.2016
13.12.2016 © BARC 2016
Advanced-Analytics-Projekt-Zyklus:
Von der Hypothese zur Operationalisierung
172016
Abbruch der
Untersuchung
Einmalige
Erkenntnis-Anwendung
Operationalisierung
(Integration in
operative Prozesse)
Projektauftrag
Aufgabenverständnis
Ergebnisevaluation /
Gütebewertung
Fortlaufende
Bewertung
der Güte des Modells
Modellierung &
Modellvalidierung
Datenverständnis,
Selektion, Integration &
Aufbereitung
60%
20%
10%
5%
5%
13.12.2016 © BARC 2016 18
Ergebnisse der BARC Studie
“Hadoop und Data Lakes 2016”
Der BARC Survey “Hadoop und Data Lakes”
Über
380
Teilnehmer
Breite Abdeckung verschiedener Branchen und Unternehmensgrößen
Anwenderumfrage zum Status Quo und
Fortschritt von Hadoop
Relevanz von Hadoop
und Data Lakes
Nutzen und
Herausforderungen
Einsatzszenarien
Status Quo von Hadoop und
Data Lakes
Globale
Befragung
Auflage
2.
Bis 250
Mitarbeiter
250 – 2,500
Mitarbeiter
Mehr als 2,500
Mitarbeiter
23% 33% 45%
ServicesIndustrie
Banksektor
IT
Handel
Öffentlicher
Sektor
Sonstige
24% 22% 16%
14%
9%
6%
9%
7 Erkenntnisse aus der Studie
1. Hadoop - Trendtechnologie mit hohem Potential
2016 21
Die Nutzung von Hadoop hängt vom Anwendungsfall
ab und wird nicht durch die Unternehmensgröße definiert
13.12.2016 © BARC 2016 22
Quelle: BARC Studie Hadoop und Data Lakes 2016
Die Nutzung von Hadoop hängt vom Anwendungsfall
ab und wird nicht durch die Unternehmensgröße definiert
Die Studie zeigt zudem, das der Einsatz
von Hadoop zudem unabhängig ist von:
• Datenvolumen
• Datenaktualität
• Datentypen
13.12.2016 © BARC 2016 23
Quelle: BARC Studie Hadoop und Data Lakes 2016
Nach wie vor breites Einsatzfeld von Hadoop –
in Hadoop steckt mehr als in einem Dateiablagesystem
13.12.2016 © BARC 2016 24
Quelle: BARC Studie Hadoop und Data Lakes 2016
Nach wie vor breites Einsatzfeld von Hadoop –
in Hadoop steckt mehr als in einem Dateiablagesystem
13.12.2016 © BARC 2016 25
Quelle: BARC Studie Hadoop und Data Lakes 2016
Nach wie vor breites Einsatzfeld von Hadoop –
in Hadoop steckt mehr als in einem Dateiablagesystem
13.12.2016 © BARC 2016 26
Quelle: BARC Studie Hadoop und Data Lakes 2016
7 Erkenntnisse aus der Studie
1. Hadoop - Trendtechnologie mit hohem Potential
2. BICC und Data Science Teams treiben Hadoop und Data-Lake-Projekte
2016 27
BI Competence Center und Data-Science-Team
treiben Hadoop-Initiativen
13.12.2016 © BARC 2016 28
Quelle: BARC Studie Hadoop und Data Lakes
BI Competence Center und Data-Science-Team
treiben Hadoop-Initiativen
13.12.2016 © BARC 2016 29
Quelle: BARC Studie Hadoop und Data Lakes
BI Competence Center und Data-Science-Team
treiben Hadoop-Initiativen
13.12.2016 © BARC 2016 30
Quelle: BARC Studie Hadoop und Data Lakes
52%
41%
25%
25%
7%
IT-Abteilung
BI-Organisation
Fachbereich
Management
Sonstige
BARC Survey „Hadoop 2015“, n=178
7 Erkenntnisse aus der Studie
1. Hadoop - Trendtechnologie mit hohem Potential
2. BICC und Data Science Teams treiben Hadoop und Data-Lake-Projekte
3. Umsetzung erfolgt hauptsächlich durch kommerzielle Werkzeuge und Hadoop-
Distributionen
2016 31
Kommerzielle Software und Hadoop-Distributionen im eigenen Haus sind die erste
Wahl zur Umsetzung
13.12.2016 © BARC 2016 32
Quelle: BARC Studie Hadoop und Data Lakes
Hadoop
Nicht
anwendbar
Kommerzielle
Produkte
Kommerzielle Software und Hadoop-Distributionen im eigenen Haus sind die erste
Wahl zur Umsetzung
13.12.2016 © BARC 2016 33
Quelle: BARC Studie Hadoop und Data Lakes
Hadoop
Nicht
anwendbar
Kommerzielle
Produkte
Kosteneffizienz, funktionale Leistungs-/Innovationskraft und
Betreibbarkeit sind mit Hauptgründe für den Einsatz von Apache Hadoop
13.12.2016 © BARC 2016 34
Quelle: BARC Studie Hadoop und Data Lakes
Dies gilt allerdings nicht grundsätzlich für alle untersuchten Werkzeugklassen
Kosteneffizienz, funktionale Leistungs-/Innovationskraft und
Betreibbarkeit sind mit Hauptgründe für den Einsatz von Apache Hadoop
13.12.2016 © BARC 2016 35
Quelle: BARC Studie Hadoop und Data Lakes
Dies gilt allerdings nicht grundsätzlich für alle untersuchten Werkzeugklassen
7 Erkenntnisse aus der Studie
1. Hadoop - Trendtechnologie mit hohem Potential
2. BICC und Data Science Teams treiben Hadoop und Data-Lake-Projekte
3. Umsetzung erfolgt hauptsächlich durch kommerzielle Werkzeuge und Hadoop-
Distributionen
4. Klarer Fall für Hadoop: Customer Intelligence und Predictive Analytics
2016 36
Customer Intelligence und Predictive Analytics sind die
am häufigsten umgesetzten Hadoop-Projekte
13.12.2016 © BARC 2016 37
Quelle: BARC Studie Hadoop und Data Lakes
Customer Intelligence und Predictive Analytics sind die
am häufigsten umgesetzten Hadoop-Projekte
13.12.2016 © BARC 2016 38
Quelle: BARC Studie Hadoop und Data Lakes
Customer Intelligence und Predictive Analytics sind die
am häufigsten umgesetzten Hadoop-Projekte
13.12.2016 © BARC 2016 39
Quelle: BARC Studie Hadoop und Data Lakes
71%
68%
44%
42%
40%
31%
27%
27%
26%
21%
9%
7%
1%
Analyse
Predictive Analytics
Data Integration & Quality
Dashboarding und Reporting
Datenspeicherung
Machine Learning
Search & Discovery
Archivierung
Sandboxing
Streaming
Master Data Management
Dokumentenmanagement
Sonstige
Kernkomponenten in Hadoop Use Cases,
n=242
7 Erkenntnisse aus der Studie
1. Hadoop - Trendtechnologie mit hohem Potential
2. BICC und Data Science Teams treiben Hadoop und Data-Lake-Projekte
3. Umsetzung erfolgt hauptsächlich durch kommerzielle Werkzeuge und Hadoop-
Distributionen
4. Klarer Fall für Hadoop: Customer Intelligence und Predictive Analytics
5. Großer analytischer Nutzen durch Hadoop
2016 40
59%
53%
47%
43%
33%
33%
27%
26%
26%
25%
20%
19%
18%
6%
2%
Analyse von Daten aus heterogenen, divergenten Datenquellen ermöglichen/verbessern
Kundenverhalten vorhersagen, Kundenbindung verbessern
Steigerung der Flexibilität im Umgang mit Daten und in der fortgeschrittenen Analyse
Erhöhung der Wettbewerbsfähigkeit
Mehr/zusätzliche Daten kosteneffizient speichern und analysieren
Verbesserung der Reaktionsgeschwindigkeit auf aktuelles Marktgeschehen
Produkt- und Vertriebserfolg vorhersagen
Betrug oder finanzielle Risiken vorhersagen
Monitoring von Maschinen/Geräte und proaktive Wartung ermöglichen
Sentiment/Stimmungs- und Trendanalysen
Erhöhung des Umsatzes
Monitoring und Optimierung von IT-Systemen und IT-Sicherheitsrisiken
Effizienz operativer Prozesse erhöhen
Wir können derzeit den fachlich-inhaltlichen Nutzen einer Hadoop-Initiative nicht bestimmen
Sonstige
Wichtigste Mehrwerte durch Hadoop: bessere Analyse auf heterogenen Daten,
besseres Kundenverständnis und -bindung sowie Steigerung der Flexibilität
13.12.2016 © BARC 2016 41
Quelle: BARC Studie Hadoop und Data Lakes, n=144
59%
53%
47%
43%
33%
33%
27%
26%
26%
25%
20%
19%
18%
6%
2%
Analyse von Daten aus heterogenen, divergenten Datenquellen ermöglichen/verbessern
Kundenverhalten vorhersagen, Kundenbindung verbessern
Steigerung der Flexibilität im Umgang mit Daten und in der fortgeschrittenen Analyse
Erhöhung der Wettbewerbsfähigkeit
Mehr/zusätzliche Daten kosteneffizient speichern und analysieren
Verbesserung der Reaktionsgeschwindigkeit auf aktuelles Marktgeschehen
Produkt- und Vertriebserfolg vorhersagen
Betrug oder finanzielle Risiken vorhersagen
Monitoring von Maschinen/Geräte und proaktive Wartung ermöglichen
Sentiment/Stimmungs- und Trendanalysen
Erhöhung des Umsatzes
Monitoring und Optimierung von IT-Systemen und IT-Sicherheitsrisiken
Effizienz operativer Prozesse erhöhen
Wir können derzeit den fachlich-inhaltlichen Nutzen einer Hadoop-Initiative nicht bestimmen
Sonstige
Wichtigste Mehrwerte durch Hadoop: bessere Analyse auf heterogenen Daten,
besseres Kundenverständnis und -bindung sowie Steigerung der Flexibilität
13.12.2016 © BARC 2016 42
Quelle: BARC Studie Hadoop und Data Lakes, n=144
59%
53%
47%
43%
33%
33%
27%
26%
26%
25%
20%
19%
18%
6%
2%
Analyse von Daten aus heterogenen, divergenten Datenquellen ermöglichen/verbessern
Kundenverhalten vorhersagen, Kundenbindung verbessern
Steigerung der Flexibilität im Umgang mit Daten und in der fortgeschrittenen Analyse
Erhöhung der Wettbewerbsfähigkeit
Mehr/zusätzliche Daten kosteneffizient speichern und analysieren
Verbesserung der Reaktionsgeschwindigkeit auf aktuelles Marktgeschehen
Produkt- und Vertriebserfolg vorhersagen
Betrug oder finanzielle Risiken vorhersagen
Monitoring von Maschinen/Geräte und proaktive Wartung ermöglichen
Sentiment/Stimmungs- und Trendanalysen
Erhöhung des Umsatzes
Monitoring und Optimierung von IT-Systemen und IT-Sicherheitsrisiken
Effizienz operativer Prozesse erhöhen
Wir können derzeit den fachlich-inhaltlichen Nutzen einer Hadoop-Initiative nicht bestimmen
Sonstige
Wichtigste Mehrwerte durch Hadoop: bessere Analyse auf heterogenen Daten,
besseres Kundenverständnis und -bindung sowie Steigerung der Flexibilität
13.12.2016 © BARC 2016 43
Quelle: BARC Studie Hadoop und Data Lakes, n=144
7 Erkenntnisse aus der Studie
1. Hadoop - Trendtechnologie mit hohem Potential
2. BICC und Data Science Teams treiben Hadoop und Data-Lake-Projekte
3. Umsetzung erfolgt hauptsächlich durch kommerzielle Werkzeuge und Hadoop-
Distributionen
4. Klarer Fall für Hadoop: Customer Intelligence und Predictive Analytics
5. Großer analytischer Nutzen durch Hadoop
6. Hadoop ermöglicht Anwendungsfälle, die bisher nicht umgesetzt werden konnten
2016 44
Anwender sehen Hadoop vor allem als (potentielle) Technologie
zur Umsetzung neuartiger Anwendungsfälle
13.12.2016 © BARC 2016 45
Quelle: BARC Hadoop und Data Lakes
Anwender sehen Hadoop vor allem als (potentielle) Technologie
zur Umsetzung neuartiger Anwendungsfälle
13.12.2016 © BARC 2016 46
Quelle: BARC Hadoop und Data Lakes
7 Erkenntnisse aus der Studie
1. Hadoop - Trendtechnologie mit hohem Potential
2. BICC und Data Science Teams treiben Hadoop und Data-Lake-Projekte
3. Umsetzung erfolgt hauptsächlich durch kommerzielle Werkzeuge und Hadoop-
Distributionen
4. Klarer Fall für Hadoop: Customer Intelligence und Predictive Analytics
5. Großer analytischer Nutzen durch Hadoop
6. Hadoop ermöglicht Anwendungsfälle, die bisher nicht umgesetzt werden konnten
7. Die größten Herausforderungen sind fehlendes Know-how und Unsicherheit bei der
Nutzung
2016 47
54%
50%
41%
33%
27%
27%
22%
21%
19%
16%
14%
4%
3%
Fehlendes fachliches Know-how im Unternehmen
Fehlendes Know-how beim Aufbau und Betrieb einer Big-Data-Architektur
Fehlendes Know-how Hadoop richtig einsetzen und nutzen zu können
Fehlende überzeugende Einsatzszenarien
Nutzen von Hadoop-Initiative ist nicht klar, kann nicht klar
Fehlende Sponsoren/Unterstützung aus der Führungsebene
Bedenken im Hinblick auf Datenschutz oder Datensicherheit
Kosten für die Implementierung einer neuen Technologie zu hoch
Fehlende oder mangelnde Reife der Komponenten des Ökosystems
Benutzerfreundlichkeit
Kosten für die Schulung und Entwicklung zu hoch
Es gibt keine Probleme beim Einsatz von Hadoop
Sonstige
Größte Herausforderungen sind fehlendes Know-how
und Unsicherheit in der Nutzung
13.12.2016 © BARC 2016 48
Quelle: BARC Hadoop und Data Lakes, n=379
54%
50%
41%
33%
27%
27%
22%
21%
19%
16%
14%
4%
3%
Fehlendes fachliches Know-how im Unternehmen
Fehlendes Know-how beim Aufbau und Betrieb einer Big-Data-Architektur
Fehlendes Know-how Hadoop richtig einsetzen und nutzen zu können
Fehlende überzeugende Einsatzszenarien
Nutzen von Hadoop-Initiative ist nicht klar, kann nicht klar
Fehlende Sponsoren/Unterstützung aus der Führungsebene
Bedenken im Hinblick auf Datenschutz oder Datensicherheit
Kosten für die Implementierung einer neuen Technologie zu hoch
Fehlende oder mangelnde Reife der Komponenten des Ökosystems
Benutzerfreundlichkeit
Kosten für die Schulung und Entwicklung zu hoch
Es gibt keine Probleme beim Einsatz von Hadoop
Sonstige
Größte Herausforderungen sind fehlendes Know-how
und Unsicherheit in der Nutzung
13.12.2016 © BARC 2016 49
Quelle: BARC Hadoop und Data Lakes, n=379
50% in DACH
Ausgewählte Hadoop-Thesen auf dem Prüfstand
13.12.2016 © BARC 2016 50
…ist kostengünstig
Umfrageergebnis: trifft im Grunde zu, auch wenn es nicht zu den Hauptnutzen von Hadoop zählt
Analyst: kann, muss aber nicht. Viele denken in erster Linie an Lizenzkosten. Kosten für Implementierung, Hardware und
Betrieb sind mit zu berücksichtigen.
…ist flexibel, einfach und schnell in der Implementierung
Umfrageergebnis: Umsetzungseffizienz ist ein Grund für die Wahl kommerzieller Werkzeuge bzw. Hadoop Distributionen
Analyst: der Flexibilität durch Individualprogrammierung steht die mangelnde, inhärente Plattformunterstützung gegenüber.
Anwendbarkeit ist abhängig von dem verfügbaren Wissen, bspw. rund um MPP.
…unterstützt unterschiedlich strukturierte Daten
Umfrageergebnis: wird in dieser und auch vorherigen Umfragen bestätigt
Analyst: ja, im Sinne eines Dateisystems zur Speicherung unterschiedlicher Formate. Das Schema kommt mit der
Anwendung.
…liefert funktionale Vorteile ggü. Werkzeugen, die in der klassischen BI Fabrik eingesetzt werden
Umfrageergebnis: hervorzuhebende funktionale Vorteile von Hadoop werden nicht gesehen, aber auch keine Nachteile.
Analyst: hier steht die Individualprogrammierung der Standardanwendungssoftware gegenüber. Je nachdem wie die Skills
gesetzt sind ist mal der eine, mal der andere Ansatz besser.
Hadoop-Thesen auf dem Prüfstand
13.12.2016 © BARC 2016 51
…Hadoop skaliert einfach und schnell mit wachsenden Datenvolumina und Workloads in parallelen Umgebungen
Umfrageergebnis: Skalierbarkeit wird nicht als expliziter Vorteil von Hadoop genannt
Analyst: grundsätzlich ja, auf der einen Seite bietet Hadoop viel Flexibilität durch die Freiheiten in der Programmierung. Auf
der anderen Seite stehen die Vorteile der Standardanwendungssoftware. Eine gewisse Grundausstattung unabhängig von
den tatsächlichen Anforderungen sollte gewährleistet sein.
…ist die präferierte Technologie zum Aufbau des Data Lakes
Umfrageergebnis: Teilnehmer sehen Hadoop als eine von mehreren möglichen Technologien zur Umsetzung
Analyst: für den Aufbau eines Data Lakes gibt es keinen klaren Leitfaden. Vor allem sind heute in der Gestaltung eines Data
Lakes noch Fragen offen zum Metadaten Management, zu Anforderungen an virtuelle/logische Data Lake, u.w. Pauschal
kann daher Hadoop nicht als „präferierte“ Technologie genannt werden.
…kann gleichzeitig für Analysen und auch online/real-time Anwendungen verwendet werden
Umfrageergebnis: die Nutzung von Hadoop für eine online/real-time Verarbeitung scheint eher vereinzelt aufzutreten
Analyst: grundsätzlich ja. Analytik und transaktionale Anwendungen benötigen unterschiedliche Designs, Komponenten und
Systemkonfigurationen
Wahrnehmung von Hadoop im D(ACH)-Markt
• Der Hype scheint abgeflaut, die Nutzung von Hadoop ist ernüchternd.
• Verfügbare Hadoop-Distributionen haben bereits eine hohe Reife bzw.
entwickeln sich schnell weiter hin zu Unternehmens-Anwendungen.
• Hadoop wird damit als natürlicher Baustein zum Aufbau analytischer
Infrastrukturen diskutiert.
• Es muss noch viel Schulung zum Know-how-Aufbau betrieben werden.
• Hadoop fehlt es derzeit noch an Anwendbarkeit.
• Allerdings wächst täglich die Zahl an Werkzeugen, die helfen Hadoop zu nutzen
(anzuwenden), bzw. die Hadoop um (analytische) Funktionen erweitern.
13.12.2016 © BARC 2016 52
Kontakt
532016
54© Cloudera, Inc. All rights reserved.
Data Drives Business
55© Cloudera, Inc. All rights reserved.
Our relationship with data
is changing
56© Cloudera, Inc. All rights reserved.
The digital universe is expanding
Source: IDC Digital Universe Study, IDC IoT Forecast
57© Cloudera, Inc. All rights reserved.
The digital universe is expanding
Source: IDC Digital Universe Study, IDC IoT Forecast
44zb
4.4zb
58© Cloudera, Inc. All rights reserved.
The digital universe is expanding
Source: IDC Digital Universe Study, IDC IoT Forecast
44zb
4.4zb
Unstructured
90%
59© Cloudera, Inc. All rights reserved.
The digital universe is expanding
Source: IDC Digital Universe Study, IDC IoT Forecast
44zb
4.4zb
Unstructured
90%
Data
100%0% 25%
Valuable
60© Cloudera, Inc. All rights reserved.
The digital universe is expanding
Source: IDC Digital Universe Study, IDC IoT Forecast
44zb
4.4zb
Unstructured
90%
Data
100%0% 25%
Valuable
7 billion 30 billion
61© Cloudera, Inc. All rights reserved.
The digital universe is expanding
Source: IDC Digital Universe Study, IDC IoT Forecast
44zb
4.4zb
Unstructured
90%
Data
100%0% 25%
Valuable
7 billion 30 billion
62© Cloudera, Inc. All rights reserved.
The great value of data
Destroying human trafficking
Fighting child sexual
exploitation
Working to cure cancer
Saving lives by detecting sepsis
Improve pain management for
premature babies
Managing Orion space craft as it
orbits the Earth
People Lives Science
63© Cloudera, Inc. All rights reserved.
“It will soon be technically
feasible & affordable to
record & store everything…”
— New York Times
“Digital technologies will, in
the near future, accomplish
many tasks once considered
uniquely human.”
— Second Machine Age
Data is abundant,
diverse & shared freely
As is how we store,
process and analyze it
Streaming Machine Learning BI
ETL Modeling
64© Cloudera, Inc. All rights reserved.
We want to enable you to…..
Query more dimensions
of more data points
from more sources
to make better predictions
and make them quicker
65© Cloudera, Inc. All rights reserved.
Thinking about the future
Source: IDC Nordic CxO Survey
66© Cloudera, Inc. All rights reserved.
Thinking about the future
40%
Decisions
37%
Biz dev
36%
Customer analysis
34%
Predictive analysis
33%
Process optimisation
Source: IDC Nordic CxO Survey
67© Cloudera, Inc. All rights reserved.
Boardroom thinking
DRIVE CUSTOMER
INSIGHTS
IMPROVE PRODUCT &
SERVICES EFFICIENCY LOWER BUSINESS RISK
68© Cloudera, Inc. All rights reserved.
Boardroom thinking
DRIVE CUSTOMER
INSIGHTS
IMPROVE PRODUCT &
SERVICES EFFICIENCY LOWER BUSINESS RISK
MODERNIZE ARCHITECTURE
69© Cloudera, Inc. All rights reserved.
Apache Hadoop for new ways of working with data
Extreme performance and
efficiency
Analytic agility
70© Cloudera, Inc. All rights reserved.
Benefits of Hadoop
Cost-effective Scalable Flexible
71© Cloudera, Inc. All rights reserved.
The journey requires some
thought.
72© Cloudera, Inc. All rights reserved.
Get the right architecture.
Assemble the right team.
Adopt an agile approach.
73© Cloudera, Inc. All rights reserved.
Adopt an Agile Approach
Successful projects start small, fail often, and iterate to success
1. Get data you already have, or create
new data.
2. Explore and analyze, quickly.
3. Deploy your application.
…and repeat
Add:
new data sources, more
users, more use cases,
more complex analytics,
go real-time
Collect, Create,
Manage
unlimited data
Explore, Analyze
data in many ways
Operationalize
insights to drive action
74© Cloudera, Inc. All rights reserved.
Thank you
Wim Stoop
Senior PMM, Cloudera
@TheWimster
Timm Grosser
VP BI Consulting, BARC
@timmgrosser

Weitere ähnliche Inhalte

Was ist angesagt?

Big Data Governance
Big Data GovernanceBig Data Governance
Big Data GovernanceCapgemini
 
DSGVO-Compliance schneller erreichen – mit Talend und Cloudera
DSGVO-Compliance schneller erreichen – mit Talend und ClouderaDSGVO-Compliance schneller erreichen – mit Talend und Cloudera
DSGVO-Compliance schneller erreichen – mit Talend und ClouderaCloudera, Inc.
 
Big Data Webinar (Deutsch)
Big Data Webinar (Deutsch)Big Data Webinar (Deutsch)
Big Data Webinar (Deutsch)AWS Germany
 
Oracle Lizenzmonitoring - Fluch oder Segen?
Oracle Lizenzmonitoring - Fluch oder Segen?Oracle Lizenzmonitoring - Fluch oder Segen?
Oracle Lizenzmonitoring - Fluch oder Segen?Trivadis
 
Data Fabric (German)
Data Fabric (German)Data Fabric (German)
Data Fabric (German)NetApp
 
Data Warehouse (DWH) with MySQL
Data Warehouse (DWH) with MySQLData Warehouse (DWH) with MySQL
Data Warehouse (DWH) with MySQLFromDual GmbH
 
Portfolio 2016 animated style
Portfolio 2016   animated stylePortfolio 2016   animated style
Portfolio 2016 animated styleSascha Oehl
 
SplunkLive Zurich Overview
SplunkLive Zurich OverviewSplunkLive Zurich Overview
SplunkLive Zurich OverviewGeorg Knon
 
Azure Data Factory – Data Management für die Cloud
Azure Data Factory – Data Management für die CloudAzure Data Factory – Data Management für die Cloud
Azure Data Factory – Data Management für die Cloudinovex GmbH
 
Quarterly Technology Briefing - Big Data - Germany
Quarterly Technology Briefing - Big Data - GermanyQuarterly Technology Briefing - Big Data - Germany
Quarterly Technology Briefing - Big Data - GermanyThoughtworks
 
Clash of Cultures: Agile Microservices & Business Intelligence (Frank Schmidt...
Clash of Cultures: Agile Microservices & Business Intelligence (Frank Schmidt...Clash of Cultures: Agile Microservices & Business Intelligence (Frank Schmidt...
Clash of Cultures: Agile Microservices & Business Intelligence (Frank Schmidt...confluent
 
Beyond SAP - Effektive Nutzung von Business Content durch In-Memory-OLAP und ...
Beyond SAP - Effektive Nutzung von Business Content durch In-Memory-OLAP und ...Beyond SAP - Effektive Nutzung von Business Content durch In-Memory-OLAP und ...
Beyond SAP - Effektive Nutzung von Business Content durch In-Memory-OLAP und ...Business Intelligence Research
 
Sas unternehmenspräsentation 2013
Sas unternehmenspräsentation 2013Sas unternehmenspräsentation 2013
Sas unternehmenspräsentation 2013tnittel
 
OpenDMA - Daten Management Solution
OpenDMA  - Daten Management SolutionOpenDMA  - Daten Management Solution
OpenDMA - Daten Management SolutionTorsten Glunde
 
Data Virtualization - Supernova
Data Virtualization - SupernovaData Virtualization - Supernova
Data Virtualization - SupernovaTorsten Glunde
 
Clickstream Analysis with Spark
Clickstream Analysis with Spark Clickstream Analysis with Spark
Clickstream Analysis with Spark Josef Adersberger
 

Was ist angesagt? (20)

Webinar big data für unternehmen
Webinar big data für unternehmenWebinar big data für unternehmen
Webinar big data für unternehmen
 
Big Data Governance
Big Data GovernanceBig Data Governance
Big Data Governance
 
DSGVO-Compliance schneller erreichen – mit Talend und Cloudera
DSGVO-Compliance schneller erreichen – mit Talend und ClouderaDSGVO-Compliance schneller erreichen – mit Talend und Cloudera
DSGVO-Compliance schneller erreichen – mit Talend und Cloudera
 
Big Data Webinar (Deutsch)
Big Data Webinar (Deutsch)Big Data Webinar (Deutsch)
Big Data Webinar (Deutsch)
 
Oracle Lizenzmonitoring - Fluch oder Segen?
Oracle Lizenzmonitoring - Fluch oder Segen?Oracle Lizenzmonitoring - Fluch oder Segen?
Oracle Lizenzmonitoring - Fluch oder Segen?
 
Data Fabric (German)
Data Fabric (German)Data Fabric (German)
Data Fabric (German)
 
Data Warehouse (DWH) with MySQL
Data Warehouse (DWH) with MySQLData Warehouse (DWH) with MySQL
Data Warehouse (DWH) with MySQL
 
SAP BW im Umbruch
SAP BW im UmbruchSAP BW im Umbruch
SAP BW im Umbruch
 
Portfolio 2016 animated style
Portfolio 2016   animated stylePortfolio 2016   animated style
Portfolio 2016 animated style
 
SplunkLive Zurich Overview
SplunkLive Zurich OverviewSplunkLive Zurich Overview
SplunkLive Zurich Overview
 
Amazon Redshift
Amazon RedshiftAmazon Redshift
Amazon Redshift
 
Azure Data Factory – Data Management für die Cloud
Azure Data Factory – Data Management für die CloudAzure Data Factory – Data Management für die Cloud
Azure Data Factory – Data Management für die Cloud
 
Quarterly Technology Briefing - Big Data - Germany
Quarterly Technology Briefing - Big Data - GermanyQuarterly Technology Briefing - Big Data - Germany
Quarterly Technology Briefing - Big Data - Germany
 
Clash of Cultures: Agile Microservices & Business Intelligence (Frank Schmidt...
Clash of Cultures: Agile Microservices & Business Intelligence (Frank Schmidt...Clash of Cultures: Agile Microservices & Business Intelligence (Frank Schmidt...
Clash of Cultures: Agile Microservices & Business Intelligence (Frank Schmidt...
 
Beyond SAP - Effektive Nutzung von Business Content durch In-Memory-OLAP und ...
Beyond SAP - Effektive Nutzung von Business Content durch In-Memory-OLAP und ...Beyond SAP - Effektive Nutzung von Business Content durch In-Memory-OLAP und ...
Beyond SAP - Effektive Nutzung von Business Content durch In-Memory-OLAP und ...
 
Sas unternehmenspräsentation 2013
Sas unternehmenspräsentation 2013Sas unternehmenspräsentation 2013
Sas unternehmenspräsentation 2013
 
Portfolio 2016
Portfolio 2016Portfolio 2016
Portfolio 2016
 
OpenDMA - Daten Management Solution
OpenDMA  - Daten Management SolutionOpenDMA  - Daten Management Solution
OpenDMA - Daten Management Solution
 
Data Virtualization - Supernova
Data Virtualization - SupernovaData Virtualization - Supernova
Data Virtualization - Supernova
 
Clickstream Analysis with Spark
Clickstream Analysis with Spark Clickstream Analysis with Spark
Clickstream Analysis with Spark
 

Andere mochten auch

Issn centre india
Issn centre indiaIssn centre india
Issn centre indiaissnindia
 
Open access initiative at CSIR
Open access initiative at CSIROpen access initiative at CSIR
Open access initiative at CSIRFRANK Water
 
Future of International Nuclear Information System (INIS)
Future of International Nuclear Information System (INIS)Future of International Nuclear Information System (INIS)
Future of International Nuclear Information System (INIS)Dobrica Savić
 
CSIR Labs : 38 Labs in India
CSIR Labs : 38 Labs in IndiaCSIR Labs : 38 Labs in India
CSIR Labs : 38 Labs in Indiasakshi
 
[Expert Discussion] Advanced Planning Survey by BARC
[Expert Discussion] Advanced Planning Survey by BARC [Expert Discussion] Advanced Planning Survey by BARC
[Expert Discussion] Advanced Planning Survey by BARC Jedox
 
Educar y formar también es tu responsabilidad 41091
Educar y formar también es tu responsabilidad 41091Educar y formar también es tu responsabilidad 41091
Educar y formar también es tu responsabilidad 41091proyecto2013cpe
 
Xat 2006 Paper
Xat 2006 PaperXat 2006 Paper
Xat 2006 Paperroadtomba
 
Africa sub-sahariana: mercato emergente dalle grandi prospettive
Africa sub-sahariana: mercato emergente dalle grandi prospettiveAfrica sub-sahariana: mercato emergente dalle grandi prospettive
Africa sub-sahariana: mercato emergente dalle grandi prospettiveLazio Innova
 
Resolucion 4380de2015 estab_ed_dificilacceso (1)
Resolucion 4380de2015 estab_ed_dificilacceso (1)Resolucion 4380de2015 estab_ed_dificilacceso (1)
Resolucion 4380de2015 estab_ed_dificilacceso (1)zhenron
 
Tmobile multi line-app
Tmobile multi line-appTmobile multi line-app
Tmobile multi line-appjimmiejackson
 
MIDAS Room & Resource Scheduling Software - API Documentation v1.02
MIDAS Room & Resource Scheduling Software - API Documentation v1.02MIDAS Room & Resource Scheduling Software - API Documentation v1.02
MIDAS Room & Resource Scheduling Software - API Documentation v1.02MIDAS
 
Primers pobladors de menorca
Primers pobladors de menorcaPrimers pobladors de menorca
Primers pobladors de menorcaeduardriudavets
 
Juan urrios » la rueda de tu negocio
Juan urrios » la rueda de tu negocioJuan urrios » la rueda de tu negocio
Juan urrios » la rueda de tu negocioJuan Urrios
 
Knowledge of Unseen - Ilm-e-ghayeb-علم الغيب
Knowledge of Unseen - Ilm-e-ghayeb-علم الغيبKnowledge of Unseen - Ilm-e-ghayeb-علم الغيب
Knowledge of Unseen - Ilm-e-ghayeb-علم الغيبIffu Slides
 
Ferrovial Agroman Cadagua Reclutamiento y Redes Sociales
Ferrovial Agroman Cadagua Reclutamiento y Redes SocialesFerrovial Agroman Cadagua Reclutamiento y Redes Sociales
Ferrovial Agroman Cadagua Reclutamiento y Redes SocialesFerrovial
 
Dios siempre tienen una respuesta positiva para todas
Dios siempre tienen una respuesta positiva para todasDios siempre tienen una respuesta positiva para todas
Dios siempre tienen una respuesta positiva para todasJuan David Ruiz Lopez
 
Mapa c keila rivas
Mapa c  keila rivasMapa c  keila rivas
Mapa c keila rivasKeilarv
 

Andere mochten auch (20)

Metadata Framework for Agricultural Resources Information System (AgRIS)
 Metadata Framework for Agricultural Resources Information System (AgRIS) Metadata Framework for Agricultural Resources Information System (AgRIS)
Metadata Framework for Agricultural Resources Information System (AgRIS)
 
Issn centre india
Issn centre indiaIssn centre india
Issn centre india
 
Open access initiative at CSIR
Open access initiative at CSIROpen access initiative at CSIR
Open access initiative at CSIR
 
Future of International Nuclear Information System (INIS)
Future of International Nuclear Information System (INIS)Future of International Nuclear Information System (INIS)
Future of International Nuclear Information System (INIS)
 
CSIR Labs : 38 Labs in India
CSIR Labs : 38 Labs in IndiaCSIR Labs : 38 Labs in India
CSIR Labs : 38 Labs in India
 
[Expert Discussion] Advanced Planning Survey by BARC
[Expert Discussion] Advanced Planning Survey by BARC [Expert Discussion] Advanced Planning Survey by BARC
[Expert Discussion] Advanced Planning Survey by BARC
 
Educar y formar también es tu responsabilidad 41091
Educar y formar también es tu responsabilidad 41091Educar y formar también es tu responsabilidad 41091
Educar y formar también es tu responsabilidad 41091
 
Herramientas web 22
Herramientas web 22Herramientas web 22
Herramientas web 22
 
Xat 2006 Paper
Xat 2006 PaperXat 2006 Paper
Xat 2006 Paper
 
Africa sub-sahariana: mercato emergente dalle grandi prospettive
Africa sub-sahariana: mercato emergente dalle grandi prospettiveAfrica sub-sahariana: mercato emergente dalle grandi prospettive
Africa sub-sahariana: mercato emergente dalle grandi prospettive
 
Resolucion 4380de2015 estab_ed_dificilacceso (1)
Resolucion 4380de2015 estab_ed_dificilacceso (1)Resolucion 4380de2015 estab_ed_dificilacceso (1)
Resolucion 4380de2015 estab_ed_dificilacceso (1)
 
Tmobile multi line-app
Tmobile multi line-appTmobile multi line-app
Tmobile multi line-app
 
MIDAS Room & Resource Scheduling Software - API Documentation v1.02
MIDAS Room & Resource Scheduling Software - API Documentation v1.02MIDAS Room & Resource Scheduling Software - API Documentation v1.02
MIDAS Room & Resource Scheduling Software - API Documentation v1.02
 
Primers pobladors de menorca
Primers pobladors de menorcaPrimers pobladors de menorca
Primers pobladors de menorca
 
Jonathan tepper
Jonathan tepperJonathan tepper
Jonathan tepper
 
Juan urrios » la rueda de tu negocio
Juan urrios » la rueda de tu negocioJuan urrios » la rueda de tu negocio
Juan urrios » la rueda de tu negocio
 
Knowledge of Unseen - Ilm-e-ghayeb-علم الغيب
Knowledge of Unseen - Ilm-e-ghayeb-علم الغيبKnowledge of Unseen - Ilm-e-ghayeb-علم الغيب
Knowledge of Unseen - Ilm-e-ghayeb-علم الغيب
 
Ferrovial Agroman Cadagua Reclutamiento y Redes Sociales
Ferrovial Agroman Cadagua Reclutamiento y Redes SocialesFerrovial Agroman Cadagua Reclutamiento y Redes Sociales
Ferrovial Agroman Cadagua Reclutamiento y Redes Sociales
 
Dios siempre tienen una respuesta positiva para todas
Dios siempre tienen una respuesta positiva para todasDios siempre tienen una respuesta positiva para todas
Dios siempre tienen una respuesta positiva para todas
 
Mapa c keila rivas
Mapa c  keila rivasMapa c  keila rivas
Mapa c keila rivas
 

Ähnlich wie BARC Studie Webinar: Ausgereifte Analysen mit Apache Hadoop

Hadoop in modernen BI-Infrastrukturen
Hadoop in modernen BI-InfrastrukturenHadoop in modernen BI-Infrastrukturen
Hadoop in modernen BI-Infrastruktureninovex GmbH
 
DWH Modernisierung mit Data Lake, Lab und Governance
DWH Modernisierung mit Data Lake, Lab und GovernanceDWH Modernisierung mit Data Lake, Lab und Governance
DWH Modernisierung mit Data Lake, Lab und GovernanceOPITZ CONSULTING Deutschland
 
Rbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRene Burgener
 
Data Lake Architektur: Von den Anforderungen zur Technologie
Data Lake Architektur: Von den Anforderungen zur TechnologieData Lake Architektur: Von den Anforderungen zur Technologie
Data Lake Architektur: Von den Anforderungen zur TechnologieJens Albrecht
 
Oracle hadoop doag-big-data_09_2014_gpi
Oracle hadoop doag-big-data_09_2014_gpiOracle hadoop doag-big-data_09_2014_gpi
Oracle hadoop doag-big-data_09_2014_gpiGunther Pippèrr
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data KonnektivitätTrivadis
 
Hadoop Einführung @codecentric
Hadoop Einführung @codecentricHadoop Einführung @codecentric
Hadoop Einführung @codecentricimalik8088
 
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?KurtStockinger
 
Analytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und rAnalytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und rMarcel Franke
 
Data Mesh: "Daten als Produkt" weitergedacht
Data Mesh: "Daten als Produkt" weitergedachtData Mesh: "Daten als Produkt" weitergedacht
Data Mesh: "Daten als Produkt" weitergedachtIBsolution GmbH
 
A NoSQL Summer - The Year After
A NoSQL Summer - The Year AfterA NoSQL Summer - The Year After
A NoSQL Summer - The Year AfterMeMo News AG
 
SAP Cloud for Analytics Überblick
SAP Cloud for Analytics ÜberblickSAP Cloud for Analytics Überblick
SAP Cloud for Analytics ÜberblickMohamed Abdel Hadi
 
HEC Deutsch MHoetger Espresso Web 300117
HEC Deutsch MHoetger Espresso Web 300117HEC Deutsch MHoetger Espresso Web 300117
HEC Deutsch MHoetger Espresso Web 300117Michael Hötger
 
DXC Technology - THRIVE Blog: Das nächste BI-Level
DXC Technology - THRIVE Blog: Das nächste BI-LevelDXC Technology - THRIVE Blog: Das nächste BI-Level
DXC Technology - THRIVE Blog: Das nächste BI-LevelDaniel Eiduzzis
 
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02Gunther Pippèrr
 
Cloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von MetadatenCloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von MetadatenMagnus Pfeffer
 
SCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUD
SCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUDSCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUD
SCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUDinovex GmbH
 

Ähnlich wie BARC Studie Webinar: Ausgereifte Analysen mit Apache Hadoop (20)

Hadoop in modernen BI-Infrastrukturen
Hadoop in modernen BI-InfrastrukturenHadoop in modernen BI-Infrastrukturen
Hadoop in modernen BI-Infrastrukturen
 
DWH Modernisierung mit Data Lake, Lab und Governance
DWH Modernisierung mit Data Lake, Lab und GovernanceDWH Modernisierung mit Data Lake, Lab und Governance
DWH Modernisierung mit Data Lake, Lab und Governance
 
Rbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastruktur
 
Data Lake Architektur: Von den Anforderungen zur Technologie
Data Lake Architektur: Von den Anforderungen zur TechnologieData Lake Architektur: Von den Anforderungen zur Technologie
Data Lake Architektur: Von den Anforderungen zur Technologie
 
Big Data mit Apache Hadoop
Big Data mit Apache HadoopBig Data mit Apache Hadoop
Big Data mit Apache Hadoop
 
Oracle hadoop doag-big-data_09_2014_gpi
Oracle hadoop doag-big-data_09_2014_gpiOracle hadoop doag-big-data_09_2014_gpi
Oracle hadoop doag-big-data_09_2014_gpi
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data Konnektivität
 
Hadoop Einführung @codecentric
Hadoop Einführung @codecentricHadoop Einführung @codecentric
Hadoop Einführung @codecentric
 
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
 
Darf es ein bisschen mehr sein - Konzepte und Strategien zur Bewältigung groß...
Darf es ein bisschen mehr sein - Konzepte und Strategien zur Bewältigung groß...Darf es ein bisschen mehr sein - Konzepte und Strategien zur Bewältigung groß...
Darf es ein bisschen mehr sein - Konzepte und Strategien zur Bewältigung groß...
 
Analytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und rAnalytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und r
 
Data Mesh: "Daten als Produkt" weitergedacht
Data Mesh: "Daten als Produkt" weitergedachtData Mesh: "Daten als Produkt" weitergedacht
Data Mesh: "Daten als Produkt" weitergedacht
 
A NoSQL Summer - The Year After
A NoSQL Summer - The Year AfterA NoSQL Summer - The Year After
A NoSQL Summer - The Year After
 
SAP Cloud for Analytics Überblick
SAP Cloud for Analytics ÜberblickSAP Cloud for Analytics Überblick
SAP Cloud for Analytics Überblick
 
HEC Deutsch MHoetger Espresso Web 300117
HEC Deutsch MHoetger Espresso Web 300117HEC Deutsch MHoetger Espresso Web 300117
HEC Deutsch MHoetger Espresso Web 300117
 
DXC Technology - THRIVE Blog: Das nächste BI-Level
DXC Technology - THRIVE Blog: Das nächste BI-LevelDXC Technology - THRIVE Blog: Das nächste BI-Level
DXC Technology - THRIVE Blog: Das nächste BI-Level
 
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02
 
Cloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von MetadatenCloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von Metadaten
 
SCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUD
SCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUDSCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUD
SCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUD
 
BI mit Apache Hadoop (CDH)
BI mit Apache Hadoop (CDH)BI mit Apache Hadoop (CDH)
BI mit Apache Hadoop (CDH)
 

Mehr von Cloudera, Inc.

Partner Briefing_January 25 (FINAL).pptx
Partner Briefing_January 25 (FINAL).pptxPartner Briefing_January 25 (FINAL).pptx
Partner Briefing_January 25 (FINAL).pptxCloudera, Inc.
 
Cloudera Data Impact Awards 2021 - Finalists
Cloudera Data Impact Awards 2021 - Finalists Cloudera Data Impact Awards 2021 - Finalists
Cloudera Data Impact Awards 2021 - Finalists Cloudera, Inc.
 
2020 Cloudera Data Impact Awards Finalists
2020 Cloudera Data Impact Awards Finalists2020 Cloudera Data Impact Awards Finalists
2020 Cloudera Data Impact Awards FinalistsCloudera, Inc.
 
Edc event vienna presentation 1 oct 2019
Edc event vienna presentation 1 oct 2019Edc event vienna presentation 1 oct 2019
Edc event vienna presentation 1 oct 2019Cloudera, Inc.
 
Machine Learning with Limited Labeled Data 4/3/19
Machine Learning with Limited Labeled Data 4/3/19Machine Learning with Limited Labeled Data 4/3/19
Machine Learning with Limited Labeled Data 4/3/19Cloudera, Inc.
 
Data Driven With the Cloudera Modern Data Warehouse 3.19.19
Data Driven With the Cloudera Modern Data Warehouse 3.19.19Data Driven With the Cloudera Modern Data Warehouse 3.19.19
Data Driven With the Cloudera Modern Data Warehouse 3.19.19Cloudera, Inc.
 
Introducing Cloudera DataFlow (CDF) 2.13.19
Introducing Cloudera DataFlow (CDF) 2.13.19Introducing Cloudera DataFlow (CDF) 2.13.19
Introducing Cloudera DataFlow (CDF) 2.13.19Cloudera, Inc.
 
Introducing Cloudera Data Science Workbench for HDP 2.12.19
Introducing Cloudera Data Science Workbench for HDP 2.12.19Introducing Cloudera Data Science Workbench for HDP 2.12.19
Introducing Cloudera Data Science Workbench for HDP 2.12.19Cloudera, Inc.
 
Shortening the Sales Cycle with a Modern Data Warehouse 1.30.19
Shortening the Sales Cycle with a Modern Data Warehouse 1.30.19Shortening the Sales Cycle with a Modern Data Warehouse 1.30.19
Shortening the Sales Cycle with a Modern Data Warehouse 1.30.19Cloudera, Inc.
 
Leveraging the cloud for analytics and machine learning 1.29.19
Leveraging the cloud for analytics and machine learning 1.29.19Leveraging the cloud for analytics and machine learning 1.29.19
Leveraging the cloud for analytics and machine learning 1.29.19Cloudera, Inc.
 
Modernizing the Legacy Data Warehouse – What, Why, and How 1.23.19
Modernizing the Legacy Data Warehouse – What, Why, and How 1.23.19Modernizing the Legacy Data Warehouse – What, Why, and How 1.23.19
Modernizing the Legacy Data Warehouse – What, Why, and How 1.23.19Cloudera, Inc.
 
Leveraging the Cloud for Big Data Analytics 12.11.18
Leveraging the Cloud for Big Data Analytics 12.11.18Leveraging the Cloud for Big Data Analytics 12.11.18
Leveraging the Cloud for Big Data Analytics 12.11.18Cloudera, Inc.
 
Modern Data Warehouse Fundamentals Part 3
Modern Data Warehouse Fundamentals Part 3Modern Data Warehouse Fundamentals Part 3
Modern Data Warehouse Fundamentals Part 3Cloudera, Inc.
 
Modern Data Warehouse Fundamentals Part 2
Modern Data Warehouse Fundamentals Part 2Modern Data Warehouse Fundamentals Part 2
Modern Data Warehouse Fundamentals Part 2Cloudera, Inc.
 
Modern Data Warehouse Fundamentals Part 1
Modern Data Warehouse Fundamentals Part 1Modern Data Warehouse Fundamentals Part 1
Modern Data Warehouse Fundamentals Part 1Cloudera, Inc.
 
Extending Cloudera SDX beyond the Platform
Extending Cloudera SDX beyond the PlatformExtending Cloudera SDX beyond the Platform
Extending Cloudera SDX beyond the PlatformCloudera, Inc.
 
Federated Learning: ML with Privacy on the Edge 11.15.18
Federated Learning: ML with Privacy on the Edge 11.15.18Federated Learning: ML with Privacy on the Edge 11.15.18
Federated Learning: ML with Privacy on the Edge 11.15.18Cloudera, Inc.
 
Analyst Webinar: Doing a 180 on Customer 360
Analyst Webinar: Doing a 180 on Customer 360Analyst Webinar: Doing a 180 on Customer 360
Analyst Webinar: Doing a 180 on Customer 360Cloudera, Inc.
 
Build a modern platform for anti-money laundering 9.19.18
Build a modern platform for anti-money laundering 9.19.18Build a modern platform for anti-money laundering 9.19.18
Build a modern platform for anti-money laundering 9.19.18Cloudera, Inc.
 
Introducing the data science sandbox as a service 8.30.18
Introducing the data science sandbox as a service 8.30.18Introducing the data science sandbox as a service 8.30.18
Introducing the data science sandbox as a service 8.30.18Cloudera, Inc.
 

Mehr von Cloudera, Inc. (20)

Partner Briefing_January 25 (FINAL).pptx
Partner Briefing_January 25 (FINAL).pptxPartner Briefing_January 25 (FINAL).pptx
Partner Briefing_January 25 (FINAL).pptx
 
Cloudera Data Impact Awards 2021 - Finalists
Cloudera Data Impact Awards 2021 - Finalists Cloudera Data Impact Awards 2021 - Finalists
Cloudera Data Impact Awards 2021 - Finalists
 
2020 Cloudera Data Impact Awards Finalists
2020 Cloudera Data Impact Awards Finalists2020 Cloudera Data Impact Awards Finalists
2020 Cloudera Data Impact Awards Finalists
 
Edc event vienna presentation 1 oct 2019
Edc event vienna presentation 1 oct 2019Edc event vienna presentation 1 oct 2019
Edc event vienna presentation 1 oct 2019
 
Machine Learning with Limited Labeled Data 4/3/19
Machine Learning with Limited Labeled Data 4/3/19Machine Learning with Limited Labeled Data 4/3/19
Machine Learning with Limited Labeled Data 4/3/19
 
Data Driven With the Cloudera Modern Data Warehouse 3.19.19
Data Driven With the Cloudera Modern Data Warehouse 3.19.19Data Driven With the Cloudera Modern Data Warehouse 3.19.19
Data Driven With the Cloudera Modern Data Warehouse 3.19.19
 
Introducing Cloudera DataFlow (CDF) 2.13.19
Introducing Cloudera DataFlow (CDF) 2.13.19Introducing Cloudera DataFlow (CDF) 2.13.19
Introducing Cloudera DataFlow (CDF) 2.13.19
 
Introducing Cloudera Data Science Workbench for HDP 2.12.19
Introducing Cloudera Data Science Workbench for HDP 2.12.19Introducing Cloudera Data Science Workbench for HDP 2.12.19
Introducing Cloudera Data Science Workbench for HDP 2.12.19
 
Shortening the Sales Cycle with a Modern Data Warehouse 1.30.19
Shortening the Sales Cycle with a Modern Data Warehouse 1.30.19Shortening the Sales Cycle with a Modern Data Warehouse 1.30.19
Shortening the Sales Cycle with a Modern Data Warehouse 1.30.19
 
Leveraging the cloud for analytics and machine learning 1.29.19
Leveraging the cloud for analytics and machine learning 1.29.19Leveraging the cloud for analytics and machine learning 1.29.19
Leveraging the cloud for analytics and machine learning 1.29.19
 
Modernizing the Legacy Data Warehouse – What, Why, and How 1.23.19
Modernizing the Legacy Data Warehouse – What, Why, and How 1.23.19Modernizing the Legacy Data Warehouse – What, Why, and How 1.23.19
Modernizing the Legacy Data Warehouse – What, Why, and How 1.23.19
 
Leveraging the Cloud for Big Data Analytics 12.11.18
Leveraging the Cloud for Big Data Analytics 12.11.18Leveraging the Cloud for Big Data Analytics 12.11.18
Leveraging the Cloud for Big Data Analytics 12.11.18
 
Modern Data Warehouse Fundamentals Part 3
Modern Data Warehouse Fundamentals Part 3Modern Data Warehouse Fundamentals Part 3
Modern Data Warehouse Fundamentals Part 3
 
Modern Data Warehouse Fundamentals Part 2
Modern Data Warehouse Fundamentals Part 2Modern Data Warehouse Fundamentals Part 2
Modern Data Warehouse Fundamentals Part 2
 
Modern Data Warehouse Fundamentals Part 1
Modern Data Warehouse Fundamentals Part 1Modern Data Warehouse Fundamentals Part 1
Modern Data Warehouse Fundamentals Part 1
 
Extending Cloudera SDX beyond the Platform
Extending Cloudera SDX beyond the PlatformExtending Cloudera SDX beyond the Platform
Extending Cloudera SDX beyond the Platform
 
Federated Learning: ML with Privacy on the Edge 11.15.18
Federated Learning: ML with Privacy on the Edge 11.15.18Federated Learning: ML with Privacy on the Edge 11.15.18
Federated Learning: ML with Privacy on the Edge 11.15.18
 
Analyst Webinar: Doing a 180 on Customer 360
Analyst Webinar: Doing a 180 on Customer 360Analyst Webinar: Doing a 180 on Customer 360
Analyst Webinar: Doing a 180 on Customer 360
 
Build a modern platform for anti-money laundering 9.19.18
Build a modern platform for anti-money laundering 9.19.18Build a modern platform for anti-money laundering 9.19.18
Build a modern platform for anti-money laundering 9.19.18
 
Introducing the data science sandbox as a service 8.30.18
Introducing the data science sandbox as a service 8.30.18Introducing the data science sandbox as a service 8.30.18
Introducing the data science sandbox as a service 8.30.18
 

BARC Studie Webinar: Ausgereifte Analysen mit Apache Hadoop

  • 1. 1© Cloudera, Inc. All rights reserved. BARC Studie Webinar: Ausgereifte Analysen mit Apache Hadoop Wim Stoop Senior PMM, Cloudera @TheWimster Timm Grosser VP BI Consulting, BARC @timmgrosser
  • 2. Ergebnisse der BARC Studie Hadoop und Data Lakes 2016 Webinar, 13.12.2016 Timm Grosser, VP Head of BI Consulting
  • 3. Über die CXP Group 32016
  • 4. BARC: Expertise für datengetriebene Unternehmen 52016
  • 5. Warum diskutieren wir Hadoop? 13.12.2016 © BARC 2016 6 Management & Fachbereiche • Der Wert und Nutzen von Daten steigt • Gestiegene Erwartungshaltung im Management und Fachbereich • Optimierung und Innovation IT • Re-Definition der IT – IT als Business Partner oder technischer Enabler? • IT-Kostendruck und Service- Qualität (Optimierung der bestehenden Datenmanagementaufgaben) Daten & Analyse • Mehr und umfangreichere Analysen sind machbar • Mehr Daten sind verfügbar • Abdeckung verschiedener Analyse- Disziplinen: Klassische BI – Explorativ – Operativ Klassische BI Umgebungen stoßen an Ihre Grenzen. Heutige Anforderungen erfordern teils neue Technologien, Skills und Prozesse.
  • 6. Ist Hadoop die Lösung? 13.12.2016 © BARC 2016 7 Bildquelle: http://www.gobraithwaite.com/blog/wp-content/ uploads/2011/07/Blog-Brand-Evangelist.jpg Höret und staunet Thesen, die es zu hinterfragen gilt: • ist kostengünstig • ist flexibel, schnell und einfach in der Implementierung • bietet umfangreiche Unterstützung für unterschiedlich strukturierte Daten • liefert funktionale Vorteile ggü. Werkzeugen, die in der klassischen BI Fabrik eingesetzt werden • skaliert einfach und schnell entlang Daten und Funktionen auf Basis einer parallelen Datenverarbeitung • ist die präferierte Technologie zum Aufbau des Data Lakes • kann gleichzeitig für Analysen und auch online/real-time Anwendungen verwendet werden
  • 7. Was ist Apache Hadoop? 13.12.2016 © BARC 2016 8 HDFS2 (Redundant, Reliable Storage) YARN (Cluster Resource Management) BATCH (MapReduce) INTERACTIVE (Tez) STREAMING (Storm, S4,…) GRAPH (Giraph) IN-MEMORY (Spark) HPC MPI (OpenMPI) ONLINE (HBase) OTHER (Search) (Weave…) “Hadoop is an open-source software framework for storing data and running applications on clusters of commodity hardware. It provides massive storage for any kind of data, enormous processing power and the ability to handle virtually limitless concurrent tasks or jobs.”
  • 8. 13.12.2016 © BARC 2016 9 Was erwarten wir von Hadoop? Hilfe, wo Data Warehouse Landschaften an die Grenzen stoßen.
  • 9. Datenkategorien und ihre Merkmale 13.12.2016 © BARC 2016 10 Quelldaten Kategorie Qualität Komplexität Interpretierbarkeit Störgeräusch Transaktionale Daten Maschinen- generiert Mensch- generiert Data Warehouse Prozessaffinität Big Data Prozessaffinität
  • 10. Mind shift durch Big Data Analyseprozess, Datenpersistenz und Datenmenge 11 13.12.2016 13.12.2016 © BARC 2016
  • 11. Mind shift durch Big Data Analyseprozess, Datenpersistenz und Datenmenge 12 Datenaufbereitung Datenanalyse Visualisierung Analytik Datenbereitstellung Datenspeicherung Data Warehousing Prozess 13.12.2016 13.12.2016 © BARC 2016
  • 12. Mind shift durch Big Data Analyseprozess, Datenpersistenz und Datenmenge 13 Datenaufbereitung Datenanalyse Visualisierung Analytik Datenbereitstellung Datenspeicherung Data Warehousing Prozess Erst prüfen, dann sammeln 13.12.2016 13.12.2016 © BARC 2016
  • 13. Mind shift durch Big Data Analyseprozess, Datenpersistenz und Datenmenge 14 Datenaufbereitung Datenanalyse Visualisierung Analytik Datenbereitstellung Datenspeicherung Datenaufbereitung Datenanalyse Visualisierung Analytik Datenbereitstellung Datenspeicherung Data Warehousing Prozess Big Data Prozess Erst prüfen, dann sammeln 13.12.2016 13.12.2016 © BARC 2016
  • 14. Mind shift durch Big Data Analyseprozess, Datenpersistenz und Datenmenge 15 Datenaufbereitung Datenanalyse Visualisierung Analytik Datenbereitstellung Datenspeicherung Datenaufbereitung Datenanalyse Visualisierung Analytik Datenbereitstellung Datenspeicherung Data Warehousing Prozess Big Data Prozess Erst prüfen, dann sammeln Erst (alles) sammeln, dann prüfen Sicheres Ergebnis Unsicheres Ergebnis („fast fail“) 13.12.2016 13.12.2016 © BARC 2016
  • 15. Mind shift durch Big Data Analyseprozess, Datenpersistenz und Datenmenge 16 Datenaufbereitung Datenanalyse Visualisierung Analytik Datenbereitstellung Datenspeicherung Datenaufbereitung Datenanalyse Visualisierung Analytik Datenbereitstellung Datenspeicherung Data Warehousing Prozess Big Data Prozess Erst prüfen, dann sammeln Erst (alles) sammeln, dann prüfen Sicheres Ergebnis Unsicheres Ergebnis („fast fail“) Reglementierte, verifizierende Analyse Explorative Analyse auf alle Daten 13.12.2016 13.12.2016 © BARC 2016
  • 16. Advanced-Analytics-Projekt-Zyklus: Von der Hypothese zur Operationalisierung 172016 Abbruch der Untersuchung Einmalige Erkenntnis-Anwendung Operationalisierung (Integration in operative Prozesse) Projektauftrag Aufgabenverständnis Ergebnisevaluation / Gütebewertung Fortlaufende Bewertung der Güte des Modells Modellierung & Modellvalidierung Datenverständnis, Selektion, Integration & Aufbereitung 60% 20% 10% 5% 5%
  • 17. 13.12.2016 © BARC 2016 18 Ergebnisse der BARC Studie “Hadoop und Data Lakes 2016”
  • 18. Der BARC Survey “Hadoop und Data Lakes” Über 380 Teilnehmer Breite Abdeckung verschiedener Branchen und Unternehmensgrößen Anwenderumfrage zum Status Quo und Fortschritt von Hadoop Relevanz von Hadoop und Data Lakes Nutzen und Herausforderungen Einsatzszenarien Status Quo von Hadoop und Data Lakes Globale Befragung Auflage 2. Bis 250 Mitarbeiter 250 – 2,500 Mitarbeiter Mehr als 2,500 Mitarbeiter 23% 33% 45% ServicesIndustrie Banksektor IT Handel Öffentlicher Sektor Sonstige 24% 22% 16% 14% 9% 6% 9%
  • 19. 7 Erkenntnisse aus der Studie 1. Hadoop - Trendtechnologie mit hohem Potential 2016 21
  • 20. Die Nutzung von Hadoop hängt vom Anwendungsfall ab und wird nicht durch die Unternehmensgröße definiert 13.12.2016 © BARC 2016 22 Quelle: BARC Studie Hadoop und Data Lakes 2016
  • 21. Die Nutzung von Hadoop hängt vom Anwendungsfall ab und wird nicht durch die Unternehmensgröße definiert Die Studie zeigt zudem, das der Einsatz von Hadoop zudem unabhängig ist von: • Datenvolumen • Datenaktualität • Datentypen 13.12.2016 © BARC 2016 23 Quelle: BARC Studie Hadoop und Data Lakes 2016
  • 22. Nach wie vor breites Einsatzfeld von Hadoop – in Hadoop steckt mehr als in einem Dateiablagesystem 13.12.2016 © BARC 2016 24 Quelle: BARC Studie Hadoop und Data Lakes 2016
  • 23. Nach wie vor breites Einsatzfeld von Hadoop – in Hadoop steckt mehr als in einem Dateiablagesystem 13.12.2016 © BARC 2016 25 Quelle: BARC Studie Hadoop und Data Lakes 2016
  • 24. Nach wie vor breites Einsatzfeld von Hadoop – in Hadoop steckt mehr als in einem Dateiablagesystem 13.12.2016 © BARC 2016 26 Quelle: BARC Studie Hadoop und Data Lakes 2016
  • 25. 7 Erkenntnisse aus der Studie 1. Hadoop - Trendtechnologie mit hohem Potential 2. BICC und Data Science Teams treiben Hadoop und Data-Lake-Projekte 2016 27
  • 26. BI Competence Center und Data-Science-Team treiben Hadoop-Initiativen 13.12.2016 © BARC 2016 28 Quelle: BARC Studie Hadoop und Data Lakes
  • 27. BI Competence Center und Data-Science-Team treiben Hadoop-Initiativen 13.12.2016 © BARC 2016 29 Quelle: BARC Studie Hadoop und Data Lakes
  • 28. BI Competence Center und Data-Science-Team treiben Hadoop-Initiativen 13.12.2016 © BARC 2016 30 Quelle: BARC Studie Hadoop und Data Lakes 52% 41% 25% 25% 7% IT-Abteilung BI-Organisation Fachbereich Management Sonstige BARC Survey „Hadoop 2015“, n=178
  • 29. 7 Erkenntnisse aus der Studie 1. Hadoop - Trendtechnologie mit hohem Potential 2. BICC und Data Science Teams treiben Hadoop und Data-Lake-Projekte 3. Umsetzung erfolgt hauptsächlich durch kommerzielle Werkzeuge und Hadoop- Distributionen 2016 31
  • 30. Kommerzielle Software und Hadoop-Distributionen im eigenen Haus sind die erste Wahl zur Umsetzung 13.12.2016 © BARC 2016 32 Quelle: BARC Studie Hadoop und Data Lakes Hadoop Nicht anwendbar Kommerzielle Produkte
  • 31. Kommerzielle Software und Hadoop-Distributionen im eigenen Haus sind die erste Wahl zur Umsetzung 13.12.2016 © BARC 2016 33 Quelle: BARC Studie Hadoop und Data Lakes Hadoop Nicht anwendbar Kommerzielle Produkte
  • 32. Kosteneffizienz, funktionale Leistungs-/Innovationskraft und Betreibbarkeit sind mit Hauptgründe für den Einsatz von Apache Hadoop 13.12.2016 © BARC 2016 34 Quelle: BARC Studie Hadoop und Data Lakes Dies gilt allerdings nicht grundsätzlich für alle untersuchten Werkzeugklassen
  • 33. Kosteneffizienz, funktionale Leistungs-/Innovationskraft und Betreibbarkeit sind mit Hauptgründe für den Einsatz von Apache Hadoop 13.12.2016 © BARC 2016 35 Quelle: BARC Studie Hadoop und Data Lakes Dies gilt allerdings nicht grundsätzlich für alle untersuchten Werkzeugklassen
  • 34. 7 Erkenntnisse aus der Studie 1. Hadoop - Trendtechnologie mit hohem Potential 2. BICC und Data Science Teams treiben Hadoop und Data-Lake-Projekte 3. Umsetzung erfolgt hauptsächlich durch kommerzielle Werkzeuge und Hadoop- Distributionen 4. Klarer Fall für Hadoop: Customer Intelligence und Predictive Analytics 2016 36
  • 35. Customer Intelligence und Predictive Analytics sind die am häufigsten umgesetzten Hadoop-Projekte 13.12.2016 © BARC 2016 37 Quelle: BARC Studie Hadoop und Data Lakes
  • 36. Customer Intelligence und Predictive Analytics sind die am häufigsten umgesetzten Hadoop-Projekte 13.12.2016 © BARC 2016 38 Quelle: BARC Studie Hadoop und Data Lakes
  • 37. Customer Intelligence und Predictive Analytics sind die am häufigsten umgesetzten Hadoop-Projekte 13.12.2016 © BARC 2016 39 Quelle: BARC Studie Hadoop und Data Lakes 71% 68% 44% 42% 40% 31% 27% 27% 26% 21% 9% 7% 1% Analyse Predictive Analytics Data Integration & Quality Dashboarding und Reporting Datenspeicherung Machine Learning Search & Discovery Archivierung Sandboxing Streaming Master Data Management Dokumentenmanagement Sonstige Kernkomponenten in Hadoop Use Cases, n=242
  • 38. 7 Erkenntnisse aus der Studie 1. Hadoop - Trendtechnologie mit hohem Potential 2. BICC und Data Science Teams treiben Hadoop und Data-Lake-Projekte 3. Umsetzung erfolgt hauptsächlich durch kommerzielle Werkzeuge und Hadoop- Distributionen 4. Klarer Fall für Hadoop: Customer Intelligence und Predictive Analytics 5. Großer analytischer Nutzen durch Hadoop 2016 40
  • 39. 59% 53% 47% 43% 33% 33% 27% 26% 26% 25% 20% 19% 18% 6% 2% Analyse von Daten aus heterogenen, divergenten Datenquellen ermöglichen/verbessern Kundenverhalten vorhersagen, Kundenbindung verbessern Steigerung der Flexibilität im Umgang mit Daten und in der fortgeschrittenen Analyse Erhöhung der Wettbewerbsfähigkeit Mehr/zusätzliche Daten kosteneffizient speichern und analysieren Verbesserung der Reaktionsgeschwindigkeit auf aktuelles Marktgeschehen Produkt- und Vertriebserfolg vorhersagen Betrug oder finanzielle Risiken vorhersagen Monitoring von Maschinen/Geräte und proaktive Wartung ermöglichen Sentiment/Stimmungs- und Trendanalysen Erhöhung des Umsatzes Monitoring und Optimierung von IT-Systemen und IT-Sicherheitsrisiken Effizienz operativer Prozesse erhöhen Wir können derzeit den fachlich-inhaltlichen Nutzen einer Hadoop-Initiative nicht bestimmen Sonstige Wichtigste Mehrwerte durch Hadoop: bessere Analyse auf heterogenen Daten, besseres Kundenverständnis und -bindung sowie Steigerung der Flexibilität 13.12.2016 © BARC 2016 41 Quelle: BARC Studie Hadoop und Data Lakes, n=144
  • 40. 59% 53% 47% 43% 33% 33% 27% 26% 26% 25% 20% 19% 18% 6% 2% Analyse von Daten aus heterogenen, divergenten Datenquellen ermöglichen/verbessern Kundenverhalten vorhersagen, Kundenbindung verbessern Steigerung der Flexibilität im Umgang mit Daten und in der fortgeschrittenen Analyse Erhöhung der Wettbewerbsfähigkeit Mehr/zusätzliche Daten kosteneffizient speichern und analysieren Verbesserung der Reaktionsgeschwindigkeit auf aktuelles Marktgeschehen Produkt- und Vertriebserfolg vorhersagen Betrug oder finanzielle Risiken vorhersagen Monitoring von Maschinen/Geräte und proaktive Wartung ermöglichen Sentiment/Stimmungs- und Trendanalysen Erhöhung des Umsatzes Monitoring und Optimierung von IT-Systemen und IT-Sicherheitsrisiken Effizienz operativer Prozesse erhöhen Wir können derzeit den fachlich-inhaltlichen Nutzen einer Hadoop-Initiative nicht bestimmen Sonstige Wichtigste Mehrwerte durch Hadoop: bessere Analyse auf heterogenen Daten, besseres Kundenverständnis und -bindung sowie Steigerung der Flexibilität 13.12.2016 © BARC 2016 42 Quelle: BARC Studie Hadoop und Data Lakes, n=144
  • 41. 59% 53% 47% 43% 33% 33% 27% 26% 26% 25% 20% 19% 18% 6% 2% Analyse von Daten aus heterogenen, divergenten Datenquellen ermöglichen/verbessern Kundenverhalten vorhersagen, Kundenbindung verbessern Steigerung der Flexibilität im Umgang mit Daten und in der fortgeschrittenen Analyse Erhöhung der Wettbewerbsfähigkeit Mehr/zusätzliche Daten kosteneffizient speichern und analysieren Verbesserung der Reaktionsgeschwindigkeit auf aktuelles Marktgeschehen Produkt- und Vertriebserfolg vorhersagen Betrug oder finanzielle Risiken vorhersagen Monitoring von Maschinen/Geräte und proaktive Wartung ermöglichen Sentiment/Stimmungs- und Trendanalysen Erhöhung des Umsatzes Monitoring und Optimierung von IT-Systemen und IT-Sicherheitsrisiken Effizienz operativer Prozesse erhöhen Wir können derzeit den fachlich-inhaltlichen Nutzen einer Hadoop-Initiative nicht bestimmen Sonstige Wichtigste Mehrwerte durch Hadoop: bessere Analyse auf heterogenen Daten, besseres Kundenverständnis und -bindung sowie Steigerung der Flexibilität 13.12.2016 © BARC 2016 43 Quelle: BARC Studie Hadoop und Data Lakes, n=144
  • 42. 7 Erkenntnisse aus der Studie 1. Hadoop - Trendtechnologie mit hohem Potential 2. BICC und Data Science Teams treiben Hadoop und Data-Lake-Projekte 3. Umsetzung erfolgt hauptsächlich durch kommerzielle Werkzeuge und Hadoop- Distributionen 4. Klarer Fall für Hadoop: Customer Intelligence und Predictive Analytics 5. Großer analytischer Nutzen durch Hadoop 6. Hadoop ermöglicht Anwendungsfälle, die bisher nicht umgesetzt werden konnten 2016 44
  • 43. Anwender sehen Hadoop vor allem als (potentielle) Technologie zur Umsetzung neuartiger Anwendungsfälle 13.12.2016 © BARC 2016 45 Quelle: BARC Hadoop und Data Lakes
  • 44. Anwender sehen Hadoop vor allem als (potentielle) Technologie zur Umsetzung neuartiger Anwendungsfälle 13.12.2016 © BARC 2016 46 Quelle: BARC Hadoop und Data Lakes
  • 45. 7 Erkenntnisse aus der Studie 1. Hadoop - Trendtechnologie mit hohem Potential 2. BICC und Data Science Teams treiben Hadoop und Data-Lake-Projekte 3. Umsetzung erfolgt hauptsächlich durch kommerzielle Werkzeuge und Hadoop- Distributionen 4. Klarer Fall für Hadoop: Customer Intelligence und Predictive Analytics 5. Großer analytischer Nutzen durch Hadoop 6. Hadoop ermöglicht Anwendungsfälle, die bisher nicht umgesetzt werden konnten 7. Die größten Herausforderungen sind fehlendes Know-how und Unsicherheit bei der Nutzung 2016 47
  • 46. 54% 50% 41% 33% 27% 27% 22% 21% 19% 16% 14% 4% 3% Fehlendes fachliches Know-how im Unternehmen Fehlendes Know-how beim Aufbau und Betrieb einer Big-Data-Architektur Fehlendes Know-how Hadoop richtig einsetzen und nutzen zu können Fehlende überzeugende Einsatzszenarien Nutzen von Hadoop-Initiative ist nicht klar, kann nicht klar Fehlende Sponsoren/Unterstützung aus der Führungsebene Bedenken im Hinblick auf Datenschutz oder Datensicherheit Kosten für die Implementierung einer neuen Technologie zu hoch Fehlende oder mangelnde Reife der Komponenten des Ökosystems Benutzerfreundlichkeit Kosten für die Schulung und Entwicklung zu hoch Es gibt keine Probleme beim Einsatz von Hadoop Sonstige Größte Herausforderungen sind fehlendes Know-how und Unsicherheit in der Nutzung 13.12.2016 © BARC 2016 48 Quelle: BARC Hadoop und Data Lakes, n=379
  • 47. 54% 50% 41% 33% 27% 27% 22% 21% 19% 16% 14% 4% 3% Fehlendes fachliches Know-how im Unternehmen Fehlendes Know-how beim Aufbau und Betrieb einer Big-Data-Architektur Fehlendes Know-how Hadoop richtig einsetzen und nutzen zu können Fehlende überzeugende Einsatzszenarien Nutzen von Hadoop-Initiative ist nicht klar, kann nicht klar Fehlende Sponsoren/Unterstützung aus der Führungsebene Bedenken im Hinblick auf Datenschutz oder Datensicherheit Kosten für die Implementierung einer neuen Technologie zu hoch Fehlende oder mangelnde Reife der Komponenten des Ökosystems Benutzerfreundlichkeit Kosten für die Schulung und Entwicklung zu hoch Es gibt keine Probleme beim Einsatz von Hadoop Sonstige Größte Herausforderungen sind fehlendes Know-how und Unsicherheit in der Nutzung 13.12.2016 © BARC 2016 49 Quelle: BARC Hadoop und Data Lakes, n=379 50% in DACH
  • 48. Ausgewählte Hadoop-Thesen auf dem Prüfstand 13.12.2016 © BARC 2016 50 …ist kostengünstig Umfrageergebnis: trifft im Grunde zu, auch wenn es nicht zu den Hauptnutzen von Hadoop zählt Analyst: kann, muss aber nicht. Viele denken in erster Linie an Lizenzkosten. Kosten für Implementierung, Hardware und Betrieb sind mit zu berücksichtigen. …ist flexibel, einfach und schnell in der Implementierung Umfrageergebnis: Umsetzungseffizienz ist ein Grund für die Wahl kommerzieller Werkzeuge bzw. Hadoop Distributionen Analyst: der Flexibilität durch Individualprogrammierung steht die mangelnde, inhärente Plattformunterstützung gegenüber. Anwendbarkeit ist abhängig von dem verfügbaren Wissen, bspw. rund um MPP. …unterstützt unterschiedlich strukturierte Daten Umfrageergebnis: wird in dieser und auch vorherigen Umfragen bestätigt Analyst: ja, im Sinne eines Dateisystems zur Speicherung unterschiedlicher Formate. Das Schema kommt mit der Anwendung. …liefert funktionale Vorteile ggü. Werkzeugen, die in der klassischen BI Fabrik eingesetzt werden Umfrageergebnis: hervorzuhebende funktionale Vorteile von Hadoop werden nicht gesehen, aber auch keine Nachteile. Analyst: hier steht die Individualprogrammierung der Standardanwendungssoftware gegenüber. Je nachdem wie die Skills gesetzt sind ist mal der eine, mal der andere Ansatz besser.
  • 49. Hadoop-Thesen auf dem Prüfstand 13.12.2016 © BARC 2016 51 …Hadoop skaliert einfach und schnell mit wachsenden Datenvolumina und Workloads in parallelen Umgebungen Umfrageergebnis: Skalierbarkeit wird nicht als expliziter Vorteil von Hadoop genannt Analyst: grundsätzlich ja, auf der einen Seite bietet Hadoop viel Flexibilität durch die Freiheiten in der Programmierung. Auf der anderen Seite stehen die Vorteile der Standardanwendungssoftware. Eine gewisse Grundausstattung unabhängig von den tatsächlichen Anforderungen sollte gewährleistet sein. …ist die präferierte Technologie zum Aufbau des Data Lakes Umfrageergebnis: Teilnehmer sehen Hadoop als eine von mehreren möglichen Technologien zur Umsetzung Analyst: für den Aufbau eines Data Lakes gibt es keinen klaren Leitfaden. Vor allem sind heute in der Gestaltung eines Data Lakes noch Fragen offen zum Metadaten Management, zu Anforderungen an virtuelle/logische Data Lake, u.w. Pauschal kann daher Hadoop nicht als „präferierte“ Technologie genannt werden. …kann gleichzeitig für Analysen und auch online/real-time Anwendungen verwendet werden Umfrageergebnis: die Nutzung von Hadoop für eine online/real-time Verarbeitung scheint eher vereinzelt aufzutreten Analyst: grundsätzlich ja. Analytik und transaktionale Anwendungen benötigen unterschiedliche Designs, Komponenten und Systemkonfigurationen
  • 50. Wahrnehmung von Hadoop im D(ACH)-Markt • Der Hype scheint abgeflaut, die Nutzung von Hadoop ist ernüchternd. • Verfügbare Hadoop-Distributionen haben bereits eine hohe Reife bzw. entwickeln sich schnell weiter hin zu Unternehmens-Anwendungen. • Hadoop wird damit als natürlicher Baustein zum Aufbau analytischer Infrastrukturen diskutiert. • Es muss noch viel Schulung zum Know-how-Aufbau betrieben werden. • Hadoop fehlt es derzeit noch an Anwendbarkeit. • Allerdings wächst täglich die Zahl an Werkzeugen, die helfen Hadoop zu nutzen (anzuwenden), bzw. die Hadoop um (analytische) Funktionen erweitern. 13.12.2016 © BARC 2016 52
  • 52. 54© Cloudera, Inc. All rights reserved. Data Drives Business
  • 53. 55© Cloudera, Inc. All rights reserved. Our relationship with data is changing
  • 54. 56© Cloudera, Inc. All rights reserved. The digital universe is expanding Source: IDC Digital Universe Study, IDC IoT Forecast
  • 55. 57© Cloudera, Inc. All rights reserved. The digital universe is expanding Source: IDC Digital Universe Study, IDC IoT Forecast 44zb 4.4zb
  • 56. 58© Cloudera, Inc. All rights reserved. The digital universe is expanding Source: IDC Digital Universe Study, IDC IoT Forecast 44zb 4.4zb Unstructured 90%
  • 57. 59© Cloudera, Inc. All rights reserved. The digital universe is expanding Source: IDC Digital Universe Study, IDC IoT Forecast 44zb 4.4zb Unstructured 90% Data 100%0% 25% Valuable
  • 58. 60© Cloudera, Inc. All rights reserved. The digital universe is expanding Source: IDC Digital Universe Study, IDC IoT Forecast 44zb 4.4zb Unstructured 90% Data 100%0% 25% Valuable 7 billion 30 billion
  • 59. 61© Cloudera, Inc. All rights reserved. The digital universe is expanding Source: IDC Digital Universe Study, IDC IoT Forecast 44zb 4.4zb Unstructured 90% Data 100%0% 25% Valuable 7 billion 30 billion
  • 60. 62© Cloudera, Inc. All rights reserved. The great value of data Destroying human trafficking Fighting child sexual exploitation Working to cure cancer Saving lives by detecting sepsis Improve pain management for premature babies Managing Orion space craft as it orbits the Earth People Lives Science
  • 61. 63© Cloudera, Inc. All rights reserved. “It will soon be technically feasible & affordable to record & store everything…” — New York Times “Digital technologies will, in the near future, accomplish many tasks once considered uniquely human.” — Second Machine Age Data is abundant, diverse & shared freely As is how we store, process and analyze it Streaming Machine Learning BI ETL Modeling
  • 62. 64© Cloudera, Inc. All rights reserved. We want to enable you to….. Query more dimensions of more data points from more sources to make better predictions and make them quicker
  • 63. 65© Cloudera, Inc. All rights reserved. Thinking about the future Source: IDC Nordic CxO Survey
  • 64. 66© Cloudera, Inc. All rights reserved. Thinking about the future 40% Decisions 37% Biz dev 36% Customer analysis 34% Predictive analysis 33% Process optimisation Source: IDC Nordic CxO Survey
  • 65. 67© Cloudera, Inc. All rights reserved. Boardroom thinking DRIVE CUSTOMER INSIGHTS IMPROVE PRODUCT & SERVICES EFFICIENCY LOWER BUSINESS RISK
  • 66. 68© Cloudera, Inc. All rights reserved. Boardroom thinking DRIVE CUSTOMER INSIGHTS IMPROVE PRODUCT & SERVICES EFFICIENCY LOWER BUSINESS RISK MODERNIZE ARCHITECTURE
  • 67. 69© Cloudera, Inc. All rights reserved. Apache Hadoop for new ways of working with data Extreme performance and efficiency Analytic agility
  • 68. 70© Cloudera, Inc. All rights reserved. Benefits of Hadoop Cost-effective Scalable Flexible
  • 69. 71© Cloudera, Inc. All rights reserved. The journey requires some thought.
  • 70. 72© Cloudera, Inc. All rights reserved. Get the right architecture. Assemble the right team. Adopt an agile approach.
  • 71. 73© Cloudera, Inc. All rights reserved. Adopt an Agile Approach Successful projects start small, fail often, and iterate to success 1. Get data you already have, or create new data. 2. Explore and analyze, quickly. 3. Deploy your application. …and repeat Add: new data sources, more users, more use cases, more complex analytics, go real-time Collect, Create, Manage unlimited data Explore, Analyze data in many ways Operationalize insights to drive action
  • 72. 74© Cloudera, Inc. All rights reserved. Thank you Wim Stoop Senior PMM, Cloudera @TheWimster Timm Grosser VP BI Consulting, BARC @timmgrosser

Hinweis der Redaktion

  1. TonSpur: Der Data Lake ist die beste Antwort auf all unsere analytischen und operativen Fragenstellungen; Ich brauche einen Data Lake
  2. Thank you Philip So what is our view on this? Well, data drives business and being data driven has become a business imperative. It’s all driven from the fact that
  3. What once was a cost to be managed is now a source of competitive advantage and new revenue streams. Organizations are actively working to gather more data by instrumenting applications, platforms, and physical devices to create more of it and storing it for a longer time horizon– in order to drive this advantage. Data is now a strategic asset, and you need a strategy for it.
  4. And the amount of data at our disposal is massive. Point from infographics DU will grow from 4.4 to 44 Zb in 2020 90% of all data is unstructured 25% would be valuable if tagged; less than 1% is 30 billion connected things 90% of data is less than 2yrs old
  5. And the amount of data at our disposal is massive. Point from infographics DU will grow from 4.4 to 44 Zb in 2020 90% of all data is unstructured 25% would be valuable if tagged; less than 1% is 30 billion connected things 90% of data is less than 2yrs old
  6. And the amount of data at our disposal is massive. Point from infographics DU will grow from 4.4 to 44 Zb in 2020 90% of all data is unstructured 25% would be valuable if tagged; less than 1% is 30 billion connected things 90% of data is less than 2yrs old
  7. And the amount of data at our disposal is massive. Point from infographics DU will grow from 4.4 to 44 Zb in 2020 90% of all data is unstructured 25% would be valuable if tagged; less than 1% is 30 billion connected things 90% of data is less than 2yrs old
  8. And the amount of data at our disposal is massive. Point from infographics DU will grow from 4.4 to 44 Zb in 2020 90% of all data is unstructured 25% would be valuable if tagged; less than 1% is 30 billion connected things 90% of data is less than 2yrs old
  9. And the amount of data at our disposal is massive. Point from infographics DU will grow from 4.4 to 44 Zb in 2020 90% of all data is unstructured 25% would be valuable if tagged; less than 1% is 30 billion connected things 90% of data is less than 2yrs old
  10. And you can do great things with this data besides run businesses. Data impacts people, lives, science…. The impossible becomes possible…. It can help destroy human trafficking… It helps fight child sexual exploitation in the Thorn project by accelerating victim identification, disrupting platforms that facilitate abusive behavior and deterring predators It helps improve healthcare whether that’s in research on cancer, detecting sepsis earlier or by giving premature babies better chances of survival through improved pain management And it will take use far. The Orion multi purpose crew vehicle may take us to Mars one day yet until that time, things need to be tested very carefully and rigorously. Hundreds of Mb/s of sensor and telemetry in testing alone. With data, we can do great things
  11. And there are two sides to the data conversation. Left hand side is essentially the 3Vs, what everyone has been talking about for some time now. Big data. ”it will soon be technically feasible & affordable to record and store everything” We can finally become the equivalent of a hoarder yet in a digital fashion. Plane spotters. Yet storing data for storing data’s sake is neither use nor ornament. So more important, arguably, is the right hand side and HOW we use that data. It’s not just about the size, variety, etc. but the complexity of the ways we can manipulate it and in so doing, uncover some really profound things.
  12. And especially for analytics, this is a big deal because we get much more granular insight. Much more data and brute force helps build better models. All of this happens faster. Together, it’s enough quantitative difference to make a qualitative difference.
  13. And the prize is great. Business are looking at advantages and use cases around 40% decision making 37% business development 36% customer analysis 34% predictive analytics 33% process optimization http://viralcocktail.com/people-imagined-what-life-would-be-like-in-the-year-2000-and-were-so-far-off/8/
  14. And the prize is great. Business are looking at advantages and use cases around 40% decision making 37% business development 36% customer analysis 34% predictive analytics 33% process optimization http://viralcocktail.com/people-imagined-what-life-would-be-like-in-the-year-2000-and-were-so-far-off/8/
  15. Translating it to a boardroom level, there are a number of initiatives that this wealth of data is very well suited to. Data drives business value in for these, tremendous value. The three areas of opportunities within businesses generally are: Customer and Channel – How do I build a 360 picture of my customer to deliver new revenue streams? Data-Driven Products – How can I build better data-driven products and services, at lower cost? Security, Risk, and Compliance – How do meet compliance regulations and preserve data security to minimize our corporate risk profile? So let’s look at each of these in turn
  16. All of these initiatives have one thing in common: they need a different approach to dealing with data. A different scale on which is must be consumed, stored, analysed. Beyond current systems. It needs a modern data architecture as well as strategy
  17. Yet as Philip already hinted, you need a platform that’s uniquely suited to handle the demands that this then places on it. Hadoop is just that. Actually, not just Hadoop; more like Hadoop and it’s related open source projects. It has the extreme performance and efficiency that let’s you handle the volume, variety and velocity of the data, irrespective of how much you throw at it On the other hand it also provides the agility to gain insight from that data. All of that data. To enable that self service and democratization of data access and analytics so may organizations and departments pine for.
  18. And that’s why Hadoop and associated open source projects work so brilliantly well. They are Open Source and run on Industry standard hardware which makes them extremely cost effective Scalable to Petabyte level, on prem, in cloud, as a mixture, anything And extremely Flexible to handle Mutliple data types Processing engines. Not just about SQL.
  19. But it’s not just technology that enables all this. This is a digital transformation. This is a change process too. As with so much, all good things come in threes as Philip already showed.
  20. Getting the right arch is one thing; you also need the right stakeholders and skills in your team and adopt an agile approach
  21. Let’s talk more about an agile, iterative approach…Goal is to exploit the technical underpinning the big data platform – A platform that allows flexibility in capture and interpretation. So question is, how best to employ this? Continuous iteration. These are the 3 key steps to being agile. Collect, Create and Manage: Figure out what data you have and what data you need.  Tag it so only the right people can see it.   Collect Collect the familiar, the new, the never seen, the always dropped. No need to worry up front on how to use, so just start using – make it available to any and all frameworks. Document upfront to make downstream and future analysis easier. Understand that quality can be built iteratively, too. Create Find the gaps, no matter the type, as you learn more. Integration can come with iterations, so focus on what value new sources can bring. Don’t forget that your business creates lots of data outside the data warehouse. B2B contracts means be explicit about capturing and/or asking, delivering and using data Explore and Analyze: Now you have many tools hitting the same dataset.  Continue to add new tools and new applications and watch the value grow. Start with somewhat limited scope – a single dataset – for a team, and get familiar, go deep. Enrich your data. Get experience and momentum. Build grassroots advocacy. Understand the data and its usage better, find the probable linkages to other data sets a (identify resolution) – lay down the groundwork for future. Extend enrichment. Fuse data sets (and possibly even teams?) together to find intersections, correlations. To uncover the really “unknown unknowns.” Move from enriched to refined to derived data (latter is data that would exist without the former; wholly new yet separate and distinct from its predecessors) Operationalize: Move data closer to users so they can impact the business. Launch embedded, smart applications to deliver insights to customers and business users. Operationalize Bring data and insight to all workflows in the business. Integrate into the very decision-making, at every step. Take advantage of the longitudinal analytics afforded by the platform: past, present, and future-looking analytics, simultaneously. Data is brought to and sought by those who use it, simultaneously.