BARC Studie Webinar: Ausgereifte Analysen mit Apache Hadoop

1© Cloudera, Inc. All rights reserved.
BARC Studie Webinar:
Ausgereifte Analysen mit
Apache Hadoop
Wim Stoop
Senior PMM, Cloudera
@TheWimster
Timm Grosser
VP BI Consulting, BARC
@timmgrosser

Ergebnisse der BARC Studie
Hadoop und Data Lakes 2016
Webinar, 13.12.2016
Timm Grosser, VP Head of BI Consulting

BARC: Expertise für datengetriebene Unternehmen
52016

Warum diskutieren wir Hadoop?
13.12.2016 © BARC 2016 6
Management & Fachbereiche
• Der Wert und Nutzen von Daten
steigt
• Gestiegene Erwartungshaltung im
Management und Fachbereich
• Optimierung und Innovation
IT
• Re-Definition der IT – IT als
Business Partner oder technischer
Enabler?
• IT-Kostendruck und Service-
Qualität (Optimierung der
bestehenden
Datenmanagementaufgaben)
Daten & Analyse
• Mehr und umfangreichere Analysen
sind machbar
• Mehr Daten sind verfügbar
• Abdeckung verschiedener Analyse-
Disziplinen: Klassische BI –
Explorativ – Operativ
Klassische BI Umgebungen stoßen an Ihre Grenzen.
Heutige Anforderungen erfordern teils neue Technologien, Skills und Prozesse.

Ist Hadoop die Lösung?
13.12.2016 © BARC 2016 7
Bildquelle: http://www.gobraithwaite.com/blog/wp-content/
uploads/2011/07/Blog-Brand-Evangelist.jpg
Höret und
staunet
Thesen, die es zu hinterfragen gilt:
• ist kostengünstig
• ist flexibel, schnell und einfach in der Implementierung
• bietet umfangreiche Unterstützung für unterschiedlich
strukturierte Daten
• liefert funktionale Vorteile ggü. Werkzeugen, die in der
klassischen BI Fabrik eingesetzt werden
• skaliert einfach und schnell entlang Daten und
Funktionen auf Basis einer parallelen
Datenverarbeitung
• ist die präferierte Technologie zum Aufbau des Data
Lakes
• kann gleichzeitig für Analysen und auch online/real-time
Anwendungen verwendet werden

Was ist Apache Hadoop?
13.12.2016 © BARC 2016 8
HDFS2 (Redundant, Reliable Storage)
YARN (Cluster Resource Management)
BATCH
(MapReduce)
INTERACTIVE
(Tez)
STREAMING
(Storm, S4,…)
GRAPH
(Giraph)
IN-MEMORY
(Spark)
HPC MPI
(OpenMPI)
ONLINE
(HBase)
OTHER
(Search)
(Weave…)
“Hadoop is an open-source software framework for storing data and running
applications on clusters of commodity hardware. It provides massive storage for any
kind of data, enormous processing power and the ability to handle virtually limitless
concurrent tasks or jobs.”

13.12.2016 © BARC 2016 9
Was erwarten wir von Hadoop?
Hilfe, wo Data Warehouse Landschaften an die
Grenzen stoßen.

Datenkategorien und ihre Merkmale
13.12.2016 © BARC 2016 10
Quelldaten
Kategorie
Qualität Komplexität Interpretierbarkeit Störgeräusch
Transaktionale
Daten
Maschinen-
generiert
Mensch-
generiert
Data Warehouse Prozessaffinität
Big Data Prozessaffinität

Mind shift durch Big Data
Analyseprozess, Datenpersistenz und Datenmenge
11
13.12.2016
13.12.2016 © BARC 2016

12
Datenaufbereitung
Datenanalyse
Visualisierung
Analytik
Datenbereitstellung
Datenspeicherung
Data Warehousing Prozess
13.12.2016
13.12.2016 © BARC 2016

13
Datenaufbereitung
Datenanalyse
Visualisierung
Analytik
Datenbereitstellung
Datenspeicherung
Data Warehousing Prozess
Erst prüfen, dann
sammeln
13.12.2016
13.12.2016 © BARC 2016

14
Datenaufbereitung
Datenanalyse
Visualisierung
Analytik
Datenbereitstellung
Datenspeicherung
Datenaufbereitung
Datenanalyse
Visualisierung
Analytik
Datenbereitstellung
Datenspeicherung
Data Warehousing Prozess Big Data Prozess
Erst prüfen, dann
sammeln
13.12.2016
13.12.2016 © BARC 2016

15
Datenaufbereitung
Datenanalyse
Visualisierung
Analytik
Datenbereitstellung
Datenspeicherung
Datenaufbereitung
Datenanalyse
Visualisierung
Analytik
Datenbereitstellung
Datenspeicherung
Erst prüfen, dann
sammeln
Erst (alles) sammeln,
dann prüfen
Sicheres Ergebnis
Unsicheres Ergebnis
(„fast fail“)
13.12.2016
13.12.2016 © BARC 2016

16
Datenaufbereitung
Datenanalyse
Visualisierung
Analytik
Datenbereitstellung
Datenspeicherung
Datenaufbereitung
Datenanalyse
Visualisierung
Analytik
Datenbereitstellung
Datenspeicherung
Erst prüfen, dann
sammeln
Erst (alles) sammeln,
dann prüfen
Sicheres Ergebnis
Unsicheres Ergebnis
(„fast fail“)
Reglementierte,
verifizierende Analyse
Explorative Analyse auf
alle Daten
13.12.2016
13.12.2016 © BARC 2016

Advanced-Analytics-Projekt-Zyklus:
Von der Hypothese zur Operationalisierung
172016
Abbruch der
Untersuchung
Einmalige
Erkenntnis-Anwendung
Operationalisierung
(Integration in
operative Prozesse)
Projektauftrag
Aufgabenverständnis
Ergebnisevaluation /
Gütebewertung
Fortlaufende
Bewertung
der Güte des Modells
Modellierung &
Modellvalidierung
Datenverständnis,
Selektion, Integration &
Aufbereitung
60%
20%
10%
5%
5%

13.12.2016 © BARC 2016 18
Ergebnisse der BARC Studie
“Hadoop und Data Lakes 2016”

Der BARC Survey “Hadoop und Data Lakes”
Über
380
Teilnehmer
Breite Abdeckung verschiedener Branchen und Unternehmensgrößen
Anwenderumfrage zum Status Quo und
Fortschritt von Hadoop
Relevanz von Hadoop
und Data Lakes
Nutzen und
Herausforderungen
Einsatzszenarien
Status Quo von Hadoop und
Data Lakes
Globale
Befragung
Auflage
2.
Bis 250
Mitarbeiter
250 – 2,500
Mitarbeiter
Mehr als 2,500
Mitarbeiter
23% 33% 45%
ServicesIndustrie
Banksektor
IT
Handel
Öffentlicher
Sektor
Sonstige
24% 22% 16%
14%
9%
6%
9%

7 Erkenntnisse aus der Studie
1. Hadoop - Trendtechnologie mit hohem Potential
2016 21

Die Nutzung von Hadoop hängt vom Anwendungsfall
ab und wird nicht durch die Unternehmensgröße definiert
13.12.2016 © BARC 2016 22
Quelle: BARC Studie Hadoop und Data Lakes 2016

Die Nutzung von Hadoop hängt vom Anwendungsfall
ab und wird nicht durch die Unternehmensgröße definiert
Die Studie zeigt zudem, das der Einsatz
von Hadoop zudem unabhängig ist von:
• Datenvolumen
• Datenaktualität
• Datentypen
13.12.2016 © BARC 2016 23

Nach wie vor breites Einsatzfeld von Hadoop –
in Hadoop steckt mehr als in einem Dateiablagesystem
13.12.2016 © BARC 2016 24

13.12.2016 © BARC 2016 25

13.12.2016 © BARC 2016 26

2. BICC und Data Science Teams treiben Hadoop und Data-Lake-Projekte
2016 27

BI Competence Center und Data-Science-Team
treiben Hadoop-Initiativen
13.12.2016 © BARC 2016 28
Quelle: BARC Studie Hadoop und Data Lakes

13.12.2016 © BARC 2016 29

13.12.2016 © BARC 2016 30
52%
41%
25%
25%
7%
IT-Abteilung
BI-Organisation
Fachbereich
Management
Sonstige
BARC Survey „Hadoop 2015“, n=178

3. Umsetzung erfolgt hauptsächlich durch kommerzielle Werkzeuge und Hadoop-
Distributionen
2016 31

Kommerzielle Software und Hadoop-Distributionen im eigenen Haus sind die erste
Wahl zur Umsetzung
13.12.2016 © BARC 2016 32
Hadoop
Nicht
anwendbar
Kommerzielle
Produkte

Kommerzielle Software und Hadoop-Distributionen im eigenen Haus sind die erste
Wahl zur Umsetzung
13.12.2016 © BARC 2016 33
Hadoop
Nicht
anwendbar
Kommerzielle
Produkte

Kosteneffizienz, funktionale Leistungs-/Innovationskraft und
Betreibbarkeit sind mit Hauptgründe für den Einsatz von Apache Hadoop
13.12.2016 © BARC 2016 34
Dies gilt allerdings nicht grundsätzlich für alle untersuchten Werkzeugklassen

Kosteneffizienz, funktionale Leistungs-/Innovationskraft und
Betreibbarkeit sind mit Hauptgründe für den Einsatz von Apache Hadoop
13.12.2016 © BARC 2016 35
Dies gilt allerdings nicht grundsätzlich für alle untersuchten Werkzeugklassen

Distributionen
4. Klarer Fall für Hadoop: Customer Intelligence und Predictive Analytics
2016 36

Customer Intelligence und Predictive Analytics sind die
am häufigsten umgesetzten Hadoop-Projekte
13.12.2016 © BARC 2016 37

13.12.2016 © BARC 2016 38

13.12.2016 © BARC 2016 39
71%
68%
44%
42%
40%
31%
27%
27%
26%
21%
9%
7%
1%
Analyse
Predictive Analytics
Data Integration & Quality
Dashboarding und Reporting
Datenspeicherung
Machine Learning
Search & Discovery
Archivierung
Sandboxing
Streaming
Master Data Management
Dokumentenmanagement
Sonstige
Kernkomponenten in Hadoop Use Cases,
n=242

Distributionen
5. Großer analytischer Nutzen durch Hadoop
2016 40

59%
53%
47%
43%
33%
33%
27%
26%
26%
25%
20%
19%
18%
6%
2%
Analyse von Daten aus heterogenen, divergenten Datenquellen ermöglichen/verbessern
Kundenverhalten vorhersagen, Kundenbindung verbessern
Steigerung der Flexibilität im Umgang mit Daten und in der fortgeschrittenen Analyse
Erhöhung der Wettbewerbsfähigkeit
Mehr/zusätzliche Daten kosteneffizient speichern und analysieren
Verbesserung der Reaktionsgeschwindigkeit auf aktuelles Marktgeschehen
Produkt- und Vertriebserfolg vorhersagen
Betrug oder finanzielle Risiken vorhersagen
Monitoring von Maschinen/Geräte und proaktive Wartung ermöglichen
Sentiment/Stimmungs- und Trendanalysen
Erhöhung des Umsatzes
Monitoring und Optimierung von IT-Systemen und IT-Sicherheitsrisiken
Effizienz operativer Prozesse erhöhen
Wir können derzeit den fachlich-inhaltlichen Nutzen einer Hadoop-Initiative nicht bestimmen
Sonstige
Wichtigste Mehrwerte durch Hadoop: bessere Analyse auf heterogenen Daten,
besseres Kundenverständnis und -bindung sowie Steigerung der Flexibilität
13.12.2016 © BARC 2016 41
Quelle: BARC Studie Hadoop und Data Lakes, n=144

59%
53%
47%
43%
33%
33%
27%
26%
26%
25%
20%
19%
18%
6%
2%
Sonstige
13.12.2016 © BARC 2016 42

59%
53%
47%
43%
33%
33%
27%
26%
26%
25%
20%
19%
18%
6%
2%
Sonstige
13.12.2016 © BARC 2016 43

Distributionen
6. Hadoop ermöglicht Anwendungsfälle, die bisher nicht umgesetzt werden konnten
2016 44

Anwender sehen Hadoop vor allem als (potentielle) Technologie
zur Umsetzung neuartiger Anwendungsfälle
13.12.2016 © BARC 2016 45
Quelle: BARC Hadoop und Data Lakes

Anwender sehen Hadoop vor allem als (potentielle) Technologie
zur Umsetzung neuartiger Anwendungsfälle
13.12.2016 © BARC 2016 46
Quelle: BARC Hadoop und Data Lakes

Distributionen
6. Hadoop ermöglicht Anwendungsfälle, die bisher nicht umgesetzt werden konnten
7. Die größten Herausforderungen sind fehlendes Know-how und Unsicherheit bei der
Nutzung
2016 47

54%
50%
41%
33%
27%
27%
22%
21%
19%
16%
14%
4%
3%
Fehlendes fachliches Know-how im Unternehmen
Fehlendes Know-how beim Aufbau und Betrieb einer Big-Data-Architektur
Fehlendes Know-how Hadoop richtig einsetzen und nutzen zu können
Fehlende überzeugende Einsatzszenarien
Nutzen von Hadoop-Initiative ist nicht klar, kann nicht klar
Fehlende Sponsoren/Unterstützung aus der Führungsebene
Bedenken im Hinblick auf Datenschutz oder Datensicherheit
Kosten für die Implementierung einer neuen Technologie zu hoch
Fehlende oder mangelnde Reife der Komponenten des Ökosystems
Benutzerfreundlichkeit
Kosten für die Schulung und Entwicklung zu hoch
Es gibt keine Probleme beim Einsatz von Hadoop
Sonstige
Größte Herausforderungen sind fehlendes Know-how
und Unsicherheit in der Nutzung
13.12.2016 © BARC 2016 48
Quelle: BARC Hadoop und Data Lakes, n=379

54%
50%
41%
33%
27%
27%
22%
21%
19%
16%
14%
4%
3%
Fehlendes fachliches Know-how im Unternehmen
Fehlendes Know-how beim Aufbau und Betrieb einer Big-Data-Architektur
Fehlendes Know-how Hadoop richtig einsetzen und nutzen zu können
Fehlende überzeugende Einsatzszenarien
Nutzen von Hadoop-Initiative ist nicht klar, kann nicht klar
Fehlende Sponsoren/Unterstützung aus der Führungsebene
Bedenken im Hinblick auf Datenschutz oder Datensicherheit
Kosten für die Implementierung einer neuen Technologie zu hoch
Fehlende oder mangelnde Reife der Komponenten des Ökosystems
Benutzerfreundlichkeit
Kosten für die Schulung und Entwicklung zu hoch
Es gibt keine Probleme beim Einsatz von Hadoop
Sonstige
Größte Herausforderungen sind fehlendes Know-how
und Unsicherheit in der Nutzung
13.12.2016 © BARC 2016 49
Quelle: BARC Hadoop und Data Lakes, n=379
50% in DACH

Ausgewählte Hadoop-Thesen auf dem Prüfstand
13.12.2016 © BARC 2016 50
…ist kostengünstig
Umfrageergebnis: trifft im Grunde zu, auch wenn es nicht zu den Hauptnutzen von Hadoop zählt
Analyst: kann, muss aber nicht. Viele denken in erster Linie an Lizenzkosten. Kosten für Implementierung, Hardware und
Betrieb sind mit zu berücksichtigen.
…ist flexibel, einfach und schnell in der Implementierung
Umfrageergebnis: Umsetzungseffizienz ist ein Grund für die Wahl kommerzieller Werkzeuge bzw. Hadoop Distributionen
Analyst: der Flexibilität durch Individualprogrammierung steht die mangelnde, inhärente Plattformunterstützung gegenüber.
Anwendbarkeit ist abhängig von dem verfügbaren Wissen, bspw. rund um MPP.
…unterstützt unterschiedlich strukturierte Daten
Umfrageergebnis: wird in dieser und auch vorherigen Umfragen bestätigt
Analyst: ja, im Sinne eines Dateisystems zur Speicherung unterschiedlicher Formate. Das Schema kommt mit der
Anwendung.
…liefert funktionale Vorteile ggü. Werkzeugen, die in der klassischen BI Fabrik eingesetzt werden
Umfrageergebnis: hervorzuhebende funktionale Vorteile von Hadoop werden nicht gesehen, aber auch keine Nachteile.
Analyst: hier steht die Individualprogrammierung der Standardanwendungssoftware gegenüber. Je nachdem wie die Skills
gesetzt sind ist mal der eine, mal der andere Ansatz besser.

Hadoop-Thesen auf dem Prüfstand
13.12.2016 © BARC 2016 51
…Hadoop skaliert einfach und schnell mit wachsenden Datenvolumina und Workloads in parallelen Umgebungen
Umfrageergebnis: Skalierbarkeit wird nicht als expliziter Vorteil von Hadoop genannt
Analyst: grundsätzlich ja, auf der einen Seite bietet Hadoop viel Flexibilität durch die Freiheiten in der Programmierung. Auf
der anderen Seite stehen die Vorteile der Standardanwendungssoftware. Eine gewisse Grundausstattung unabhängig von
den tatsächlichen Anforderungen sollte gewährleistet sein.
…ist die präferierte Technologie zum Aufbau des Data Lakes
Umfrageergebnis: Teilnehmer sehen Hadoop als eine von mehreren möglichen Technologien zur Umsetzung
Analyst: für den Aufbau eines Data Lakes gibt es keinen klaren Leitfaden. Vor allem sind heute in der Gestaltung eines Data
Lakes noch Fragen offen zum Metadaten Management, zu Anforderungen an virtuelle/logische Data Lake, u.w. Pauschal
kann daher Hadoop nicht als „präferierte“ Technologie genannt werden.
…kann gleichzeitig für Analysen und auch online/real-time Anwendungen verwendet werden
Umfrageergebnis: die Nutzung von Hadoop für eine online/real-time Verarbeitung scheint eher vereinzelt aufzutreten
Analyst: grundsätzlich ja. Analytik und transaktionale Anwendungen benötigen unterschiedliche Designs, Komponenten und
Systemkonfigurationen

Wahrnehmung von Hadoop im D(ACH)-Markt
• Der Hype scheint abgeflaut, die Nutzung von Hadoop ist ernüchternd.
• Verfügbare Hadoop-Distributionen haben bereits eine hohe Reife bzw.
entwickeln sich schnell weiter hin zu Unternehmens-Anwendungen.
• Hadoop wird damit als natürlicher Baustein zum Aufbau analytischer
Infrastrukturen diskutiert.
• Es muss noch viel Schulung zum Know-how-Aufbau betrieben werden.
• Hadoop fehlt es derzeit noch an Anwendbarkeit.
• Allerdings wächst täglich die Zahl an Werkzeugen, die helfen Hadoop zu nutzen
(anzuwenden), bzw. die Hadoop um (analytische) Funktionen erweitern.
13.12.2016 © BARC 2016 52

Data Drives Business

Our relationship with data
is changing

The digital universe is expanding
Source: IDC Digital Universe Study, IDC IoT Forecast

44zb
4.4zb

44zb
4.4zb
Unstructured
90%

44zb
4.4zb
Unstructured
90%
Data
100%0% 25%
Valuable

44zb
4.4zb
Unstructured
90%
Data
100%0% 25%
Valuable
7 billion 30 billion

The great value of data
Destroying human trafficking
Fighting child sexual
exploitation
Working to cure cancer
Saving lives by detecting sepsis
Improve pain management for
premature babies
Managing Orion space craft as it
orbits the Earth
People Lives Science

“It will soon be technically
feasible & affordable to
record & store everything…”
— New York Times
“Digital technologies will, in
the near future, accomplish
many tasks once considered
uniquely human.”
— Second Machine Age
Data is abundant,
diverse & shared freely
As is how we store,
process and analyze it
Streaming Machine Learning BI
ETL Modeling

We want to enable you to…..
Query more dimensions
of more data points
from more sources
to make better predictions
and make them quicker

Thinking about the future
Source: IDC Nordic CxO Survey

Thinking about the future
40%
Decisions
37%
Biz dev
36%
Customer analysis
34%
Predictive analysis
33%
Process optimisation
Source: IDC Nordic CxO Survey

Boardroom thinking
DRIVE CUSTOMER
INSIGHTS
IMPROVE PRODUCT &
SERVICES EFFICIENCY LOWER BUSINESS RISK

Boardroom thinking
DRIVE CUSTOMER
INSIGHTS
IMPROVE PRODUCT &
SERVICES EFFICIENCY LOWER BUSINESS RISK
MODERNIZE ARCHITECTURE

Apache Hadoop for new ways of working with data
Extreme performance and
efficiency
Analytic agility

Benefits of Hadoop
Cost-effective Scalable Flexible

The journey requires some
thought.

Get the right architecture.
Assemble the right team.
Adopt an agile approach.

Adopt an Agile Approach
Successful projects start small, fail often, and iterate to success
1. Get data you already have, or create
new data.
2. Explore and analyze, quickly.
3. Deploy your application.
…and repeat
Add:
new data sources, more
users, more use cases,
more complex analytics,
go real-time
Collect, Create,
Manage
unlimited data
Explore, Analyze
data in many ways
Operationalize
insights to drive action

Thank you
Wim Stoop
Senior PMM, Cloudera
@TheWimster
Timm Grosser
VP BI Consulting, BARC
@timmgrosser

BARC Studie Webinar: Ausgereifte Analysen mit Apache Hadoop

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Andere mochten auch

Andere mochten auch (20)

Ähnlich wie BARC Studie Webinar: Ausgereifte Analysen mit Apache Hadoop

Ähnlich wie BARC Studie Webinar: Ausgereifte Analysen mit Apache Hadoop (20)

Mehr von Cloudera, Inc.

Mehr von Cloudera, Inc. (20)

BARC Studie Webinar: Ausgereifte Analysen mit Apache Hadoop

Hinweis der Redaktion