Alfred Schlaucher, Oracle
November 2018
Data Lakes vs./plus Data Warehouse
Nicht Technologie-Bashing sondern
hybride Architekturen
mit Synergieen führen zum Ziel
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
DATA WAREHOUSE 2
Planungs - / Zielgrößen
• Rentabilität / Gewinn pro Stück
• Liquidität
• Wirtschaftlichkeit
• Cashflow
Kontrollgrößen
• Produktivität (Stück pro Einheit)
• Durchlaufzeiten (Tage, Wochen)
• Umschlagsfrequenz
• Lagerdauer
• Sicherheit
• Nacharbeit
• Rückläufer
Steuerungskennzahlen
• ROI
• Kundenzufriedenheit
• Umsatz pro Mitarbeiter
• Qualität der Produkte
• Ablauf der Prozesse
• Zuverlässigkeit von Lieferanten
• Mitarbeiterzufriedenheit
Wie
verkaufe
ich die
gelben
Fahrräder
mit dem
größten
Gewinn
und
der größten
Nachhaltigkeit
für mein
Unternehmen
?
Marktchancen
• Sichtbarkeit im Markt
• Reputation
• Markenwert
• Kundentreue
• Adaption von Trends
• Kunden-Typen
• Lokale Verteilungen
• Einkommensverteilung
Vergleichskennzahlen
• Ø Time_To_Market
• Ø Gewinn pro Stück
• Anteil am Markt
„Zufälle“
• Wetter / Monatskalender
• Blogs / Stimmungen
• Lokale Verkehrs-
situationen
+
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
DATA WAREHOUSE 3
Planungs - / Zielgrößen
• Rentabilität / Gewinn pro Stück
• Liquidität
• Wirtschaftlichkeit
• Cashflow
Kontrollgrößen
• Produktivität (Stück pro Einheit)
• Durchlaufzeiten (Tage, Wochen)
• Umschlagsfrequenz
• Lagerdauer
• Sicherheit
• Nacharbeit
• Rückläufer
Steuerungskennzahlen
• ROI
• Kundenzufriedenheit
• Umsatz pro Mitarbeiter
• Qualität der Produkte
• Ablauf der Prozesse
• Zuverlässigkeit von Lieferanten
• Mitarbeiterzufriedenheit
Service
Logistik
Controlling
Einkauf
Vertrieb
Marketing
Zentral, unternehmensweit,
einheitlich, verstehbar,
angereichert, historisch
D a t a W a r e h o u s e
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
DATA WAREHOUSE
Enterprise Layer User ViewIntegration
Was verdienen wir an gelben + bunten Fahrrädern?
Es geht
um
Gesamt-
Sichten
und
Einheitlich-
keit:
„Breite“
der
Daten-
modelle
Logistik
WARE
Waren_Nr
Gebinde
Gewicht
Hoehe
Laenge
Breite
Verpackung
Einkauf
ARTIKEL
Artikel_Nr
Einheit
Preis
Lieferant
Vertrieb
PRODUKT
Produkt_Nr
Einheit
Farbe
Preis
LIEFERANT
PK_Lieferanten_ID
Lieferant_Name
VERPACKUNGSART
PK_Verpackungs_ID
Hoehe
Laenge
Breite
Rabatte
Lieferanten-
Discounts
FARBE
PK_Farben_ID
Farbe
Aufschlag
Verkaufte
Artikel
Menge +
Preise
Gelagerte
Artikel,
Menge +
Größe
Verpackungen Lager
Lieferanten
Zeit
Gekaufte
Artikel,
Menge +
Preise
S_ARTIKEL
PK_Artikel_ID
Eink_Artikel_Nr
Log_Waren_Nr
Vert_Produkt_Nr
Eink_Einheit
Eink_Preis
FK_Lieferanten_ID
Gebinde
Gewicht
PK_Verpackungs_ID
Vert_Einheit
FK_Farben_ID
Vert_Preis
T_ARTIKEL
PK_Artikel_ID
Eink_Artikel_Nr
Log_Waren_Nr
Vert_Produkt_Nr
Eink_Einheit
Eink_Preis
Lieferant
Gebinde
Gewicht
Hoehe
Laenge
Breite
Verpackung
Vert_Einheit
Farbe
Vert_Preis
D_ARTIKEL_LAGER
PK_Artikel_ID
Log_Waren_Nr
Gebinde
Gewicht
Verpackung
D_ARTIKEL_VERT
PK_Artikel_ID
Vert_Produkt_Nr
Eink_Einheit
Vert_Einheit
Farben
Vert_Preis
D_ARTIKEL_EINK
PK_Artikel_ID
Eink_Artikel_Nr
Eink_Einheit
Eink_Preis
Lieferanten
Farben
4
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
DATA WAREHOUSE
DATA WAREHOUSE
5
Marktchancen
• Sichtbarkeit im Markt
• Reputation
• Markenwert
• Kundentreue
• Adaption von Trends
• Kunden-Typen
• Lokale Verteilungen
• Einkommensverteilung
Vergleichskennzahlen
• Ø Time_To_Market
• Ø Gewinn pro Stück
• Anteil am Markt
„Zufälle“
• Wetter / Monatskalender
• Blogs / Stimmungen
• Lokale Verkehrs-
situationen
Was kommt heute dazu?
Zur
Verfügung
stehende
Daten
Technischer
Fortschritt
Statistische
Methoden
Machine
Learning
Interne / Externe Daten
Maschinen- / Sensordaten
Social Media
Bewegungs- / Geo-Daten
Digitalisierung von allen
Lebensbereichen
Hadoop, Spark,
R, Python
In Memory
Gesunkene
Kosten für
Storage + Memory
Cloud
Data Mining
Exploratives Analysieren
Predictive Analytics
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
DATA WAREHOUSE
DATA WAREHOUSE
6
Marktchancen
• Sichtbarkeit im Markt
• Reputation
• Markenwert
• Kundentreue
• Adaption von Trends
• Kunden-Typen
• Lokale Verteilungen
• Einkommensverteilung
Vergleichskennzahlen
• Ø Time_To_Market
• Ø Gewinn pro Stück
• Anteil am Markt
„Zufälle“
• Wetter / Monatskalender
• Blogs / Stimmungen
• Lokale Verkehrs-
situationen
Was ist neu?
Zur
Verfügung
stehende
Daten
Technischer
Fortschritt
Statistische
Methoden
Machine
Learning
Interne / Externe Daten
Maschinen- / Sensordaten
Social Media
Bewegungs- / Geo-Daten
Digitalisierung von allen
Lebensbereichen
Hadoop, Spark,
R, Python
In Memory
Gesunkene
Kosten für
Storage + Memory
Cloud
Data Mining
Exploratives Analysieren
Predictive Analytics
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Restricted 7
• Schnelles Schreiben im Originalformat
• Keine Gedanken um spätere Verwendung
• Daten müssen beim Lesen interpretiert werden
• Strukturierung und Prüfung während des Schreibens
• Spätere Verwendung ist bereits vorgedacht
• Leichtes schnelles Lesen mit z. B. mit SQL
Schema on Read Schema On Write
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Restricted 8
DataLake
Semantische, unternehmensweite Konsolidierung
Leichter Aufbau von Referenzen und Metadaten
Entity/Relationship-Denkweise
Historisierungs-Verfahren
Analyse-unterstützende Modelle, z. B. Input-
Strukturen für Algorithmen
Leichte Verwaltung von vielen kleinen
Datenobjekten z. B. Stamm- Referenzdaten.
Vielzahl SQL-basierter Verfahren und Tools
Technisches Know how von Mitarbeitern
Schema-On-Write-Daten sind bereits strukturiert
und können direkt analysiert werden
DataWarehouse
Vielfalt von Datenformaten
Schnelligkeit bei der Bereitstellung von
Single-Daten für kompakte Anwendungen (noSQL-DB)
Kostengünstige horizontale Skalierung
Mono-former Daten
Leseperformance bei Massendaten
(> 50 - 100 TB)
Schnelligkeit bei rudimentären Daten-Sammeln
ohne Struktur- und Qualitätsvalidierung
Bewährte Verfahren erweitern…
Jedes Konzept hat seine
spezifischen Vorteile,
daher … lesen Sie weiter auf der nächsten Seite
SQL
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Restricted 9
DataLake
Qualität-Standards
Universelle und harmonisierte Datenmodell mit
Enterprise-Blick
Historisierung
Taktisches, strategisches Wissen
Entscheidungsunterstützend / Steuernd
Veredelungs-Funktion
DataWarehouse
Generisches Sammeln
Unbestimmte Daten, Funktion und
Verwendung noch nicht klar
Bewährte Verfahren erweitern…
Jedes Konzept hat seine
spezifischen Vorteile,
daher … lesen Sie weiter auf der nächsten Seite
Qualität nur für spontanen Bedarf
Datenmodelle für spezifische Aufgaben
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Restricted 10
Kauft Herr Müller ein gelbes Fahrrad?
Vorbereitung der
Daten als Werteklassen
Quelle Information Analyse Aktion
Einkommen
Wohnart
Bildung
Sportlichkeit
BMI
Terrain
Radwegenetz
Stimmung
Schnäppchenjäger
schlecht mittel gut
flach hügelig
positiv negativ
Miete Wohnung Haus
Haupt Real Gym Uni
< 20 25 > 30
ja nein
ja nein
< 10K 20K >30K
Wie
Klassifizierung
Kaufkandidat
Ja / Nein
z. B. Naive Bayes
Benötigt werden
z. B. 30 Input-
und 1 Ziel-Variable
P(A|B) =
)𝐏(𝐁|𝐀) ∗ 𝐏(𝐀
)𝐏(𝐁
oder Support
Vector Machines
Spontan
Angebot
im Shop oder
Web
Sorgfältig
und peppig
Aufgemachte
Brief-
Kampagne
Kundenkarte
Kaufhistorie
Kaufhistorie
DWH
Teilnahme an
Sportevents
Sammeln von
öffentlichen Listen
Feedbacks in
Social Media
Text-
Mining
Referenzdaten zur
Wohngegend
Öffentliche
Daten
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Restricted 11
Kauft Herr Müller ein gelbes Fahrrad? Wo machen wir jetzt die Analyse?
Vorbereitung der
Daten als Werteklassen
Information
Einkommen
Wohnart
Bildung
Sportlichkeit
BMI
Terrain
Radwegenetz
Stimmung
Schnäppchenjäger
schlecht mittel gut
flach hügelig
positiv negativ
Miete Wohnung Haus
Haupt Real Gym Uni
< 20 25 > 30
ja nein
ja nein
< 10K 20K >30K
Wo die
angereicherten
Kundendaten
vorhalten?
Wo die
Vorhersage-
Modell
vorhalten?
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | 12Copyright © 2018, Oracle and/or its affiliates. All rights reserved.
Hybride Konzepte: Data Warehouse + Data Lakes
• Daten je nach Machart und
Verwendungsart speichern
• Brücken bauen
• Transparente Zugriffe
• Auch SQL als generische
weitverbreitete
Zugriffssprache
Kafka
Streaming
Data Lake
Oracle Data Warehouse
Hive
Metadata
HDFS
Big Data SQL Cells
Big Data SQL
Python GraphRnode.js JavaREST SQL
External Table
Enterprise
Data
Neue
Datenarten
Modelle
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | 13Copyright © 2018, Oracle and/or its affiliates. All rights reserved.
Hybride Konzepte: Data Warehouse + Data Lakes
• Modelle müssen
nicht nur entwickelt,
sondern auch
angewendet
werden
• Modelle dort vorhalten,
wo operative Daten
fließen
Kafka
Streaming
Data Lake
Hive
Metadata
HDFS
Big Data SQL Cells
Big Data SQL
Python GraphRnode.js JavaREST SQL
External Table
Enterprise
Data
Neue
Datenarten
Oracle Data Warehouse
Model Store
Modelle
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Storage Layer
Filesystem (HDFS)
NoSQL Databases
(Oracle NoSQL DB, Hbase)
Resource Management (YARN, cgroups)
Processing Layer
Big Data
SQL
Big Data SQL: Eine neue Hadoop Processing Engine
MapReduce
and Hive
Spark Impala Search
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
SQL
Soll man Herrn Meier ein Sonderangebot für ein gelbes
Fahrrad machen?
15
Häufigkeit der
Positiven / negativen
Nennungen von Produkten
+ Produktbilder Oracle 12.1 /12.2
Hadoop/HDFS
Individuelle Angebotsaktionen
für Mini-Kundensegmente
Oracle noSQL
1
2
3
Modelle +
angereicherte
Stammdaten
Historien
Affinität für poppige Dinge
Kaufwahrscheinlichkeit
Lagerbestand
Eine Abfrage! 3 spezialisierte Speicher-Typen
Object Storage
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |Copyright © 2018, Oracle and/or its affiliates. All rights reserved.
Das Cloud-Thema
ändert die
Szenerie
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
DATA WAREHOUSE
17Copyright © 2018, Oracle and/or its affiliates. All rights reserved. 17
Noch ohne Cloud
Big Data Appliance Exadata
BD Data SQL
BD Data Connectors
Infiniband
Sun Oracle X6-2L Servers with
• 864 (2.1 GHz) Intel Xeon 8160
• DDR4 Memory -> 27 TB
• 2160 TB Disk space +
5,4 TB SSD
• 2x QDR 40Gb/sec InfiniBand
Integrated Software:
• Oracle Linux
• Oracle Big Data SQL
• Cloudera Distribution of
Apache Hadoop
• Cloudera Manager
• Oracle R Distribution
• Oracle NoSQL Database CE
Datenbank Server
• 864 (2.1 GHz) Intel Xeon 8160
• DDR4 Memory -> 11 TB
• 2160 TB Disk space +
5,4 TB SSD
• 2x QDR 40Gb/sec InfiniBand
Storage Server
• Bis zu 1680 TB Roh-Storage
• Bis zu 280 Cores
• Bis zu 358 TB Flash
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | 18Copyright © 2018, Oracle and/or its affiliates. All rights reserved.
Hybride Konzepte in der Cloud:
Data Warehouse + Data Lakes
• Object-Storage
ersetzt HDFS
• Ausfallsicher
• Beliebig viel
• Extrem billig
• Entkoppelung von
Rechenpower und
Storage
• Extrem große
Memory-
Ausbauten
• Einsatz von GPUs
Kafka
Streaming
Data Lake
Hive
Metadata
HDFS
Big Data SQL Cells
Big Data SQL
Python GraphRnode.js JavaREST SQL
External Table
Enterprise
Data
Neue
Datenarten
Oracle Data Warehouse
Model Store
Modelle
Kafka
Streaming
Data Lake
Hive
Metadata
HDFS
Big Data SQL Cells
Big Data SQL
Python GraphRnode.js JavaREST SQL
External Table
Enterprise
Data
Neue
Datenarten
Oracle Data Warehouse
Model Store
Modelle
Object
Storage
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | 19Copyright © 2018, Oracle and/or its affiliates. All rights reserved. 19
Moderne Storage/Data Lake-Konzepte, günstig + flexibel
für unterschiedliche Datenarten und Zwecke
Big Data Cloud Service
(BDCS)
Autonomous Data Warehouse Cloud
(ADWC)
Big
Data
SQL Strukturierte Unternehmensdaten
HDFS Connector External Tables
Object Storage
z. B. Bilder, Videos,
Tonaufnahmen, Texte
Archive Storage
Archivierte Massendaten
$0,0255 / GB / Monat
$25 / TB / Monat
$0,0026 / GB / Monat
$2,6 / TB / Monat
Automatische Replizierung
99,99 Verfügbarkeit
High-Performance-Storage
Security-Features /
Encryption
Self Healing
Open APIs, RESTfull
Event notification
Security-Features
Encryption
Dauerhafter Storage
Pay as you need
Parquet-Files
zus.
Compute
Service
opt.
GPU
Power
ETL
dump
dump
Schema on
Write
Schema on
Read
Data Lake
Objekt Storage
20
• Spezielle Datenarten
CDRs, Bondaten, Logdaten,
Click-Daten, Messwertdaten
20
H y b r i d D a t a L a k e + D a t a W a r e h o u s e
• Archive im Sinn von ILM
• Filter-Funktion für Stage
• Log-Funktion für ETL
• Lager für schwach-relevante Daten
• Operational Data Store
Funktion
• Zusätzliche Datenarten
Bilder, Filme, Texte, Sprache
Enterprise Layer
Core - DWH / Info Pool
User View
Layer
Integration Layer
(Stage) Strategische Sichten Taktische Sichten
GenETL
• Auslagern von
• Partitionen
großer
Tabellen
offload
Tr
Tr
D
D P1 D
P2
P3
P4
21
• Anforderungen prüfen
• Technologie entsprechend der Anforderungen einsetzen
(und nicht Trend-gesteuert)
• „Schema on Read / Write“ im Hinterkopf haben
• Infrastruktur nicht auf eine bestimmte Technologie festlegen
• Inseln vermeiden
• Warehouse-Systeme sind und bleiben fester Bestandteil
der Informationsversorgung im Unternehmen. Sie müssen
weiterentwickelt werden.
Zusammenfassung

Data lake vs Data Warehouse: Hybrid Architectures

  • 1.
    Alfred Schlaucher, Oracle November2018 Data Lakes vs./plus Data Warehouse Nicht Technologie-Bashing sondern hybride Architekturen mit Synergieen führen zum Ziel
  • 2.
    Copyright © 2014Oracle and/or its affiliates. All rights reserved. | DATA WAREHOUSE 2 Planungs - / Zielgrößen • Rentabilität / Gewinn pro Stück • Liquidität • Wirtschaftlichkeit • Cashflow Kontrollgrößen • Produktivität (Stück pro Einheit) • Durchlaufzeiten (Tage, Wochen) • Umschlagsfrequenz • Lagerdauer • Sicherheit • Nacharbeit • Rückläufer Steuerungskennzahlen • ROI • Kundenzufriedenheit • Umsatz pro Mitarbeiter • Qualität der Produkte • Ablauf der Prozesse • Zuverlässigkeit von Lieferanten • Mitarbeiterzufriedenheit Wie verkaufe ich die gelben Fahrräder mit dem größten Gewinn und der größten Nachhaltigkeit für mein Unternehmen ? Marktchancen • Sichtbarkeit im Markt • Reputation • Markenwert • Kundentreue • Adaption von Trends • Kunden-Typen • Lokale Verteilungen • Einkommensverteilung Vergleichskennzahlen • Ø Time_To_Market • Ø Gewinn pro Stück • Anteil am Markt „Zufälle“ • Wetter / Monatskalender • Blogs / Stimmungen • Lokale Verkehrs- situationen +
  • 3.
    Copyright © 2014Oracle and/or its affiliates. All rights reserved. | DATA WAREHOUSE 3 Planungs - / Zielgrößen • Rentabilität / Gewinn pro Stück • Liquidität • Wirtschaftlichkeit • Cashflow Kontrollgrößen • Produktivität (Stück pro Einheit) • Durchlaufzeiten (Tage, Wochen) • Umschlagsfrequenz • Lagerdauer • Sicherheit • Nacharbeit • Rückläufer Steuerungskennzahlen • ROI • Kundenzufriedenheit • Umsatz pro Mitarbeiter • Qualität der Produkte • Ablauf der Prozesse • Zuverlässigkeit von Lieferanten • Mitarbeiterzufriedenheit Service Logistik Controlling Einkauf Vertrieb Marketing Zentral, unternehmensweit, einheitlich, verstehbar, angereichert, historisch D a t a W a r e h o u s e
  • 4.
    Copyright © 2014Oracle and/or its affiliates. All rights reserved. | DATA WAREHOUSE Enterprise Layer User ViewIntegration Was verdienen wir an gelben + bunten Fahrrädern? Es geht um Gesamt- Sichten und Einheitlich- keit: „Breite“ der Daten- modelle Logistik WARE Waren_Nr Gebinde Gewicht Hoehe Laenge Breite Verpackung Einkauf ARTIKEL Artikel_Nr Einheit Preis Lieferant Vertrieb PRODUKT Produkt_Nr Einheit Farbe Preis LIEFERANT PK_Lieferanten_ID Lieferant_Name VERPACKUNGSART PK_Verpackungs_ID Hoehe Laenge Breite Rabatte Lieferanten- Discounts FARBE PK_Farben_ID Farbe Aufschlag Verkaufte Artikel Menge + Preise Gelagerte Artikel, Menge + Größe Verpackungen Lager Lieferanten Zeit Gekaufte Artikel, Menge + Preise S_ARTIKEL PK_Artikel_ID Eink_Artikel_Nr Log_Waren_Nr Vert_Produkt_Nr Eink_Einheit Eink_Preis FK_Lieferanten_ID Gebinde Gewicht PK_Verpackungs_ID Vert_Einheit FK_Farben_ID Vert_Preis T_ARTIKEL PK_Artikel_ID Eink_Artikel_Nr Log_Waren_Nr Vert_Produkt_Nr Eink_Einheit Eink_Preis Lieferant Gebinde Gewicht Hoehe Laenge Breite Verpackung Vert_Einheit Farbe Vert_Preis D_ARTIKEL_LAGER PK_Artikel_ID Log_Waren_Nr Gebinde Gewicht Verpackung D_ARTIKEL_VERT PK_Artikel_ID Vert_Produkt_Nr Eink_Einheit Vert_Einheit Farben Vert_Preis D_ARTIKEL_EINK PK_Artikel_ID Eink_Artikel_Nr Eink_Einheit Eink_Preis Lieferanten Farben 4
  • 5.
    Copyright © 2014Oracle and/or its affiliates. All rights reserved. | DATA WAREHOUSE DATA WAREHOUSE 5 Marktchancen • Sichtbarkeit im Markt • Reputation • Markenwert • Kundentreue • Adaption von Trends • Kunden-Typen • Lokale Verteilungen • Einkommensverteilung Vergleichskennzahlen • Ø Time_To_Market • Ø Gewinn pro Stück • Anteil am Markt „Zufälle“ • Wetter / Monatskalender • Blogs / Stimmungen • Lokale Verkehrs- situationen Was kommt heute dazu? Zur Verfügung stehende Daten Technischer Fortschritt Statistische Methoden Machine Learning Interne / Externe Daten Maschinen- / Sensordaten Social Media Bewegungs- / Geo-Daten Digitalisierung von allen Lebensbereichen Hadoop, Spark, R, Python In Memory Gesunkene Kosten für Storage + Memory Cloud Data Mining Exploratives Analysieren Predictive Analytics
  • 6.
    Copyright © 2014Oracle and/or its affiliates. All rights reserved. | DATA WAREHOUSE DATA WAREHOUSE 6 Marktchancen • Sichtbarkeit im Markt • Reputation • Markenwert • Kundentreue • Adaption von Trends • Kunden-Typen • Lokale Verteilungen • Einkommensverteilung Vergleichskennzahlen • Ø Time_To_Market • Ø Gewinn pro Stück • Anteil am Markt „Zufälle“ • Wetter / Monatskalender • Blogs / Stimmungen • Lokale Verkehrs- situationen Was ist neu? Zur Verfügung stehende Daten Technischer Fortschritt Statistische Methoden Machine Learning Interne / Externe Daten Maschinen- / Sensordaten Social Media Bewegungs- / Geo-Daten Digitalisierung von allen Lebensbereichen Hadoop, Spark, R, Python In Memory Gesunkene Kosten für Storage + Memory Cloud Data Mining Exploratives Analysieren Predictive Analytics
  • 7.
    Copyright © 2014Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Restricted 7 • Schnelles Schreiben im Originalformat • Keine Gedanken um spätere Verwendung • Daten müssen beim Lesen interpretiert werden • Strukturierung und Prüfung während des Schreibens • Spätere Verwendung ist bereits vorgedacht • Leichtes schnelles Lesen mit z. B. mit SQL Schema on Read Schema On Write
  • 8.
    Copyright © 2014Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Restricted 8 DataLake Semantische, unternehmensweite Konsolidierung Leichter Aufbau von Referenzen und Metadaten Entity/Relationship-Denkweise Historisierungs-Verfahren Analyse-unterstützende Modelle, z. B. Input- Strukturen für Algorithmen Leichte Verwaltung von vielen kleinen Datenobjekten z. B. Stamm- Referenzdaten. Vielzahl SQL-basierter Verfahren und Tools Technisches Know how von Mitarbeitern Schema-On-Write-Daten sind bereits strukturiert und können direkt analysiert werden DataWarehouse Vielfalt von Datenformaten Schnelligkeit bei der Bereitstellung von Single-Daten für kompakte Anwendungen (noSQL-DB) Kostengünstige horizontale Skalierung Mono-former Daten Leseperformance bei Massendaten (> 50 - 100 TB) Schnelligkeit bei rudimentären Daten-Sammeln ohne Struktur- und Qualitätsvalidierung Bewährte Verfahren erweitern… Jedes Konzept hat seine spezifischen Vorteile, daher … lesen Sie weiter auf der nächsten Seite SQL
  • 9.
    Copyright © 2014Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Restricted 9 DataLake Qualität-Standards Universelle und harmonisierte Datenmodell mit Enterprise-Blick Historisierung Taktisches, strategisches Wissen Entscheidungsunterstützend / Steuernd Veredelungs-Funktion DataWarehouse Generisches Sammeln Unbestimmte Daten, Funktion und Verwendung noch nicht klar Bewährte Verfahren erweitern… Jedes Konzept hat seine spezifischen Vorteile, daher … lesen Sie weiter auf der nächsten Seite Qualität nur für spontanen Bedarf Datenmodelle für spezifische Aufgaben
  • 10.
    Copyright © 2014Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Restricted 10 Kauft Herr Müller ein gelbes Fahrrad? Vorbereitung der Daten als Werteklassen Quelle Information Analyse Aktion Einkommen Wohnart Bildung Sportlichkeit BMI Terrain Radwegenetz Stimmung Schnäppchenjäger schlecht mittel gut flach hügelig positiv negativ Miete Wohnung Haus Haupt Real Gym Uni < 20 25 > 30 ja nein ja nein < 10K 20K >30K Wie Klassifizierung Kaufkandidat Ja / Nein z. B. Naive Bayes Benötigt werden z. B. 30 Input- und 1 Ziel-Variable P(A|B) = )𝐏(𝐁|𝐀) ∗ 𝐏(𝐀 )𝐏(𝐁 oder Support Vector Machines Spontan Angebot im Shop oder Web Sorgfältig und peppig Aufgemachte Brief- Kampagne Kundenkarte Kaufhistorie Kaufhistorie DWH Teilnahme an Sportevents Sammeln von öffentlichen Listen Feedbacks in Social Media Text- Mining Referenzdaten zur Wohngegend Öffentliche Daten
  • 11.
    Copyright © 2014Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Restricted 11 Kauft Herr Müller ein gelbes Fahrrad? Wo machen wir jetzt die Analyse? Vorbereitung der Daten als Werteklassen Information Einkommen Wohnart Bildung Sportlichkeit BMI Terrain Radwegenetz Stimmung Schnäppchenjäger schlecht mittel gut flach hügelig positiv negativ Miete Wohnung Haus Haupt Real Gym Uni < 20 25 > 30 ja nein ja nein < 10K 20K >30K Wo die angereicherten Kundendaten vorhalten? Wo die Vorhersage- Modell vorhalten?
  • 12.
    Copyright © 2014Oracle and/or its affiliates. All rights reserved. | 12Copyright © 2018, Oracle and/or its affiliates. All rights reserved. Hybride Konzepte: Data Warehouse + Data Lakes • Daten je nach Machart und Verwendungsart speichern • Brücken bauen • Transparente Zugriffe • Auch SQL als generische weitverbreitete Zugriffssprache Kafka Streaming Data Lake Oracle Data Warehouse Hive Metadata HDFS Big Data SQL Cells Big Data SQL Python GraphRnode.js JavaREST SQL External Table Enterprise Data Neue Datenarten Modelle
  • 13.
    Copyright © 2014Oracle and/or its affiliates. All rights reserved. | 13Copyright © 2018, Oracle and/or its affiliates. All rights reserved. Hybride Konzepte: Data Warehouse + Data Lakes • Modelle müssen nicht nur entwickelt, sondern auch angewendet werden • Modelle dort vorhalten, wo operative Daten fließen Kafka Streaming Data Lake Hive Metadata HDFS Big Data SQL Cells Big Data SQL Python GraphRnode.js JavaREST SQL External Table Enterprise Data Neue Datenarten Oracle Data Warehouse Model Store Modelle
  • 14.
    Copyright © 2014Oracle and/or its affiliates. All rights reserved. | Storage Layer Filesystem (HDFS) NoSQL Databases (Oracle NoSQL DB, Hbase) Resource Management (YARN, cgroups) Processing Layer Big Data SQL Big Data SQL: Eine neue Hadoop Processing Engine MapReduce and Hive Spark Impala Search
  • 15.
    Copyright © 2014Oracle and/or its affiliates. All rights reserved. | SQL Soll man Herrn Meier ein Sonderangebot für ein gelbes Fahrrad machen? 15 Häufigkeit der Positiven / negativen Nennungen von Produkten + Produktbilder Oracle 12.1 /12.2 Hadoop/HDFS Individuelle Angebotsaktionen für Mini-Kundensegmente Oracle noSQL 1 2 3 Modelle + angereicherte Stammdaten Historien Affinität für poppige Dinge Kaufwahrscheinlichkeit Lagerbestand Eine Abfrage! 3 spezialisierte Speicher-Typen Object Storage
  • 16.
    Copyright © 2014Oracle and/or its affiliates. All rights reserved. |Copyright © 2018, Oracle and/or its affiliates. All rights reserved. Das Cloud-Thema ändert die Szenerie
  • 17.
    Copyright © 2014Oracle and/or its affiliates. All rights reserved. | DATA WAREHOUSE 17Copyright © 2018, Oracle and/or its affiliates. All rights reserved. 17 Noch ohne Cloud Big Data Appliance Exadata BD Data SQL BD Data Connectors Infiniband Sun Oracle X6-2L Servers with • 864 (2.1 GHz) Intel Xeon 8160 • DDR4 Memory -> 27 TB • 2160 TB Disk space + 5,4 TB SSD • 2x QDR 40Gb/sec InfiniBand Integrated Software: • Oracle Linux • Oracle Big Data SQL • Cloudera Distribution of Apache Hadoop • Cloudera Manager • Oracle R Distribution • Oracle NoSQL Database CE Datenbank Server • 864 (2.1 GHz) Intel Xeon 8160 • DDR4 Memory -> 11 TB • 2160 TB Disk space + 5,4 TB SSD • 2x QDR 40Gb/sec InfiniBand Storage Server • Bis zu 1680 TB Roh-Storage • Bis zu 280 Cores • Bis zu 358 TB Flash
  • 18.
    Copyright © 2014Oracle and/or its affiliates. All rights reserved. | 18Copyright © 2018, Oracle and/or its affiliates. All rights reserved. Hybride Konzepte in der Cloud: Data Warehouse + Data Lakes • Object-Storage ersetzt HDFS • Ausfallsicher • Beliebig viel • Extrem billig • Entkoppelung von Rechenpower und Storage • Extrem große Memory- Ausbauten • Einsatz von GPUs Kafka Streaming Data Lake Hive Metadata HDFS Big Data SQL Cells Big Data SQL Python GraphRnode.js JavaREST SQL External Table Enterprise Data Neue Datenarten Oracle Data Warehouse Model Store Modelle Kafka Streaming Data Lake Hive Metadata HDFS Big Data SQL Cells Big Data SQL Python GraphRnode.js JavaREST SQL External Table Enterprise Data Neue Datenarten Oracle Data Warehouse Model Store Modelle Object Storage
  • 19.
    Copyright © 2014Oracle and/or its affiliates. All rights reserved. | 19Copyright © 2018, Oracle and/or its affiliates. All rights reserved. 19 Moderne Storage/Data Lake-Konzepte, günstig + flexibel für unterschiedliche Datenarten und Zwecke Big Data Cloud Service (BDCS) Autonomous Data Warehouse Cloud (ADWC) Big Data SQL Strukturierte Unternehmensdaten HDFS Connector External Tables Object Storage z. B. Bilder, Videos, Tonaufnahmen, Texte Archive Storage Archivierte Massendaten $0,0255 / GB / Monat $25 / TB / Monat $0,0026 / GB / Monat $2,6 / TB / Monat Automatische Replizierung 99,99 Verfügbarkeit High-Performance-Storage Security-Features / Encryption Self Healing Open APIs, RESTfull Event notification Security-Features Encryption Dauerhafter Storage Pay as you need Parquet-Files zus. Compute Service opt. GPU Power
  • 20.
    ETL dump dump Schema on Write Schema on Read DataLake Objekt Storage 20 • Spezielle Datenarten CDRs, Bondaten, Logdaten, Click-Daten, Messwertdaten 20 H y b r i d D a t a L a k e + D a t a W a r e h o u s e • Archive im Sinn von ILM • Filter-Funktion für Stage • Log-Funktion für ETL • Lager für schwach-relevante Daten • Operational Data Store Funktion • Zusätzliche Datenarten Bilder, Filme, Texte, Sprache Enterprise Layer Core - DWH / Info Pool User View Layer Integration Layer (Stage) Strategische Sichten Taktische Sichten GenETL • Auslagern von • Partitionen großer Tabellen offload Tr Tr D D P1 D P2 P3 P4
  • 21.
    21 • Anforderungen prüfen •Technologie entsprechend der Anforderungen einsetzen (und nicht Trend-gesteuert) • „Schema on Read / Write“ im Hinterkopf haben • Infrastruktur nicht auf eine bestimmte Technologie festlegen • Inseln vermeiden • Warehouse-Systeme sind und bleiben fester Bestandteil der Informationsversorgung im Unternehmen. Sie müssen weiterentwickelt werden. Zusammenfassung