DWH Modernisierung mit Data Lake, Lab und Governance

© OPITZ CONSULTING 2017
Informationsklassifikation:
Öffentlich
 Überraschend mehr Möglichkeiten
DOAG 2017 - Nürnberg
Fabian Hardt
DWH Modernisierung mit Data-
Lake, Lab und Governance

Öffentlich Seite 2
Agenda
1
2
3
4
5
Data Lake vs. Data Reservoir
Data Lab
Data Governance im Big Data Zeitalter
Mögliche Architekturszenarios
Technisches Beispiel DWH Offloading
DWH Modernisierung - DOAG 2017

Öffentlich Seite 3
Motivation
 Warum DWH Modernisierung?
 Wird das DWH ersetzt?
 Hat das klassische DWH auch langfristig eine
Daseinsberechtigung?
 „Müssen wir alles neu machen?“
 Wie erhalten wir unsere qualitätsgesicherten
Prozesse?
 DWH Modernisierung als Antwort auf diese
Fragen!
Data Lake
DWH

Öffentlich Seite 4
Data Lake vs. Data Reservoir
 Was ist ein Data Lake?
 Wie sieht der technische Aufbau aus?
 Was ist ein Data Reservoir?
 Was gibt es zu beachten?
 Was unterscheidet einen Data Lake von einem
Data Reservoir?
1

ÖffentlichDWH Modernisierung - DOAG 2017 Seite 5
Was ist Schema on Write, Schema on Read?
 Schema on Write
 Schon bei der Schreib-Operation muss das Ziel (Schema) klar definiert
sein.
 Bsp.: Es existiert eine Tabellenstruktur, in das passende Daten eingefügt
werden müssen.
 Schema on Read
 Für Schreib-Operationen braucht das Ziel (Schema) nicht bekannt sein.
 „Erstmal alles hineinwerfen. Zu einem späteren Zeitpunkt schauen wie
man es wieder herausbekommt“
 D.h.: Erst für die Lese-Operation muss die Big-Data-Quelle (das Schema
dieser) bekannt sein.

Schema on Write
 Im klassischen DWH Umfeld
An Anforderung der Nutzer
orientiert
Wenig agil, da Änderung an
Quellsystem Auswirkungen auf ETL
hat
Datenverlust bei nicht rechtzeitig
geänderter ETL-Strecke
 Typisches Big Data Paradigma
Schematisierung der Daten erst
beim Auslesen des Data Lakes
(ELT)
Kein Datenverlust beim Schreiben
in den Data Lake, trotz
unangekündigten Änderungen des
Quellsystems
 Abbildung im Data Lake: Raw Data
Area, Data Refinery
Schema on Read

Data Lake
 Gliedert sich in mehrere, architektonisch getrennte Teilbereiche
 Raw Data Bereich
 Data Refinery
 Refined Data Bereich
 Technisch:
 Z.B. Hadoop Plattform – HDFS als Landing Zone der Daten
 Z.B. Spark Jobs – Preprocessing von großen Datenmengen oder im Streamingverfahren
 Z.B. Hive – Die aufbereiteten Daten lagern hier schemabehaftet
 Kein Datenverlust bei Änderung des Quellsystems – Schema on Read

Öffentlich
Seite 8
Data-Lake-Detailansicht
Refined Data
- Qualitätsgesicherte Daten,
- typischerweise Daten, die ins
klassische DWH übergehen
können
Data Refinery
- Preprocessing Area
Raw Data
- Sensordaten,
- Streaming ,
- Social Media,
- Dokumente,
- Bilder
Data Governance

Data Reservoir
Data Lake
Data Reservoir
Data
Refinery
Processing Area
Niemand weiß
was drin ist?!
Hier haben wir
den Überblick!
 Aufbau von Metadaten
 Berechtigungskonzept
 Data Governance als
Kontrollinstanz
Verarbeitung in Real- /
Near-Realtime möglich

Öffentlich Seite 10
Data Lab
 Was ist ein Data Lab?
 Welche Personengruppen stecken dahinter?
 Wie sieht ein Data Lab technisch aus?
2

Data Lab
 Als eigenständige Organisationseinheit im Unternehmen
 Organisatorisch:
 Experten der Fachabteilung
 Data Scientists
 Technisch:
 Direkt im Raw Data Bereich des Data Lakes
  Besser: In eigenen Sandboxes

Sandboxes im Data Lake
Refined Data
Data Refinery
Raw Data
Refined Data
Data Refinery
Raw Data
Bekannter
Data Lake
Sandbox DWH
Weitere Datenquellen

Data Lab
 Exploratives Vorgehen
 Generierung von Insights
 Arbeit mit produktivnahen Daten
 Arbeit in Sandboxes
 Data Scientists
 Experten der Fachabteilung
 Ziel: Trainieren von Algorithmen
und Modellen
 Monetisierung der gefundenen
Insights
 Regelmäßige / automatisierte Big
Data Verarbeitung
 Weiterentwicklung folgt normalen
IT-Prozessen
 Algorithmen und Modellen aus Lab
kommen hier zum Einsatz
Data Factory

Überführung von Ergebnissen des Labs
Data FactoryData Lab Trainierte Algorithmen
Generierte Insights aus Analysen
Refined Data
Data Refinery
Raw Data
DWH
Weitere Datenquellen
Keine Datenübernahme ins
Produktivsystem
Algorithmen & Modelle

Data Governance
 Einhaltung von Datenschutzgesetzen
 Zuständigkeit für Daten
 Anonymisierung von Daten
 Ggf. auch schon zu Forschungszwecken im Data Lab
 Fokus auf „Refined Bereich“ im Data Lake
3

Data Governance
 Wichtige Kontrollfunktionen
 Gesamtüberblick über alle Unternehmensbereiche
 Bisherige Kompetenzen müssen erweitert werden
 Starker Fokus auf Datenschutz
 Verwendungszweck (§ 4 BDSG)
 Data Lake
 Qualitätssicherung im „Refined Data Bereich“
 Erfüllung von Compliance-Anforderungen

Metadaten im Data Lake
 Neue Freiheit führt schnell zu Chaos
 Metadaten zur Vermeidung von Chaos
 Technische Metadaten (für alle externen Prozesse)
 Ladedatum, Quellsystem, etc.
 Fachliche Metadaten
 Direkter Bezug zu Daten, z.B. Spalteninhalte, oder Aufbau einer Datei
 Operative Metadaten (Technische Metadaten für interne Prozesse)
 Technische Metadaten
 Werden im Data Lake erhoben
 Z.B. Nutzerzugriffe, Änderungen an Daten

Metadaten im Data Lake
 Einhaltung von Datenschutz
 Protokolliert Zugriffe
 Zeigen Zweck der Datenspeicherung auf
 Einhaltung der erlaubten Speicherdauer
 EUDSGV fordert
 Verarbeitung nach Treu und Glauben und
 Transparenz
 Metadaten gewährleisten die Umsetzung dieser geforderten Punkte

Referenzarchitekturen
 Sequenzielle Architektur
 Data Lake Parallel Processing
 DWH Offloading
 Hybrides Szenario
4

Sequenzielle Architektur
 Data Lake als „Single Source of Truth“
 Ersatz der Staging Area des DWH
 Neue Ladestrecken von Data Lake in Core Layer benötigt
 Alle Vorteile des Schema on Read Paradigmas
 Für volle Vorteile Big Data Knowhow benötigt
 Sehr hohe Kosten, da viele Ladestrecken neu entwickelt werden
 Für bestehende DWH-Systeme sehr aufwändig

Öffentlich
Auswerte- und Analyse-Tools
Advanced Analytics, etc.
DWH
DatenquellenInterne Systeme Externe Systeme
Datenvisualisierung/Frontend
Raw
Data
Data Refinery
Refined Data
DWH Modernisierung - DOAG 2017 Seite 21

Data Lake Parallel Processing
 Paralleler Aufbau von Data Lake und DWH
 Bestehende DWH Prozesse bleiben unverändert
 Data Lake integriert ggf. die gleichen Datenquellen wie das DWH
 Zusammenführung der Daten aus Data Lake und DWH erst in Frontend
 Data Lab stehen keine DWH Daten zur Verfügung
 Kein Modernisierungsaufwand, DWH wird nicht angepasst

Öffentlich
RawData
Data Refinery
Refined Data
Core DWH
Stage DWH

DWH Offloading
 DWH als Quelle des Data Lakes
 Qualitätsgesicherte ELT-Strecken des DWH bleiben erhalten
 Kann für Cold-Data genutzt werden
 Verhältnismäßig geringe Modernisierungskosten
 DWH-Offload muss implementiert werden

Öffentlich
RawData
Data Refinery
Refined Data
Core DWH
Stage DWH

Hybrides Szenario
 Mischform von sequentieller / paralleler und DWH Offloading Architektur
 Nutzt und vereint Vorteile der einzelnen Architekturen
 Teile der Datenverarbeitung können in Data Lake ausgelagert werden
 Vollständige Integration von DWH und Data Lake
 Daten können beliebig ausgetauscht werden
 Moderate Modernisierungskosten
 Schnittstellen zwischen den Systemen müssen implementiert werden

Öffentlich
DWH
Raw
Data
Data Refinery
Refined Data
Offloading

Öffentlich
RawData
Data Refinery
Refined Data
Core DWH
Stage DWHOnloading
Offloading

Technisches Beispiel –
DWH Offloading
 Unterscheidung verschiedener Verfahren
 Push-Verfahren
 Pull-Verfahren
 Master-Controlled
 Ziel im Big Data Kosmos
 Hive
 HDFS
 Open Source oder Enterprise Werkzeuge?
5

Push-Verfahren
 DWH als führendes System
 Die Logik zur Delta-Ermittlung findet auf der DWH-Seite statt
 Deltas aus DWH-Batch-Läufen werden verwendet
 Perfekte Integration in bestehende ETL-Jobs
 Bsp.: Export von Fakten
 Fakten werden parallel zum Insert in Faktentabelle in Data Lake exportiert
 Z.B. HDFS
 Oder direkt nach HIVE

Öffentlich
Vorschlag für Cloudera-Distribution
Oracle 12c
DWH-Datenbank
Push-Verfahren
Offloading mittels Knowledge
Module im ODI –
IKM SQL to HDFS File oder
IKM SQL to HDFS Hive
Automatisierung mit dem ODI
Trigger: Erfolgreiche Datenbeladung
Optional:
Bereitstellen von
Hive-Tabellen
Datenflussrichtung

Pull-Verfahren
 Data Lake als führendes System
 Die Logik zur Delta-Ermittlung (falls nötig) findet im Data Lake statt
 Abzug der Daten mittels Sqoop oder individueller Spark Job
 Big Data Knowhow benötigt – evtl. funktionale Programmierung

Öffentlich
Oracle 12c
DWH-Datenbank
Offloading mittels Sqoop
Automatisierung mittels Oozie
Trigger: Status-Tabelle
Status-
Tabelle
Optional:
Bereitstellen von
Hive-Tabellen
Datenflussrichtung
Pull-Verfahren

Master-Controlled
 Drittes System als Master (führendes System)
 Master kann beide Systeme „fernsteuern“
 Bei Big Data Cloudumgebungen
 Master kann Cluster starten, evtl. sogar deployen
 Daten werden bei Quellsystemen
 Geholt
 Verarbeitet
 Ggf. in andere Systeme exportiert

Öffentlich
Oracle 12c
DWH-Datenbank
Offloading mittels Sqoop
Automatisierung mittels Jenkins
Status-
Tabelle
Optional:
Bereitstellen von
Hive-Tabellen
Datenflussrichtung
Unabhängiger Master

Oracle 12c
DWH-Datenbank
Beispiel Telekommunikationsunternehmen
Call Data Records
Berechnung der Fakten (Aggregation der Daten)
Call Data Records
Oracle 12c
DWH-Datenbank
Bereitstellung der
Fakten im DWH
Berechnung der Fakten
(Aggregation der Daten)
Hochgradig parallele
Verarbeitung

Fragen & Antworten

Öffentlich
 Überraschend mehr Möglichkeiten
@OC_WIRE
OPITZCONSULTING
opitzconsulting
opitz-consulting-bcb8-1009116
WWW.OPITZ-CONSULTING.COM
Seite 38
Bei Fragen oder Interesse an diesem Thema
kontaktieren Sie uns, oder besuchen uns an
Stand 238!
Fabian Hardt
Developer,
Business Intelligence & Analytics
Kirchstraße 6
51647 Gummersbach
Fabian.Hardt@opitz-consulting.com
+49 (0) 2261 6001-1045

DWH Modernisierung mit Data Lake, Lab und Governance

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (15)

Ähnlich wie DWH Modernisierung mit Data Lake, Lab und Governance

Ähnlich wie DWH Modernisierung mit Data Lake, Lab und Governance (20)

Mehr von OPITZ CONSULTING Deutschland

Mehr von OPITZ CONSULTING Deutschland (20)

DWH Modernisierung mit Data Lake, Lab und Governance

Hinweis der Redaktion