SlideShare ist ein Scribd-Unternehmen logo
1 von 38
© OPITZ CONSULTING 2017
Informationsklassifikation:
Öffentlich
 Überraschend mehr Möglichkeiten
© OPITZ CONSULTING 2017
DOAG 2017 - Nürnberg
Fabian Hardt
DWH Modernisierung mit Data-
Lake, Lab und Governance
© OPITZ CONSULTING 2017
Informationsklassifikation:
Öffentlich Seite 2
Agenda
1
2
3
4
5
Data Lake vs. Data Reservoir
Data Lab
Data Governance im Big Data Zeitalter
Mögliche Architekturszenarios
Technisches Beispiel DWH Offloading
DWH Modernisierung - DOAG 2017
© OPITZ CONSULTING 2017
Informationsklassifikation:
Öffentlich Seite 3
Motivation
 Warum DWH Modernisierung?
 Wird das DWH ersetzt?
 Hat das klassische DWH auch langfristig eine
Daseinsberechtigung?
 „Müssen wir alles neu machen?“
 Wie erhalten wir unsere qualitätsgesicherten
Prozesse?
 DWH Modernisierung als Antwort auf diese
Fragen!
DWH Modernisierung - DOAG 2017
Data Lake
DWH
© OPITZ CONSULTING 2017
Informationsklassifikation:
Öffentlich Seite 4
Data Lake vs. Data Reservoir
 Was ist ein Data Lake?
 Wie sieht der technische Aufbau aus?
 Was ist ein Data Reservoir?
 Was gibt es zu beachten?
 Was unterscheidet einen Data Lake von einem
Data Reservoir?
1
DWH Modernisierung - DOAG 2017
© OPITZ CONSULTING 2017
Informationsklassifikation:
ÖffentlichDWH Modernisierung - DOAG 2017 Seite 5
Was ist Schema on Write, Schema on Read?
 Schema on Write
 Schon bei der Schreib-Operation muss das Ziel (Schema) klar definiert
sein.
 Bsp.: Es existiert eine Tabellenstruktur, in das passende Daten eingefügt
werden müssen.
 Schema on Read
 Für Schreib-Operationen braucht das Ziel (Schema) nicht bekannt sein.
 „Erstmal alles hineinwerfen. Zu einem späteren Zeitpunkt schauen wie
man es wieder herausbekommt“
 D.h.: Erst für die Lese-Operation muss die Big-Data-Quelle (das Schema
dieser) bekannt sein.
© OPITZ CONSULTING 2017
Informationsklassifikation:
ÖffentlichDWH Modernisierung - DOAG 2017 Seite 6
Schema on Write
 Im klassischen DWH Umfeld
An Anforderung der Nutzer
orientiert
Wenig agil, da Änderung an
Quellsystem Auswirkungen auf ETL
hat
Datenverlust bei nicht rechtzeitig
geänderter ETL-Strecke
 Typisches Big Data Paradigma
Schematisierung der Daten erst
beim Auslesen des Data Lakes
(ELT)
Kein Datenverlust beim Schreiben
in den Data Lake, trotz
unangekündigten Änderungen des
Quellsystems
 Abbildung im Data Lake: Raw Data
Area, Data Refinery
Schema on Read
© OPITZ CONSULTING 2017
Informationsklassifikation:
ÖffentlichDWH Modernisierung - DOAG 2017 Seite 7
Data Lake
 Gliedert sich in mehrere, architektonisch getrennte Teilbereiche
 Raw Data Bereich
 Data Refinery
 Refined Data Bereich
 Technisch:
 Z.B. Hadoop Plattform – HDFS als Landing Zone der Daten
 Z.B. Spark Jobs – Preprocessing von großen Datenmengen oder im Streamingverfahren
 Z.B. Hive – Die aufbereiteten Daten lagern hier schemabehaftet
 Kein Datenverlust bei Änderung des Quellsystems – Schema on Read
© OPITZ CONSULTING 2017
Informationsklassifikation:
Öffentlich
DWH Modernisierung - DOAG 2017
Seite 8
Data-Lake-Detailansicht
Refined Data
- Qualitätsgesicherte Daten,
- typischerweise Daten, die ins
klassische DWH übergehen
können
Data Refinery
- Preprocessing Area
Raw Data
- Sensordaten,
- Streaming ,
- Social Media,
- Dokumente,
- Bilder
Data Governance
DWH Modernisierung - DOAG 2017
© OPITZ CONSULTING 2017
Informationsklassifikation:
ÖffentlichDWH Modernisierung - DOAG 2017 Seite 9
Data Reservoir
Data Lake
Data Reservoir
Data
Refinery
Processing Area
Niemand weiß
was drin ist?!
Hier haben wir
den Überblick!
 Aufbau von Metadaten
 Berechtigungskonzept
 Data Governance als
Kontrollinstanz
Verarbeitung in Real- /
Near-Realtime möglich
© OPITZ CONSULTING 2017
Informationsklassifikation:
Öffentlich Seite 10
Data Lab
 Was ist ein Data Lab?
 Welche Personengruppen stecken dahinter?
 Wie sieht ein Data Lab technisch aus?
2
DWH Modernisierung - DOAG 2017
© OPITZ CONSULTING 2017
Informationsklassifikation:
ÖffentlichDWH Modernisierung - DOAG 2017 Seite 11
Data Lab
 Als eigenständige Organisationseinheit im Unternehmen
 Organisatorisch:
 Experten der Fachabteilung
 Data Scientists
 Technisch:
 Direkt im Raw Data Bereich des Data Lakes
  Besser: In eigenen Sandboxes
© OPITZ CONSULTING 2017
Informationsklassifikation:
ÖffentlichDWH Modernisierung - DOAG 2017 Seite 12
Sandboxes im Data Lake
DWH Modernisierung - DOAG 2017
Refined Data
Data Refinery
Raw Data
Refined Data
Data Refinery
Raw Data
Bekannter
Data Lake
Sandbox DWH
Weitere Datenquellen
© OPITZ CONSULTING 2017
Informationsklassifikation:
ÖffentlichDWH Modernisierung - DOAG 2017 Seite 13
Data Lab
 Exploratives Vorgehen
 Generierung von Insights
 Arbeit mit produktivnahen Daten
 Arbeit in Sandboxes
 Data Scientists
 Experten der Fachabteilung
 Ziel: Trainieren von Algorithmen
und Modellen
 Monetisierung der gefundenen
Insights
 Regelmäßige / automatisierte Big
Data Verarbeitung
 Weiterentwicklung folgt normalen
IT-Prozessen
 Algorithmen und Modellen aus Lab
kommen hier zum Einsatz
Data Factory
© OPITZ CONSULTING 2017
Informationsklassifikation:
ÖffentlichDWH Modernisierung - DOAG 2017 Seite 14
Überführung von Ergebnissen des Labs
Data FactoryData Lab Trainierte Algorithmen
Generierte Insights aus Analysen
Refined Data
Data Refinery
Raw Data
DWH
Weitere Datenquellen
Keine Datenübernahme ins
Produktivsystem
Algorithmen & Modelle
© OPITZ CONSULTING 2017
Informationsklassifikation:
Öffentlich Seite 15
Data Governance
 Einhaltung von Datenschutzgesetzen
 Zuständigkeit für Daten
 Anonymisierung von Daten
 Ggf. auch schon zu Forschungszwecken im Data Lab
 Fokus auf „Refined Bereich“ im Data Lake
3
DWH Modernisierung - DOAG 2017
© OPITZ CONSULTING 2017
Informationsklassifikation:
ÖffentlichDWH Modernisierung - DOAG 2017 Seite 16
Data Governance
 Wichtige Kontrollfunktionen
 Gesamtüberblick über alle Unternehmensbereiche
 Bisherige Kompetenzen müssen erweitert werden
 Starker Fokus auf Datenschutz
 Verwendungszweck (§ 4 BDSG)
 Data Lake
 Qualitätssicherung im „Refined Data Bereich“
 Erfüllung von Compliance-Anforderungen
© OPITZ CONSULTING 2017
Informationsklassifikation:
ÖffentlichDWH Modernisierung - DOAG 2017 Seite 17
Metadaten im Data Lake
 Neue Freiheit führt schnell zu Chaos
 Metadaten zur Vermeidung von Chaos
 Technische Metadaten (für alle externen Prozesse)
 Ladedatum, Quellsystem, etc.
 Fachliche Metadaten
 Direkter Bezug zu Daten, z.B. Spalteninhalte, oder Aufbau einer Datei
 Operative Metadaten (Technische Metadaten für interne Prozesse)
 Technische Metadaten
 Werden im Data Lake erhoben
 Z.B. Nutzerzugriffe, Änderungen an Daten
© OPITZ CONSULTING 2017
Informationsklassifikation:
ÖffentlichDWH Modernisierung - DOAG 2017 Seite 18
Metadaten im Data Lake
 Einhaltung von Datenschutz
 Protokolliert Zugriffe
 Zeigen Zweck der Datenspeicherung auf
 Einhaltung der erlaubten Speicherdauer
 EUDSGV fordert
 Verarbeitung nach Treu und Glauben und
 Transparenz
 Metadaten gewährleisten die Umsetzung dieser geforderten Punkte
© OPITZ CONSULTING 2017
Informationsklassifikation:
Öffentlich Seite 19
Referenzarchitekturen
 Sequenzielle Architektur
 Data Lake Parallel Processing
 DWH Offloading
 Hybrides Szenario
4
DWH Modernisierung - DOAG 2017
© OPITZ CONSULTING 2017
Informationsklassifikation:
ÖffentlichDWH Modernisierung - DOAG 2017 Seite 20
Sequenzielle Architektur
 Data Lake als „Single Source of Truth“
 Ersatz der Staging Area des DWH
 Neue Ladestrecken von Data Lake in Core Layer benötigt
 Alle Vorteile des Schema on Read Paradigmas
 Für volle Vorteile Big Data Knowhow benötigt
 Sehr hohe Kosten, da viele Ladestrecken neu entwickelt werden
 Für bestehende DWH-Systeme sehr aufwändig
© OPITZ CONSULTING 2017
Informationsklassifikation:
Öffentlich
Auswerte- und Analyse-Tools
Advanced Analytics, etc.
DWH
DatenquellenInterne Systeme Externe Systeme
Datenvisualisierung/Frontend
Raw
Data
Data Refinery
Refined Data
DWH Modernisierung - DOAG 2017 Seite 21
© OPITZ CONSULTING 2017
Informationsklassifikation:
ÖffentlichDWH Modernisierung - DOAG 2017 Seite 22
Data Lake Parallel Processing
 Paralleler Aufbau von Data Lake und DWH
 Bestehende DWH Prozesse bleiben unverändert
 Data Lake integriert ggf. die gleichen Datenquellen wie das DWH
 Zusammenführung der Daten aus Data Lake und DWH erst in Frontend
 Data Lab stehen keine DWH Daten zur Verfügung
 Kein Modernisierungsaufwand, DWH wird nicht angepasst
© OPITZ CONSULTING 2017
Informationsklassifikation:
Öffentlich
Auswerte- und Analyse-Tools
Advanced Analytics, etc.
DatenquellenInterne Systeme Externe Systeme
Datenvisualisierung/Frontend
RawData
Data Refinery
Refined Data
Core DWH
Stage DWH
DWH Modernisierung - DOAG 2017 Seite 23
© OPITZ CONSULTING 2017
Informationsklassifikation:
ÖffentlichDWH Modernisierung - DOAG 2017 Seite 24
DWH Offloading
 DWH als Quelle des Data Lakes
 Qualitätsgesicherte ELT-Strecken des DWH bleiben erhalten
 Kann für Cold-Data genutzt werden
 Verhältnismäßig geringe Modernisierungskosten
 DWH-Offload muss implementiert werden
© OPITZ CONSULTING 2017
Informationsklassifikation:
Öffentlich
Auswerte- und Analyse-Tools
Advanced Analytics, etc.
DatenquellenInterne Systeme Externe Systeme
Datenvisualisierung/Frontend
RawData
Data Refinery
Refined Data
Core DWH
Stage DWH
DWH Modernisierung - DOAG 2017 Seite 25
© OPITZ CONSULTING 2017
Informationsklassifikation:
ÖffentlichDWH Modernisierung - DOAG 2017 Seite 26
Hybrides Szenario
 Mischform von sequentieller / paralleler und DWH Offloading Architektur
 Nutzt und vereint Vorteile der einzelnen Architekturen
 Teile der Datenverarbeitung können in Data Lake ausgelagert werden
 Vollständige Integration von DWH und Data Lake
 Daten können beliebig ausgetauscht werden
 Moderate Modernisierungskosten
 Schnittstellen zwischen den Systemen müssen implementiert werden
© OPITZ CONSULTING 2017
Informationsklassifikation:
Öffentlich
Auswerte- und Analyse-Tools
Advanced Analytics, etc.
DWH
DatenquellenInterne Systeme Externe Systeme
Datenvisualisierung/Frontend
Raw
Data
Data Refinery
Refined Data
Offloading
DWH Modernisierung - DOAG 2017 Seite 27
© OPITZ CONSULTING 2017
Informationsklassifikation:
Öffentlich
Auswerte- und Analyse-Tools
Advanced Analytics, etc.
DatenquellenInterne Systeme Externe Systeme
Datenvisualisierung/Frontend
RawData
Data Refinery
Refined Data
Core DWH
Stage DWHOnloading
Offloading
DWH Modernisierung - DOAG 2017 Seite 28
© OPITZ CONSULTING 2017
Informationsklassifikation:
Öffentlich Seite 29
Technisches Beispiel –
DWH Offloading
 Unterscheidung verschiedener Verfahren
 Push-Verfahren
 Pull-Verfahren
 Master-Controlled
 Ziel im Big Data Kosmos
 Hive
 HDFS
 Open Source oder Enterprise Werkzeuge?
5
DWH Modernisierung - DOAG 2017
© OPITZ CONSULTING 2017
Informationsklassifikation:
ÖffentlichDWH Modernisierung - DOAG 2017 Seite 30
Push-Verfahren
 DWH als führendes System
 Die Logik zur Delta-Ermittlung findet auf der DWH-Seite statt
 Deltas aus DWH-Batch-Läufen werden verwendet
 Perfekte Integration in bestehende ETL-Jobs
 Bsp.: Export von Fakten
 Fakten werden parallel zum Insert in Faktentabelle in Data Lake exportiert
 Z.B. HDFS
 Oder direkt nach HIVE
© OPITZ CONSULTING 2017
Informationsklassifikation:
Öffentlich
Vorschlag für Cloudera-Distribution
Oracle 12c
DWH-Datenbank
Push-Verfahren
Offloading mittels Knowledge
Module im ODI –
IKM SQL to HDFS File oder
IKM SQL to HDFS Hive
Automatisierung mit dem ODI
Trigger: Erfolgreiche Datenbeladung
Optional:
Bereitstellen von
Hive-Tabellen
Datenflussrichtung
DWH Modernisierung - DOAG 2017 Seite 31
© OPITZ CONSULTING 2017
Informationsklassifikation:
ÖffentlichDWH Modernisierung - DOAG 2017 Seite 32
Pull-Verfahren
 Data Lake als führendes System
 Die Logik zur Delta-Ermittlung (falls nötig) findet im Data Lake statt
 Abzug der Daten mittels Sqoop oder individueller Spark Job
 Big Data Knowhow benötigt – evtl. funktionale Programmierung
© OPITZ CONSULTING 2017
Informationsklassifikation:
Öffentlich
Oracle 12c
DWH-Datenbank
Offloading mittels Sqoop
Automatisierung mittels Oozie
Trigger: Status-Tabelle
Status-
Tabelle
Optional:
Bereitstellen von
Hive-Tabellen
Datenflussrichtung
Vorschlag für Cloudera-Distribution
Pull-Verfahren
DWH Modernisierung - DOAG 2017 Seite 33
© OPITZ CONSULTING 2017
Informationsklassifikation:
ÖffentlichDWH Modernisierung - DOAG 2017 Seite 34
Master-Controlled
 Drittes System als Master (führendes System)
 Master kann beide Systeme „fernsteuern“
 Bei Big Data Cloudumgebungen
 Master kann Cluster starten, evtl. sogar deployen
 Daten werden bei Quellsystemen
 Geholt
 Verarbeitet
 Ggf. in andere Systeme exportiert
© OPITZ CONSULTING 2017
Informationsklassifikation:
Öffentlich
Oracle 12c
DWH-Datenbank
Offloading mittels Sqoop
Automatisierung mittels Jenkins
Status-
Tabelle
Optional:
Bereitstellen von
Hive-Tabellen
Datenflussrichtung
Vorschlag für Cloudera-Distribution
Unabhängiger Master
DWH Modernisierung - DOAG 2017 Seite 35
© OPITZ CONSULTING 2017
Informationsklassifikation:
ÖffentlichDWH Modernisierung - DOAG 2017 Seite 36
Oracle 12c
DWH-Datenbank
Beispiel Telekommunikationsunternehmen
Call Data Records
Berechnung der Fakten (Aggregation der Daten)
Call Data Records
Oracle 12c
DWH-Datenbank
Bereitstellung der
Fakten im DWH
Berechnung der Fakten
(Aggregation der Daten)
Hochgradig parallele
Verarbeitung
© OPITZ CONSULTING 2017
Informationsklassifikation:
Öffentlich Seite 37
Fragen & Antworten
DWH Modernisierung - DOAG 2017
© OPITZ CONSULTING 2017
Informationsklassifikation:
Öffentlich
 Überraschend mehr Möglichkeiten
@OC_WIRE
OPITZCONSULTING
opitzconsulting
opitz-consulting-bcb8-1009116
WWW.OPITZ-CONSULTING.COM
Seite 38
Bei Fragen oder Interesse an diesem Thema
kontaktieren Sie uns, oder besuchen uns an
Stand 238!
Fabian Hardt
Developer,
Business Intelligence & Analytics
Kirchstraße 6
51647 Gummersbach
Fabian.Hardt@opitz-consulting.com
+49 (0) 2261 6001-1045
DWH Modernisierung - DOAG 2017

Weitere ähnliche Inhalte

Was ist angesagt?

Modellierung agliler Data Warehouses mit Data Vault
Modellierung agliler Data Warehouses mit Data VaultModellierung agliler Data Warehouses mit Data Vault
Modellierung agliler Data Warehouses mit Data VaultTrivadis
 
Wie sicher sind Database Links? DOAG BI Konfernenz München.
Wie sicher sind Database Links? DOAG BI Konfernenz München.Wie sicher sind Database Links? DOAG BI Konfernenz München.
Wie sicher sind Database Links? DOAG BI Konfernenz München.Trivadis
 
Agiles Data Mining mit Data Vault 2.0
Agiles Data Mining mit Data Vault 2.0Agiles Data Mining mit Data Vault 2.0
Agiles Data Mining mit Data Vault 2.0Michael Olschimke
 
Caching: In-Memory Column Store oder im BI Server
Caching: In-Memory Column Store oder im BI ServerCaching: In-Memory Column Store oder im BI Server
Caching: In-Memory Column Store oder im BI ServerAndreas Buckenhofer
 
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02Gunther Pippèrr
 
Data lake vs Data Warehouse: Hybrid Architectures
Data lake vs Data Warehouse: Hybrid ArchitecturesData lake vs Data Warehouse: Hybrid Architectures
Data lake vs Data Warehouse: Hybrid ArchitecturesComsysto Reply GmbH
 
Analytical Sandboxing: Data-Warehousing und Datenanalysen im Spannungsfeld zw...
Analytical Sandboxing: Data-Warehousing und Datenanalysen im Spannungsfeld zw...Analytical Sandboxing: Data-Warehousing und Datenanalysen im Spannungsfeld zw...
Analytical Sandboxing: Data-Warehousing und Datenanalysen im Spannungsfeld zw...Business Intelligence Research
 
Partitionierung im DWH: Erkenntnisse aus der Praxis - Oracle DWH Konferenz
Partitionierung im DWH: Erkenntnisse aus der Praxis - Oracle DWH KonferenzPartitionierung im DWH: Erkenntnisse aus der Praxis - Oracle DWH Konferenz
Partitionierung im DWH: Erkenntnisse aus der Praxis - Oracle DWH KonferenzTrivadis
 
Data Virtualization - Supernova
Data Virtualization - SupernovaData Virtualization - Supernova
Data Virtualization - SupernovaTorsten Glunde
 
Weitere Dezentralisierung der BI - mehr Selbständigkeit der Fachbereiche durc...
Weitere Dezentralisierung der BI - mehr Selbständigkeit der Fachbereiche durc...Weitere Dezentralisierung der BI - mehr Selbständigkeit der Fachbereiche durc...
Weitere Dezentralisierung der BI - mehr Selbständigkeit der Fachbereiche durc...Business Intelligence Research
 
Datenbank-Selbstverwaltung - Das Oracle-Data-Dictionary
Datenbank-Selbstverwaltung - Das Oracle-Data-DictionaryDatenbank-Selbstverwaltung - Das Oracle-Data-Dictionary
Datenbank-Selbstverwaltung - Das Oracle-Data-DictionaryMarkus Flechtner
 
16. DINI-Jahrestagung: Linked Data und Repositorien
16. DINI-Jahrestagung: Linked Data und Repositorien16. DINI-Jahrestagung: Linked Data und Repositorien
16. DINI-Jahrestagung: Linked Data und RepositorienPascal-Nicolas Becker
 
OPAL - Open Data Portal Germany
OPAL - Open Data Portal GermanyOPAL - Open Data Portal Germany
OPAL - Open Data Portal Germanyadrianwilke
 
04 Datenintegration und Verwaltung
04 Datenintegration und Verwaltung04 Datenintegration und Verwaltung
04 Datenintegration und Verwaltungklickandbau
 

Was ist angesagt? (15)

Modellierung agliler Data Warehouses mit Data Vault
Modellierung agliler Data Warehouses mit Data VaultModellierung agliler Data Warehouses mit Data Vault
Modellierung agliler Data Warehouses mit Data Vault
 
Wie sicher sind Database Links? DOAG BI Konfernenz München.
Wie sicher sind Database Links? DOAG BI Konfernenz München.Wie sicher sind Database Links? DOAG BI Konfernenz München.
Wie sicher sind Database Links? DOAG BI Konfernenz München.
 
Agiles Data Mining mit Data Vault 2.0
Agiles Data Mining mit Data Vault 2.0Agiles Data Mining mit Data Vault 2.0
Agiles Data Mining mit Data Vault 2.0
 
Caching: In-Memory Column Store oder im BI Server
Caching: In-Memory Column Store oder im BI ServerCaching: In-Memory Column Store oder im BI Server
Caching: In-Memory Column Store oder im BI Server
 
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02
Doag 2104 manuskript_hadoop_oracle_integration_gunther_pipperr_v02
 
Data lake vs Data Warehouse: Hybrid Architectures
Data lake vs Data Warehouse: Hybrid ArchitecturesData lake vs Data Warehouse: Hybrid Architectures
Data lake vs Data Warehouse: Hybrid Architectures
 
Analytical Sandboxing: Data-Warehousing und Datenanalysen im Spannungsfeld zw...
Analytical Sandboxing: Data-Warehousing und Datenanalysen im Spannungsfeld zw...Analytical Sandboxing: Data-Warehousing und Datenanalysen im Spannungsfeld zw...
Analytical Sandboxing: Data-Warehousing und Datenanalysen im Spannungsfeld zw...
 
Partitionierung im DWH: Erkenntnisse aus der Praxis - Oracle DWH Konferenz
Partitionierung im DWH: Erkenntnisse aus der Praxis - Oracle DWH KonferenzPartitionierung im DWH: Erkenntnisse aus der Praxis - Oracle DWH Konferenz
Partitionierung im DWH: Erkenntnisse aus der Praxis - Oracle DWH Konferenz
 
Data Virtualization - Supernova
Data Virtualization - SupernovaData Virtualization - Supernova
Data Virtualization - Supernova
 
Weitere Dezentralisierung der BI - mehr Selbständigkeit der Fachbereiche durc...
Weitere Dezentralisierung der BI - mehr Selbständigkeit der Fachbereiche durc...Weitere Dezentralisierung der BI - mehr Selbständigkeit der Fachbereiche durc...
Weitere Dezentralisierung der BI - mehr Selbständigkeit der Fachbereiche durc...
 
Datenbank-Selbstverwaltung - Das Oracle-Data-Dictionary
Datenbank-Selbstverwaltung - Das Oracle-Data-DictionaryDatenbank-Selbstverwaltung - Das Oracle-Data-Dictionary
Datenbank-Selbstverwaltung - Das Oracle-Data-Dictionary
 
ODAaaS – Open Data Analytics as a Service
ODAaaS – Open Data Analytics as a ServiceODAaaS – Open Data Analytics as a Service
ODAaaS – Open Data Analytics as a Service
 
16. DINI-Jahrestagung: Linked Data und Repositorien
16. DINI-Jahrestagung: Linked Data und Repositorien16. DINI-Jahrestagung: Linked Data und Repositorien
16. DINI-Jahrestagung: Linked Data und Repositorien
 
OPAL - Open Data Portal Germany
OPAL - Open Data Portal GermanyOPAL - Open Data Portal Germany
OPAL - Open Data Portal Germany
 
04 Datenintegration und Verwaltung
04 Datenintegration und Verwaltung04 Datenintegration und Verwaltung
04 Datenintegration und Verwaltung
 

Ähnlich wie DWH Modernisierung mit Data Lake, Lab und Governance

Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data KonnektivitätTrivadis
 
Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...
Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...
Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...OPITZ CONSULTING Deutschland
 
Data Mesh und Domain Driven Design - rücken Analytics und SD nun doch näher z...
Data Mesh und Domain Driven Design - rücken Analytics und SD nun doch näher z...Data Mesh und Domain Driven Design - rücken Analytics und SD nun doch näher z...
Data Mesh und Domain Driven Design - rücken Analytics und SD nun doch näher z...Fabian Hardt
 
BARC Studie Webinar: Ausgereifte Analysen mit Apache Hadoop
BARC Studie Webinar: Ausgereifte Analysen mit Apache HadoopBARC Studie Webinar: Ausgereifte Analysen mit Apache Hadoop
BARC Studie Webinar: Ausgereifte Analysen mit Apache HadoopCloudera, Inc.
 
Hadoop in modernen BI-Infrastrukturen
Hadoop in modernen BI-InfrastrukturenHadoop in modernen BI-Infrastrukturen
Hadoop in modernen BI-Infrastruktureninovex GmbH
 
CGAG Advisory Board Meeting 21.11.2014: Location Intelligence & Data Warehous...
CGAG Advisory Board Meeting 21.11.2014: Location Intelligence & Data Warehous...CGAG Advisory Board Meeting 21.11.2014: Location Intelligence & Data Warehous...
CGAG Advisory Board Meeting 21.11.2014: Location Intelligence & Data Warehous...callista-group
 
Tipps & Tricks zum Aufbau einer Unternehmenscloud mit CC13
Tipps & Tricks zum Aufbau einer Unternehmenscloud mit CC13Tipps & Tricks zum Aufbau einer Unternehmenscloud mit CC13
Tipps & Tricks zum Aufbau einer Unternehmenscloud mit CC13OPITZ CONSULTING Deutschland
 
Analytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und rAnalytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und rMarcel Franke
 
FedXtract - Architektur
FedXtract - ArchitekturFedXtract - Architektur
FedXtract - ArchitekturCondat AG
 
Cloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von MetadatenCloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von MetadatenMagnus Pfeffer
 
Andreas Steinbach (ÖBB DLG), Ronald Körsgen (Syncsort)
Andreas Steinbach (ÖBB DLG), Ronald Körsgen (Syncsort) Andreas Steinbach (ÖBB DLG), Ronald Körsgen (Syncsort)
Andreas Steinbach (ÖBB DLG), Ronald Körsgen (Syncsort) Praxistage
 
Automatisierung im DWH - Sich das Leben erleichern mit dem ODI
Automatisierung im DWH - Sich das Leben erleichern mit dem ODIAutomatisierung im DWH - Sich das Leben erleichern mit dem ODI
Automatisierung im DWH - Sich das Leben erleichern mit dem ODIOPITZ CONSULTING Deutschland
 
Data Mesh: "Daten als Produkt" weitergedacht
Data Mesh: "Daten als Produkt" weitergedachtData Mesh: "Daten als Produkt" weitergedacht
Data Mesh: "Daten als Produkt" weitergedachtIBsolution GmbH
 
Linked Data Service (LINDAS): Status quo of the linked data life-cycle and le...
Linked Data Service (LINDAS): Status quo of the linked data life-cycle and le...Linked Data Service (LINDAS): Status quo of the linked data life-cycle and le...
Linked Data Service (LINDAS): Status quo of the linked data life-cycle and le...AI4BD GmbH
 

Ähnlich wie DWH Modernisierung mit Data Lake, Lab und Governance (20)

Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data Konnektivität
 
Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...
Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...
Historisierung und Analyse von Daten aus Oracle Enterprise Manager Cloud Cont...
 
Data Mesh und Domain Driven Design - rücken Analytics und SD nun doch näher z...
Data Mesh und Domain Driven Design - rücken Analytics und SD nun doch näher z...Data Mesh und Domain Driven Design - rücken Analytics und SD nun doch näher z...
Data Mesh und Domain Driven Design - rücken Analytics und SD nun doch näher z...
 
BARC Studie Webinar: Ausgereifte Analysen mit Apache Hadoop
BARC Studie Webinar: Ausgereifte Analysen mit Apache HadoopBARC Studie Webinar: Ausgereifte Analysen mit Apache Hadoop
BARC Studie Webinar: Ausgereifte Analysen mit Apache Hadoop
 
Analytics as a Service - Microsoft Azure
Analytics as a Service  - Microsoft Azure Analytics as a Service  - Microsoft Azure
Analytics as a Service - Microsoft Azure
 
Hadoop in modernen BI-Infrastrukturen
Hadoop in modernen BI-InfrastrukturenHadoop in modernen BI-Infrastrukturen
Hadoop in modernen BI-Infrastrukturen
 
Agiles Enterprise Big Data Testmanagement
Agiles Enterprise Big Data TestmanagementAgiles Enterprise Big Data Testmanagement
Agiles Enterprise Big Data Testmanagement
 
CGAG Advisory Board Meeting 21.11.2014: Location Intelligence & Data Warehous...
CGAG Advisory Board Meeting 21.11.2014: Location Intelligence & Data Warehous...CGAG Advisory Board Meeting 21.11.2014: Location Intelligence & Data Warehous...
CGAG Advisory Board Meeting 21.11.2014: Location Intelligence & Data Warehous...
 
Ms dos-and-donts-doag
Ms dos-and-donts-doagMs dos-and-donts-doag
Ms dos-and-donts-doag
 
Tipps & Tricks zum Aufbau einer Unternehmenscloud mit CC13
Tipps & Tricks zum Aufbau einer Unternehmenscloud mit CC13Tipps & Tricks zum Aufbau einer Unternehmenscloud mit CC13
Tipps & Tricks zum Aufbau einer Unternehmenscloud mit CC13
 
Analytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und rAnalytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und r
 
FedXtract - Architektur
FedXtract - ArchitekturFedXtract - Architektur
FedXtract - Architektur
 
Cloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von MetadatenCloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von Metadaten
 
Darf es ein bisschen mehr sein - Konzepte und Strategien zur Bewältigung groß...
Darf es ein bisschen mehr sein - Konzepte und Strategien zur Bewältigung groß...Darf es ein bisschen mehr sein - Konzepte und Strategien zur Bewältigung groß...
Darf es ein bisschen mehr sein - Konzepte und Strategien zur Bewältigung groß...
 
Darf es ein bisschen mehr sein - Konzepte und Strategien zur Bewältigung groß...
Darf es ein bisschen mehr sein - Konzepte und Strategien zur Bewältigung groß...Darf es ein bisschen mehr sein - Konzepte und Strategien zur Bewältigung groß...
Darf es ein bisschen mehr sein - Konzepte und Strategien zur Bewältigung groß...
 
Darf es ein bisschen mehr sein - Konzepte Strategien zur Bewältigung großer u...
Darf es ein bisschen mehr sein - Konzepte Strategien zur Bewältigung großer u...Darf es ein bisschen mehr sein - Konzepte Strategien zur Bewältigung großer u...
Darf es ein bisschen mehr sein - Konzepte Strategien zur Bewältigung großer u...
 
Andreas Steinbach (ÖBB DLG), Ronald Körsgen (Syncsort)
Andreas Steinbach (ÖBB DLG), Ronald Körsgen (Syncsort) Andreas Steinbach (ÖBB DLG), Ronald Körsgen (Syncsort)
Andreas Steinbach (ÖBB DLG), Ronald Körsgen (Syncsort)
 
Automatisierung im DWH - Sich das Leben erleichern mit dem ODI
Automatisierung im DWH - Sich das Leben erleichern mit dem ODIAutomatisierung im DWH - Sich das Leben erleichern mit dem ODI
Automatisierung im DWH - Sich das Leben erleichern mit dem ODI
 
Data Mesh: "Daten als Produkt" weitergedacht
Data Mesh: "Daten als Produkt" weitergedachtData Mesh: "Daten als Produkt" weitergedacht
Data Mesh: "Daten als Produkt" weitergedacht
 
Linked Data Service (LINDAS): Status quo of the linked data life-cycle and le...
Linked Data Service (LINDAS): Status quo of the linked data life-cycle and le...Linked Data Service (LINDAS): Status quo of the linked data life-cycle and le...
Linked Data Service (LINDAS): Status quo of the linked data life-cycle and le...
 

Mehr von OPITZ CONSULTING Deutschland

Architecture Room Stuttgart - "Cloud-native ist nur ein Teil des Spiels!"
Architecture Room Stuttgart - "Cloud-native ist nur ein Teil des Spiels!"Architecture Room Stuttgart - "Cloud-native ist nur ein Teil des Spiels!"
Architecture Room Stuttgart - "Cloud-native ist nur ein Teil des Spiels!"OPITZ CONSULTING Deutschland
 
OC|Webcast: Oracle Lizenzierung - Die größten Fallen in der Praxis
OC|Webcast: Oracle Lizenzierung - Die größten Fallen in der PraxisOC|Webcast: Oracle Lizenzierung - Die größten Fallen in der Praxis
OC|Webcast: Oracle Lizenzierung - Die größten Fallen in der PraxisOPITZ CONSULTING Deutschland
 
OC|Webcast: Oracle Lizenzierung - Virtualisierung und Cloud
OC|Webcast: Oracle Lizenzierung - Virtualisierung und CloudOC|Webcast: Oracle Lizenzierung - Virtualisierung und Cloud
OC|Webcast: Oracle Lizenzierung - Virtualisierung und CloudOPITZ CONSULTING Deutschland
 
OC|Weekly Talk: Inspect’n’Adapt – Make Change come true!
OC|Weekly Talk: Inspect’n’Adapt – Make Change come true!OC|Weekly Talk: Inspect’n’Adapt – Make Change come true!
OC|Weekly Talk: Inspect’n’Adapt – Make Change come true!OPITZ CONSULTING Deutschland
 
OC|Webcast: Schnell und clever in die AWS Cloud – Migrationsszenarien und Han...
OC|Webcast: Schnell und clever in die AWS Cloud – Migrationsszenarien und Han...OC|Webcast: Schnell und clever in die AWS Cloud – Migrationsszenarien und Han...
OC|Webcast: Schnell und clever in die AWS Cloud – Migrationsszenarien und Han...OPITZ CONSULTING Deutschland
 
OC|Weekly Talk: "Das müsste man mal digitalisieren" - Mit Low-Code schnell zu...
OC|Weekly Talk: "Das müsste man mal digitalisieren" - Mit Low-Code schnell zu...OC|Weekly Talk: "Das müsste man mal digitalisieren" - Mit Low-Code schnell zu...
OC|Weekly Talk: "Das müsste man mal digitalisieren" - Mit Low-Code schnell zu...OPITZ CONSULTING Deutschland
 
OC|Weekly Talk: Service Management – Was hat sich durch Corona geändert?
OC|Weekly Talk: Service Management – Was hat sich durch Corona geändert?OC|Weekly Talk: Service Management – Was hat sich durch Corona geändert?
OC|Weekly Talk: Service Management – Was hat sich durch Corona geändert?OPITZ CONSULTING Deutschland
 
OC|Weekly Talk - Digitales Coaching & Smart Sparring
OC|Weekly Talk - Digitales Coaching & Smart Sparring OC|Weekly Talk - Digitales Coaching & Smart Sparring
OC|Weekly Talk - Digitales Coaching & Smart Sparring OPITZ CONSULTING Deutschland
 
Effiziente Betriebsoptimierung durch Cloud Nutzung
Effiziente Betriebsoptimierung durch Cloud NutzungEffiziente Betriebsoptimierung durch Cloud Nutzung
Effiziente Betriebsoptimierung durch Cloud NutzungOPITZ CONSULTING Deutschland
 

Mehr von OPITZ CONSULTING Deutschland (20)

OC|Webcast: Grundlagen der Oracle Lizenzierung
OC|Webcast: Grundlagen der Oracle LizenzierungOC|Webcast: Grundlagen der Oracle Lizenzierung
OC|Webcast: Grundlagen der Oracle Lizenzierung
 
OC|Webcast "Java heute" vom 28.09.2021
OC|Webcast "Java heute" vom 28.09.2021OC|Webcast "Java heute" vom 28.09.2021
OC|Webcast "Java heute" vom 28.09.2021
 
OC|Webcast "Java heute" vom 24.08.2021
OC|Webcast "Java heute" vom 24.08.2021OC|Webcast "Java heute" vom 24.08.2021
OC|Webcast "Java heute" vom 24.08.2021
 
OC|Webcast "Daten wirklich nutzen"
OC|Webcast "Daten wirklich nutzen"OC|Webcast "Daten wirklich nutzen"
OC|Webcast "Daten wirklich nutzen"
 
Architecture Room Stuttgart - "Cloud-native ist nur ein Teil des Spiels!"
Architecture Room Stuttgart - "Cloud-native ist nur ein Teil des Spiels!"Architecture Room Stuttgart - "Cloud-native ist nur ein Teil des Spiels!"
Architecture Room Stuttgart - "Cloud-native ist nur ein Teil des Spiels!"
 
OC|Webcast "Willkommen in der Cloud!"
OC|Webcast "Willkommen in der Cloud!"OC|Webcast "Willkommen in der Cloud!"
OC|Webcast "Willkommen in der Cloud!"
 
OC|Webcast "Die neue Welt der Virtualisierung"
OC|Webcast "Die neue Welt der Virtualisierung"OC|Webcast "Die neue Welt der Virtualisierung"
OC|Webcast "Die neue Welt der Virtualisierung"
 
10 Thesen zur professionellen Softwareentwicklung
10 Thesen zur professionellen Softwareentwicklung10 Thesen zur professionellen Softwareentwicklung
10 Thesen zur professionellen Softwareentwicklung
 
OC|Webcast: Oracle Lizenzierung - Lizenznews 2021
OC|Webcast: Oracle Lizenzierung - Lizenznews 2021OC|Webcast: Oracle Lizenzierung - Lizenznews 2021
OC|Webcast: Oracle Lizenzierung - Lizenznews 2021
 
OC|Webcast: Oracle Lizenzierung - Die größten Fallen in der Praxis
OC|Webcast: Oracle Lizenzierung - Die größten Fallen in der PraxisOC|Webcast: Oracle Lizenzierung - Die größten Fallen in der Praxis
OC|Webcast: Oracle Lizenzierung - Die größten Fallen in der Praxis
 
OC|Webcast: Oracle Lizenzierung - Virtualisierung und Cloud
OC|Webcast: Oracle Lizenzierung - Virtualisierung und CloudOC|Webcast: Oracle Lizenzierung - Virtualisierung und Cloud
OC|Webcast: Oracle Lizenzierung - Virtualisierung und Cloud
 
OC|Webcast: Grundlagen der Oracle-Lizenzierung
OC|Webcast: Grundlagen der Oracle-LizenzierungOC|Webcast: Grundlagen der Oracle-Lizenzierung
OC|Webcast: Grundlagen der Oracle-Lizenzierung
 
OC|Weekly Talk: Inspect’n’Adapt – Make Change come true!
OC|Weekly Talk: Inspect’n’Adapt – Make Change come true!OC|Weekly Talk: Inspect’n’Adapt – Make Change come true!
OC|Weekly Talk: Inspect’n’Adapt – Make Change come true!
 
OC|Webcast: Schnell und clever in die AWS Cloud – Migrationsszenarien und Han...
OC|Webcast: Schnell und clever in die AWS Cloud – Migrationsszenarien und Han...OC|Webcast: Schnell und clever in die AWS Cloud – Migrationsszenarien und Han...
OC|Webcast: Schnell und clever in die AWS Cloud – Migrationsszenarien und Han...
 
OC|Weekly Talk The Power of DevOps…
OC|Weekly Talk  The Power of DevOps…OC|Weekly Talk  The Power of DevOps…
OC|Weekly Talk The Power of DevOps…
 
OC|Weekly Talk: "Das müsste man mal digitalisieren" - Mit Low-Code schnell zu...
OC|Weekly Talk: "Das müsste man mal digitalisieren" - Mit Low-Code schnell zu...OC|Weekly Talk: "Das müsste man mal digitalisieren" - Mit Low-Code schnell zu...
OC|Weekly Talk: "Das müsste man mal digitalisieren" - Mit Low-Code schnell zu...
 
OC|Weekly Talk: Service Management – Was hat sich durch Corona geändert?
OC|Weekly Talk: Service Management – Was hat sich durch Corona geändert?OC|Weekly Talk: Service Management – Was hat sich durch Corona geändert?
OC|Weekly Talk: Service Management – Was hat sich durch Corona geändert?
 
OC|Weekly Talk - Digitales Coaching & Smart Sparring
OC|Weekly Talk - Digitales Coaching & Smart Sparring OC|Weekly Talk - Digitales Coaching & Smart Sparring
OC|Weekly Talk - Digitales Coaching & Smart Sparring
 
OC|Weekly Talk - Beratung remote
OC|Weekly Talk - Beratung remoteOC|Weekly Talk - Beratung remote
OC|Weekly Talk - Beratung remote
 
Effiziente Betriebsoptimierung durch Cloud Nutzung
Effiziente Betriebsoptimierung durch Cloud NutzungEffiziente Betriebsoptimierung durch Cloud Nutzung
Effiziente Betriebsoptimierung durch Cloud Nutzung
 

DWH Modernisierung mit Data Lake, Lab und Governance

  • 1. © OPITZ CONSULTING 2017 Informationsklassifikation: Öffentlich  Überraschend mehr Möglichkeiten © OPITZ CONSULTING 2017 DOAG 2017 - Nürnberg Fabian Hardt DWH Modernisierung mit Data- Lake, Lab und Governance
  • 2. © OPITZ CONSULTING 2017 Informationsklassifikation: Öffentlich Seite 2 Agenda 1 2 3 4 5 Data Lake vs. Data Reservoir Data Lab Data Governance im Big Data Zeitalter Mögliche Architekturszenarios Technisches Beispiel DWH Offloading DWH Modernisierung - DOAG 2017
  • 3. © OPITZ CONSULTING 2017 Informationsklassifikation: Öffentlich Seite 3 Motivation  Warum DWH Modernisierung?  Wird das DWH ersetzt?  Hat das klassische DWH auch langfristig eine Daseinsberechtigung?  „Müssen wir alles neu machen?“  Wie erhalten wir unsere qualitätsgesicherten Prozesse?  DWH Modernisierung als Antwort auf diese Fragen! DWH Modernisierung - DOAG 2017 Data Lake DWH
  • 4. © OPITZ CONSULTING 2017 Informationsklassifikation: Öffentlich Seite 4 Data Lake vs. Data Reservoir  Was ist ein Data Lake?  Wie sieht der technische Aufbau aus?  Was ist ein Data Reservoir?  Was gibt es zu beachten?  Was unterscheidet einen Data Lake von einem Data Reservoir? 1 DWH Modernisierung - DOAG 2017
  • 5. © OPITZ CONSULTING 2017 Informationsklassifikation: ÖffentlichDWH Modernisierung - DOAG 2017 Seite 5 Was ist Schema on Write, Schema on Read?  Schema on Write  Schon bei der Schreib-Operation muss das Ziel (Schema) klar definiert sein.  Bsp.: Es existiert eine Tabellenstruktur, in das passende Daten eingefügt werden müssen.  Schema on Read  Für Schreib-Operationen braucht das Ziel (Schema) nicht bekannt sein.  „Erstmal alles hineinwerfen. Zu einem späteren Zeitpunkt schauen wie man es wieder herausbekommt“  D.h.: Erst für die Lese-Operation muss die Big-Data-Quelle (das Schema dieser) bekannt sein.
  • 6. © OPITZ CONSULTING 2017 Informationsklassifikation: ÖffentlichDWH Modernisierung - DOAG 2017 Seite 6 Schema on Write  Im klassischen DWH Umfeld An Anforderung der Nutzer orientiert Wenig agil, da Änderung an Quellsystem Auswirkungen auf ETL hat Datenverlust bei nicht rechtzeitig geänderter ETL-Strecke  Typisches Big Data Paradigma Schematisierung der Daten erst beim Auslesen des Data Lakes (ELT) Kein Datenverlust beim Schreiben in den Data Lake, trotz unangekündigten Änderungen des Quellsystems  Abbildung im Data Lake: Raw Data Area, Data Refinery Schema on Read
  • 7. © OPITZ CONSULTING 2017 Informationsklassifikation: ÖffentlichDWH Modernisierung - DOAG 2017 Seite 7 Data Lake  Gliedert sich in mehrere, architektonisch getrennte Teilbereiche  Raw Data Bereich  Data Refinery  Refined Data Bereich  Technisch:  Z.B. Hadoop Plattform – HDFS als Landing Zone der Daten  Z.B. Spark Jobs – Preprocessing von großen Datenmengen oder im Streamingverfahren  Z.B. Hive – Die aufbereiteten Daten lagern hier schemabehaftet  Kein Datenverlust bei Änderung des Quellsystems – Schema on Read
  • 8. © OPITZ CONSULTING 2017 Informationsklassifikation: Öffentlich DWH Modernisierung - DOAG 2017 Seite 8 Data-Lake-Detailansicht Refined Data - Qualitätsgesicherte Daten, - typischerweise Daten, die ins klassische DWH übergehen können Data Refinery - Preprocessing Area Raw Data - Sensordaten, - Streaming , - Social Media, - Dokumente, - Bilder Data Governance DWH Modernisierung - DOAG 2017
  • 9. © OPITZ CONSULTING 2017 Informationsklassifikation: ÖffentlichDWH Modernisierung - DOAG 2017 Seite 9 Data Reservoir Data Lake Data Reservoir Data Refinery Processing Area Niemand weiß was drin ist?! Hier haben wir den Überblick!  Aufbau von Metadaten  Berechtigungskonzept  Data Governance als Kontrollinstanz Verarbeitung in Real- / Near-Realtime möglich
  • 10. © OPITZ CONSULTING 2017 Informationsklassifikation: Öffentlich Seite 10 Data Lab  Was ist ein Data Lab?  Welche Personengruppen stecken dahinter?  Wie sieht ein Data Lab technisch aus? 2 DWH Modernisierung - DOAG 2017
  • 11. © OPITZ CONSULTING 2017 Informationsklassifikation: ÖffentlichDWH Modernisierung - DOAG 2017 Seite 11 Data Lab  Als eigenständige Organisationseinheit im Unternehmen  Organisatorisch:  Experten der Fachabteilung  Data Scientists  Technisch:  Direkt im Raw Data Bereich des Data Lakes   Besser: In eigenen Sandboxes
  • 12. © OPITZ CONSULTING 2017 Informationsklassifikation: ÖffentlichDWH Modernisierung - DOAG 2017 Seite 12 Sandboxes im Data Lake DWH Modernisierung - DOAG 2017 Refined Data Data Refinery Raw Data Refined Data Data Refinery Raw Data Bekannter Data Lake Sandbox DWH Weitere Datenquellen
  • 13. © OPITZ CONSULTING 2017 Informationsklassifikation: ÖffentlichDWH Modernisierung - DOAG 2017 Seite 13 Data Lab  Exploratives Vorgehen  Generierung von Insights  Arbeit mit produktivnahen Daten  Arbeit in Sandboxes  Data Scientists  Experten der Fachabteilung  Ziel: Trainieren von Algorithmen und Modellen  Monetisierung der gefundenen Insights  Regelmäßige / automatisierte Big Data Verarbeitung  Weiterentwicklung folgt normalen IT-Prozessen  Algorithmen und Modellen aus Lab kommen hier zum Einsatz Data Factory
  • 14. © OPITZ CONSULTING 2017 Informationsklassifikation: ÖffentlichDWH Modernisierung - DOAG 2017 Seite 14 Überführung von Ergebnissen des Labs Data FactoryData Lab Trainierte Algorithmen Generierte Insights aus Analysen Refined Data Data Refinery Raw Data DWH Weitere Datenquellen Keine Datenübernahme ins Produktivsystem Algorithmen & Modelle
  • 15. © OPITZ CONSULTING 2017 Informationsklassifikation: Öffentlich Seite 15 Data Governance  Einhaltung von Datenschutzgesetzen  Zuständigkeit für Daten  Anonymisierung von Daten  Ggf. auch schon zu Forschungszwecken im Data Lab  Fokus auf „Refined Bereich“ im Data Lake 3 DWH Modernisierung - DOAG 2017
  • 16. © OPITZ CONSULTING 2017 Informationsklassifikation: ÖffentlichDWH Modernisierung - DOAG 2017 Seite 16 Data Governance  Wichtige Kontrollfunktionen  Gesamtüberblick über alle Unternehmensbereiche  Bisherige Kompetenzen müssen erweitert werden  Starker Fokus auf Datenschutz  Verwendungszweck (§ 4 BDSG)  Data Lake  Qualitätssicherung im „Refined Data Bereich“  Erfüllung von Compliance-Anforderungen
  • 17. © OPITZ CONSULTING 2017 Informationsklassifikation: ÖffentlichDWH Modernisierung - DOAG 2017 Seite 17 Metadaten im Data Lake  Neue Freiheit führt schnell zu Chaos  Metadaten zur Vermeidung von Chaos  Technische Metadaten (für alle externen Prozesse)  Ladedatum, Quellsystem, etc.  Fachliche Metadaten  Direkter Bezug zu Daten, z.B. Spalteninhalte, oder Aufbau einer Datei  Operative Metadaten (Technische Metadaten für interne Prozesse)  Technische Metadaten  Werden im Data Lake erhoben  Z.B. Nutzerzugriffe, Änderungen an Daten
  • 18. © OPITZ CONSULTING 2017 Informationsklassifikation: ÖffentlichDWH Modernisierung - DOAG 2017 Seite 18 Metadaten im Data Lake  Einhaltung von Datenschutz  Protokolliert Zugriffe  Zeigen Zweck der Datenspeicherung auf  Einhaltung der erlaubten Speicherdauer  EUDSGV fordert  Verarbeitung nach Treu und Glauben und  Transparenz  Metadaten gewährleisten die Umsetzung dieser geforderten Punkte
  • 19. © OPITZ CONSULTING 2017 Informationsklassifikation: Öffentlich Seite 19 Referenzarchitekturen  Sequenzielle Architektur  Data Lake Parallel Processing  DWH Offloading  Hybrides Szenario 4 DWH Modernisierung - DOAG 2017
  • 20. © OPITZ CONSULTING 2017 Informationsklassifikation: ÖffentlichDWH Modernisierung - DOAG 2017 Seite 20 Sequenzielle Architektur  Data Lake als „Single Source of Truth“  Ersatz der Staging Area des DWH  Neue Ladestrecken von Data Lake in Core Layer benötigt  Alle Vorteile des Schema on Read Paradigmas  Für volle Vorteile Big Data Knowhow benötigt  Sehr hohe Kosten, da viele Ladestrecken neu entwickelt werden  Für bestehende DWH-Systeme sehr aufwändig
  • 21. © OPITZ CONSULTING 2017 Informationsklassifikation: Öffentlich Auswerte- und Analyse-Tools Advanced Analytics, etc. DWH DatenquellenInterne Systeme Externe Systeme Datenvisualisierung/Frontend Raw Data Data Refinery Refined Data DWH Modernisierung - DOAG 2017 Seite 21
  • 22. © OPITZ CONSULTING 2017 Informationsklassifikation: ÖffentlichDWH Modernisierung - DOAG 2017 Seite 22 Data Lake Parallel Processing  Paralleler Aufbau von Data Lake und DWH  Bestehende DWH Prozesse bleiben unverändert  Data Lake integriert ggf. die gleichen Datenquellen wie das DWH  Zusammenführung der Daten aus Data Lake und DWH erst in Frontend  Data Lab stehen keine DWH Daten zur Verfügung  Kein Modernisierungsaufwand, DWH wird nicht angepasst
  • 23. © OPITZ CONSULTING 2017 Informationsklassifikation: Öffentlich Auswerte- und Analyse-Tools Advanced Analytics, etc. DatenquellenInterne Systeme Externe Systeme Datenvisualisierung/Frontend RawData Data Refinery Refined Data Core DWH Stage DWH DWH Modernisierung - DOAG 2017 Seite 23
  • 24. © OPITZ CONSULTING 2017 Informationsklassifikation: ÖffentlichDWH Modernisierung - DOAG 2017 Seite 24 DWH Offloading  DWH als Quelle des Data Lakes  Qualitätsgesicherte ELT-Strecken des DWH bleiben erhalten  Kann für Cold-Data genutzt werden  Verhältnismäßig geringe Modernisierungskosten  DWH-Offload muss implementiert werden
  • 25. © OPITZ CONSULTING 2017 Informationsklassifikation: Öffentlich Auswerte- und Analyse-Tools Advanced Analytics, etc. DatenquellenInterne Systeme Externe Systeme Datenvisualisierung/Frontend RawData Data Refinery Refined Data Core DWH Stage DWH DWH Modernisierung - DOAG 2017 Seite 25
  • 26. © OPITZ CONSULTING 2017 Informationsklassifikation: ÖffentlichDWH Modernisierung - DOAG 2017 Seite 26 Hybrides Szenario  Mischform von sequentieller / paralleler und DWH Offloading Architektur  Nutzt und vereint Vorteile der einzelnen Architekturen  Teile der Datenverarbeitung können in Data Lake ausgelagert werden  Vollständige Integration von DWH und Data Lake  Daten können beliebig ausgetauscht werden  Moderate Modernisierungskosten  Schnittstellen zwischen den Systemen müssen implementiert werden
  • 27. © OPITZ CONSULTING 2017 Informationsklassifikation: Öffentlich Auswerte- und Analyse-Tools Advanced Analytics, etc. DWH DatenquellenInterne Systeme Externe Systeme Datenvisualisierung/Frontend Raw Data Data Refinery Refined Data Offloading DWH Modernisierung - DOAG 2017 Seite 27
  • 28. © OPITZ CONSULTING 2017 Informationsklassifikation: Öffentlich Auswerte- und Analyse-Tools Advanced Analytics, etc. DatenquellenInterne Systeme Externe Systeme Datenvisualisierung/Frontend RawData Data Refinery Refined Data Core DWH Stage DWHOnloading Offloading DWH Modernisierung - DOAG 2017 Seite 28
  • 29. © OPITZ CONSULTING 2017 Informationsklassifikation: Öffentlich Seite 29 Technisches Beispiel – DWH Offloading  Unterscheidung verschiedener Verfahren  Push-Verfahren  Pull-Verfahren  Master-Controlled  Ziel im Big Data Kosmos  Hive  HDFS  Open Source oder Enterprise Werkzeuge? 5 DWH Modernisierung - DOAG 2017
  • 30. © OPITZ CONSULTING 2017 Informationsklassifikation: ÖffentlichDWH Modernisierung - DOAG 2017 Seite 30 Push-Verfahren  DWH als führendes System  Die Logik zur Delta-Ermittlung findet auf der DWH-Seite statt  Deltas aus DWH-Batch-Läufen werden verwendet  Perfekte Integration in bestehende ETL-Jobs  Bsp.: Export von Fakten  Fakten werden parallel zum Insert in Faktentabelle in Data Lake exportiert  Z.B. HDFS  Oder direkt nach HIVE
  • 31. © OPITZ CONSULTING 2017 Informationsklassifikation: Öffentlich Vorschlag für Cloudera-Distribution Oracle 12c DWH-Datenbank Push-Verfahren Offloading mittels Knowledge Module im ODI – IKM SQL to HDFS File oder IKM SQL to HDFS Hive Automatisierung mit dem ODI Trigger: Erfolgreiche Datenbeladung Optional: Bereitstellen von Hive-Tabellen Datenflussrichtung DWH Modernisierung - DOAG 2017 Seite 31
  • 32. © OPITZ CONSULTING 2017 Informationsklassifikation: ÖffentlichDWH Modernisierung - DOAG 2017 Seite 32 Pull-Verfahren  Data Lake als führendes System  Die Logik zur Delta-Ermittlung (falls nötig) findet im Data Lake statt  Abzug der Daten mittels Sqoop oder individueller Spark Job  Big Data Knowhow benötigt – evtl. funktionale Programmierung
  • 33. © OPITZ CONSULTING 2017 Informationsklassifikation: Öffentlich Oracle 12c DWH-Datenbank Offloading mittels Sqoop Automatisierung mittels Oozie Trigger: Status-Tabelle Status- Tabelle Optional: Bereitstellen von Hive-Tabellen Datenflussrichtung Vorschlag für Cloudera-Distribution Pull-Verfahren DWH Modernisierung - DOAG 2017 Seite 33
  • 34. © OPITZ CONSULTING 2017 Informationsklassifikation: ÖffentlichDWH Modernisierung - DOAG 2017 Seite 34 Master-Controlled  Drittes System als Master (führendes System)  Master kann beide Systeme „fernsteuern“  Bei Big Data Cloudumgebungen  Master kann Cluster starten, evtl. sogar deployen  Daten werden bei Quellsystemen  Geholt  Verarbeitet  Ggf. in andere Systeme exportiert
  • 35. © OPITZ CONSULTING 2017 Informationsklassifikation: Öffentlich Oracle 12c DWH-Datenbank Offloading mittels Sqoop Automatisierung mittels Jenkins Status- Tabelle Optional: Bereitstellen von Hive-Tabellen Datenflussrichtung Vorschlag für Cloudera-Distribution Unabhängiger Master DWH Modernisierung - DOAG 2017 Seite 35
  • 36. © OPITZ CONSULTING 2017 Informationsklassifikation: ÖffentlichDWH Modernisierung - DOAG 2017 Seite 36 Oracle 12c DWH-Datenbank Beispiel Telekommunikationsunternehmen Call Data Records Berechnung der Fakten (Aggregation der Daten) Call Data Records Oracle 12c DWH-Datenbank Bereitstellung der Fakten im DWH Berechnung der Fakten (Aggregation der Daten) Hochgradig parallele Verarbeitung
  • 37. © OPITZ CONSULTING 2017 Informationsklassifikation: Öffentlich Seite 37 Fragen & Antworten DWH Modernisierung - DOAG 2017
  • 38. © OPITZ CONSULTING 2017 Informationsklassifikation: Öffentlich  Überraschend mehr Möglichkeiten @OC_WIRE OPITZCONSULTING opitzconsulting opitz-consulting-bcb8-1009116 WWW.OPITZ-CONSULTING.COM Seite 38 Bei Fragen oder Interesse an diesem Thema kontaktieren Sie uns, oder besuchen uns an Stand 238! Fabian Hardt Developer, Business Intelligence & Analytics Kirchstraße 6 51647 Gummersbach Fabian.Hardt@opitz-consulting.com +49 (0) 2261 6001-1045 DWH Modernisierung - DOAG 2017

Hinweis der Redaktion

  1.  Schema on Read Vorteil – Ähnlich wie Error-Tables im DWH  Auch hier: Spätere Verarbeitung
  2. Raw Data Bereich – vergleichbar mit Raw Data Vault  Landing Zone der Daten  Ziel einfach wegsichern. Refinery  Als Preprocessing Area – Hard Business Rules Refined Data Bereich  Hier lagern die bereinigten „qualitätsgesicherten“ Daten. Refined Data  In Hive: Daten liegen aufbereitet vor – wie in relationaler Datenbank.
  3. Data Reservoir als Überbegriff  Hier liegen qualitätsgesicherte Daten! Modewort, als Synonym für „Refined Data Bereich“ im Data Lake Wird oft als eigene technische Plattform aufgesetzt Fazit: Data Reservoir trennt Fachabteilung / Data Scientists
  4. Organisationseinheit und Technik Sandboxes als „Spielwiese“ – Auswahl der Samples mit Fachabteilung
  5. Beliebige Daten aus dem Data Lake Beliebige weitere Datenquellen  Große Auswahl an Tools im Einsatz – viel Statistik zur Erkennung von Mustern
  6. Neue Freiheit  Schnell Chaos – Metadaten zur Vermeidung von Chaos Technische Metadaten: Angabe Quellsystem, Ladedatum, Gültigkeitsbänder Fachliche Metadaten: Bedeutung von Spalten, gut indizierbar, Aggregationstabellen: Berechnungsvorschrift und Quelltabelle Operative Metadaten: Technische Metadaten, werden im Lake erhoben
  7.  Automatisierte Löschung nach erlaubter Speicherdauer  Aufzeichnung von Zweck der Speicherung
  8. Neue Ladestrecken in Core Schema on Read: Daten liegen immer in Lake, können nachverarbeitet werden Big Data Knowhow: Push-Verfahren der Daten in DWH-Core  Scala, Python
  9. Cold-Data: Alte Daten – z.B. > 10 Jahre
  10.  DWH als Quellsystem
  11. Auslagern – Bsp. Call Data Records – teure Verarbeitung / Speicherung in Hadoop Aggregation / Ergebnis geht an DWH zurück
  12. Vollständig integriert  Nicht nur Data Lake als Quelle!!!  Verarbeitung der Daten in beliebigem System
  13. Vorteil  Fakten werden kostengünstig gesichert  Oft große Datenmengen bei feiner Granularität – Cold Data kann aus DWH gelöscht werden
  14. Systemgrenze erklären!!!
  15. Systemgrenze erklären!!!
  16. Systemgrenze erklären!!!
  17.  Vollständig integriert  Verarbeitung der Daten in beliebigem System
  18. Systemgrenze erklären!!!