SlideShare ist ein Scribd-Unternehmen logo
BASEL BERN BRUGG DÜSSELDORF FRANKFURT A.M. FREIBURG I.BR. GENEVA
HAMBURG COPENHAGEN LAUSANNE MUNICH STUTTGART VIENNA ZURICH
Modellierung agiler Data Warehouses
mit Data Vault
Dani Schnider, Trivadis AG
DOAG Konferenz 2015
Dani Schnider
2
Principal Consultant, Trainer
und DWH/BI Lead Architect
bei Trivadis in Zürich
  Co-Autor des Buches «Data
Warehousing mit Oracle –
Business Intelligence in der
Praxis»
  Certified Data Vault Data
Modeler
19.11.2015 Modellierung agiler Data Warehouses mit Data Vault
Unser Unternehmen.
Modellierung agiler Data Warehouses mit Data Vault3 19.11.2015
Trivadis ist führend bei der IT-Beratung, der Systemintegration, dem Solution
Engineering und der Erbringung von IT-Services mit Fokussierung auf -
und -Technologien in der Schweiz, Deutschland, Österreich und
Dänemark. Trivadis erbringt ihre Leistungen aus den strategischen Geschäftsfeldern:
Trivadis Services übernimmt den korrespondierenden Betrieb Ihrer IT Systeme.
B E T R I E B
KOPENHAGEN
MÜNCHEN
LAUSANNE
BERN
ZÜRICH
BRUGG
GENF
HAMBURG
DÜSSELDORF
FRANKFURT
STUTTGART
FREIBURG
BASEL
WIEN
Mit über 600 IT- und Fachexperten bei Ihnen vor Ort.
Modellierung agiler Data Warehouses mit Data Vault4 19.11.2015
14 Trivadis Niederlassungen mit
über 600 Mitarbeitenden.
Über 200 Service Level Agreements.
Mehr als 4'000 Trainingsteilnehmer.
Forschungs- und Entwicklungsbudget:
CHF 5.0 Mio.
Finanziell unabhängig und
nachhaltig profitabel.
Erfahrung aus mehr als 1'900 Projekten
pro Jahr bei über 800 Kunden.
Modellierung agiler Data Warehouses mit Data Vault5 19.11.2015
Einleitung
Was ist Data Vault?
Modellierung agiler Data Warehouses mit Data Vault6 19.11.2015
  Datenmodellierungsmethode für
Data Warehouses in agilen
Projektumgebungen
  Entwickelt von Dan Linstedt
  Geeignet für DWH Core Layer
bzw. Enterprise DWH
  Optimiert für Agilität, Integration
und Historisierung
3NF
Model
Dimensional
Model
Dimensional
Model
3NF
Model
Data Vault
Model
3NF
Model
OLTP Systeme EDWH / Core Data Marts
Motivation und Vorteile
Modellierung agiler Data Warehouses mit Data Vault7 19.11.2015
Agilität
•  Einfache Erweiterbar-
keit des Data Vault
Modells
•  Kein Redesign
bestehender Elemente
Integration
•  Integration von Daten
aus unterschiedlichen
Quellsystemen
•  Verwendung von
gemeinsamen
fachlichen Schlüsseln
Historisierung
•  Nachvollziehbarkeit
von Datenänderungen
•  Vollständige Histori-
sierung von Daten aus
der Vergangenheit
Grundidee von Data Vault
Modellierung agiler Data Warehouses mit Data Vault8 19.11.2015
  Aufteilung der Daten in
verschiedene Elemente
Hubs
Links
Satellites
Argumente für und gegen Data Vault
Modellierung agiler Data Warehouses mit Data Vault9 19.11.2015
Agiler Ansatz Hohe
Komplexität
Einfache
Erweiterbarkeit
Vollständige
Historisierung
Schwer
verständlich
Nur ein Hype-
Thema
Hohe Flexibilität
Gute Integration
Zu viele Tabellen
Komplexe ETL-
Prozesse
Modellierung agiler Data Warehouses mit Data Vault10 19.11.2015
Elemente von Data Vault
Hub
Modellierung agiler Data Warehouses mit Data Vault11 19.11.2015
Identifikation von fachlicher Entität
  Fachlicher Schlüssel
Keine beschreibenden Attribute
Keine Fremdschlüssel zu anderen Hubs
  Künstlicher Schlüssel als Primary Key
  Audit-Attribute (Ladezeitpunkt, Quellsystem)
Surrogate Key (PK)
Business Key(s) (UK)
Load Timestamp
Record Source
HUB
Link
Modellierung agiler Data Warehouses mit Data Vault12 19.11.2015
Beziehung zwischen zwei oder mehr Hubs
  Fremdschlüssel zu Hubs
Keine beschreibenden Attribute
  Erlaubt n-zu-n Beziehungen zwischen Hubs
  Nur Verbindungen zu Hubs erlaubt
  Künstlicher Schlüssel als Primary Key
  Audit-Attribute (Ladezeitpunkt, Quellsystem)
Surrogate Key (PK)
Foreign Key Hub 1
Foreign Key Hub 2
...
Load Timestamp
Record Source
LINK
Satellite
Modellierung agiler Data Warehouses mit Data Vault13 19.11.2015
Kontextinformationen für Hubs oder Links
  Fremdschlüssel zu genau einem Hub oder Link
  Primary Key: Fremdschlüssel + Ladezeitpunkt
  Beschreibende Attribute
Keine Fremdschlüssel zu anderen Hubs/Satellites
  Audit-Attribut (Quellsystem)
  Mehrere Satellites pro Hub/Link erlaubt
Foreign Key to Hub (PK)
Load Timestamp (PK)
Context Attribute 1
Context Attribute 2
...
Context Attribute n
Record Source
SATELLITE
Beispiel
Modellierung agiler Data Warehouses mit Data Vault14 19.11.2015
Hubs
Links
Satellites
Modellierung agiler Data Warehouses mit Data Vault15 19.11.2015
Design eines Data Vault Modells
Modellierungsprozess
Modellierung agiler Data Warehouses mit Data Vault16 19.11.2015
1.  Fachliche Entitäten definieren:
2.  Beziehungen modellieren:
3.  Beschreibende Attribute festlegen:
Hubs
Links
Satellites
Erweiterung des Data Vault Modells
Modellierung agiler Data Warehouses mit Data Vault17 19.11.2015
Herausforderung bei Datenmodellerweiterungen:
  Strukturänderungen bestehender Tabellen
  Migration historischer Daten
Data Vault Ansatz:
  Bestehende Tabellen nicht verändern
  Nur neue Tabellen hinzufügen
  Keine Datenmigration notwendig
Erweiterung des Data Vault Modells – Beispiel
Modellierung agiler Data Warehouses mit Data Vault18 19.11.2015
Zusätzliche Attribute für Online-Shop:
  Login-Name
  E-Mail-Addresse
Integration mehrerer Quellsysteme
19 19.11.2015
Customer
Database
(A)
Web Shop
Database
(B)
Source Systems
Customer
Online User
✗
✔
Customer_BK Customer_Name
A-123 Claus Jordan
A-456 Dani Schnider
B-0815 Dani Schnider
B-4711 Peter Welker
A-789 Joachim Wehner
B-9876 Claus Jordan
✗
Customer_BK Customer_Name
23489724 Claus Jordan
90346262 Dani Schnider
98437098 Joachim Wehner
82365405 Peter Welker
✔
Modellierung agiler Data Warehouses mit Data Vault
Historisierung
Modellierung agiler Data Warehouses mit Data Vault20 19.11.2015
Nachvollziehbarkeit von Datenänderungen
  Versionierung der Daten in Satellites
  Ladezeitpunkt ist Bestandteil des Satellite PKs
SID TS First_Name Last_Name
77 t1 ANNA BIERI
77 t2 Anna Bieri
77 t6 Anna Hartmann-Bieri
77 t7 Anna Bieri Hartmann
Historisierung – Beispiel
Modellierung agiler Data Warehouses mit Data Vault21 19.11.2015
SID TS City
77 t1 ZUERICH
77 t2 Zuerich
77 t4 Zürich
77 t6 Hamburg
77 t8 Basel
SID TS E-Mail
77 t3 abieri@greenmail.ch
77 t5 anna.bieri@yellow.ch
77 t6 a_l_hartmann@web.de
77 t7 anna.bieri@web.de
77 t8 anna@hartmann-bieri.ch
SID Customer_No
77 1234-91415
SID TS First_Name Last_Name
77 t1 ANNA BIERI
77 t2 Anna Bieri
77 t6 Anna Hartmann-Bieri
77 t7 Anna Bieri Hartmann
t1 ANNA BIERI, ZUERICH
t2 Anna Bieri, Zuerich
t3 Anna Bieri, Zuerich
abieri@greenmail.ch
t4 Anna Bieri, Zürich
abieri@greenmail.ch
t5 Anna Bieri, Zürich
anna.bieri@yellow.ch
t6 Anna Hartmann-Bieri, Hamburg
a_l_hartmann@web.de
t7 Anna Bieri Hartmann, Hamburg
anna.bieri@web.de
t8 Anna Bieri Hartmann, Basel
anna@hartmann-bieri.ch
Point In Time (PIT) Table
Modellierung agiler Data Warehouses mit Data Vault22 19.11.2015
SID TS City
77 t1 ZUERICH
77 t2 Zuerich
77 t4 Zürich
77 t6 Hamburg
77 t8 Basel
SID TS E-Mail
77 t3 abieri@greenmail.ch
77 t5 anna.bieri@yellow.ch
77 t6 a_l_hartmann@web.de
77 t7 anna.bieri@web.de
77 t8 anna@hartmann-bieri.ch
SID Customer_No
77 1234-91415
SID TS First_Name Last_Name
77 t1 ANNA BIERI
77 t2 Anna Bieri
77 t6 Anna Hartmann-Bieri
77 t7 Anna Bieri Hartmann
SID TS S1 S2 S3
77 t1 t1 t1 -
77 t2 t2 t2 -
77 t3 t2 t2 t3
77 t4 t2 t4 t3
77 t5 t2 t4 t5
77 t6 t6 t6 t6
77 t7 t7 t6 t7
77 t8 t7 t8 t8
PIT Table
Modellierung agiler Data Warehouses mit Data Vault23 19.11.2015
ETL-Prozesse
für Data Vault
Laden von Data Vault Tabellen
Modellierung agiler Data Warehouses mit Data Vault24 19.11.2015
  Hubs:
–  Einfügen neuer Business Keys
  Links:
–  Key Lookups auf Hubs
–  Einfügen neuer Beziehungen
  Satellites:
–  Key Lookup auf Hub
–  Deltaermittlung neue Daten / aktuelle Version
–  Einfügen von neuer Version
INSERT
INSERT
INSERT
Laden von dimensionalen Data Marts aus Data Vault
Modellierung agiler Data Warehouses mit Data Vault25 19.11.2015
  Data Vault unterscheidet nicht zwischen Stammdaten
(Dimensionen) und Ereignisdaten (Fakten)
  Fakten und Dimensionen können Daten aus
mehreren Entitäten enthalten
  Join aller benötigten Hubs, Links und Satellites
  SCD1 Dimensionen:
–  Aktuelle Version aller Satellites
  SCD2 Dimensionen:
–  Point In Time (PIT) Tables
–  ev. History View Layer
Ladeschritte
Modellierung agiler Data Warehouses mit Data Vault26 19.11.2015
1.  Paralleles Laden aller Stage-Tabellen
2.  Paralleles Laden aller Hubs
3.  Paralleles Laden
–  aller Links
–  aller Hub Satellites
4.  Paralleles Laden aller Link Satellites
5.  Paralleles Laden aller Dimensionen
6.  Paralleles Laden aller Faktentabellen
Point In Time (PIT) Table – Beispiel
Modellierung agiler Data Warehouses mit Data Vault27 19.11.2015
Ausführliches Beispiel dazu siehe Blog danischnider.wordpress.com
Modellierung agiler Data Warehouses mit Data Vault28 19.11.2015
Data Vault
&
DWH Architektur
ETL Pipeline
Modellierung agiler Data Warehouses mit Data Vault29 19.11.2015
  Verschiedene Arten von Transformationen zwischen Extraktion und Laden
Load
Record
Calculate
D/TStamp
Transform
Cleanse
Validate
Integrate
Extract
  Was wird in welcher DWH-Schicht ausgeführt?
Source: Hans Hultgren, Modeling the Agile Data Warehouse with Data Vault, page 172
Data Warehouse
MartsCleansing Area CoreStaging Area
Metadata
Data Vault
Auswirkungen auf DWH-Architektur
Modellierung agiler Data Warehouses mit Data Vault30 19.11.2015
Source Systems
ETL
BI Plattform
Data Warehouse
Cleansing AreaStaging Area
Metadata
Data Vault
Core Marts
Data Warehouse
Staging Area
Metadata
Raw
Data Vault
Core Marts
Business
Data Vault
Transform
Load
D/TStamp
ETL Pipeline für erweiterte Data Vault Architektur
Modellierung agiler Data Warehouses mit Data Vault31 19.11.2015
Load
Calculate
Cleanse
Validate
Integrate
Extract
Source: Hans Hultgren, Modeling the Agile Data Warehouse with Data Vault, page 173
Integrate
Transform
Calculate
Cleanse
Validate
Extract
Staging Area Data MartsRaw Data Vault Business Data Vault
Common Business Rules
Mart Specific Rules
Modellierung agiler Data Warehouses mit Data Vault32 19.11.2015
Fazit
Data Vault – Chancen und Herausforderungen
Modellierung agiler Data Warehouses mit Data Vault33 19.11.2015
+  Einfache und einheitliche ETL-Regeln
+  Leichte Erweiterbarkeit
+  Integration mehrerer Quellsysteme
+  Vollständige Historisierung
-  Hohe Anzahl Tabellen in Data Vault
-  Konsequente Einhaltung der Regeln
-  Korrekte Wahl der Business Keys
Data Vault – Einsatzgebiete
Modellierung agiler Data Warehouses mit Data Vault34 19.11.2015
  Projekte mit hoher Agilität
–  Häufige Modellerweiterungen
–  Laufend ändernde Anforderungen
  Data Warehouses mit mehreren Quellen
–  Wichtig: Fachliche Schlüssel zwingend
Grosse DWH-Projekte
–  Keine manuelle ETL-Entwicklung
–  Einsatz von DWH-Generatoren
Modellierung agiler Data Warehouses mit Data Vault35 19.11.2015
Trivadis an der DOAG 2015

Ebene 3 - gleich neben der Rolltreppe

Wir freuen uns auf Ihren Besuch. 

Denn mit Trivadis gewinnen Sie immer.

Weitere ähnliche Inhalte

Ähnlich wie Modellierung agiler Data Warehouses mit Data Vault Dani Schnider

Den Usern mehr bieten: Business Objects Tools als Teil der Business Analytics...
Den Usern mehr bieten: Business Objects Tools als Teil der Business Analytics...Den Usern mehr bieten: Business Objects Tools als Teil der Business Analytics...
Den Usern mehr bieten: Business Objects Tools als Teil der Business Analytics...
Wiiisdom
 
Tweets und Aktienkurse? Wertvolle Erkenntnisse durch Data Blending gewinnen
Tweets und Aktienkurse? Wertvolle Erkenntnisse durch Data Blending gewinnenTweets und Aktienkurse? Wertvolle Erkenntnisse durch Data Blending gewinnen
Tweets und Aktienkurse? Wertvolle Erkenntnisse durch Data Blending gewinnen
it-novum
 
Agile Methoden als Erfolgsfaktor für BI und Big Data Projekte
Agile Methoden als Erfolgsfaktor für BI und Big Data ProjekteAgile Methoden als Erfolgsfaktor für BI und Big Data Projekte
Agile Methoden als Erfolgsfaktor für BI und Big Data Projekte
inovex GmbH
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data Konnektivität
Trivadis
 
Dv 20 sdlc_oss_automation
Dv 20 sdlc_oss_automationDv 20 sdlc_oss_automation
Dv 20 sdlc_oss_automation
Torsten Glunde
 
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTiggesDas modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
OPITZ CONSULTING Deutschland
 
Frank Schlotter, Mag. Christoph Domanig (Active Business Consult – Cenit)
Frank Schlotter, Mag. Christoph Domanig (Active Business Consult – Cenit)Frank Schlotter, Mag. Christoph Domanig (Active Business Consult – Cenit)
Frank Schlotter, Mag. Christoph Domanig (Active Business Consult – Cenit)
Praxistage
 
Wide-column Stores für Architekten (HBase, Cassandra)
Wide-column Stores für Architekten (HBase, Cassandra)Wide-column Stores für Architekten (HBase, Cassandra)
Wide-column Stores für Architekten (HBase, Cassandra)
Andreas Buckenhofer
 
BATbern52 Mobiliar zu Skalierte Datenprodukte mit Data Mesh
BATbern52 Mobiliar zu Skalierte Datenprodukte mit Data MeshBATbern52 Mobiliar zu Skalierte Datenprodukte mit Data Mesh
BATbern52 Mobiliar zu Skalierte Datenprodukte mit Data Mesh
BATbern
 
Dataservices - Data Processing mit Microservices
Dataservices - Data Processing mit MicroservicesDataservices - Data Processing mit Microservices
Dataservices - Data Processing mit Microservices
QAware GmbH
 
Linked Open Data Pilot Österreich - Beta Launch
Linked Open Data Pilot Österreich - Beta LaunchLinked Open Data Pilot Österreich - Beta Launch
Linked Open Data Pilot Österreich - Beta Launch
Martin Kaltenböck
 
Günzel/Griesbaum -OpenShift und GitLab: Continuous delivery in der cloud
Günzel/Griesbaum -OpenShift und GitLab: Continuous delivery in der cloudGünzel/Griesbaum -OpenShift und GitLab: Continuous delivery in der cloud
Günzel/Griesbaum -OpenShift und GitLab: Continuous delivery in der cloud
Andreas Günzel
 
SAP Analytics Cloud von A bis Z - Ein Überblick
SAP Analytics Cloud von A bis Z - Ein ÜberblickSAP Analytics Cloud von A bis Z - Ein Überblick
SAP Analytics Cloud von A bis Z - Ein Überblick
IBsolution GmbH
 
worldiety GmbH - Datenanalyse
worldiety GmbH - Datenanalyse worldiety GmbH - Datenanalyse
worldiety GmbH - Datenanalyse
worldiety GmbH
 
QUIBIQ Webcast: SAP on Azure - Erfolgsfaktor Integration für SAP-/MS-Partner
QUIBIQ Webcast: SAP on Azure - Erfolgsfaktor Integration für SAP-/MS-PartnerQUIBIQ Webcast: SAP on Azure - Erfolgsfaktor Integration für SAP-/MS-Partner
QUIBIQ Webcast: SAP on Azure - Erfolgsfaktor Integration für SAP-/MS-Partner
QUIBIQ Hamburg
 
BATbern52 SBB zu Data Products und Knacknüsse
BATbern52 SBB zu Data Products und KnacknüsseBATbern52 SBB zu Data Products und Knacknüsse
BATbern52 SBB zu Data Products und Knacknüsse
BATbern
 
SCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUD
SCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUDSCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUD
SCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUD
inovex GmbH
 
PLM-Architektur der Zukunft
PLM-Architektur der ZukunftPLM-Architektur der Zukunft
PLM-Architektur der Zukunft
Intelliact AG
 
Market Research Meets Business Intelligence
Market Research Meets Business IntelligenceMarket Research Meets Business Intelligence
Market Research Meets Business Intelligence
DataLion
 

Ähnlich wie Modellierung agiler Data Warehouses mit Data Vault Dani Schnider (20)

Den Usern mehr bieten: Business Objects Tools als Teil der Business Analytics...
Den Usern mehr bieten: Business Objects Tools als Teil der Business Analytics...Den Usern mehr bieten: Business Objects Tools als Teil der Business Analytics...
Den Usern mehr bieten: Business Objects Tools als Teil der Business Analytics...
 
Tweets und Aktienkurse? Wertvolle Erkenntnisse durch Data Blending gewinnen
Tweets und Aktienkurse? Wertvolle Erkenntnisse durch Data Blending gewinnenTweets und Aktienkurse? Wertvolle Erkenntnisse durch Data Blending gewinnen
Tweets und Aktienkurse? Wertvolle Erkenntnisse durch Data Blending gewinnen
 
Agile Methoden als Erfolgsfaktor für BI und Big Data Projekte
Agile Methoden als Erfolgsfaktor für BI und Big Data ProjekteAgile Methoden als Erfolgsfaktor für BI und Big Data Projekte
Agile Methoden als Erfolgsfaktor für BI und Big Data Projekte
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data Konnektivität
 
Dv 20 sdlc_oss_automation
Dv 20 sdlc_oss_automationDv 20 sdlc_oss_automation
Dv 20 sdlc_oss_automation
 
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTiggesDas modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
 
Frank Schlotter, Mag. Christoph Domanig (Active Business Consult – Cenit)
Frank Schlotter, Mag. Christoph Domanig (Active Business Consult – Cenit)Frank Schlotter, Mag. Christoph Domanig (Active Business Consult – Cenit)
Frank Schlotter, Mag. Christoph Domanig (Active Business Consult – Cenit)
 
Wide-column Stores für Architekten (HBase, Cassandra)
Wide-column Stores für Architekten (HBase, Cassandra)Wide-column Stores für Architekten (HBase, Cassandra)
Wide-column Stores für Architekten (HBase, Cassandra)
 
BATbern52 Mobiliar zu Skalierte Datenprodukte mit Data Mesh
BATbern52 Mobiliar zu Skalierte Datenprodukte mit Data MeshBATbern52 Mobiliar zu Skalierte Datenprodukte mit Data Mesh
BATbern52 Mobiliar zu Skalierte Datenprodukte mit Data Mesh
 
Dataservices - Data Processing mit Microservices
Dataservices - Data Processing mit MicroservicesDataservices - Data Processing mit Microservices
Dataservices - Data Processing mit Microservices
 
Linked Open Data Pilot Österreich - Beta Launch
Linked Open Data Pilot Österreich - Beta LaunchLinked Open Data Pilot Österreich - Beta Launch
Linked Open Data Pilot Österreich - Beta Launch
 
Günzel/Griesbaum -OpenShift und GitLab: Continuous delivery in der cloud
Günzel/Griesbaum -OpenShift und GitLab: Continuous delivery in der cloudGünzel/Griesbaum -OpenShift und GitLab: Continuous delivery in der cloud
Günzel/Griesbaum -OpenShift und GitLab: Continuous delivery in der cloud
 
SAP Analytics Cloud von A bis Z - Ein Überblick
SAP Analytics Cloud von A bis Z - Ein ÜberblickSAP Analytics Cloud von A bis Z - Ein Überblick
SAP Analytics Cloud von A bis Z - Ein Überblick
 
worldiety GmbH - Datenanalyse
worldiety GmbH - Datenanalyse worldiety GmbH - Datenanalyse
worldiety GmbH - Datenanalyse
 
QUIBIQ Webcast: SAP on Azure - Erfolgsfaktor Integration für SAP-/MS-Partner
QUIBIQ Webcast: SAP on Azure - Erfolgsfaktor Integration für SAP-/MS-PartnerQUIBIQ Webcast: SAP on Azure - Erfolgsfaktor Integration für SAP-/MS-Partner
QUIBIQ Webcast: SAP on Azure - Erfolgsfaktor Integration für SAP-/MS-Partner
 
BATbern52 SBB zu Data Products und Knacknüsse
BATbern52 SBB zu Data Products und KnacknüsseBATbern52 SBB zu Data Products und Knacknüsse
BATbern52 SBB zu Data Products und Knacknüsse
 
2010 09 30 11-30 thomas marx
2010 09 30 11-30 thomas marx2010 09 30 11-30 thomas marx
2010 09 30 11-30 thomas marx
 
SCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUD
SCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUDSCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUD
SCHNELLES BIG-DATA-DEYPLOMENT DURCH CONTAINER IN DER CLOUD
 
PLM-Architektur der Zukunft
PLM-Architektur der ZukunftPLM-Architektur der Zukunft
PLM-Architektur der Zukunft
 
Market Research Meets Business Intelligence
Market Research Meets Business IntelligenceMarket Research Meets Business Intelligence
Market Research Meets Business Intelligence
 

Mehr von Désirée Pfister

Oracle Stream Explorer Guido Schmutz
Oracle Stream Explorer Guido SchmutzOracle Stream Explorer Guido Schmutz
Oracle Stream Explorer Guido Schmutz
Désirée Pfister
 
Raising the fetch size good or bad Sigrid Keydana
Raising the fetch size good or bad  Sigrid KeydanaRaising the fetch size good or bad  Sigrid Keydana
Raising the fetch size good or bad Sigrid Keydana
Désirée Pfister
 
Rsyslog deutsche Qualitätsarbeit für Linux Roman Gächter
Rsyslog deutsche Qualitätsarbeit für Linux Roman GächterRsyslog deutsche Qualitätsarbeit für Linux Roman Gächter
Rsyslog deutsche Qualitätsarbeit für Linux Roman Gächter
Désirée Pfister
 
Oracle Database In_Memory Christian Antognini
Oracle Database In_Memory Christian AntogniniOracle Database In_Memory Christian Antognini
Oracle Database In_Memory Christian Antognini
Désirée Pfister
 
Oracle Database Backup Service Martin Berger
Oracle Database Backup Service Martin BergerOracle Database Backup Service Martin Berger
Oracle Database Backup Service Martin Berger
Désirée Pfister
 
Sleeping with the enemy Konrad Häfeli
Sleeping with the enemy Konrad HäfeliSleeping with the enemy Konrad Häfeli
Sleeping with the enemy Konrad Häfeli
Désirée Pfister
 
Überleben im OSB/SOA Dschungel Daniel Joray
Überleben im OSB/SOA Dschungel Daniel JorayÜberleben im OSB/SOA Dschungel Daniel Joray
Überleben im OSB/SOA Dschungel Daniel Joray
Désirée Pfister
 
Managen von OVM Server SPARC mit dem VM Manager OpsCenter oder VDCF-Roman Gäc...
Managen von OVM Server SPARC mit dem VM Manager OpsCenter oder VDCF-Roman Gäc...Managen von OVM Server SPARC mit dem VM Manager OpsCenter oder VDCF-Roman Gäc...
Managen von OVM Server SPARC mit dem VM Manager OpsCenter oder VDCF-Roman Gäc...
Désirée Pfister
 
Internet of Things IoT Guido Schmutz
Internet of Things IoT Guido SchmutzInternet of Things IoT Guido Schmutz
Internet of Things IoT Guido Schmutz
Désirée Pfister
 
Zero Data Loss Recovery Appliance a good investment! Konrad Häfeli
Zero Data Loss Recovery Appliance a good investment! Konrad HäfeliZero Data Loss Recovery Appliance a good investment! Konrad Häfeli
Zero Data Loss Recovery Appliance a good investment! Konrad Häfeli
Désirée Pfister
 
Haben Sie Ihre Web Logic Umgebung im Griff Daniel Joray
Haben Sie Ihre Web Logic Umgebung im Griff Daniel JorayHaben Sie Ihre Web Logic Umgebung im Griff Daniel Joray
Haben Sie Ihre Web Logic Umgebung im Griff Daniel Joray
Désirée Pfister
 
From Block to Lock Tobias Deml
From Block to Lock Tobias DemlFrom Block to Lock Tobias Deml
From Block to Lock Tobias Deml
Désirée Pfister
 
12c SQL Pattern Matching wann werde ich das benutzen Andrej Pashchenko
12c SQL Pattern Matching wann werde ich das benutzen Andrej Pashchenko12c SQL Pattern Matching wann werde ich das benutzen Andrej Pashchenko
12c SQL Pattern Matching wann werde ich das benutzen Andrej Pashchenko
Désirée Pfister
 

Mehr von Désirée Pfister (13)

Oracle Stream Explorer Guido Schmutz
Oracle Stream Explorer Guido SchmutzOracle Stream Explorer Guido Schmutz
Oracle Stream Explorer Guido Schmutz
 
Raising the fetch size good or bad Sigrid Keydana
Raising the fetch size good or bad  Sigrid KeydanaRaising the fetch size good or bad  Sigrid Keydana
Raising the fetch size good or bad Sigrid Keydana
 
Rsyslog deutsche Qualitätsarbeit für Linux Roman Gächter
Rsyslog deutsche Qualitätsarbeit für Linux Roman GächterRsyslog deutsche Qualitätsarbeit für Linux Roman Gächter
Rsyslog deutsche Qualitätsarbeit für Linux Roman Gächter
 
Oracle Database In_Memory Christian Antognini
Oracle Database In_Memory Christian AntogniniOracle Database In_Memory Christian Antognini
Oracle Database In_Memory Christian Antognini
 
Oracle Database Backup Service Martin Berger
Oracle Database Backup Service Martin BergerOracle Database Backup Service Martin Berger
Oracle Database Backup Service Martin Berger
 
Sleeping with the enemy Konrad Häfeli
Sleeping with the enemy Konrad HäfeliSleeping with the enemy Konrad Häfeli
Sleeping with the enemy Konrad Häfeli
 
Überleben im OSB/SOA Dschungel Daniel Joray
Überleben im OSB/SOA Dschungel Daniel JorayÜberleben im OSB/SOA Dschungel Daniel Joray
Überleben im OSB/SOA Dschungel Daniel Joray
 
Managen von OVM Server SPARC mit dem VM Manager OpsCenter oder VDCF-Roman Gäc...
Managen von OVM Server SPARC mit dem VM Manager OpsCenter oder VDCF-Roman Gäc...Managen von OVM Server SPARC mit dem VM Manager OpsCenter oder VDCF-Roman Gäc...
Managen von OVM Server SPARC mit dem VM Manager OpsCenter oder VDCF-Roman Gäc...
 
Internet of Things IoT Guido Schmutz
Internet of Things IoT Guido SchmutzInternet of Things IoT Guido Schmutz
Internet of Things IoT Guido Schmutz
 
Zero Data Loss Recovery Appliance a good investment! Konrad Häfeli
Zero Data Loss Recovery Appliance a good investment! Konrad HäfeliZero Data Loss Recovery Appliance a good investment! Konrad Häfeli
Zero Data Loss Recovery Appliance a good investment! Konrad Häfeli
 
Haben Sie Ihre Web Logic Umgebung im Griff Daniel Joray
Haben Sie Ihre Web Logic Umgebung im Griff Daniel JorayHaben Sie Ihre Web Logic Umgebung im Griff Daniel Joray
Haben Sie Ihre Web Logic Umgebung im Griff Daniel Joray
 
From Block to Lock Tobias Deml
From Block to Lock Tobias DemlFrom Block to Lock Tobias Deml
From Block to Lock Tobias Deml
 
12c SQL Pattern Matching wann werde ich das benutzen Andrej Pashchenko
12c SQL Pattern Matching wann werde ich das benutzen Andrej Pashchenko12c SQL Pattern Matching wann werde ich das benutzen Andrej Pashchenko
12c SQL Pattern Matching wann werde ich das benutzen Andrej Pashchenko
 

Modellierung agiler Data Warehouses mit Data Vault Dani Schnider

  • 1. BASEL BERN BRUGG DÜSSELDORF FRANKFURT A.M. FREIBURG I.BR. GENEVA HAMBURG COPENHAGEN LAUSANNE MUNICH STUTTGART VIENNA ZURICH Modellierung agiler Data Warehouses mit Data Vault Dani Schnider, Trivadis AG DOAG Konferenz 2015
  • 2. Dani Schnider 2 Principal Consultant, Trainer und DWH/BI Lead Architect bei Trivadis in Zürich   Co-Autor des Buches «Data Warehousing mit Oracle – Business Intelligence in der Praxis»   Certified Data Vault Data Modeler 19.11.2015 Modellierung agiler Data Warehouses mit Data Vault
  • 3. Unser Unternehmen. Modellierung agiler Data Warehouses mit Data Vault3 19.11.2015 Trivadis ist führend bei der IT-Beratung, der Systemintegration, dem Solution Engineering und der Erbringung von IT-Services mit Fokussierung auf - und -Technologien in der Schweiz, Deutschland, Österreich und Dänemark. Trivadis erbringt ihre Leistungen aus den strategischen Geschäftsfeldern: Trivadis Services übernimmt den korrespondierenden Betrieb Ihrer IT Systeme. B E T R I E B
  • 4. KOPENHAGEN MÜNCHEN LAUSANNE BERN ZÜRICH BRUGG GENF HAMBURG DÜSSELDORF FRANKFURT STUTTGART FREIBURG BASEL WIEN Mit über 600 IT- und Fachexperten bei Ihnen vor Ort. Modellierung agiler Data Warehouses mit Data Vault4 19.11.2015 14 Trivadis Niederlassungen mit über 600 Mitarbeitenden. Über 200 Service Level Agreements. Mehr als 4'000 Trainingsteilnehmer. Forschungs- und Entwicklungsbudget: CHF 5.0 Mio. Finanziell unabhängig und nachhaltig profitabel. Erfahrung aus mehr als 1'900 Projekten pro Jahr bei über 800 Kunden.
  • 5. Modellierung agiler Data Warehouses mit Data Vault5 19.11.2015 Einleitung
  • 6. Was ist Data Vault? Modellierung agiler Data Warehouses mit Data Vault6 19.11.2015   Datenmodellierungsmethode für Data Warehouses in agilen Projektumgebungen   Entwickelt von Dan Linstedt   Geeignet für DWH Core Layer bzw. Enterprise DWH   Optimiert für Agilität, Integration und Historisierung 3NF Model Dimensional Model Dimensional Model 3NF Model Data Vault Model 3NF Model OLTP Systeme EDWH / Core Data Marts
  • 7. Motivation und Vorteile Modellierung agiler Data Warehouses mit Data Vault7 19.11.2015 Agilität •  Einfache Erweiterbar- keit des Data Vault Modells •  Kein Redesign bestehender Elemente Integration •  Integration von Daten aus unterschiedlichen Quellsystemen •  Verwendung von gemeinsamen fachlichen Schlüsseln Historisierung •  Nachvollziehbarkeit von Datenänderungen •  Vollständige Histori- sierung von Daten aus der Vergangenheit
  • 8. Grundidee von Data Vault Modellierung agiler Data Warehouses mit Data Vault8 19.11.2015   Aufteilung der Daten in verschiedene Elemente Hubs Links Satellites
  • 9. Argumente für und gegen Data Vault Modellierung agiler Data Warehouses mit Data Vault9 19.11.2015 Agiler Ansatz Hohe Komplexität Einfache Erweiterbarkeit Vollständige Historisierung Schwer verständlich Nur ein Hype- Thema Hohe Flexibilität Gute Integration Zu viele Tabellen Komplexe ETL- Prozesse
  • 10. Modellierung agiler Data Warehouses mit Data Vault10 19.11.2015 Elemente von Data Vault
  • 11. Hub Modellierung agiler Data Warehouses mit Data Vault11 19.11.2015 Identifikation von fachlicher Entität   Fachlicher Schlüssel Keine beschreibenden Attribute Keine Fremdschlüssel zu anderen Hubs   Künstlicher Schlüssel als Primary Key   Audit-Attribute (Ladezeitpunkt, Quellsystem) Surrogate Key (PK) Business Key(s) (UK) Load Timestamp Record Source HUB
  • 12. Link Modellierung agiler Data Warehouses mit Data Vault12 19.11.2015 Beziehung zwischen zwei oder mehr Hubs   Fremdschlüssel zu Hubs Keine beschreibenden Attribute   Erlaubt n-zu-n Beziehungen zwischen Hubs   Nur Verbindungen zu Hubs erlaubt   Künstlicher Schlüssel als Primary Key   Audit-Attribute (Ladezeitpunkt, Quellsystem) Surrogate Key (PK) Foreign Key Hub 1 Foreign Key Hub 2 ... Load Timestamp Record Source LINK
  • 13. Satellite Modellierung agiler Data Warehouses mit Data Vault13 19.11.2015 Kontextinformationen für Hubs oder Links   Fremdschlüssel zu genau einem Hub oder Link   Primary Key: Fremdschlüssel + Ladezeitpunkt   Beschreibende Attribute Keine Fremdschlüssel zu anderen Hubs/Satellites   Audit-Attribut (Quellsystem)   Mehrere Satellites pro Hub/Link erlaubt Foreign Key to Hub (PK) Load Timestamp (PK) Context Attribute 1 Context Attribute 2 ... Context Attribute n Record Source SATELLITE
  • 14. Beispiel Modellierung agiler Data Warehouses mit Data Vault14 19.11.2015 Hubs Links Satellites
  • 15. Modellierung agiler Data Warehouses mit Data Vault15 19.11.2015 Design eines Data Vault Modells
  • 16. Modellierungsprozess Modellierung agiler Data Warehouses mit Data Vault16 19.11.2015 1.  Fachliche Entitäten definieren: 2.  Beziehungen modellieren: 3.  Beschreibende Attribute festlegen: Hubs Links Satellites
  • 17. Erweiterung des Data Vault Modells Modellierung agiler Data Warehouses mit Data Vault17 19.11.2015 Herausforderung bei Datenmodellerweiterungen:   Strukturänderungen bestehender Tabellen   Migration historischer Daten Data Vault Ansatz:   Bestehende Tabellen nicht verändern   Nur neue Tabellen hinzufügen   Keine Datenmigration notwendig
  • 18. Erweiterung des Data Vault Modells – Beispiel Modellierung agiler Data Warehouses mit Data Vault18 19.11.2015 Zusätzliche Attribute für Online-Shop:   Login-Name   E-Mail-Addresse
  • 19. Integration mehrerer Quellsysteme 19 19.11.2015 Customer Database (A) Web Shop Database (B) Source Systems Customer Online User ✗ ✔ Customer_BK Customer_Name A-123 Claus Jordan A-456 Dani Schnider B-0815 Dani Schnider B-4711 Peter Welker A-789 Joachim Wehner B-9876 Claus Jordan ✗ Customer_BK Customer_Name 23489724 Claus Jordan 90346262 Dani Schnider 98437098 Joachim Wehner 82365405 Peter Welker ✔ Modellierung agiler Data Warehouses mit Data Vault
  • 20. Historisierung Modellierung agiler Data Warehouses mit Data Vault20 19.11.2015 Nachvollziehbarkeit von Datenänderungen   Versionierung der Daten in Satellites   Ladezeitpunkt ist Bestandteil des Satellite PKs SID TS First_Name Last_Name 77 t1 ANNA BIERI 77 t2 Anna Bieri 77 t6 Anna Hartmann-Bieri 77 t7 Anna Bieri Hartmann
  • 21. Historisierung – Beispiel Modellierung agiler Data Warehouses mit Data Vault21 19.11.2015 SID TS City 77 t1 ZUERICH 77 t2 Zuerich 77 t4 Zürich 77 t6 Hamburg 77 t8 Basel SID TS E-Mail 77 t3 abieri@greenmail.ch 77 t5 anna.bieri@yellow.ch 77 t6 a_l_hartmann@web.de 77 t7 anna.bieri@web.de 77 t8 anna@hartmann-bieri.ch SID Customer_No 77 1234-91415 SID TS First_Name Last_Name 77 t1 ANNA BIERI 77 t2 Anna Bieri 77 t6 Anna Hartmann-Bieri 77 t7 Anna Bieri Hartmann t1 ANNA BIERI, ZUERICH t2 Anna Bieri, Zuerich t3 Anna Bieri, Zuerich abieri@greenmail.ch t4 Anna Bieri, Zürich abieri@greenmail.ch t5 Anna Bieri, Zürich anna.bieri@yellow.ch t6 Anna Hartmann-Bieri, Hamburg a_l_hartmann@web.de t7 Anna Bieri Hartmann, Hamburg anna.bieri@web.de t8 Anna Bieri Hartmann, Basel anna@hartmann-bieri.ch
  • 22. Point In Time (PIT) Table Modellierung agiler Data Warehouses mit Data Vault22 19.11.2015 SID TS City 77 t1 ZUERICH 77 t2 Zuerich 77 t4 Zürich 77 t6 Hamburg 77 t8 Basel SID TS E-Mail 77 t3 abieri@greenmail.ch 77 t5 anna.bieri@yellow.ch 77 t6 a_l_hartmann@web.de 77 t7 anna.bieri@web.de 77 t8 anna@hartmann-bieri.ch SID Customer_No 77 1234-91415 SID TS First_Name Last_Name 77 t1 ANNA BIERI 77 t2 Anna Bieri 77 t6 Anna Hartmann-Bieri 77 t7 Anna Bieri Hartmann SID TS S1 S2 S3 77 t1 t1 t1 - 77 t2 t2 t2 - 77 t3 t2 t2 t3 77 t4 t2 t4 t3 77 t5 t2 t4 t5 77 t6 t6 t6 t6 77 t7 t7 t6 t7 77 t8 t7 t8 t8 PIT Table
  • 23. Modellierung agiler Data Warehouses mit Data Vault23 19.11.2015 ETL-Prozesse für Data Vault
  • 24. Laden von Data Vault Tabellen Modellierung agiler Data Warehouses mit Data Vault24 19.11.2015   Hubs: –  Einfügen neuer Business Keys   Links: –  Key Lookups auf Hubs –  Einfügen neuer Beziehungen   Satellites: –  Key Lookup auf Hub –  Deltaermittlung neue Daten / aktuelle Version –  Einfügen von neuer Version INSERT INSERT INSERT
  • 25. Laden von dimensionalen Data Marts aus Data Vault Modellierung agiler Data Warehouses mit Data Vault25 19.11.2015   Data Vault unterscheidet nicht zwischen Stammdaten (Dimensionen) und Ereignisdaten (Fakten)   Fakten und Dimensionen können Daten aus mehreren Entitäten enthalten   Join aller benötigten Hubs, Links und Satellites   SCD1 Dimensionen: –  Aktuelle Version aller Satellites   SCD2 Dimensionen: –  Point In Time (PIT) Tables –  ev. History View Layer
  • 26. Ladeschritte Modellierung agiler Data Warehouses mit Data Vault26 19.11.2015 1.  Paralleles Laden aller Stage-Tabellen 2.  Paralleles Laden aller Hubs 3.  Paralleles Laden –  aller Links –  aller Hub Satellites 4.  Paralleles Laden aller Link Satellites 5.  Paralleles Laden aller Dimensionen 6.  Paralleles Laden aller Faktentabellen
  • 27. Point In Time (PIT) Table – Beispiel Modellierung agiler Data Warehouses mit Data Vault27 19.11.2015 Ausführliches Beispiel dazu siehe Blog danischnider.wordpress.com
  • 28. Modellierung agiler Data Warehouses mit Data Vault28 19.11.2015 Data Vault & DWH Architektur
  • 29. ETL Pipeline Modellierung agiler Data Warehouses mit Data Vault29 19.11.2015   Verschiedene Arten von Transformationen zwischen Extraktion und Laden Load Record Calculate D/TStamp Transform Cleanse Validate Integrate Extract   Was wird in welcher DWH-Schicht ausgeführt? Source: Hans Hultgren, Modeling the Agile Data Warehouse with Data Vault, page 172
  • 30. Data Warehouse MartsCleansing Area CoreStaging Area Metadata Data Vault Auswirkungen auf DWH-Architektur Modellierung agiler Data Warehouses mit Data Vault30 19.11.2015 Source Systems ETL BI Plattform Data Warehouse Cleansing AreaStaging Area Metadata Data Vault Core Marts Data Warehouse Staging Area Metadata Raw Data Vault Core Marts Business Data Vault
  • 31. Transform Load D/TStamp ETL Pipeline für erweiterte Data Vault Architektur Modellierung agiler Data Warehouses mit Data Vault31 19.11.2015 Load Calculate Cleanse Validate Integrate Extract Source: Hans Hultgren, Modeling the Agile Data Warehouse with Data Vault, page 173 Integrate Transform Calculate Cleanse Validate Extract Staging Area Data MartsRaw Data Vault Business Data Vault Common Business Rules Mart Specific Rules
  • 32. Modellierung agiler Data Warehouses mit Data Vault32 19.11.2015 Fazit
  • 33. Data Vault – Chancen und Herausforderungen Modellierung agiler Data Warehouses mit Data Vault33 19.11.2015 +  Einfache und einheitliche ETL-Regeln +  Leichte Erweiterbarkeit +  Integration mehrerer Quellsysteme +  Vollständige Historisierung -  Hohe Anzahl Tabellen in Data Vault -  Konsequente Einhaltung der Regeln -  Korrekte Wahl der Business Keys
  • 34. Data Vault – Einsatzgebiete Modellierung agiler Data Warehouses mit Data Vault34 19.11.2015   Projekte mit hoher Agilität –  Häufige Modellerweiterungen –  Laufend ändernde Anforderungen   Data Warehouses mit mehreren Quellen –  Wichtig: Fachliche Schlüssel zwingend Grosse DWH-Projekte –  Keine manuelle ETL-Entwicklung –  Einsatz von DWH-Generatoren
  • 35. Modellierung agiler Data Warehouses mit Data Vault35 19.11.2015 Trivadis an der DOAG 2015 Ebene 3 - gleich neben der Rolltreppe Wir freuen uns auf Ihren Besuch. Denn mit Trivadis gewinnen Sie immer.