Data Vault Vor- und Nachteile

Farbenlehre 3NF
Sale
Customer
Employee
ProductVendor
Store
Region
Sale LI
Business Key
Relation
Kontext
(historisch)

Farbenlehre Star Schema
Sale
Customer
Employee
Product
Vendor
Store
Region
Customer
Employee
Product
Vendor
Store
Region
Business Key
Relation
Kontext
(historisch)

Farbenlehre Data Vault
Sale
Customer
Employee
Product
Vendor
Store
Region
Link
Link
Link
Business Key
Relation
Kontext
(historisch)

Farbenlehre Data Vault
Sale
Customer
Employee
Product
Vendor
Store
Region
Link
Link
Link
Sat
Sat
Sat
Sat
Sat
Sat
Sat
Business Key
Relation
Kontext
(historisch)

3FolieFolieAWF Arbeitsgemeinschaft “Pull-Systeme” – Dipl.-Ing. O. Völker und Dipl.-Ing. S. Binner
Einleitung „Push“ und „Pull“
In OutBestand in der Fertigung
Ziehlogik (PullZiehlogik (Pull--Prinzip)Prinzip)
Bestand in der Fertigung
In Out
Schiebelogik (PushSchiebelogik (Push--Prinzip)Prinzip)

I
•Single Version of Facts
II
•Multiple Versions of Truth
III
• Single
Sources
IV
• All Data
MPP
Automatisierung
des DWH mit
DataVault
Enterprise Information Products
Reports
Predictive Analytics
Adhoc-QueriesDWH Mart
Data LakeInput
ComplicatedSimple
Chaotic
Analytics, Innovations
Data Science
Data Mining
Machine Learning
Alle Daten
Complex

Manuelles ETL
Bereinigung
Geschäftsregeln
Datenmodell getriebene Automation
Integration nach Business Key
(fachlich)
Historisierung
Moderne DWH Architektur mit Data
Vault
I
• Facts
II
• Context
III
• Shadow IT
IV
• Analytics, Research, Prototyping
Raw Vault
“Single Version of
Facts”
Business
Vault
Source Stage
Report
Mart
“Multiple
Versions of
Truth”

Steuerung durch fachliche
Modellierung

Ladestrecken - Hub
SELECT
DISTINCT
BK
Erstelle SK
Im Ziel
vorhanden
?
Lookup
INSERT INTO
Hub
Stage
Raw
Vault
SELECT
DISTINCT
BK
WHERE NOT EXISTS IN Hub
Erstelle SK
INSERT INTO
Hub
Stage
Raw
Vault
SELECT
DISTINCT
BK, MD5
INSERT INTO
Hub
Stage
Raw
Vault
INSERT INTO HUB
SELECT
DISTINCT
BK, MD5
Stage
Raw
Vault
Ja
Nein

Ladestrecken - Link
SELECT
DISTINCT
Liste der BKs
Erstelle SK
Im Ziel
vorhanden
?
Lookup
INSERT INTO
Link
Stage
Raw
Vault
Ja
Nein
Lookup SK 1
Lookup SK 2
Lookup SK n
?
?
?

Ladestrecken - Link
SELECT
DISTINCT
List der BK
Erstelle SK
Im Ziel
vorhanden
?
Lookup
INSERT INTO
Link
Stage
Raw
Vault
Ja
Nein
Erstelle SK
pro BK
SELECT
DISTINCT
List der BK,MD5
WHERE NOT EXISTS IN Link Erstelle SK
INSERT INTO
Link
Stage
Raw
Vault

Ladestrecken - Satellite
SELECT
DISTINCT
BK,
Attribute
Erstelle SK
Im Ziel
vorhanden
?
Lookup
INSERT INTO
Sat
Stage
Raw
Vault
Ja
Nein
Lookup SK
Änderung?
Nein
Ja
End-Dating
Open Sat
Records
Raw
Vault

Ladeabhängigkeiten
Hubs
Links
Satellites
MD5
Alles
parallel ETL oder ELT?

MD5
• Message-digest Algorithm 128-bit (16-byte) oder 32 digit
hexadecimal
• Ronald Rivest in 1991
• RFC-1321
• Collision durch Präparation der Eingabgedateien erzwingbar
• Algorithmus zur Berechnung im Data-Vault muss eingehalten
werden!
– NULL-Handling
– Formate für Zahlen und Datum
– Trennzeichen!
• Alternativen: http://en.wikipedia.org/wiki/List_of_hash_functions

Vielen Dank für Ihre Aufmerksamkeit!
Fragen?
tglunde
Torsten Glunde
mailto:t.glunde(at)alligator-company.de
Weitere Netzwerke:
https://www.xing.com/profile/Torsten_Glunde
https://www.linkedin.com/pub/torsten-glunde/8/aba/97

I
• Facts
II
• Context
III
• Shadow IT
IV
• Analytics, Research, Prototyping
Raw Vault
Business
Vault
Source Stage
Conceptional Data Model
Report
Mart
PDM
LDM
Sync
Sync
Data Flow
Stage
Tables
Map 1:1 Map F(x) F(x) Map

Complexe Geschäftsregeln
Bereinigung, Historisierung und
Integration – alles in einem Schritt
Traditionelle DWH Architektur
Staging
(EDW)
“Single Version of the
Truth”
Source Mart
3NF

Data Vault Vor- und Nachteile

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Andere mochten auch

Andere mochten auch (13)

Data Vault Vor- und Nachteile