SlideShare ist ein Scribd-Unternehmen logo
1 von 30
Downloaden Sie, um offline zu lesen
Prinzipien hinter PinkDB und deren Anwendung auf eine DataVault Datenarchitektur
PinkDB & DataVault
• SmartDB und PinkDB
• DataVault Datenarchitektur mit PinkDB
• Take-Away
• Modellgetriebene Entwicklung
• Nutze relationale Stärken
• Stick to the pattern
Einleitung
Torsten Glunde
Solution Architect DWH and BI
Me
https://www.xing.com/profile/Torsten_Glunde/cv
@tglunde
www.linkedin.com/in/torsten-glunde-097aba8
• http://alligator-company.com seit 2002
• Consultant seit 1994
• BI/DWH seit 2002
• DataVault Evangelist seit 2009
http://www.oraclethoughts.com/
https://www.salvis.com/blog/
https://stevenfeuersteinonplsql.blogspot.com/2018/05/the-smartdb-resource-center.html
https://danischnider.wordpress.com/
SmartDB – OLTP Applikationen
Quelle vom Oktober 2016 – abgerufen am 23.10.2018: https://www.youtube.com/watch?v=8jiJDflpw4Y
Probleme mit Middleware außerhalb der DB
• Stabilität des Technologie Stacks
C++, C#, Java, JavaScript
• SQL ist tabiler
• Entwicklungs- und Wartungskosten
Fehler finden in mehreren Ebenen
Benötigen wir wirklich OO?
Wartung mehrerer Systeme
• Performance und Skalierbarkeit
Experiment im Labor:
Quelle vom Oktober 2016 – abgerufen am 23.10.2018: https://www.youtube.com/watch?v=8jiJDflpw4Y
SmartDB
• PL/SQL „hard shell“ API
• API hangeschrieben
• Connect User besitzt keine
Datenbankobjekte
• Connect User can execute PL/SQL
API units only
• Transaktionskontrolle in der DB
• Set-based SQL
Quelle vom Oktober 2016 – abgerufen am 23.10.2018: https://www.youtube.com/watch?v=8jiJDflpw4Y
Und Data Warehousing?
Quelle vom Oktober 2016 – abgerufen am 23.10.2018: https://www.youtube.com/watch?v=8jiJDflpw4Y
Und Data Warehousing?
ETL oder in-DB Verarbeitung
• Vorteile der DB ausnutzen
• ETL/Middleware fällt weg
• Wartung und Betrieb
vereinfachen
• Set-based anstatt Row-By-Row
ETL In-DB
Quelle vom Oktober 2016 – abgerufen am 23.10.2018: https://www.youtube.com/watch?v=8jiJDflpw4Y
PinkDB Paradigm
Prinzipien
• Set-based
• View-API
• Fast
Quelle abgerufen am 23.10.2018: https://www.salvis.com/blog/2018/07/18/the-pink-database-paradigm-pinkdb/
PinkDB Paradigm
Struktur
• Connect User besitzt keine
Datenbankobjekte
• API Schema: Datenzugriff,
gespeicherte Objekte und Views,
keine Tabellen
• Data – speichert Informationen in
vom Datenmodell definierten
Struktur
Quelle abgerufen am 23.10.2018: https://www.salvis.com/blog/2018/07/18/the-pink-database-paradigm-pinkdb/
PinkDB Paradigm
Features
• Set-based
• Gute Performance
• Ausnahme: Aktualisierung
wenigen Sätzen von UI
• Datenbank unabhängig
• Schnell
• Ausnahmen von der Regel
müssen dokumentiert werden
Quelle abgerufen am 23.10.2018: https://www.salvis.com/blog/2018/07/18/the-pink-database-paradigm-pinkdb/
PinkDB Paradigm
Unterschiede zu SmartDB
• Datenbank unabhängig
• Views erlaubt
• Generatoren erlaubt
• Data – speichert Informationen in
vom Datenmodell definierten
Struktur
Quelle abgerufen am 23.10.2018: https://www.salvis.com/blog/2018/07/18/the-pink-database-paradigm-pinkdb/
DataVault Implementierung
• Lademuster in DataVault sind
Set-based
• Automat generiert DataVault
Datenschema
• Schema API?
• Soft Rules?
H S L
Quelle abgerufen am 23.10.2018: https://www.salvis.com/blog/2018/07/18/the-pink-database-paradigm-pinkdb/
The „Great Divide“ in DataVault?
Quelle abgerufen am 23.10.2018: https://en.wikipedia.org/wiki/Continental_Divide_of_the_Americas
H S L
DDL
SQL
Anforderung
Fachseite
Technik
Physisches Modell
Speichern
Historisieren
Automatisieren
Nachvollziehbarkeit
H S LMapping
Source
Generator
DDL
SQL
Anforderung
Fachseite
Technik
Physisches Modell
Speichern
Historisieren
Automatisieren
Nachvollziehbarkeit
H S LMapping
Source
Generator
DDL
SQL
Anforderung
Fachseite
Technik
Physisches Modell
Speichern
Historisieren
Automatisieren
Nachvollziehbarkeit
H S L
Mapping
Source
Generator
DDL
SQL
Anforderung
Logisches Modell UML E-RBEAM FCO-IM
Fachseite
Technik
Physisches Modell
Speichern
Historisieren
Automatisieren
Nachvollziehbarkeit
Mapping
Source
Anforderung
Logisches Modell UML E-RBEAM FCO-IM
Soft Rules Abfrage
Fachseite
Technik
Generator
H S L
DDL
SQL
Physisches Modell
Speichern
Historisieren
Automatisieren
Nachvollziehbarkeit
Mapping
Source Generator
Anforderung
Logisches Modell UML E-RBEAM FCO-IM
Soft Rules Abfrage
Schema API – View-Layer
Fachseite
Technik
H S L
DDL
SQL
Generator
Physisches Modell Speichern
Historisieren
Automatisieren
Nachvollziehbarkeit
Mapping
Source
Anforderung
Logisches Modell UML E-RBEAM FCO-IM
Soft Rules Abfrage
Schema API – View-Layer
Fachseite
Technik
SQL
Generator
H S L
DDL
SQL
Schema API – View Layer
• Einheitlicher Zugriff auf DataVault
• Information Hiding
• Zugriffsschicht, Soft Rules und
Nutzerzugriffe basieren auf dem
selben, logischen Modell
• Optmimierung der SQL an zentraler
Stelle
• Generierbar aus dem Modell
Source: Rick van der Lans sponsored by Cisco Centennium: http://www.cisco.com/c/dam/en_us/services/enterprise-it-services/data-virtualization/documents/whitepaper-cisco-datavaul.pdf
PinkDB und DataVault
• Model Driven
• Strukturierte Modellierung
ermöglicht Automation
• Generierung von Data Vault
• Generierung der Zugriffsschicht
• Set Based
• Lademuster
• Zugriffs-View in API Schema
• Information Hiding
• Vereinfachung der Infrastruktur
• Einfache Lineage über SQL / View
ermöglicht GPDR
• Reduktion der Wartungskosten
• Einfache Fehlersuche, Einfaches
Skillset
• SQL / relationales Modell als stabile
Schnittstelle
• Algorithmen nah an den Daten
PinkDB und DataVault
• Was ist mit Fehlerbehandlung und Hard Rules?
• Fehlertolerante SQL (Functions ON-Error, Default Werte)
• DQ-Regeln und DQ-Bewertung Downstream, nachgelagert, Error Mart
• Landing in Hadoop / mittels Kafka und Flink
• Prozesssteuerung
• DataVault ermöglicht parallele Beladung und damit einfache Steuerung
• SoftRules müssen Abhängigkeiten berücksichtigen
• Fehlende Flow-Control in SQL
• Einfache Muster erfordern keine komplexe Flow-Control
• ETL Werkzeuge benötigen keine Datenbankkenntnisse
• Datenbankkenntnisse sind essentiell
Architekturvorteile von Data Vault
Versprechen von DataVault
• Flexibilität für Änderungen
• Inkrementell
• Effiziente Historisierung
• Effiziente Lademuster
• Automatisierbar
• Insert Only
• Hohe Parallelität
• Nachvollziehbarkeit
Datenarchitektur
Stage-Out / Information Mart
•Schema Transformation
•Performance Verbessern für
Abfragen
DataVault
•Integration
•Historisierung
•Soft Rules
Stage/PSA
•Data Landing
•Hard Rules – Umkehrbare Funktionen, Datentypen
•Hash Key
Automat
Datenmodell
Anforderung,Regel
Take-Away
Don‘ts
• ETL – im Sinne von satzweiser Verarbeitung ist
nicht zukunftsfähig
• ETL – im Sinne von Middleware außerhalb der
Datenhaltung
• Fehlerbehandlung, Datenqualität in Muster
integrieren
• Separation of Concerns wahren
• Werkzeuge als Strategie zu behandeln
• sollten austauschbar sein
• Bestehende ETL Frameworks wiederverwenden
Dos
• Modellgetriebene Entwicklung
• Datenarchitektur und deren Nachhaltigkeit ist
strategisch
• Regelwerk aufstellen, dokumentieren und nachhalten
• Bleib bei den Mustern, Set-Based
• DYMD - Dont Move Your Data, Vorsicht mit ETL
• Automation ist der Schlüssel
• Vorsicht bei der Werkzeugauswahl
Vielen Dank für die Aufmerksamkeit
PinkDB & DataVault

Weitere ähnliche Inhalte

Ähnlich wie #PinkDB DataVault

Data Mesh: "Daten als Produkt" weitergedacht
Data Mesh: "Daten als Produkt" weitergedachtData Mesh: "Daten als Produkt" weitergedacht
Data Mesh: "Daten als Produkt" weitergedachtIBsolution GmbH
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data KonnektivitätTrivadis
 
DOAG 2015 enterprise_securitymitlda_pundpki-pub
DOAG 2015 enterprise_securitymitlda_pundpki-pubDOAG 2015 enterprise_securitymitlda_pundpki-pub
DOAG 2015 enterprise_securitymitlda_pundpki-pubLoopback.ORG
 
OOP 2006: Einsatz von Portaltechnologie in Bankanwendungen für Internet-Endku...
OOP 2006: Einsatz von Portaltechnologie in Bankanwendungen für Internet-Endku...OOP 2006: Einsatz von Portaltechnologie in Bankanwendungen für Internet-Endku...
OOP 2006: Einsatz von Portaltechnologie in Bankanwendungen für Internet-Endku...JoeyNbg
 
Data lake vs Data Warehouse: Hybrid Architectures
Data lake vs Data Warehouse: Hybrid ArchitecturesData lake vs Data Warehouse: Hybrid Architectures
Data lake vs Data Warehouse: Hybrid ArchitecturesComsysto Reply GmbH
 
Technische Lösungen zur Unternehmenssteuerung
Technische Lösungen zur UnternehmenssteuerungTechnische Lösungen zur Unternehmenssteuerung
Technische Lösungen zur UnternehmenssteuerungIBsolution GmbH
 
Frontend-Architektur der 1&1 Bestellsysteme
Frontend-Architektur der 1&1 BestellsystemeFrontend-Architektur der 1&1 Bestellsysteme
Frontend-Architektur der 1&1 BestellsystemeNico Steiner
 
Was kommt nach den SPAs
Was kommt nach den SPAsWas kommt nach den SPAs
Was kommt nach den SPAsQAware GmbH
 
Webinar - ABAP CDS Views
Webinar - ABAP CDS ViewsWebinar - ABAP CDS Views
Webinar - ABAP CDS ViewsCadaxo GmbH
 
Zend Framework 2 feat. MongoDB
Zend Framework 2 feat. MongoDBZend Framework 2 feat. MongoDB
Zend Framework 2 feat. MongoDBRalf Eggert
 
2007 - Basta!: Nach soa kommt soc
2007 - Basta!: Nach soa kommt soc2007 - Basta!: Nach soa kommt soc
2007 - Basta!: Nach soa kommt socDaniel Fisher
 
Dv 20 sdlc_oss_automation
Dv 20 sdlc_oss_automationDv 20 sdlc_oss_automation
Dv 20 sdlc_oss_automationTorsten Glunde
 
ColdFusion im Enterprise Umfeld - Deep Dive
ColdFusion im Enterprise Umfeld - Deep DiveColdFusion im Enterprise Umfeld - Deep Dive
ColdFusion im Enterprise Umfeld - Deep DiveBokowsky + Laymann GmbH
 
Raus aus dem Data Vault - Virtualisierung und Logical Warheouse
Raus aus dem Data Vault - Virtualisierung und Logical WarheouseRaus aus dem Data Vault - Virtualisierung und Logical Warheouse
Raus aus dem Data Vault - Virtualisierung und Logical WarheouseTorsten Glunde
 
HTML5 Offline - Fallstricke für mobile Webseiten und WebApps
HTML5 Offline - Fallstricke für mobile Webseiten und WebAppsHTML5 Offline - Fallstricke für mobile Webseiten und WebApps
HTML5 Offline - Fallstricke für mobile Webseiten und WebAppsUlrich Schmidt
 
20181120_DOAG_OracleNoSQLDB_KPatenge
20181120_DOAG_OracleNoSQLDB_KPatenge20181120_DOAG_OracleNoSQLDB_KPatenge
20181120_DOAG_OracleNoSQLDB_KPatengeKarin Patenge
 
Grails im Überblick und in der Praxis
Grails im Überblick und in der PraxisGrails im Überblick und in der Praxis
Grails im Überblick und in der PraxisTobias Kraft
 
Data Quadrant - Daten Management Methode
Data Quadrant - Daten Management MethodeData Quadrant - Daten Management Methode
Data Quadrant - Daten Management MethodeTorsten Glunde
 
BI-System mit OData und SharePoint Online
BI-System mit OData und SharePoint OnlineBI-System mit OData und SharePoint Online
BI-System mit OData und SharePoint Onlineatwork
 

Ähnlich wie #PinkDB DataVault (20)

Data Mesh: "Daten als Produkt" weitergedacht
Data Mesh: "Daten als Produkt" weitergedachtData Mesh: "Daten als Produkt" weitergedacht
Data Mesh: "Daten als Produkt" weitergedacht
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data Konnektivität
 
DOAG 2015 enterprise_securitymitlda_pundpki-pub
DOAG 2015 enterprise_securitymitlda_pundpki-pubDOAG 2015 enterprise_securitymitlda_pundpki-pub
DOAG 2015 enterprise_securitymitlda_pundpki-pub
 
OOP 2006: Einsatz von Portaltechnologie in Bankanwendungen für Internet-Endku...
OOP 2006: Einsatz von Portaltechnologie in Bankanwendungen für Internet-Endku...OOP 2006: Einsatz von Portaltechnologie in Bankanwendungen für Internet-Endku...
OOP 2006: Einsatz von Portaltechnologie in Bankanwendungen für Internet-Endku...
 
Data lake vs Data Warehouse: Hybrid Architectures
Data lake vs Data Warehouse: Hybrid ArchitecturesData lake vs Data Warehouse: Hybrid Architectures
Data lake vs Data Warehouse: Hybrid Architectures
 
Technische Lösungen zur Unternehmenssteuerung
Technische Lösungen zur UnternehmenssteuerungTechnische Lösungen zur Unternehmenssteuerung
Technische Lösungen zur Unternehmenssteuerung
 
Frontend-Architektur der 1&1 Bestellsysteme
Frontend-Architektur der 1&1 BestellsystemeFrontend-Architektur der 1&1 Bestellsysteme
Frontend-Architektur der 1&1 Bestellsysteme
 
Was kommt nach den SPAs
Was kommt nach den SPAsWas kommt nach den SPAs
Was kommt nach den SPAs
 
Webinar - ABAP CDS Views
Webinar - ABAP CDS ViewsWebinar - ABAP CDS Views
Webinar - ABAP CDS Views
 
Zend Framework 2 feat. MongoDB
Zend Framework 2 feat. MongoDBZend Framework 2 feat. MongoDB
Zend Framework 2 feat. MongoDB
 
Webinar big data für unternehmen
Webinar big data für unternehmenWebinar big data für unternehmen
Webinar big data für unternehmen
 
2007 - Basta!: Nach soa kommt soc
2007 - Basta!: Nach soa kommt soc2007 - Basta!: Nach soa kommt soc
2007 - Basta!: Nach soa kommt soc
 
Dv 20 sdlc_oss_automation
Dv 20 sdlc_oss_automationDv 20 sdlc_oss_automation
Dv 20 sdlc_oss_automation
 
ColdFusion im Enterprise Umfeld - Deep Dive
ColdFusion im Enterprise Umfeld - Deep DiveColdFusion im Enterprise Umfeld - Deep Dive
ColdFusion im Enterprise Umfeld - Deep Dive
 
Raus aus dem Data Vault - Virtualisierung und Logical Warheouse
Raus aus dem Data Vault - Virtualisierung und Logical WarheouseRaus aus dem Data Vault - Virtualisierung und Logical Warheouse
Raus aus dem Data Vault - Virtualisierung und Logical Warheouse
 
HTML5 Offline - Fallstricke für mobile Webseiten und WebApps
HTML5 Offline - Fallstricke für mobile Webseiten und WebAppsHTML5 Offline - Fallstricke für mobile Webseiten und WebApps
HTML5 Offline - Fallstricke für mobile Webseiten und WebApps
 
20181120_DOAG_OracleNoSQLDB_KPatenge
20181120_DOAG_OracleNoSQLDB_KPatenge20181120_DOAG_OracleNoSQLDB_KPatenge
20181120_DOAG_OracleNoSQLDB_KPatenge
 
Grails im Überblick und in der Praxis
Grails im Überblick und in der PraxisGrails im Überblick und in der Praxis
Grails im Überblick und in der Praxis
 
Data Quadrant - Daten Management Methode
Data Quadrant - Daten Management MethodeData Quadrant - Daten Management Methode
Data Quadrant - Daten Management Methode
 
BI-System mit OData und SharePoint Online
BI-System mit OData und SharePoint OnlineBI-System mit OData und SharePoint Online
BI-System mit OData und SharePoint Online
 

Mehr von Torsten Glunde

Conceptional Data Vault
Conceptional Data VaultConceptional Data Vault
Conceptional Data VaultTorsten Glunde
 
Data Virtualization - Supernova
Data Virtualization - SupernovaData Virtualization - Supernova
Data Virtualization - SupernovaTorsten Glunde
 
BCBS 239 - Data Vault hilft
BCBS 239 - Data Vault hilftBCBS 239 - Data Vault hilft
BCBS 239 - Data Vault hilftTorsten Glunde
 
Data Vault Architektur
Data Vault ArchitekturData Vault Architektur
Data Vault ArchitekturTorsten Glunde
 
Data Vault Vor- und Nachteile
Data Vault Vor- und NachteileData Vault Vor- und Nachteile
Data Vault Vor- und NachteileTorsten Glunde
 
Data Vault DWH Automation
Data Vault DWH AutomationData Vault DWH Automation
Data Vault DWH AutomationTorsten Glunde
 

Mehr von Torsten Glunde (6)

Conceptional Data Vault
Conceptional Data VaultConceptional Data Vault
Conceptional Data Vault
 
Data Virtualization - Supernova
Data Virtualization - SupernovaData Virtualization - Supernova
Data Virtualization - Supernova
 
BCBS 239 - Data Vault hilft
BCBS 239 - Data Vault hilftBCBS 239 - Data Vault hilft
BCBS 239 - Data Vault hilft
 
Data Vault Architektur
Data Vault ArchitekturData Vault Architektur
Data Vault Architektur
 
Data Vault Vor- und Nachteile
Data Vault Vor- und NachteileData Vault Vor- und Nachteile
Data Vault Vor- und Nachteile
 
Data Vault DWH Automation
Data Vault DWH AutomationData Vault DWH Automation
Data Vault DWH Automation
 

#PinkDB DataVault

  • 1. Prinzipien hinter PinkDB und deren Anwendung auf eine DataVault Datenarchitektur PinkDB & DataVault
  • 2. • SmartDB und PinkDB • DataVault Datenarchitektur mit PinkDB • Take-Away • Modellgetriebene Entwicklung • Nutze relationale Stärken • Stick to the pattern Einleitung
  • 3. Torsten Glunde Solution Architect DWH and BI Me https://www.xing.com/profile/Torsten_Glunde/cv @tglunde www.linkedin.com/in/torsten-glunde-097aba8 • http://alligator-company.com seit 2002 • Consultant seit 1994 • BI/DWH seit 2002 • DataVault Evangelist seit 2009
  • 5. SmartDB – OLTP Applikationen Quelle vom Oktober 2016 – abgerufen am 23.10.2018: https://www.youtube.com/watch?v=8jiJDflpw4Y
  • 6. Probleme mit Middleware außerhalb der DB • Stabilität des Technologie Stacks C++, C#, Java, JavaScript • SQL ist tabiler • Entwicklungs- und Wartungskosten Fehler finden in mehreren Ebenen Benötigen wir wirklich OO? Wartung mehrerer Systeme • Performance und Skalierbarkeit Experiment im Labor: Quelle vom Oktober 2016 – abgerufen am 23.10.2018: https://www.youtube.com/watch?v=8jiJDflpw4Y
  • 7. SmartDB • PL/SQL „hard shell“ API • API hangeschrieben • Connect User besitzt keine Datenbankobjekte • Connect User can execute PL/SQL API units only • Transaktionskontrolle in der DB • Set-based SQL Quelle vom Oktober 2016 – abgerufen am 23.10.2018: https://www.youtube.com/watch?v=8jiJDflpw4Y
  • 8. Und Data Warehousing? Quelle vom Oktober 2016 – abgerufen am 23.10.2018: https://www.youtube.com/watch?v=8jiJDflpw4Y
  • 9. Und Data Warehousing? ETL oder in-DB Verarbeitung • Vorteile der DB ausnutzen • ETL/Middleware fällt weg • Wartung und Betrieb vereinfachen • Set-based anstatt Row-By-Row ETL In-DB Quelle vom Oktober 2016 – abgerufen am 23.10.2018: https://www.youtube.com/watch?v=8jiJDflpw4Y
  • 10.
  • 11. PinkDB Paradigm Prinzipien • Set-based • View-API • Fast Quelle abgerufen am 23.10.2018: https://www.salvis.com/blog/2018/07/18/the-pink-database-paradigm-pinkdb/
  • 12. PinkDB Paradigm Struktur • Connect User besitzt keine Datenbankobjekte • API Schema: Datenzugriff, gespeicherte Objekte und Views, keine Tabellen • Data – speichert Informationen in vom Datenmodell definierten Struktur Quelle abgerufen am 23.10.2018: https://www.salvis.com/blog/2018/07/18/the-pink-database-paradigm-pinkdb/
  • 13. PinkDB Paradigm Features • Set-based • Gute Performance • Ausnahme: Aktualisierung wenigen Sätzen von UI • Datenbank unabhängig • Schnell • Ausnahmen von der Regel müssen dokumentiert werden Quelle abgerufen am 23.10.2018: https://www.salvis.com/blog/2018/07/18/the-pink-database-paradigm-pinkdb/
  • 14. PinkDB Paradigm Unterschiede zu SmartDB • Datenbank unabhängig • Views erlaubt • Generatoren erlaubt • Data – speichert Informationen in vom Datenmodell definierten Struktur Quelle abgerufen am 23.10.2018: https://www.salvis.com/blog/2018/07/18/the-pink-database-paradigm-pinkdb/
  • 15. DataVault Implementierung • Lademuster in DataVault sind Set-based • Automat generiert DataVault Datenschema • Schema API? • Soft Rules? H S L Quelle abgerufen am 23.10.2018: https://www.salvis.com/blog/2018/07/18/the-pink-database-paradigm-pinkdb/
  • 16. The „Great Divide“ in DataVault? Quelle abgerufen am 23.10.2018: https://en.wikipedia.org/wiki/Continental_Divide_of_the_Americas
  • 18. Physisches Modell Speichern Historisieren Automatisieren Nachvollziehbarkeit H S LMapping Source Generator DDL SQL Anforderung Fachseite Technik
  • 19. Physisches Modell Speichern Historisieren Automatisieren Nachvollziehbarkeit H S LMapping Source Generator DDL SQL Anforderung Fachseite Technik
  • 20. Physisches Modell Speichern Historisieren Automatisieren Nachvollziehbarkeit H S L Mapping Source Generator DDL SQL Anforderung Logisches Modell UML E-RBEAM FCO-IM Fachseite Technik
  • 21. Physisches Modell Speichern Historisieren Automatisieren Nachvollziehbarkeit Mapping Source Anforderung Logisches Modell UML E-RBEAM FCO-IM Soft Rules Abfrage Fachseite Technik Generator H S L DDL SQL
  • 22. Physisches Modell Speichern Historisieren Automatisieren Nachvollziehbarkeit Mapping Source Generator Anforderung Logisches Modell UML E-RBEAM FCO-IM Soft Rules Abfrage Schema API – View-Layer Fachseite Technik H S L DDL SQL
  • 23. Generator Physisches Modell Speichern Historisieren Automatisieren Nachvollziehbarkeit Mapping Source Anforderung Logisches Modell UML E-RBEAM FCO-IM Soft Rules Abfrage Schema API – View-Layer Fachseite Technik SQL Generator H S L DDL SQL
  • 24. Schema API – View Layer • Einheitlicher Zugriff auf DataVault • Information Hiding • Zugriffsschicht, Soft Rules und Nutzerzugriffe basieren auf dem selben, logischen Modell • Optmimierung der SQL an zentraler Stelle • Generierbar aus dem Modell Source: Rick van der Lans sponsored by Cisco Centennium: http://www.cisco.com/c/dam/en_us/services/enterprise-it-services/data-virtualization/documents/whitepaper-cisco-datavaul.pdf
  • 25. PinkDB und DataVault • Model Driven • Strukturierte Modellierung ermöglicht Automation • Generierung von Data Vault • Generierung der Zugriffsschicht • Set Based • Lademuster • Zugriffs-View in API Schema • Information Hiding • Vereinfachung der Infrastruktur • Einfache Lineage über SQL / View ermöglicht GPDR • Reduktion der Wartungskosten • Einfache Fehlersuche, Einfaches Skillset • SQL / relationales Modell als stabile Schnittstelle • Algorithmen nah an den Daten
  • 26. PinkDB und DataVault • Was ist mit Fehlerbehandlung und Hard Rules? • Fehlertolerante SQL (Functions ON-Error, Default Werte) • DQ-Regeln und DQ-Bewertung Downstream, nachgelagert, Error Mart • Landing in Hadoop / mittels Kafka und Flink • Prozesssteuerung • DataVault ermöglicht parallele Beladung und damit einfache Steuerung • SoftRules müssen Abhängigkeiten berücksichtigen • Fehlende Flow-Control in SQL • Einfache Muster erfordern keine komplexe Flow-Control • ETL Werkzeuge benötigen keine Datenbankkenntnisse • Datenbankkenntnisse sind essentiell
  • 27.
  • 28. Architekturvorteile von Data Vault Versprechen von DataVault • Flexibilität für Änderungen • Inkrementell • Effiziente Historisierung • Effiziente Lademuster • Automatisierbar • Insert Only • Hohe Parallelität • Nachvollziehbarkeit Datenarchitektur Stage-Out / Information Mart •Schema Transformation •Performance Verbessern für Abfragen DataVault •Integration •Historisierung •Soft Rules Stage/PSA •Data Landing •Hard Rules – Umkehrbare Funktionen, Datentypen •Hash Key Automat Datenmodell Anforderung,Regel
  • 29. Take-Away Don‘ts • ETL – im Sinne von satzweiser Verarbeitung ist nicht zukunftsfähig • ETL – im Sinne von Middleware außerhalb der Datenhaltung • Fehlerbehandlung, Datenqualität in Muster integrieren • Separation of Concerns wahren • Werkzeuge als Strategie zu behandeln • sollten austauschbar sein • Bestehende ETL Frameworks wiederverwenden Dos • Modellgetriebene Entwicklung • Datenarchitektur und deren Nachhaltigkeit ist strategisch • Regelwerk aufstellen, dokumentieren und nachhalten • Bleib bei den Mustern, Set-Based • DYMD - Dont Move Your Data, Vorsicht mit ETL • Automation ist der Schlüssel • Vorsicht bei der Werkzeugauswahl
  • 30. Vielen Dank für die Aufmerksamkeit PinkDB & DataVault