OpenDMA - Daten Management Solution

Open Data Management Automation (OpenDMA)
Eine moderne Datenmanagement Plattform für Ihr Data Warehouse
und Ihre Big Data Analysen
Torsten Glunde, Juni 2015

agenda
• Big Data
• OpenDMA Strategie
• OpenDMA – Automation, DataVault und Architektur

 Industrie 4.0 Automation von Industrieprozessen, Vernetzung der Maschinen (Internet of Things)
 Mobile Data Fitnessdaten, Apps, Shopping
 Soziale Netzwerke & Co Facebook, Xing, LinkedIn, WhatsApp, Twitter, Tumblr, About.com,
Blog
 BigData Volume+Velocity+Variety, Strukturierte und Unstrukturierte Daten, MPP, Analytics
 Datenstrategie, das daten-getriebene Unternehmen
 RDBMS ist nicht für solche Datenmengen und nicht-strukturierte Daten
ausgelegt
 Prozesse müssen schneller werden, gleichzeitig aber auch flexibler und
anpassungsfähiger
BigData
Datentreiber

BigData
Implementierung
• Roman Census Method, MPP
www.thedatascienceinstitute.com/big-data-and-the-roman-census-approach/
• MPP ermöglicht lineare Skalierung
• Prozessierung wandert zu den Daten (im Gegensatz zu ETL)
• Hadoop, HDFS
• Speichert binäre Datenblöcke ohne interne Strukturen
• Kein ACID, kein UPDATE, INSERT ONLY
• Fail-over durch Duplizierung jedes Datenblockes
• Structure on Read (vs. Structure on Write)
• Unstrukturierte oder semi-strukturierte Daten können gespeichert werden
• Ermöglicht die Speicherung von großen Datenmengen
• Dateninhalte müssen vor Verarbeitung geparsed werden
• Flexibel, da bestehende Datenstrukturen nicht angepasst werden müssen
Bill Inmon, Dan Linstedt, “Data Architecture: A Primer for the Data Scientist” ,
Elsevier, Morgan Kaufman 2015

BigData
Lambda Architektur ist Bestandteil von OpenDMA
Die Lambda Architektur besteht aus 3 Komponenten
Batch layer
• Verwaltet den Master Datensatz, ein immutable,
append-only Rohdaten Speicher
• persistente batch views zur Abfrage die
vorberechnet werden
Serving layer
Dieser Layer indiziert die Batch Views, damit sie in
niedriger Latenz abgefragt werden können
Speed layer
Real-time bzw. Near-Realtime Anfragen werden hier
mit Streaming Mitteln beantwortet. Schnelle,
inkrementelle Algorithmen werden hier verwendet.
Nur die aktuellsten Daten werden hier verarbeitet.
Michael Hausenblas, Chief Engeneer MapR, Lambda Architecture,
https://www.mapr.com/fr/developercentral/lambda-architecture
Nathan Marz – Big Data Principles and Practices of Scalable realtime data systems
http://www.manning.com/marz/

 Verarbeitung geht zu den Daten
 Distribution der Daten
 MPP ist unabhängig von der Speicherhaltung der Daten
 Strukturiert,Relational  optimiertes, random Lesen per SQL  ABER: modellierte,kontrollierte Daten
 Unstrukturiert, Ohne Schema  optimiertes Schreiben,lesen per SQL, aber nur sequentiell optimiert
 Unstrukturierte Speicherung bedingt immer noch viel Programmierung – SQL ist aber zukünftig gesetzt
• Speicherung und Pflege der Daten ist strukturiert teurer als unstrukturiert
• Automatisierung mittels DataVault vermindertdie Kosten für strukturierte Datenhaltung
• Sub-second Antwortzeiten nur mit schema-basierten Datenstrukturen möglich
BigData
MPP

 Eignet sich zur Datenaufnahme im Datenmanagement, da es große Datenmengen sicher und redundant
speichern kann
 Eignet sich zur Transformation von großen Datenmengen, da über MPP linear skaliert werden kann - wie zu
statistischen Analysen
ABER:
 Transformationen werden in Hadoop programmiert (Java, Scala, …)
 Reproduzierbarkeit schwierig zu gewährleisten, wenn Strukturen unbekannt und veränderlich sind
 Ursprünglich ist Hadoop eine reine BATCH-Architektur – keine Adhoc-Abfragen
 Häufig werden Daten in Hadoop verarbeitet, die mit MPP-fähigen RDBMS schneller verarbeitet werden können
(In-Memory Technologie)
 In RDBMS wird SQL verarbeitet, das eine hohe Akzeptanz und Verbreitung hat
 BigData = MPP , BigData != NoSQL , BigData Maybe SQL
BigData
Unverzichtbare Komponente, aber kein Allheilmittel

Strategie
Ziele und Vorhaben
Datenmanagement
Systeme und
Applikationen
Network /
Infrastructure
Strategie
Ziele und Vorhaben
Systeme und
Applikationen
Network /
Infrastructure
Datenmanagement
Datengetrieben
Applikationsgetrieben
OpenDMA
Strategie

Personen und
Organisation
Geschäftsprozesse Ziele und
Vorhaben
Technologie
Technology Assets
Datenmanagement
Daten Assets
Informiert
ErstelltKontext
Datengetriebenes Unternehmen
Strategie

Datengetriebene Architektur
Analogie zur Produktion

Informationen liefern
Prozesskette im Datenmanagement
Rohdaten
Geschäftsregeln
Historisierung
Standard
Regelwerk
Berechnung

Push-Versus-Pull
3FolieFolieAWF Arbeitsgemeinschaft “Pull-Systeme” – Dipl.-Ing. O. Völker und Dipl.-Ing. S. Binner
Einleitung „Push“ und „Pull“
In OutBestand in der Fertigung
Ziehlogik (PullZiehlogik (Pull--Prinzip)Prinzip)
Bestand in der Fertigung
In Out
Schiebelogik (PushSchiebelogik (Push--Prinzip)Prinzip)

Bekannte Anforderungen
Geringe Personalisierung
Skaleneffekte
Gleichförmige Produktion
Geringe Änderungskosten
Geringe Vorbereitungszeit
Variable Anforderungen
Hohe Personalisierung
Geringer Verkaufsaufwand
Variabilität in der
Produktion
Hohe Anpassungskosten
Größere Vorbereitungszeit
Push Pull
Push-Versus-Pull

Prozessunterscheidung nach Entwicklungsstil
Systematisch
• Nutzer und Entwickler sind getrennt
• Fokus auf Kontrolle und Compliance
• Fokus auf Non-Functionals
• Zentrale, unternehmensweite Informationsobjekte
Opportunistisch
• Nutzer und Entwickler sind eng verbunden
• Offensive Governance – Fokus auf Agilität und Anpassbarkeit
• dezentralisierte Informationsobjekte
• Deployment direkt in Produktion
Development Style

I
• Facts
• Datenmodell
II
• Context
• Taxanomie
• Ad-Hoc Abfragen
• Geschäftsregel
III
• Shadow IT
• Incubation
• Ad-hoc
• Once off
IV
• Research
• Innovation
• Design
Pull / Demand / Product drivenPush / Supply / Source driven
Push/Pull Point
Development Style
SystematicOpportunistic
Datenquadrant im Datenmanagement
Ronald Damhof, 4 Quadrant Model for Data Deployment, http://www.b-eye-network.com/blogs/damhof/archives/2013/08/4_quadrant_mode.php

I
• Single Version of
Facts
II
• Multiple Versions of
Truth
III
• Single
Sources
IV
• All Data
MPP
Automatisierung
des DWH mit
DataVault
Enterprise Information
Products
Reports
Predictive Analytics
Adhoc-Queries
DWH Mart
Methoden
Datenmanagement
Data LakeInput
ComplicatedSimple
Chaotic
Analytics, Innovations
Data Science
Data Mining
Machine Learning
Alle Daten
Complex

I
• Single Version of
Facts
II
• Multiple Versions of
Truth
III
• Single
Sources
IV
• All Data
MPP
Enterprise Information
Products
Reports
Predictive Analytics
Adhoc-Queries
DWH Mart
Analytics, Innovations
Data Science
Data Mining
Machine Learning
Alle Daten
Governance
Im Datenquadranten
Data Lake
- Kontrolle und Verantwortung liegt beim
jeweiligen Anwender
- Hohe Freiheitsgrade ermöglichen Innovation
BI Governance
Metadaten

 Datenmanagement Plattform
DataVault Architektur und Modellierung
MPP Datenhaltung für strukturierte und unstrukturierte Daten
Datenverarbeitung mit linearer Skalierung
 Werkzeug zur schnellen Entwicklung
Automatisierung der Data Warehouse Entwicklung
basierend auf Datenmodell und Metadaten
Ermöglicht Rapid Prototyping
 ELT oder ETL Generator
generiert SQL und DDL
oder auch ETL basierend auf Templates
unterstützt RDBMS und Hive (auf Hadoop)
 Architekturvorgaben
Die Einhaltung des Regelwerks gewährleistet eine lineare Skalierung
Single Version of Facts – Multiple Versions of the Truth
Multiple Timelines - Temporalität
Open Data Management Automation
Was ist OpenDMA?

 Nicht-Destruktive Datenmodellierung
 Konsistente Kosten für Anpassungen
 Automatisierung durch wiederholbare Muster
 Implementierung in NoSQL, RDBMS und hybrid
möglich
 100% Tatsachen (anstatt von „Golden Record“,
„One Version of The Truth“), ermöglicht:
Gap Analyse, Auditing und Data Lineage
 Separation of Concerns
Kontext, Konzept, Logisch, Physisch
Bill Inmon sagt:
"the Data Vault is the optimal choice for modeling the EDW in the DW 2.0
framework."
OpenDMA
DataVault 2.0 Vorteile

Data Vault Benefits
Entire UDT DataVault Model
Typical OLTP Data Model
OpenDMA
DataVault 2.0 Vorteile
Bsam Bendayan and Mary Mink, Ultimate Software 2015, Presented at
WWDVC 2015

 OpenDMA Automation
basiert auf OpenSource, beschleunigt die Entwicklung von Datenmanagement Prozessen
benötigt kein ETL-Werkzeug, unterstützt aber die gängigsten auf dem Markt
 Methoden und Vorgehensweisen
schnelle Implementierung neuer Geschäftsregeln
Basis ist Data Vault 2.0  volle Nachvollziehbarkeit und Integration von strukturierten und unstrukturierten
Daten
 Lineare Skalierung
läuft auf sogenannten Commodity-Hardware Knoten
Verdopplung der Knoten halbiert die Laufzeit
sowohl für unstrukturierte als auch strukturierte Daten
 Cloud-fähigkeit steht an erster Stelle
einfache Implementierung und Unterstützung von DevOps
OpenDMA
Die wichtigsten Vorteile

 Im Zeitalter von BigData und MPP gilt: ETL ist tot, es lebe SQL
Die Verarbeitung der Daten wird mehr und mehr in der Datenbank stattfinden müssen, da die
Datenmengen die für die Verarbeitung notwendig sind nicht mehr transportierbar sind. Die aktuellsten
Entwicklungen in Hadoop setzen auf SQL als Schnittstelle zu Daten im HDFS.
 Automatisierung ist der nächste große Trend
Durch moderne Methoden der Datenmodellierung und Datenmodelltransformation lassen sich weite Teile
des klassischen DWH automatisieren.
 Das klassische DWH und BigData sind komplementäre
Infrastrukturkomponenten
Data Lake, Enterprise Hub & Co. sind Bestandteile einer Dateninfrastruktur, können aber nicht die
kompletten Architekturanforderungen abdecken. MPP gilt auch für klassisch modellierte RDBMS. Über
DataVault 2.0 lässt sich das DWH mit unstrukturierten Daten verbinden.
 OpenDMA: Cloud-First und Automatisierung der Datenintegration
Niedrige Einstiegsbarrieren
schneller ROI
Takeaway

zentrale:
marktplatz 3
82031 grünwald
tel: 089 939451- 0
fax: 089 939451- 59
www.oss.de
Vielen Dank

SQL
SQL
 SQL in Hadoop minimiert die Programmierung
 Lambda Architektur erhöht Reproduzierbarkeit durch Reduktion der Komplexität
 Erweiterung um Real-Time Anforderung – allerdings auch mit API (Storm)
 Caching durch Kylin OLAP-Komponente
 In RDBMS wird SQL verarbeitet, das eine hohe Akzeptanz und Verbreitung hat
BigData
Lambda im OpenDMA

HDP
OpenDMA
Ein Use Case
CSV-Strom
Postgres
XL
OpenDMA
CSV
Streaming
Stundenprotokoll
Batch Vortagesaktuell
angereichert
DV Mart

OpenDMA verbindet die Welten
DataVault 2.0 Architektur

OpenDMA
Logical Data Warehouse Model – Separation of Concerns
- Corporate Overview: Context
- Top management view of the world, sketch environment
- What are the most important kinds of data
- Global things of significance, many-2-many relationships
- About dozen boxes
- “Environment Model”
- Conceptual
- complete, detailed description
- Business terms, concepts, one-to-many relationships represent assertions
- Moderate attributes
- Technology independent model
- Semantic
- Language as used, vehicle for identifying semantic conflicts
- divergent
- Architectural
- More abstract, convergent model
- Logical
- Particular data management technological
- Relational, hierarchical legs, network edges, object oriented, xml tags
- Implementation with technological twists
- Relational: foreign key and primary keys
- Path direction in object models
- Platform specific model
- Physical
- Physical storage
- Discrete physical databases
- Partitions
- Tablespaces
- Etc
- Vendor platform specific model

OpenDMA - Daten Management Solution

Weitere ähnliche Inhalte

Was ist angesagt?

Andere mochten auch

Ähnlich wie OpenDMA - Daten Management Solution

OpenDMA - Daten Management Solution