Open Data Management Automation (OpenDMA)
Eine moderne Datenmanagement Plattform für Ihr Data Warehouse
und Ihre Big Data Analysen
Torsten Glunde, Juni 2015
agenda
• Big Data
• OpenDMA Strategie
• OpenDMA – Automation, DataVault und Architektur
 Industrie 4.0 Automation von Industrieprozessen, Vernetzung der Maschinen (Internet of Things)
 Mobile Data Fitnessdaten, Apps, Shopping
 Soziale Netzwerke & Co Facebook, Xing, LinkedIn, WhatsApp, Twitter, Tumblr, About.com,
Blog
 BigData Volume+Velocity+Variety, Strukturierte und Unstrukturierte Daten, MPP, Analytics
 Datenstrategie, das daten-getriebene Unternehmen
 RDBMS ist nicht für solche Datenmengen und nicht-strukturierte Daten
ausgelegt
 Prozesse müssen schneller werden, gleichzeitig aber auch flexibler und
anpassungsfähiger
BigData
Datentreiber
BigData
Implementierung
• Roman Census Method, MPP
www.thedatascienceinstitute.com/big-data-and-the-roman-census-approach/
• MPP ermöglicht lineare Skalierung
• Prozessierung wandert zu den Daten (im Gegensatz zu ETL)
• Hadoop, HDFS
• Speichert binäre Datenblöcke ohne interne Strukturen
• Kein ACID, kein UPDATE, INSERT ONLY
• Fail-over durch Duplizierung jedes Datenblockes
• Structure on Read (vs. Structure on Write)
• Unstrukturierte oder semi-strukturierte Daten können gespeichert werden
• Ermöglicht die Speicherung von großen Datenmengen
• Dateninhalte müssen vor Verarbeitung geparsed werden
• Flexibel, da bestehende Datenstrukturen nicht angepasst werden müssen
Bill Inmon, Dan Linstedt, “Data Architecture: A Primer for the Data Scientist” ,
Elsevier, Morgan Kaufman 2015
BigData
Lambda Architektur ist Bestandteil von OpenDMA
Die Lambda Architektur besteht aus 3 Komponenten
Batch layer
• Verwaltet den Master Datensatz, ein immutable,
append-only Rohdaten Speicher
• persistente batch views zur Abfrage die
vorberechnet werden
Serving layer
Dieser Layer indiziert die Batch Views, damit sie in
niedriger Latenz abgefragt werden können
Speed layer
Real-time bzw. Near-Realtime Anfragen werden hier
mit Streaming Mitteln beantwortet. Schnelle,
inkrementelle Algorithmen werden hier verwendet.
Nur die aktuellsten Daten werden hier verarbeitet.
Michael Hausenblas, Chief Engeneer MapR, Lambda Architecture,
https://www.mapr.com/fr/developercentral/lambda-architecture
Nathan Marz – Big Data Principles and Practices of Scalable realtime data systems
http://www.manning.com/marz/
 Verarbeitung geht zu den Daten
 Distribution der Daten
 MPP ist unabhängig von der Speicherhaltung der Daten
 Strukturiert,Relational  optimiertes, random Lesen per SQL  ABER: modellierte,kontrollierte Daten
 Unstrukturiert, Ohne Schema  optimiertes Schreiben,lesen per SQL, aber nur sequentiell optimiert
 Unstrukturierte Speicherung bedingt immer noch viel Programmierung – SQL ist aber zukünftig gesetzt
• Speicherung und Pflege der Daten ist strukturiert teurer als unstrukturiert
• Automatisierung mittels DataVault vermindertdie Kosten für strukturierte Datenhaltung
• Sub-second Antwortzeiten nur mit schema-basierten Datenstrukturen möglich
BigData
MPP
 Eignet sich zur Datenaufnahme im Datenmanagement, da es große Datenmengen sicher und redundant
speichern kann
 Eignet sich zur Transformation von großen Datenmengen, da über MPP linear skaliert werden kann - wie zu
statistischen Analysen
ABER:
 Transformationen werden in Hadoop programmiert (Java, Scala, …)
 Reproduzierbarkeit schwierig zu gewährleisten, wenn Strukturen unbekannt und veränderlich sind
 Ursprünglich ist Hadoop eine reine BATCH-Architektur – keine Adhoc-Abfragen
 Häufig werden Daten in Hadoop verarbeitet, die mit MPP-fähigen RDBMS schneller verarbeitet werden können
(In-Memory Technologie)
 In RDBMS wird SQL verarbeitet, das eine hohe Akzeptanz und Verbreitung hat
 BigData = MPP , BigData != NoSQL , BigData Maybe SQL
BigData
Unverzichtbare Komponente, aber kein Allheilmittel
agenda
• Big Data
• OpenDMA Strategie
• OpenDMA – Automation, DataVault und Architektur
Strategie
Ziele und Vorhaben
Datenmanagement
Systeme und
Applikationen
Network /
Infrastructure
Strategie
Ziele und Vorhaben
Systeme und
Applikationen
Network /
Infrastructure
Datenmanagement
Datengetrieben
Applikationsgetrieben
OpenDMA
Strategie
Personen und
Organisation
Geschäftsprozesse Ziele und
Vorhaben
Technologie
Technology Assets
Datenmanagement
Daten Assets
Informiert
ErstelltKontext
Datengetriebenes Unternehmen
Strategie
Datengetriebene Architektur
Analogie zur Produktion
Informationen liefern
Prozesskette im Datenmanagement
Rohdaten
Geschäftsregeln
Historisierung
Standard
Regelwerk
Berechnung
Informationen liefern
Push-Versus-Pull
3FolieFolieAWF Arbeitsgemeinschaft “Pull-Systeme” – Dipl.-Ing. O. Völker und Dipl.-Ing. S. Binner
Einleitung „Push“ und „Pull“
In OutBestand in der Fertigung
Ziehlogik (PullZiehlogik (Pull--Prinzip)Prinzip)
Bestand in der Fertigung
In Out
Schiebelogik (PushSchiebelogik (Push--Prinzip)Prinzip)
Bekannte Anforderungen
Geringe Personalisierung
Skaleneffekte
Gleichförmige Produktion
Geringe Änderungskosten
Geringe Vorbereitungszeit
Variable Anforderungen
Hohe Personalisierung
Geringer Verkaufsaufwand
Variabilität in der
Produktion
Hohe Anpassungskosten
Größere Vorbereitungszeit
Push Pull
Informationen liefern
Push-Versus-Pull
Informationen liefern
Prozessunterscheidung nach Entwicklungsstil
Systematisch
• Nutzer und Entwickler sind getrennt
• Fokus auf Kontrolle und Compliance
• Fokus auf Non-Functionals
• Zentrale, unternehmensweite Informationsobjekte
Opportunistisch
• Nutzer und Entwickler sind eng verbunden
• Offensive Governance – Fokus auf Agilität und Anpassbarkeit
• dezentralisierte Informationsobjekte
• Deployment direkt in Produktion
Development Style
I
• Facts
• Datenmodell
II
• Context
• Taxanomie
• Ad-Hoc Abfragen
• Geschäftsregel
III
• Shadow IT
• Incubation
• Ad-hoc
• Once off
IV
• Research
• Innovation
• Design
Pull / Demand / Product drivenPush / Supply / Source driven
Push/Pull Point
Development Style
SystematicOpportunistic
Informationen liefern
Datenquadrant im Datenmanagement
Ronald Damhof, 4 Quadrant Model for Data Deployment, http://www.b-eye-network.com/blogs/damhof/archives/2013/08/4_quadrant_mode.php
I
• Single Version of
Facts
II
• Multiple Versions of
Truth
III
• Single
Sources
IV
• All Data
MPP
Automatisierung
des DWH mit
DataVault
Enterprise Information
Products
Reports
Predictive Analytics
Adhoc-Queries
DWH Mart
Methoden
Datenmanagement
Data LakeInput
ComplicatedSimple
Chaotic
Analytics, Innovations
Data Science
Data Mining
Machine Learning
Alle Daten
Complex
I
• Single Version of
Facts
II
• Multiple Versions of
Truth
III
• Single
Sources
IV
• All Data
MPP
Enterprise Information
Products
Reports
Predictive Analytics
Adhoc-Queries
DWH Mart
Analytics, Innovations
Data Science
Data Mining
Machine Learning
Alle Daten
Governance
Im Datenquadranten
Data Lake
- Kontrolle und Verantwortung liegt beim
jeweiligen Anwender
- Hohe Freiheitsgrade ermöglichen Innovation
BI Governance
Metadaten
agenda
• Big Data
• OpenDMA Strategie
• OpenDMA – Automation, DataVault und Architektur
 Datenmanagement Plattform
DataVault Architektur und Modellierung
MPP Datenhaltung für strukturierte und unstrukturierte Daten
Datenverarbeitung mit linearer Skalierung
 Werkzeug zur schnellen Entwicklung
Automatisierung der Data Warehouse Entwicklung
basierend auf Datenmodell und Metadaten
Ermöglicht Rapid Prototyping
 ELT oder ETL Generator
generiert SQL und DDL
oder auch ETL basierend auf Templates
unterstützt RDBMS und Hive (auf Hadoop)
 Architekturvorgaben
Die Einhaltung des Regelwerks gewährleistet eine lineare Skalierung
Single Version of Facts – Multiple Versions of the Truth
Multiple Timelines - Temporalität
Open Data Management Automation
Was ist OpenDMA?
 Nicht-Destruktive Datenmodellierung
 Konsistente Kosten für Anpassungen
 Automatisierung durch wiederholbare Muster
 Implementierung in NoSQL, RDBMS und hybrid
möglich
 100% Tatsachen (anstatt von „Golden Record“,
„One Version of The Truth“), ermöglicht:
Gap Analyse, Auditing und Data Lineage
 Separation of Concerns
Kontext, Konzept, Logisch, Physisch
Bill Inmon sagt:
"the Data Vault is the optimal choice for modeling the EDW in the DW 2.0
framework."
OpenDMA
DataVault 2.0 Vorteile
Bill Inmon, Dan Linstedt, “Data Architecture: A Primer for the Data Scientist” ,
Elsevier, Morgan Kaufman 2015
Data Vault Benefits
Entire UDT DataVault Model
Typical OLTP Data Model
OpenDMA
DataVault 2.0 Vorteile
Bsam Bendayan and Mary Mink, Ultimate Software 2015, Presented at
WWDVC 2015
OpenDMA
Unser Stack
 OpenDMA Automation
basiert auf OpenSource, beschleunigt die Entwicklung von Datenmanagement Prozessen
benötigt kein ETL-Werkzeug, unterstützt aber die gängigsten auf dem Markt
 Methoden und Vorgehensweisen
schnelle Implementierung neuer Geschäftsregeln
Basis ist Data Vault 2.0  volle Nachvollziehbarkeit und Integration von strukturierten und unstrukturierten
Daten
 Lineare Skalierung
läuft auf sogenannten Commodity-Hardware Knoten
Verdopplung der Knoten halbiert die Laufzeit
sowohl für unstrukturierte als auch strukturierte Daten
 Cloud-fähigkeit steht an erster Stelle
einfache Implementierung und Unterstützung von DevOps
OpenDMA
Die wichtigsten Vorteile
 Im Zeitalter von BigData und MPP gilt: ETL ist tot, es lebe SQL
Die Verarbeitung der Daten wird mehr und mehr in der Datenbank stattfinden müssen, da die
Datenmengen die für die Verarbeitung notwendig sind nicht mehr transportierbar sind. Die aktuellsten
Entwicklungen in Hadoop setzen auf SQL als Schnittstelle zu Daten im HDFS.
 Automatisierung ist der nächste große Trend
Durch moderne Methoden der Datenmodellierung und Datenmodelltransformation lassen sich weite Teile
des klassischen DWH automatisieren.
 Das klassische DWH und BigData sind komplementäre
Infrastrukturkomponenten
Data Lake, Enterprise Hub & Co. sind Bestandteile einer Dateninfrastruktur, können aber nicht die
kompletten Architekturanforderungen abdecken. MPP gilt auch für klassisch modellierte RDBMS. Über
DataVault 2.0 lässt sich das DWH mit unstrukturierten Daten verbinden.
 OpenDMA: Cloud-First und Automatisierung der Datenintegration
Niedrige Einstiegsbarrieren
schneller ROI
Takeaway
zentrale:
marktplatz 3
82031 grünwald
tel: 089 939451- 0
fax: 089 939451- 59
www.oss.de
Vielen Dank
SQL
SQL
 SQL in Hadoop minimiert die Programmierung
 Lambda Architektur erhöht Reproduzierbarkeit durch Reduktion der Komplexität
 Erweiterung um Real-Time Anforderung – allerdings auch mit API (Storm)
 Caching durch Kylin OLAP-Komponente
 In RDBMS wird SQL verarbeitet, das eine hohe Akzeptanz und Verbreitung hat
BigData
Lambda im OpenDMA
HDP
OpenDMA
Ein Use Case
CSV-Strom
Postgres
XL
OpenDMA
CSV
Streaming
Stundenprotokoll
Batch Vortagesaktuell
angereichert
DV Mart
OpenDMA verbindet die Welten
DataVault 2.0 Architektur
Bill Inmon, Dan Linstedt, “Data Architecture: A Primer for the Data Scientist” ,
Elsevier, Morgan Kaufman 2015
OpenDMA
Logical Data Warehouse Model – Separation of Concerns
- Corporate Overview: Context
- Top management view of the world, sketch environment
- What are the most important kinds of data
- Global things of significance, many-2-many relationships
- About dozen boxes
- “Environment Model”
- Conceptual
- complete, detailed description
- Business terms, concepts, one-to-many relationships represent assertions
- Moderate attributes
- Technology independent model
- Semantic
- Language as used, vehicle for identifying semantic conflicts
- divergent
- Architectural
- More abstract, convergent model
- Logical
- Particular data management technological
- Relational, hierarchical legs, network edges, object oriented, xml tags
- Implementation with technological twists
- Relational: foreign key and primary keys
- Path direction in object models
- Platform specific model
- Physical
- Physical storage
- Discrete physical databases
- Partitions
- Tablespaces
- Etc
- Vendor platform specific model

OpenDMA - Daten Management Solution

  • 2.
    Open Data ManagementAutomation (OpenDMA) Eine moderne Datenmanagement Plattform für Ihr Data Warehouse und Ihre Big Data Analysen Torsten Glunde, Juni 2015
  • 3.
    agenda • Big Data •OpenDMA Strategie • OpenDMA – Automation, DataVault und Architektur
  • 4.
     Industrie 4.0Automation von Industrieprozessen, Vernetzung der Maschinen (Internet of Things)  Mobile Data Fitnessdaten, Apps, Shopping  Soziale Netzwerke & Co Facebook, Xing, LinkedIn, WhatsApp, Twitter, Tumblr, About.com, Blog  BigData Volume+Velocity+Variety, Strukturierte und Unstrukturierte Daten, MPP, Analytics  Datenstrategie, das daten-getriebene Unternehmen  RDBMS ist nicht für solche Datenmengen und nicht-strukturierte Daten ausgelegt  Prozesse müssen schneller werden, gleichzeitig aber auch flexibler und anpassungsfähiger BigData Datentreiber
  • 5.
    BigData Implementierung • Roman CensusMethod, MPP www.thedatascienceinstitute.com/big-data-and-the-roman-census-approach/ • MPP ermöglicht lineare Skalierung • Prozessierung wandert zu den Daten (im Gegensatz zu ETL) • Hadoop, HDFS • Speichert binäre Datenblöcke ohne interne Strukturen • Kein ACID, kein UPDATE, INSERT ONLY • Fail-over durch Duplizierung jedes Datenblockes • Structure on Read (vs. Structure on Write) • Unstrukturierte oder semi-strukturierte Daten können gespeichert werden • Ermöglicht die Speicherung von großen Datenmengen • Dateninhalte müssen vor Verarbeitung geparsed werden • Flexibel, da bestehende Datenstrukturen nicht angepasst werden müssen Bill Inmon, Dan Linstedt, “Data Architecture: A Primer for the Data Scientist” , Elsevier, Morgan Kaufman 2015
  • 6.
    BigData Lambda Architektur istBestandteil von OpenDMA Die Lambda Architektur besteht aus 3 Komponenten Batch layer • Verwaltet den Master Datensatz, ein immutable, append-only Rohdaten Speicher • persistente batch views zur Abfrage die vorberechnet werden Serving layer Dieser Layer indiziert die Batch Views, damit sie in niedriger Latenz abgefragt werden können Speed layer Real-time bzw. Near-Realtime Anfragen werden hier mit Streaming Mitteln beantwortet. Schnelle, inkrementelle Algorithmen werden hier verwendet. Nur die aktuellsten Daten werden hier verarbeitet. Michael Hausenblas, Chief Engeneer MapR, Lambda Architecture, https://www.mapr.com/fr/developercentral/lambda-architecture Nathan Marz – Big Data Principles and Practices of Scalable realtime data systems http://www.manning.com/marz/
  • 7.
     Verarbeitung gehtzu den Daten  Distribution der Daten  MPP ist unabhängig von der Speicherhaltung der Daten  Strukturiert,Relational  optimiertes, random Lesen per SQL  ABER: modellierte,kontrollierte Daten  Unstrukturiert, Ohne Schema  optimiertes Schreiben,lesen per SQL, aber nur sequentiell optimiert  Unstrukturierte Speicherung bedingt immer noch viel Programmierung – SQL ist aber zukünftig gesetzt • Speicherung und Pflege der Daten ist strukturiert teurer als unstrukturiert • Automatisierung mittels DataVault vermindertdie Kosten für strukturierte Datenhaltung • Sub-second Antwortzeiten nur mit schema-basierten Datenstrukturen möglich BigData MPP
  • 8.
     Eignet sichzur Datenaufnahme im Datenmanagement, da es große Datenmengen sicher und redundant speichern kann  Eignet sich zur Transformation von großen Datenmengen, da über MPP linear skaliert werden kann - wie zu statistischen Analysen ABER:  Transformationen werden in Hadoop programmiert (Java, Scala, …)  Reproduzierbarkeit schwierig zu gewährleisten, wenn Strukturen unbekannt und veränderlich sind  Ursprünglich ist Hadoop eine reine BATCH-Architektur – keine Adhoc-Abfragen  Häufig werden Daten in Hadoop verarbeitet, die mit MPP-fähigen RDBMS schneller verarbeitet werden können (In-Memory Technologie)  In RDBMS wird SQL verarbeitet, das eine hohe Akzeptanz und Verbreitung hat  BigData = MPP , BigData != NoSQL , BigData Maybe SQL BigData Unverzichtbare Komponente, aber kein Allheilmittel
  • 9.
    agenda • Big Data •OpenDMA Strategie • OpenDMA – Automation, DataVault und Architektur
  • 10.
    Strategie Ziele und Vorhaben Datenmanagement Systemeund Applikationen Network / Infrastructure Strategie Ziele und Vorhaben Systeme und Applikationen Network / Infrastructure Datenmanagement Datengetrieben Applikationsgetrieben OpenDMA Strategie
  • 11.
    Personen und Organisation Geschäftsprozesse Zieleund Vorhaben Technologie Technology Assets Datenmanagement Daten Assets Informiert ErstelltKontext Datengetriebenes Unternehmen Strategie
  • 12.
  • 13.
    Informationen liefern Prozesskette imDatenmanagement Rohdaten Geschäftsregeln Historisierung Standard Regelwerk Berechnung
  • 14.
    Informationen liefern Push-Versus-Pull 3FolieFolieAWF Arbeitsgemeinschaft“Pull-Systeme” – Dipl.-Ing. O. Völker und Dipl.-Ing. S. Binner Einleitung „Push“ und „Pull“ In OutBestand in der Fertigung Ziehlogik (PullZiehlogik (Pull--Prinzip)Prinzip) Bestand in der Fertigung In Out Schiebelogik (PushSchiebelogik (Push--Prinzip)Prinzip)
  • 15.
    Bekannte Anforderungen Geringe Personalisierung Skaleneffekte GleichförmigeProduktion Geringe Änderungskosten Geringe Vorbereitungszeit Variable Anforderungen Hohe Personalisierung Geringer Verkaufsaufwand Variabilität in der Produktion Hohe Anpassungskosten Größere Vorbereitungszeit Push Pull Informationen liefern Push-Versus-Pull
  • 16.
    Informationen liefern Prozessunterscheidung nachEntwicklungsstil Systematisch • Nutzer und Entwickler sind getrennt • Fokus auf Kontrolle und Compliance • Fokus auf Non-Functionals • Zentrale, unternehmensweite Informationsobjekte Opportunistisch • Nutzer und Entwickler sind eng verbunden • Offensive Governance – Fokus auf Agilität und Anpassbarkeit • dezentralisierte Informationsobjekte • Deployment direkt in Produktion Development Style
  • 17.
    I • Facts • Datenmodell II •Context • Taxanomie • Ad-Hoc Abfragen • Geschäftsregel III • Shadow IT • Incubation • Ad-hoc • Once off IV • Research • Innovation • Design Pull / Demand / Product drivenPush / Supply / Source driven Push/Pull Point Development Style SystematicOpportunistic Informationen liefern Datenquadrant im Datenmanagement Ronald Damhof, 4 Quadrant Model for Data Deployment, http://www.b-eye-network.com/blogs/damhof/archives/2013/08/4_quadrant_mode.php
  • 18.
    I • Single Versionof Facts II • Multiple Versions of Truth III • Single Sources IV • All Data MPP Automatisierung des DWH mit DataVault Enterprise Information Products Reports Predictive Analytics Adhoc-Queries DWH Mart Methoden Datenmanagement Data LakeInput ComplicatedSimple Chaotic Analytics, Innovations Data Science Data Mining Machine Learning Alle Daten Complex
  • 19.
    I • Single Versionof Facts II • Multiple Versions of Truth III • Single Sources IV • All Data MPP Enterprise Information Products Reports Predictive Analytics Adhoc-Queries DWH Mart Analytics, Innovations Data Science Data Mining Machine Learning Alle Daten Governance Im Datenquadranten Data Lake - Kontrolle und Verantwortung liegt beim jeweiligen Anwender - Hohe Freiheitsgrade ermöglichen Innovation BI Governance Metadaten
  • 20.
    agenda • Big Data •OpenDMA Strategie • OpenDMA – Automation, DataVault und Architektur
  • 21.
     Datenmanagement Plattform DataVaultArchitektur und Modellierung MPP Datenhaltung für strukturierte und unstrukturierte Daten Datenverarbeitung mit linearer Skalierung  Werkzeug zur schnellen Entwicklung Automatisierung der Data Warehouse Entwicklung basierend auf Datenmodell und Metadaten Ermöglicht Rapid Prototyping  ELT oder ETL Generator generiert SQL und DDL oder auch ETL basierend auf Templates unterstützt RDBMS und Hive (auf Hadoop)  Architekturvorgaben Die Einhaltung des Regelwerks gewährleistet eine lineare Skalierung Single Version of Facts – Multiple Versions of the Truth Multiple Timelines - Temporalität Open Data Management Automation Was ist OpenDMA?
  • 22.
     Nicht-Destruktive Datenmodellierung Konsistente Kosten für Anpassungen  Automatisierung durch wiederholbare Muster  Implementierung in NoSQL, RDBMS und hybrid möglich  100% Tatsachen (anstatt von „Golden Record“, „One Version of The Truth“), ermöglicht: Gap Analyse, Auditing und Data Lineage  Separation of Concerns Kontext, Konzept, Logisch, Physisch Bill Inmon sagt: "the Data Vault is the optimal choice for modeling the EDW in the DW 2.0 framework." OpenDMA DataVault 2.0 Vorteile Bill Inmon, Dan Linstedt, “Data Architecture: A Primer for the Data Scientist” , Elsevier, Morgan Kaufman 2015
  • 23.
    Data Vault Benefits EntireUDT DataVault Model Typical OLTP Data Model OpenDMA DataVault 2.0 Vorteile Bsam Bendayan and Mary Mink, Ultimate Software 2015, Presented at WWDVC 2015
  • 24.
  • 25.
     OpenDMA Automation basiertauf OpenSource, beschleunigt die Entwicklung von Datenmanagement Prozessen benötigt kein ETL-Werkzeug, unterstützt aber die gängigsten auf dem Markt  Methoden und Vorgehensweisen schnelle Implementierung neuer Geschäftsregeln Basis ist Data Vault 2.0  volle Nachvollziehbarkeit und Integration von strukturierten und unstrukturierten Daten  Lineare Skalierung läuft auf sogenannten Commodity-Hardware Knoten Verdopplung der Knoten halbiert die Laufzeit sowohl für unstrukturierte als auch strukturierte Daten  Cloud-fähigkeit steht an erster Stelle einfache Implementierung und Unterstützung von DevOps OpenDMA Die wichtigsten Vorteile
  • 26.
     Im Zeitaltervon BigData und MPP gilt: ETL ist tot, es lebe SQL Die Verarbeitung der Daten wird mehr und mehr in der Datenbank stattfinden müssen, da die Datenmengen die für die Verarbeitung notwendig sind nicht mehr transportierbar sind. Die aktuellsten Entwicklungen in Hadoop setzen auf SQL als Schnittstelle zu Daten im HDFS.  Automatisierung ist der nächste große Trend Durch moderne Methoden der Datenmodellierung und Datenmodelltransformation lassen sich weite Teile des klassischen DWH automatisieren.  Das klassische DWH und BigData sind komplementäre Infrastrukturkomponenten Data Lake, Enterprise Hub & Co. sind Bestandteile einer Dateninfrastruktur, können aber nicht die kompletten Architekturanforderungen abdecken. MPP gilt auch für klassisch modellierte RDBMS. Über DataVault 2.0 lässt sich das DWH mit unstrukturierten Daten verbinden.  OpenDMA: Cloud-First und Automatisierung der Datenintegration Niedrige Einstiegsbarrieren schneller ROI Takeaway
  • 27.
    zentrale: marktplatz 3 82031 grünwald tel:089 939451- 0 fax: 089 939451- 59 www.oss.de Vielen Dank
  • 28.
    SQL SQL  SQL inHadoop minimiert die Programmierung  Lambda Architektur erhöht Reproduzierbarkeit durch Reduktion der Komplexität  Erweiterung um Real-Time Anforderung – allerdings auch mit API (Storm)  Caching durch Kylin OLAP-Komponente  In RDBMS wird SQL verarbeitet, das eine hohe Akzeptanz und Verbreitung hat BigData Lambda im OpenDMA
  • 29.
  • 30.
    OpenDMA verbindet dieWelten DataVault 2.0 Architektur Bill Inmon, Dan Linstedt, “Data Architecture: A Primer for the Data Scientist” , Elsevier, Morgan Kaufman 2015
  • 31.
    OpenDMA Logical Data WarehouseModel – Separation of Concerns - Corporate Overview: Context - Top management view of the world, sketch environment - What are the most important kinds of data - Global things of significance, many-2-many relationships - About dozen boxes - “Environment Model” - Conceptual - complete, detailed description - Business terms, concepts, one-to-many relationships represent assertions - Moderate attributes - Technology independent model - Semantic - Language as used, vehicle for identifying semantic conflicts - divergent - Architectural - More abstract, convergent model - Logical - Particular data management technological - Relational, hierarchical legs, network edges, object oriented, xml tags - Implementation with technological twists - Relational: foreign key and primary keys - Path direction in object models - Platform specific model - Physical - Physical storage - Discrete physical databases - Partitions - Tablespaces - Etc - Vendor platform specific model