SlideShare ist ein Scribd-Unternehmen logo
1 von 40
Downloaden Sie, um offline zu lesen
Abteilung / Bereich / Datum (Tag.Monat.Jahr)
Lambda Architektur für BigData-Projekte
Analytics
Andreas Buckenhofer, 19.11.2014
2 Daimler TSS/About me
Zur Person
Andreas Buckenhofer, Senior DB Professional
Seit 2009 bei Daimler TSS im Fachgebiet
Data Warehouse & Data Integration (Cognos/Informatica)
Schwerpunkt DWH/CRM seit 1998
• Entwickler
• Administrator
• Berater
TSS Unternehmenspräsentation / Mai 2013 / V8.0
Unternehmensüberblick
Unsere Geschäftsfelder
3
Kundenspezifische
Individual- und
Standardlösungen für
alle Konzernbereiche.
Leistungen auf Basis
von Konzern- und
Industriestandards:
schnell, flexibel und
kosteneffizient.
Know-how und
Kapazitäten in den
Disziplinen Technologie,
Strategie, Methodik,
Prozesssteuerung und
-qualität sowie
Sicherheit.
Softwarelösungen,
Infrastrukturen und
Dienstleistungen für
Händlerbetriebe
werden durch unsere
100% Tochtergesell-
schaft Daimler IT
Retail GmbH erbracht.
Solutions Consulting IT RetailServices
Daimler TSS / Lambda Architektur / 19.11.2014 4
1. Motivation Lambda Architektur
2. Batch-Layer
3. Speed-Layer
4. Serving-Layer
5. Zusammenfassung
Lambda Architektur für BigData-Projekte
Agenda
Daimler TSS / Lambda Architektur / 19.11.2014 5
… ist eine neue abstrakte Architektur für ‘Realtime Big Data“
Ziel dieser Präsentation:
• Vorstellung dieser Architektur und einer möglichen Umsetzung mit Hadoop
Stack
• Konzept/Methode wichtiger als Tools
„Wer die Anforderungen versteht, weiß welches der vielen Tools geeignet ist“
• Datenmodellierung inkl. Serialisierung und Schema ist auch für BigData
relevant
Motivation Lambda Architektur
Ziel der Präsentation
Daimler TSS / Lambda Architektur / 19.11.2014 6
• Entwickelt von Nathan Marz
(früher bei Twitter)
Motivation Lambda Architektur
Quelle
Daimler TSS / Lambda Architektur / 19.11.2014 7
• Robust und fehlertolerant (HW Fehler, SW Fehler, Operationale Fehler)
• Lese- und Schreibzugriffe mit niedriger Latenzzeit
• Skalierbar
• Allgemein verwendbar (unterstützt viele Anwendungen)
• Erweiterbar (flexibel bei Änderungen)
• Ermöglicht Ad-hoc Abfragen
• Minimale Wartung
• Debugging möglich
Motivation Lambda Architektur
Eigenschaften eines Big Data Systems
Daimler TSS / Lambda Architektur / 19.11.2014 8
“Raw data”: atomare Daten, z.B. Events.
• Alle Daten werden gespeichert
• Daten werden nicht geändert
• Daten sind zeitbasiert
• Daten sind eindeutig
“Derived data”: Daten bzw Informationen, die abgeleitet sind.
• Transformationen
• Aggregationen
Motivation Lambda Architektur
Data as new oil
Daimler TSS / Lambda Architektur / 19.11.2014 9
Query = function ( all data )
Überblick Lambda Architektur
Abfragen
All
Data
Query
Precomputed
Performance
View
Daimler TSS / Lambda Architektur / 19.11.2014 10
Überblick Lambda Architektur
Übersicht
Batch Layer
All Data
Speed Layer
RealTime Views
Serving Layer
Batch Views
Query
(merge)
Data Stream
Daimler TSS / Lambda Architektur / 19.11.2014 11
Preventive Maintenance, z.B.: Leistungs- und Zustandsdaten überwachen,
Aktuelle Verschleißprognose, Abweichung vom Normalverhalten, Anomalien
• Produktionssteuerungen liefern Events (Meßdaten)
• Vorgabe: Zusammenführung/Speicherung in Hadoop (Hortonworks)
• Analyse, Monitoring und Reporting der Daten
• Viele Auswertungen sind nicht zeitkritisch (kein Bedarf für
Realtime/Rightime)
• Jedoch einige kritische Advanced Analytics Auswertungen (RightTime,
Streaming)
Überblick Lambda Architektur
Use Case
Daimler TSS / Lambda Architektur / 19.11.2014 12
Überblick Lambda Architektur
Use Case - JSON
Daimler TSS / Lambda Architektur / 19.11.2014 13
1. Motivation Lambda Architektur
2. Batch-Layer
3. Speed-Layer
4. Serving-Layer
5. Zusammenfassung
Lambda Architektur für BigData-Projekte
Agenda
Daimler TSS / Lambda Architektur / 19.11.2014 14
Überblick Lambda Architektur
Übersicht
Batch Layer
All Data
Speed Layer
RealTime Views
Serving Layer
Batch Views
Query
(merge)
Data Stream
Daimler TSS / Lambda Architektur / 19.11.2014 15
Speichert „Master Dataset“ (unveränderliche, ständig wachsende Daten)
• damit zukünftige Fragen beantwortet werden können, da die gesamte Historie
vorliegt
• bei neuen Algorithmen Neuberechnungen durchgeführt werden können
Berechnet beliebige Batch Views (ständige Neuberechnung)
Batch Layer
Eigenschaften
Daimler TSS / Lambda Architektur / 19.11.2014 16
“My own personal opinion is that data analysis is much less important than
data re-analysis. It’s hard for a data team to get things right on the very first try,
and the team shouldn’t be faulted for their honest efforts. When everything is
available for review, and when more data is added over time, you’ll increase your
chances of converging to someplace near the truth.”–Jules J. Berman.
http://www.odbms.org/blog/2014/07/big-data-science-interview-jules-j-
berman/
Batch-Layer
Analytics vs Re-Analytics
Daimler TSS / Lambda Architektur / 19.11.2014 17
Hadoop HDFS
Hadoop MapReduce
Hadoop Hive
Batch Layer
Tools
Batch Layer
Masterdatensatz
• Atomare, unveränderliche Daten: CR(D) statt CRUD
• Create: Einmalige Anlage eines Datensatzes inkl. Zeitstempel
• Read: Lesen des Datensatzes beliebig oft
• Delete: Löschen von Daten nur in bestimmten Situationen: Einhaltung
gesetzlicher Vorgaben oder Entfernung der Daten nach 8/10/? Jahren
(Löschen z.B. mit Hilfe geeigneter Partitionierung)
• “Normalisierte” Speicherung der Daten
• Keine Redundanz notwendig
• Möglich: Speicherung z.B. als SAT-Tabelle und “Kombination” mit RDBMS
(Data Vault 2.0)
Daimler TSS / Lambda Architektur / 19.11.2014 18
Daimler TSS / Lambda Architektur / 19.11.2014 19
Events liegen i.d.R. als textähnliche Strukturen vor (JSON, CSV, u.ä.)
• sehr flexibel, aber langsam und speicherintensiv
Batch Layer
Serialisierung und Schema 1(3)
Daimler TSS / Lambda Architektur / 19.11.2014 20
JSON, CSV, etc sind fehleranfällig
keine Validierung während dem Schreiben
schema-on-write vs schema-on-read
Mehrwert von Schemata
• Strukturelle Integrität
• Verhindert Korruption
• Frühzeitige Erkennung von Fehlern
Batch Layer
Serialisierung und Schema 2(3)
Daimler TSS / Lambda Architektur / 19.11.2014 21
Zur Abspeicherung des Masterdatensätzes ist ein Format mit Schema sinnvoll
Quelle: Holmes - Hadoop in Practice - Manning 2014
Batch Layer
Serialisierung und Schema 3(3)
Daimler TSS / Lambda Architektur / 19.11.2014 22
1. Motivation Lambda Architektur
2. Batch-Layer
3. Speed-Layer
4. Serving-Layer
5. Zusammenfassung
Lambda Architektur für BigData-Projekte
Agenda
Daimler TSS / Lambda Architektur / 19.11.2014 23
Überblick Lambda Architektur
Übersicht
Batch Layer
All Data
Speed Layer
RealTime Views
Serving Layer
Batch Views
Query
(merge)
Data Stream
Daimler TSS / Lambda Architektur / 19.11.2014 24
Berechnet Realtime-Views inkrementell auf Daten, die noch nicht als Batch-Views
vorliegen.
Bereits berechnete Realtime-Views werden verworfen sobald die Daten auch
durch Batch-Views verfügbar sind.
Speed Layer ist komplexer, schneller und Daten in den Realtime-Views sind nur
temporär.
Speed Layer
Eigenschaften
Daimler TSS / Lambda Architektur / 19.11.2014 25
Verarbeitung
• Kontinuierliche Verarbeitung von Datenströmen
Speicherung
• Speicherung der Ergebnisse in einem eingeschränkten Zeitraum (wahrlfreies
Schreiben und Lesen)
• Keine Speicherung der Rohdaten (raw data), da im Batch Layer vorhanden
Speed Layer
Komponenten
Daimler TSS / Lambda Architektur / 19.11.2014 26
Verarbeitung
• Storm
• zukünftig ggf. Spark Streaming
Speicherung
• HBase, Cassandra
• ElasticSearch
• zukünftig ggf. Spark
Sowie zur Anlieferung der Daten: Kafka, MQ
Speed Layer
Tools
Daimler TSS / Lambda Architektur / 19.11.2014 27
1. Motivation Lambda Architektur
2. Batch-Layer
3. Speed-Layer
4. Serving-Layer
5. Zusammenfassung
Lambda Architektur für BigData-Projekte
Agenda
Daimler TSS / Lambda Architektur / 19.11.2014 28
Überblick Lambda Architektur
Übersicht
Batch Layer
All Data
Speed Layer
RealTime Views
Serving Layer
Batch Views
Query
(merge)
Data Stream
Daimler TSS / Lambda Architektur / 19.11.2014 29
Vorausberechnung von Sichten durch Batch-Layer
• Schnelle Datenzugriffe: wahlfreier Zugriff (Random Reads) auf Batch Views
inkl. Indexierung
• Neuberechnung der Batch Views aus allen Daten und keine inkrementelle
Berechnung
Abweichungen möglich, z.B. durch geeignete Partitionierung
• Datenhaltung / Datenmodellierung optimiert für Analysetool
Serving Layer
Eigenschaften
Daimler TSS / Lambda Architektur / 19.11.2014 30
Abfragen kombinieren Batch-Views und Realtime-Views
• Berechnung von Durchschnittswerten
• Identifikation von Anomalien
Serving Layer
Herausforderungen
?
Daimler TSS / Lambda Architektur / 19.11.2014 31
Elephant-DB
Hbase, Cassandra
Serving Layer
Tools
Daimler TSS / Lambda Architektur / 19.11.2014 32
1. Motivation Lambda Architektur
2. Batch-Layer
3. Speed-Layer
4. Serving-Layer
5. Zusammenfassung
Lambda Architektur für BigData-Projekte
Agenda
Daimler TSS / Lambda Architektur / 19.11.2014 33
• Systematischer, strukturierter Ansatz
• Fokus nicht nur auf Tools, sondern auf Methoden/Verfahren
• Herausstellung unveränderlicher Masterdatensatz
Zusammenfassung
Vorteile
Daimler TSS / Lambda Architektur / 19.11.2014 34
• Lambda-Architektur erfordert mehrere/viele Technologien
• Hoher Aufwand zur Wartung des Codes (Batch und Streaming)
• Komplex, da viele Tools und Programmiersprachen
• Nathan Marz stellt viele Tools vor, die nicht Bestandteil eines verfügbaren
Tools-Stacks sind bzw entwickelt eigene Tools (Elephant-DB, Pail, u.a.)
Zusammenfassung
Nachteile
Daimler TSS / Lambda Architektur / 19.11.2014 35
Überblick Lambda Architektur
Use Case - Tools
Batch Layer
All Data
Speed Layer
RealTime Views
Serving Layer
Batch Views
Query
(merge)
Data Stream
Daimler TSS / Lambda Architektur / 19.11.2014 36
• Hinterfragen der Anforderungen. Nicht immer Realtime nötig. Oft reicht Batch-
Layer aus.
• Keine BigData-Technologie löst alle Probleme gleich gut
• Lambda Architektur ist ein möglicher, komplexer Ansatz. Alternativen, z.B.
KAPPA (Jay Kreps)
• Beschränkung auf wenige Tools (z.B. eine DB für Speed und Serving Layer).
Verfügbarer Hadoop Stack von Hortonworks enthält alle nötigen
Komponenten (HDFS, Storm, HBASE). Andere Stacks, z.B. Cloudera auch
nahezu komplett.
• Sensoren werden immer leistungsfähiger und übernehmen zunehmend
Aufgaben eines Speed Layers
Zusammenfassung
Use Case - KISS
Daimler TSS / Lambda Architektur / 19.11.2014 37
Vielen Dank!
Daimler TSS GmbH
Wilhelm-Runge-Straße 11
89081 Ulm
Telefon +49 731 505-06
Fax +49 731 505-65 99
tss@daimler.com
Internet: www.daimler-tss.com
Intranet: intra.corpintra.net/intra-itc/tss
Intranet-Portal-Code: @TSS
Daimler TSS GmbH
Sitz und Registergericht: Ulm, HRB-Nr.: 3844
Geschäftsführung: Dr. Stefan Eberhardt (Vorsitzender), Steffen Bäuerle
Daimler TSS / Lambda Architektur / 19.11.2014 38
JSON&Co sehr flexibel, aber langsame Verarbeitung und schlechte Komprimierung.
Batch-Layer
Speicherung der Daten in „normalisierter“ Form unter Verwendung von
z.B. Avro, ORCfile, Parquet
Speed-Layer
Verarbeitung der Rohdaten
Speicherung der Ergebnisse optimiert für Abfragen
Serving Layer
Speicherung der Ergebnisse optimiert für Abfragen
Zusammenfassung
Datenmodellierung auch für BigData 1(2)
Daimler TSS / Lambda Architektur / 19.11.2014 39
Datenmodellierung auch im Hadoop bzw NoSQL-Umfeld wichtig
• Performanz zu garantieren
• Entwicklung beschleunigen
• Qualität des Produkt verbessern
• Wartungskosten reduzieren
• gemeinsames Verständnis fördern
“Data modeling is the process of learning about the data, and regardless of
technology, this process must be performed for a successful application.”
Steve Hoberman: Data Modeling for Mongo DB, Technics Publications 2014
Zusammenfassung
Datenmodellierung auch für BigData 2(2)
Lambda-Architektur
Literaturhinweise
Daimler TSS / Lambda Architektur / 19.11.2014 40
http://radar.oreilly.com/2014/07/questioning-the-lambda-architecture.html
http://lambda-architecture.net/
http://techblog.netflix.com/2013/12/announcing-suro-backbone-of-netflixs.html

Weitere ähnliche Inhalte

Was ist angesagt?

Beyond SAP - Effektive Nutzung von Business Content durch In-Memory-OLAP und ...
Beyond SAP - Effektive Nutzung von Business Content durch In-Memory-OLAP und ...Beyond SAP - Effektive Nutzung von Business Content durch In-Memory-OLAP und ...
Beyond SAP - Effektive Nutzung von Business Content durch In-Memory-OLAP und ...Business Intelligence Research
 
Wie modelliere ich mein Core DWH?
Wie modelliere ich mein Core DWH?Wie modelliere ich mein Core DWH?
Wie modelliere ich mein Core DWH?Trivadis
 
Data Warehouse (DWH) with MySQL
Data Warehouse (DWH) with MySQLData Warehouse (DWH) with MySQL
Data Warehouse (DWH) with MySQLFromDual GmbH
 
04 Datenintegration und Verwaltung
04 Datenintegration und Verwaltung04 Datenintegration und Verwaltung
04 Datenintegration und Verwaltungklickandbau
 
Agiles Data Mining mit Data Vault 2.0
Agiles Data Mining mit Data Vault 2.0Agiles Data Mining mit Data Vault 2.0
Agiles Data Mining mit Data Vault 2.0Michael Olschimke
 
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTiggesDas modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTiggesOPITZ CONSULTING Deutschland
 
Data Quadrant - Daten Management Methode
Data Quadrant - Daten Management MethodeData Quadrant - Daten Management Methode
Data Quadrant - Daten Management MethodeTorsten Glunde
 
Oracle ETL Herausforderungen - OPITZ CONSULTING - Till Sander - Wolfgang Rütter
Oracle ETL Herausforderungen - OPITZ CONSULTING - Till Sander - Wolfgang RütterOracle ETL Herausforderungen - OPITZ CONSULTING - Till Sander - Wolfgang Rütter
Oracle ETL Herausforderungen - OPITZ CONSULTING - Till Sander - Wolfgang RütterOPITZ CONSULTING Deutschland
 
SAP HANA, Power Pivot, SQL Server – In-memory-Technologien im Vergleich
SAP HANA, Power Pivot, SQL Server – In-memory-Technologien im VergleichSAP HANA, Power Pivot, SQL Server – In-memory-Technologien im Vergleich
SAP HANA, Power Pivot, SQL Server – In-memory-Technologien im VergleichMarcel Franke
 
In Memory-Technologien im Vergleich - SQL Server Konferenz 2015
In Memory-Technologien im Vergleich - SQL Server Konferenz 2015In Memory-Technologien im Vergleich - SQL Server Konferenz 2015
In Memory-Technologien im Vergleich - SQL Server Konferenz 2015Marcel Franke
 
DWH Modernisierung mit Data Lake, Lab und Governance
DWH Modernisierung mit Data Lake, Lab und GovernanceDWH Modernisierung mit Data Lake, Lab und Governance
DWH Modernisierung mit Data Lake, Lab und GovernanceOPITZ CONSULTING Deutschland
 
OpenDMA - Daten Management Solution
OpenDMA  - Daten Management SolutionOpenDMA  - Daten Management Solution
OpenDMA - Daten Management SolutionTorsten Glunde
 
2016 pcc presse_01_dcc_ferro_archivierung_ver04
2016 pcc presse_01_dcc_ferro_archivierung_ver042016 pcc presse_01_dcc_ferro_archivierung_ver04
2016 pcc presse_01_dcc_ferro_archivierung_ver04Ulrich Schmidt
 
Analytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und rAnalytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und rMarcel Franke
 
Geänderte Anforderungen an eine Data-Warehouse-Landschaft
Geänderte Anforderungen an eine Data-Warehouse-LandschaftGeänderte Anforderungen an eine Data-Warehouse-Landschaft
Geänderte Anforderungen an eine Data-Warehouse-LandschaftISR Information Products AG
 
Der HANA Effekt - Neue Möglichkeiten durch SAP's In-Memory Plattform
Der HANA Effekt - Neue Möglichkeiten durch SAP's In-Memory PlattformDer HANA Effekt - Neue Möglichkeiten durch SAP's In-Memory Plattform
Der HANA Effekt - Neue Möglichkeiten durch SAP's In-Memory PlattformDetlev Sandel
 
Data Vault Vor- und Nachteile
Data Vault Vor- und NachteileData Vault Vor- und Nachteile
Data Vault Vor- und NachteileTorsten Glunde
 

Was ist angesagt? (20)

Beyond SAP - Effektive Nutzung von Business Content durch In-Memory-OLAP und ...
Beyond SAP - Effektive Nutzung von Business Content durch In-Memory-OLAP und ...Beyond SAP - Effektive Nutzung von Business Content durch In-Memory-OLAP und ...
Beyond SAP - Effektive Nutzung von Business Content durch In-Memory-OLAP und ...
 
Agile Data Warehousing mit SAP BW/4HANA
Agile Data Warehousing mit SAP BW/4HANAAgile Data Warehousing mit SAP BW/4HANA
Agile Data Warehousing mit SAP BW/4HANA
 
Wie modelliere ich mein Core DWH?
Wie modelliere ich mein Core DWH?Wie modelliere ich mein Core DWH?
Wie modelliere ich mein Core DWH?
 
Data Warehouse (DWH) with MySQL
Data Warehouse (DWH) with MySQLData Warehouse (DWH) with MySQL
Data Warehouse (DWH) with MySQL
 
04 Datenintegration und Verwaltung
04 Datenintegration und Verwaltung04 Datenintegration und Verwaltung
04 Datenintegration und Verwaltung
 
Agiles Data Mining mit Data Vault 2.0
Agiles Data Mining mit Data Vault 2.0Agiles Data Mining mit Data Vault 2.0
Agiles Data Mining mit Data Vault 2.0
 
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTiggesDas modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
 
Data Quadrant - Daten Management Methode
Data Quadrant - Daten Management MethodeData Quadrant - Daten Management Methode
Data Quadrant - Daten Management Methode
 
Oracle ETL Herausforderungen - OPITZ CONSULTING - Till Sander - Wolfgang Rütter
Oracle ETL Herausforderungen - OPITZ CONSULTING - Till Sander - Wolfgang RütterOracle ETL Herausforderungen - OPITZ CONSULTING - Till Sander - Wolfgang Rütter
Oracle ETL Herausforderungen - OPITZ CONSULTING - Till Sander - Wolfgang Rütter
 
Moderne & flexible Architektur mit BW/4HANA
Moderne & flexible Architektur mit BW/4HANAModerne & flexible Architektur mit BW/4HANA
Moderne & flexible Architektur mit BW/4HANA
 
SAP HANA, Power Pivot, SQL Server – In-memory-Technologien im Vergleich
SAP HANA, Power Pivot, SQL Server – In-memory-Technologien im VergleichSAP HANA, Power Pivot, SQL Server – In-memory-Technologien im Vergleich
SAP HANA, Power Pivot, SQL Server – In-memory-Technologien im Vergleich
 
In Memory-Technologien im Vergleich - SQL Server Konferenz 2015
In Memory-Technologien im Vergleich - SQL Server Konferenz 2015In Memory-Technologien im Vergleich - SQL Server Konferenz 2015
In Memory-Technologien im Vergleich - SQL Server Konferenz 2015
 
DWH Modernisierung mit Data Lake, Lab und Governance
DWH Modernisierung mit Data Lake, Lab und GovernanceDWH Modernisierung mit Data Lake, Lab und Governance
DWH Modernisierung mit Data Lake, Lab und Governance
 
OpenDMA - Daten Management Solution
OpenDMA  - Daten Management SolutionOpenDMA  - Daten Management Solution
OpenDMA - Daten Management Solution
 
2016 pcc presse_01_dcc_ferro_archivierung_ver04
2016 pcc presse_01_dcc_ferro_archivierung_ver042016 pcc presse_01_dcc_ferro_archivierung_ver04
2016 pcc presse_01_dcc_ferro_archivierung_ver04
 
Analytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und rAnalytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und r
 
Geänderte Anforderungen an eine Data-Warehouse-Landschaft
Geänderte Anforderungen an eine Data-Warehouse-LandschaftGeänderte Anforderungen an eine Data-Warehouse-Landschaft
Geänderte Anforderungen an eine Data-Warehouse-Landschaft
 
SAP BW im Umbruch
SAP BW im UmbruchSAP BW im Umbruch
SAP BW im Umbruch
 
Der HANA Effekt - Neue Möglichkeiten durch SAP's In-Memory Plattform
Der HANA Effekt - Neue Möglichkeiten durch SAP's In-Memory PlattformDer HANA Effekt - Neue Möglichkeiten durch SAP's In-Memory Plattform
Der HANA Effekt - Neue Möglichkeiten durch SAP's In-Memory Plattform
 
Data Vault Vor- und Nachteile
Data Vault Vor- und NachteileData Vault Vor- und Nachteile
Data Vault Vor- und Nachteile
 

Andere mochten auch

Part 1 - Data Warehousing Lecture at BW Cooperative State University (DHBW)
Part 1 - Data Warehousing Lecture at BW Cooperative State University (DHBW)Part 1 - Data Warehousing Lecture at BW Cooperative State University (DHBW)
Part 1 - Data Warehousing Lecture at BW Cooperative State University (DHBW)Andreas Buckenhofer
 
Fehlerbehandlung mittels DML Error Logging
Fehlerbehandlung mittels DML Error LoggingFehlerbehandlung mittels DML Error Logging
Fehlerbehandlung mittels DML Error LoggingAndreas Buckenhofer
 
Part 4 - Data Warehousing Lecture at BW Cooperative State University (DHBW)
Part 4 - Data Warehousing Lecture at BW Cooperative State University (DHBW)Part 4 - Data Warehousing Lecture at BW Cooperative State University (DHBW)
Part 4 - Data Warehousing Lecture at BW Cooperative State University (DHBW)Andreas Buckenhofer
 
Part 3 - Data Warehousing Lecture at BW Cooperative State University (DHBW)
Part 3 - Data Warehousing Lecture at BW Cooperative State University (DHBW)Part 3 - Data Warehousing Lecture at BW Cooperative State University (DHBW)
Part 3 - Data Warehousing Lecture at BW Cooperative State University (DHBW)Andreas Buckenhofer
 
Part 2 - Data Warehousing Lecture at BW Cooperative State University (DHBW)
Part 2 - Data Warehousing Lecture at BW Cooperative State University (DHBW)Part 2 - Data Warehousing Lecture at BW Cooperative State University (DHBW)
Part 2 - Data Warehousing Lecture at BW Cooperative State University (DHBW)Andreas Buckenhofer
 
СтройПолимер - утепление ппу и гидроизоляция полимочевиной
СтройПолимер - утепление ппу и гидроизоляция полимочевинойСтройПолимер - утепление ппу и гидроизоляция полимочевиной
СтройПолимер - утепление ппу и гидроизоляция полимочевинойСтрой Полимер
 
Presentation 1
Presentation 1Presentation 1
Presentation 1NatashaArk
 
Preclinical studies
Preclinical studiesPreclinical studies
Preclinical studiesAzeemsales
 
Archetypes_Modified for Business College_High Res
Archetypes_Modified for Business College_High ResArchetypes_Modified for Business College_High Res
Archetypes_Modified for Business College_High ResBrittney Fenimore
 
Pasar Seni portfolio
Pasar Seni portfolioPasar Seni portfolio
Pasar Seni portfolioErik Nadir
 
Business Intelligence Overview
Business Intelligence OverviewBusiness Intelligence Overview
Business Intelligence Overviewnetpeachteam
 
Kafka and Hadoop at LinkedIn Meetup
Kafka and Hadoop at LinkedIn MeetupKafka and Hadoop at LinkedIn Meetup
Kafka and Hadoop at LinkedIn MeetupGwen (Chen) Shapira
 
Preclinical studies
Preclinical studiesPreclinical studies
Preclinical studiesAzeemsales
 

Andere mochten auch (19)

Part 1 - Data Warehousing Lecture at BW Cooperative State University (DHBW)
Part 1 - Data Warehousing Lecture at BW Cooperative State University (DHBW)Part 1 - Data Warehousing Lecture at BW Cooperative State University (DHBW)
Part 1 - Data Warehousing Lecture at BW Cooperative State University (DHBW)
 
Fehlerbehandlung mittels DML Error Logging
Fehlerbehandlung mittels DML Error LoggingFehlerbehandlung mittels DML Error Logging
Fehlerbehandlung mittels DML Error Logging
 
Part 4 - Data Warehousing Lecture at BW Cooperative State University (DHBW)
Part 4 - Data Warehousing Lecture at BW Cooperative State University (DHBW)Part 4 - Data Warehousing Lecture at BW Cooperative State University (DHBW)
Part 4 - Data Warehousing Lecture at BW Cooperative State University (DHBW)
 
Part 3 - Data Warehousing Lecture at BW Cooperative State University (DHBW)
Part 3 - Data Warehousing Lecture at BW Cooperative State University (DHBW)Part 3 - Data Warehousing Lecture at BW Cooperative State University (DHBW)
Part 3 - Data Warehousing Lecture at BW Cooperative State University (DHBW)
 
Part 2 - Data Warehousing Lecture at BW Cooperative State University (DHBW)
Part 2 - Data Warehousing Lecture at BW Cooperative State University (DHBW)Part 2 - Data Warehousing Lecture at BW Cooperative State University (DHBW)
Part 2 - Data Warehousing Lecture at BW Cooperative State University (DHBW)
 
СтройПолимер - утепление ппу и гидроизоляция полимочевиной
СтройПолимер - утепление ппу и гидроизоляция полимочевинойСтройПолимер - утепление ппу и гидроизоляция полимочевиной
СтройПолимер - утепление ппу и гидроизоляция полимочевиной
 
La tecnologia
La tecnologiaLa tecnologia
La tecnologia
 
Строй Полимер
Строй ПолимерСтрой Полимер
Строй Полимер
 
Presentation 1
Presentation 1Presentation 1
Presentation 1
 
How to Use Evernote
How to Use  EvernoteHow to Use  Evernote
How to Use Evernote
 
How To Use Mad Mimi
How To Use Mad MimiHow To Use Mad Mimi
How To Use Mad Mimi
 
Draughtsman.
Draughtsman.Draughtsman.
Draughtsman.
 
Preclinical studies
Preclinical studiesPreclinical studies
Preclinical studies
 
Archetypes_Modified for Business College_High Res
Archetypes_Modified for Business College_High ResArchetypes_Modified for Business College_High Res
Archetypes_Modified for Business College_High Res
 
Pasar Seni portfolio
Pasar Seni portfolioPasar Seni portfolio
Pasar Seni portfolio
 
Business Intelligence Overview
Business Intelligence OverviewBusiness Intelligence Overview
Business Intelligence Overview
 
Operational Data Vault
Operational Data VaultOperational Data Vault
Operational Data Vault
 
Kafka and Hadoop at LinkedIn Meetup
Kafka and Hadoop at LinkedIn MeetupKafka and Hadoop at LinkedIn Meetup
Kafka and Hadoop at LinkedIn Meetup
 
Preclinical studies
Preclinical studiesPreclinical studies
Preclinical studies
 

Ähnlich wie Lambdaarchitektur für BigData

Dataservices - Data Processing mit Microservices
Dataservices - Data Processing mit MicroservicesDataservices - Data Processing mit Microservices
Dataservices - Data Processing mit MicroservicesQAware GmbH
 
Restful Frontend-Architecture
Restful Frontend-ArchitectureRestful Frontend-Architecture
Restful Frontend-ArchitectureSandro Sonntag
 
MongoDB Atlas – der beste Weg, MongoDB in der Cloud zu betreiben 2
MongoDB Atlas – der beste Weg, MongoDB in der Cloud zu betreiben 2MongoDB Atlas – der beste Weg, MongoDB in der Cloud zu betreiben 2
MongoDB Atlas – der beste Weg, MongoDB in der Cloud zu betreiben 2MongoDB
 
Serverless Application Framework
Serverless Application FrameworkServerless Application Framework
Serverless Application FrameworkBATbern
 
Public Cloud Erfahrungsbericht SBB
Public Cloud Erfahrungsbericht SBBPublic Cloud Erfahrungsbericht SBB
Public Cloud Erfahrungsbericht SBBBATbern
 
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzenAWS Germany
 
TRANSCONNECT® cloud (SQL Projekt AG)
TRANSCONNECT® cloud (SQL Projekt AG)TRANSCONNECT® cloud (SQL Projekt AG)
TRANSCONNECT® cloud (SQL Projekt AG)SQL Projekt AG
 
Roadshow: «Whats new in sql server 2014»
Roadshow: «Whats new in sql server 2014»Roadshow: «Whats new in sql server 2014»
Roadshow: «Whats new in sql server 2014»Digicomp Academy AG
 
SQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die Cloud
SQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die CloudSQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die Cloud
SQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die CloudAWS Germany
 
Dr. Thomas Petrik (Sphinx IT Consulting)
Dr. Thomas Petrik (Sphinx IT Consulting)Dr. Thomas Petrik (Sphinx IT Consulting)
Dr. Thomas Petrik (Sphinx IT Consulting)Agenda Europe 2035
 
Advanced compression option: Entwicklung von 11g zu 12c
Advanced compression option: Entwicklung von 11g zu 12cAdvanced compression option: Entwicklung von 11g zu 12c
Advanced compression option: Entwicklung von 11g zu 12cTrivadis
 
SAP Datashpere - von Bits und Bites zu Widgets und Charts
SAP Datashpere - von Bits und Bites zu Widgets und ChartsSAP Datashpere - von Bits und Bites zu Widgets und Charts
SAP Datashpere - von Bits und Bites zu Widgets und ChartsIBsolution GmbH
 
Einführung in AWS - Übersicht über die wichtigsten Services
Einführung in AWS - Übersicht über die wichtigsten Services Einführung in AWS - Übersicht über die wichtigsten Services
Einführung in AWS - Übersicht über die wichtigsten Services AWS Germany
 
Innovationen aus der Cloud ganz einfach nutzen
Innovationen aus der Cloud ganz einfach nutzenInnovationen aus der Cloud ganz einfach nutzen
Innovationen aus der Cloud ganz einfach nutzenAmazon Web Services
 
Integration von OnSite- und Cloud-Systemen mit TransConnect® cloud
Integration von OnSite- und Cloud-Systemen mit TransConnect® cloud Integration von OnSite- und Cloud-Systemen mit TransConnect® cloud
Integration von OnSite- und Cloud-Systemen mit TransConnect® cloud Stefan Ehrlich
 
DNUG 2017 - ApplicationInsights
DNUG 2017 - ApplicationInsightsDNUG 2017 - ApplicationInsights
DNUG 2017 - ApplicationInsightsChristoph Adler
 
Cloud Wars – what‘s the smartest data platform? Vergleich Microsoft Azure, Am...
Cloud Wars – what‘s the smartest data platform? Vergleich Microsoft Azure, Am...Cloud Wars – what‘s the smartest data platform? Vergleich Microsoft Azure, Am...
Cloud Wars – what‘s the smartest data platform? Vergleich Microsoft Azure, Am...inovex GmbH
 
Mit TransConnect® einfach die Produktion vernetzen: mit wenigen Schritten zur...
Mit TransConnect® einfach die Produktion vernetzen: mit wenigen Schritten zur...Mit TransConnect® einfach die Produktion vernetzen: mit wenigen Schritten zur...
Mit TransConnect® einfach die Produktion vernetzen: mit wenigen Schritten zur...Stefan Ehrlich
 
Something for the Cloud
Something for the CloudSomething for the Cloud
Something for the CloudESUG
 

Ähnlich wie Lambdaarchitektur für BigData (20)

Dataservices - Data Processing mit Microservices
Dataservices - Data Processing mit MicroservicesDataservices - Data Processing mit Microservices
Dataservices - Data Processing mit Microservices
 
Restful Frontend-Architecture
Restful Frontend-ArchitectureRestful Frontend-Architecture
Restful Frontend-Architecture
 
MongoDB Atlas – der beste Weg, MongoDB in der Cloud zu betreiben 2
MongoDB Atlas – der beste Weg, MongoDB in der Cloud zu betreiben 2MongoDB Atlas – der beste Weg, MongoDB in der Cloud zu betreiben 2
MongoDB Atlas – der beste Weg, MongoDB in der Cloud zu betreiben 2
 
Serverless Application Framework
Serverless Application FrameworkServerless Application Framework
Serverless Application Framework
 
Public Cloud Erfahrungsbericht SBB
Public Cloud Erfahrungsbericht SBBPublic Cloud Erfahrungsbericht SBB
Public Cloud Erfahrungsbericht SBB
 
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen
 
TRANSCONNECT® cloud (SQL Projekt AG)
TRANSCONNECT® cloud (SQL Projekt AG)TRANSCONNECT® cloud (SQL Projekt AG)
TRANSCONNECT® cloud (SQL Projekt AG)
 
Roadshow: «Whats new in sql server 2014»
Roadshow: «Whats new in sql server 2014»Roadshow: «Whats new in sql server 2014»
Roadshow: «Whats new in sql server 2014»
 
Amazon Redshift
Amazon RedshiftAmazon Redshift
Amazon Redshift
 
SQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die Cloud
SQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die CloudSQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die Cloud
SQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die Cloud
 
Dr. Thomas Petrik (Sphinx IT Consulting)
Dr. Thomas Petrik (Sphinx IT Consulting)Dr. Thomas Petrik (Sphinx IT Consulting)
Dr. Thomas Petrik (Sphinx IT Consulting)
 
Advanced compression option: Entwicklung von 11g zu 12c
Advanced compression option: Entwicklung von 11g zu 12cAdvanced compression option: Entwicklung von 11g zu 12c
Advanced compression option: Entwicklung von 11g zu 12c
 
SAP Datashpere - von Bits und Bites zu Widgets und Charts
SAP Datashpere - von Bits und Bites zu Widgets und ChartsSAP Datashpere - von Bits und Bites zu Widgets und Charts
SAP Datashpere - von Bits und Bites zu Widgets und Charts
 
Einführung in AWS - Übersicht über die wichtigsten Services
Einführung in AWS - Übersicht über die wichtigsten Services Einführung in AWS - Übersicht über die wichtigsten Services
Einführung in AWS - Übersicht über die wichtigsten Services
 
Innovationen aus der Cloud ganz einfach nutzen
Innovationen aus der Cloud ganz einfach nutzenInnovationen aus der Cloud ganz einfach nutzen
Innovationen aus der Cloud ganz einfach nutzen
 
Integration von OnSite- und Cloud-Systemen mit TransConnect® cloud
Integration von OnSite- und Cloud-Systemen mit TransConnect® cloud Integration von OnSite- und Cloud-Systemen mit TransConnect® cloud
Integration von OnSite- und Cloud-Systemen mit TransConnect® cloud
 
DNUG 2017 - ApplicationInsights
DNUG 2017 - ApplicationInsightsDNUG 2017 - ApplicationInsights
DNUG 2017 - ApplicationInsights
 
Cloud Wars – what‘s the smartest data platform? Vergleich Microsoft Azure, Am...
Cloud Wars – what‘s the smartest data platform? Vergleich Microsoft Azure, Am...Cloud Wars – what‘s the smartest data platform? Vergleich Microsoft Azure, Am...
Cloud Wars – what‘s the smartest data platform? Vergleich Microsoft Azure, Am...
 
Mit TransConnect® einfach die Produktion vernetzen: mit wenigen Schritten zur...
Mit TransConnect® einfach die Produktion vernetzen: mit wenigen Schritten zur...Mit TransConnect® einfach die Produktion vernetzen: mit wenigen Schritten zur...
Mit TransConnect® einfach die Produktion vernetzen: mit wenigen Schritten zur...
 
Something for the Cloud
Something for the CloudSomething for the Cloud
Something for the Cloud
 

Lambdaarchitektur für BigData

  • 1. Abteilung / Bereich / Datum (Tag.Monat.Jahr) Lambda Architektur für BigData-Projekte Analytics Andreas Buckenhofer, 19.11.2014
  • 2. 2 Daimler TSS/About me Zur Person Andreas Buckenhofer, Senior DB Professional Seit 2009 bei Daimler TSS im Fachgebiet Data Warehouse & Data Integration (Cognos/Informatica) Schwerpunkt DWH/CRM seit 1998 • Entwickler • Administrator • Berater
  • 3. TSS Unternehmenspräsentation / Mai 2013 / V8.0 Unternehmensüberblick Unsere Geschäftsfelder 3 Kundenspezifische Individual- und Standardlösungen für alle Konzernbereiche. Leistungen auf Basis von Konzern- und Industriestandards: schnell, flexibel und kosteneffizient. Know-how und Kapazitäten in den Disziplinen Technologie, Strategie, Methodik, Prozesssteuerung und -qualität sowie Sicherheit. Softwarelösungen, Infrastrukturen und Dienstleistungen für Händlerbetriebe werden durch unsere 100% Tochtergesell- schaft Daimler IT Retail GmbH erbracht. Solutions Consulting IT RetailServices
  • 4. Daimler TSS / Lambda Architektur / 19.11.2014 4 1. Motivation Lambda Architektur 2. Batch-Layer 3. Speed-Layer 4. Serving-Layer 5. Zusammenfassung Lambda Architektur für BigData-Projekte Agenda
  • 5. Daimler TSS / Lambda Architektur / 19.11.2014 5 … ist eine neue abstrakte Architektur für ‘Realtime Big Data“ Ziel dieser Präsentation: • Vorstellung dieser Architektur und einer möglichen Umsetzung mit Hadoop Stack • Konzept/Methode wichtiger als Tools „Wer die Anforderungen versteht, weiß welches der vielen Tools geeignet ist“ • Datenmodellierung inkl. Serialisierung und Schema ist auch für BigData relevant Motivation Lambda Architektur Ziel der Präsentation
  • 6. Daimler TSS / Lambda Architektur / 19.11.2014 6 • Entwickelt von Nathan Marz (früher bei Twitter) Motivation Lambda Architektur Quelle
  • 7. Daimler TSS / Lambda Architektur / 19.11.2014 7 • Robust und fehlertolerant (HW Fehler, SW Fehler, Operationale Fehler) • Lese- und Schreibzugriffe mit niedriger Latenzzeit • Skalierbar • Allgemein verwendbar (unterstützt viele Anwendungen) • Erweiterbar (flexibel bei Änderungen) • Ermöglicht Ad-hoc Abfragen • Minimale Wartung • Debugging möglich Motivation Lambda Architektur Eigenschaften eines Big Data Systems
  • 8. Daimler TSS / Lambda Architektur / 19.11.2014 8 “Raw data”: atomare Daten, z.B. Events. • Alle Daten werden gespeichert • Daten werden nicht geändert • Daten sind zeitbasiert • Daten sind eindeutig “Derived data”: Daten bzw Informationen, die abgeleitet sind. • Transformationen • Aggregationen Motivation Lambda Architektur Data as new oil
  • 9. Daimler TSS / Lambda Architektur / 19.11.2014 9 Query = function ( all data ) Überblick Lambda Architektur Abfragen All Data Query Precomputed Performance View
  • 10. Daimler TSS / Lambda Architektur / 19.11.2014 10 Überblick Lambda Architektur Übersicht Batch Layer All Data Speed Layer RealTime Views Serving Layer Batch Views Query (merge) Data Stream
  • 11. Daimler TSS / Lambda Architektur / 19.11.2014 11 Preventive Maintenance, z.B.: Leistungs- und Zustandsdaten überwachen, Aktuelle Verschleißprognose, Abweichung vom Normalverhalten, Anomalien • Produktionssteuerungen liefern Events (Meßdaten) • Vorgabe: Zusammenführung/Speicherung in Hadoop (Hortonworks) • Analyse, Monitoring und Reporting der Daten • Viele Auswertungen sind nicht zeitkritisch (kein Bedarf für Realtime/Rightime) • Jedoch einige kritische Advanced Analytics Auswertungen (RightTime, Streaming) Überblick Lambda Architektur Use Case
  • 12. Daimler TSS / Lambda Architektur / 19.11.2014 12 Überblick Lambda Architektur Use Case - JSON
  • 13. Daimler TSS / Lambda Architektur / 19.11.2014 13 1. Motivation Lambda Architektur 2. Batch-Layer 3. Speed-Layer 4. Serving-Layer 5. Zusammenfassung Lambda Architektur für BigData-Projekte Agenda
  • 14. Daimler TSS / Lambda Architektur / 19.11.2014 14 Überblick Lambda Architektur Übersicht Batch Layer All Data Speed Layer RealTime Views Serving Layer Batch Views Query (merge) Data Stream
  • 15. Daimler TSS / Lambda Architektur / 19.11.2014 15 Speichert „Master Dataset“ (unveränderliche, ständig wachsende Daten) • damit zukünftige Fragen beantwortet werden können, da die gesamte Historie vorliegt • bei neuen Algorithmen Neuberechnungen durchgeführt werden können Berechnet beliebige Batch Views (ständige Neuberechnung) Batch Layer Eigenschaften
  • 16. Daimler TSS / Lambda Architektur / 19.11.2014 16 “My own personal opinion is that data analysis is much less important than data re-analysis. It’s hard for a data team to get things right on the very first try, and the team shouldn’t be faulted for their honest efforts. When everything is available for review, and when more data is added over time, you’ll increase your chances of converging to someplace near the truth.”–Jules J. Berman. http://www.odbms.org/blog/2014/07/big-data-science-interview-jules-j- berman/ Batch-Layer Analytics vs Re-Analytics
  • 17. Daimler TSS / Lambda Architektur / 19.11.2014 17 Hadoop HDFS Hadoop MapReduce Hadoop Hive Batch Layer Tools
  • 18. Batch Layer Masterdatensatz • Atomare, unveränderliche Daten: CR(D) statt CRUD • Create: Einmalige Anlage eines Datensatzes inkl. Zeitstempel • Read: Lesen des Datensatzes beliebig oft • Delete: Löschen von Daten nur in bestimmten Situationen: Einhaltung gesetzlicher Vorgaben oder Entfernung der Daten nach 8/10/? Jahren (Löschen z.B. mit Hilfe geeigneter Partitionierung) • “Normalisierte” Speicherung der Daten • Keine Redundanz notwendig • Möglich: Speicherung z.B. als SAT-Tabelle und “Kombination” mit RDBMS (Data Vault 2.0) Daimler TSS / Lambda Architektur / 19.11.2014 18
  • 19. Daimler TSS / Lambda Architektur / 19.11.2014 19 Events liegen i.d.R. als textähnliche Strukturen vor (JSON, CSV, u.ä.) • sehr flexibel, aber langsam und speicherintensiv Batch Layer Serialisierung und Schema 1(3)
  • 20. Daimler TSS / Lambda Architektur / 19.11.2014 20 JSON, CSV, etc sind fehleranfällig keine Validierung während dem Schreiben schema-on-write vs schema-on-read Mehrwert von Schemata • Strukturelle Integrität • Verhindert Korruption • Frühzeitige Erkennung von Fehlern Batch Layer Serialisierung und Schema 2(3)
  • 21. Daimler TSS / Lambda Architektur / 19.11.2014 21 Zur Abspeicherung des Masterdatensätzes ist ein Format mit Schema sinnvoll Quelle: Holmes - Hadoop in Practice - Manning 2014 Batch Layer Serialisierung und Schema 3(3)
  • 22. Daimler TSS / Lambda Architektur / 19.11.2014 22 1. Motivation Lambda Architektur 2. Batch-Layer 3. Speed-Layer 4. Serving-Layer 5. Zusammenfassung Lambda Architektur für BigData-Projekte Agenda
  • 23. Daimler TSS / Lambda Architektur / 19.11.2014 23 Überblick Lambda Architektur Übersicht Batch Layer All Data Speed Layer RealTime Views Serving Layer Batch Views Query (merge) Data Stream
  • 24. Daimler TSS / Lambda Architektur / 19.11.2014 24 Berechnet Realtime-Views inkrementell auf Daten, die noch nicht als Batch-Views vorliegen. Bereits berechnete Realtime-Views werden verworfen sobald die Daten auch durch Batch-Views verfügbar sind. Speed Layer ist komplexer, schneller und Daten in den Realtime-Views sind nur temporär. Speed Layer Eigenschaften
  • 25. Daimler TSS / Lambda Architektur / 19.11.2014 25 Verarbeitung • Kontinuierliche Verarbeitung von Datenströmen Speicherung • Speicherung der Ergebnisse in einem eingeschränkten Zeitraum (wahrlfreies Schreiben und Lesen) • Keine Speicherung der Rohdaten (raw data), da im Batch Layer vorhanden Speed Layer Komponenten
  • 26. Daimler TSS / Lambda Architektur / 19.11.2014 26 Verarbeitung • Storm • zukünftig ggf. Spark Streaming Speicherung • HBase, Cassandra • ElasticSearch • zukünftig ggf. Spark Sowie zur Anlieferung der Daten: Kafka, MQ Speed Layer Tools
  • 27. Daimler TSS / Lambda Architektur / 19.11.2014 27 1. Motivation Lambda Architektur 2. Batch-Layer 3. Speed-Layer 4. Serving-Layer 5. Zusammenfassung Lambda Architektur für BigData-Projekte Agenda
  • 28. Daimler TSS / Lambda Architektur / 19.11.2014 28 Überblick Lambda Architektur Übersicht Batch Layer All Data Speed Layer RealTime Views Serving Layer Batch Views Query (merge) Data Stream
  • 29. Daimler TSS / Lambda Architektur / 19.11.2014 29 Vorausberechnung von Sichten durch Batch-Layer • Schnelle Datenzugriffe: wahlfreier Zugriff (Random Reads) auf Batch Views inkl. Indexierung • Neuberechnung der Batch Views aus allen Daten und keine inkrementelle Berechnung Abweichungen möglich, z.B. durch geeignete Partitionierung • Datenhaltung / Datenmodellierung optimiert für Analysetool Serving Layer Eigenschaften
  • 30. Daimler TSS / Lambda Architektur / 19.11.2014 30 Abfragen kombinieren Batch-Views und Realtime-Views • Berechnung von Durchschnittswerten • Identifikation von Anomalien Serving Layer Herausforderungen ?
  • 31. Daimler TSS / Lambda Architektur / 19.11.2014 31 Elephant-DB Hbase, Cassandra Serving Layer Tools
  • 32. Daimler TSS / Lambda Architektur / 19.11.2014 32 1. Motivation Lambda Architektur 2. Batch-Layer 3. Speed-Layer 4. Serving-Layer 5. Zusammenfassung Lambda Architektur für BigData-Projekte Agenda
  • 33. Daimler TSS / Lambda Architektur / 19.11.2014 33 • Systematischer, strukturierter Ansatz • Fokus nicht nur auf Tools, sondern auf Methoden/Verfahren • Herausstellung unveränderlicher Masterdatensatz Zusammenfassung Vorteile
  • 34. Daimler TSS / Lambda Architektur / 19.11.2014 34 • Lambda-Architektur erfordert mehrere/viele Technologien • Hoher Aufwand zur Wartung des Codes (Batch und Streaming) • Komplex, da viele Tools und Programmiersprachen • Nathan Marz stellt viele Tools vor, die nicht Bestandteil eines verfügbaren Tools-Stacks sind bzw entwickelt eigene Tools (Elephant-DB, Pail, u.a.) Zusammenfassung Nachteile
  • 35. Daimler TSS / Lambda Architektur / 19.11.2014 35 Überblick Lambda Architektur Use Case - Tools Batch Layer All Data Speed Layer RealTime Views Serving Layer Batch Views Query (merge) Data Stream
  • 36. Daimler TSS / Lambda Architektur / 19.11.2014 36 • Hinterfragen der Anforderungen. Nicht immer Realtime nötig. Oft reicht Batch- Layer aus. • Keine BigData-Technologie löst alle Probleme gleich gut • Lambda Architektur ist ein möglicher, komplexer Ansatz. Alternativen, z.B. KAPPA (Jay Kreps) • Beschränkung auf wenige Tools (z.B. eine DB für Speed und Serving Layer). Verfügbarer Hadoop Stack von Hortonworks enthält alle nötigen Komponenten (HDFS, Storm, HBASE). Andere Stacks, z.B. Cloudera auch nahezu komplett. • Sensoren werden immer leistungsfähiger und übernehmen zunehmend Aufgaben eines Speed Layers Zusammenfassung Use Case - KISS
  • 37. Daimler TSS / Lambda Architektur / 19.11.2014 37 Vielen Dank! Daimler TSS GmbH Wilhelm-Runge-Straße 11 89081 Ulm Telefon +49 731 505-06 Fax +49 731 505-65 99 tss@daimler.com Internet: www.daimler-tss.com Intranet: intra.corpintra.net/intra-itc/tss Intranet-Portal-Code: @TSS Daimler TSS GmbH Sitz und Registergericht: Ulm, HRB-Nr.: 3844 Geschäftsführung: Dr. Stefan Eberhardt (Vorsitzender), Steffen Bäuerle
  • 38. Daimler TSS / Lambda Architektur / 19.11.2014 38 JSON&Co sehr flexibel, aber langsame Verarbeitung und schlechte Komprimierung. Batch-Layer Speicherung der Daten in „normalisierter“ Form unter Verwendung von z.B. Avro, ORCfile, Parquet Speed-Layer Verarbeitung der Rohdaten Speicherung der Ergebnisse optimiert für Abfragen Serving Layer Speicherung der Ergebnisse optimiert für Abfragen Zusammenfassung Datenmodellierung auch für BigData 1(2)
  • 39. Daimler TSS / Lambda Architektur / 19.11.2014 39 Datenmodellierung auch im Hadoop bzw NoSQL-Umfeld wichtig • Performanz zu garantieren • Entwicklung beschleunigen • Qualität des Produkt verbessern • Wartungskosten reduzieren • gemeinsames Verständnis fördern “Data modeling is the process of learning about the data, and regardless of technology, this process must be performed for a successful application.” Steve Hoberman: Data Modeling for Mongo DB, Technics Publications 2014 Zusammenfassung Datenmodellierung auch für BigData 2(2)
  • 40. Lambda-Architektur Literaturhinweise Daimler TSS / Lambda Architektur / 19.11.2014 40 http://radar.oreilly.com/2014/07/questioning-the-lambda-architecture.html http://lambda-architecture.net/ http://techblog.netflix.com/2013/12/announcing-suro-backbone-of-netflixs.html