SlideShare ist ein Scribd-Unternehmen logo
1 von 79
Downloaden Sie, um offline zu lesen
Darf es ein bisschen mehr sein? 1 | 77
Projekte. Beratung. Spezialisten.
Darf es ein bisschen mehr sein?
IKS-Thementag
12.11.2019
Autor: Christoph Schmidt-Casdorff
Konzepte und Strategien zur Bewältigung großer und wachsender Datenmengen
Darf es ein bisschen mehr sein? 2 | 77
Agenda
Was ist Big Data?
Architekturaspekte in Big Data
Big Data at Rest
Data Processing – Batch a là Big Data
Stream Processing – Big Data at Flow
Big-Data-Architekturen
Hadoop Eco System und Plattform-Anbieter
Abschluss
Darf es ein bisschen mehr sein? 3 | 77
Große Datenmenge
Historisch: Warum Big Data?
AntwortFrage
Welche technischen
Herausforderungen sind zu
bewältigen?
 Speicherung der Datenmengen
 Lesen und Analyse der Datenmengen
 Befüllung der Datenmengen
Beispiele von Datenquellen  Sensor Daten (IoT)
 Kreditkarten-Transaktionen
 Aktienbewegungen
 Blog Posts
 Network Traffic
 Log Entries
Was charakterisiert Big Data ?  Hohe Geschwindigkeit des Datenaufkommens
 Hohe Schwankung des Datenaufkommens
 Große Menge der Daten
 Keine Beschränkung der Variabilität der Datenstrukturen
 Keine Beschränkung in der Varianz der Datenqualität
 Große Datenmengen und massives Datenwachstum
 Facebook sammelt mehr als 250 Terabytes pro Tag
 Daten kommen aus unterschiedlichsten Quellen/Kanälen
 Daten haben unterschiedlichste (oder gar keine) Strukturen
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Daten in Ruhe
https://www.fjordblick.com/tjodnane-see-am-preikestolen-foto-des-monats-dezember-2018/
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 5 | 77
Daten in Ruhe
Diskette
Datenbank
Datei
CD Magnetband
Festplatten
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 6 | 77
Informationen und Erkenntnisse
gewinnt man nur aus Daten im Fluss
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 7 | 77
Verarbeitung muss mit Daten versorgt werden
https://commons.wikimedia.org/wiki/File:Wechsel_-_M%C3%BChlrad_beim_M%C3%BChlenplatzl_am_Wildwasserweg.jpg
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 8 | 77
Notation: Daten im Fluss
Datenfluss
Datenverarbeitung/
Informationsgewinn
Datenspeicher
stellt Daten zu
übergibt Ergebnisse
schreibtundliest
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 9 | 77
Big Data ….
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 10 | 77
https://www.worldatlas.com/articles/the-great-lakes-ranked-by-size.html
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 11 | 77
https://afrika-junior.de/inhalt/kontinent/regionen/das-suedliche-afrika-die-suempfe-und-die-namib-wueste/der-sambesi-die-lebensader-im-suedlichen-afrika.html
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 12 | 77
Funktioniert mit hergebrachten Methoden nicht mehr
https://www.n-tv.de/panorama/Land-unter-in-Bayern-und-Sachsen-article10751731.html
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 13 | 77
Warum reicht es nicht mehr?
Physische Kapazitätsbegrenzung der Hardware
 Plattenplatz
 Hauptspeicher
Kapazitätsbegrenzung von Systemen wie relationalen Datenbanken
Horizontaler statt vertikaler Skalierung
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 14 | 77
Lösungsansatz für Daten in Ruhe
Aufteilung des großen Datensees
in beliebig viele Datenteiche
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Big Data at Rest
https://urlaubsreich.de/wp-content/uploads/2018/08/Sch%C3%B6n-IMG_5643-ge%C3%A4ndert.jpg
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 16 | 77
Cluster
Ein Cluster repräsentiert eine Menge
an Servern/VMs (kurz Nodes) als
gemeinsames System
 Die Ressourcen, alle Nodes, werden
gemeinsam verwaltet
Cluster besteht i.d.R. aus einem
komplexen Zusammenspiel
unterschiedlicher Prozesse auf den
einzelnen Nodes
Spezielle Aufgaben sind
 clusterweites Ressourcenmanagement
 clusterweite Synchronisation
 clusterweite Orchestrierung
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 17 | 77
Partitionen
Daten
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 18 | 77
Partitionen
Node
Node
Node
Node
Node
Daten
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 19 | 77
Partitionen
Node
Node
Node
Node
Node
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 20 | 77
Partitionen
Node
Node
Node
Node
Node
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 21 | 77
Partitionen
Node
Node
Node
Node
Node
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 22 | 77
Replikationen
Node
Node
Node
Node
Node
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 23 | 77
Verteilte Datenhaltungssysteme
Replikation und Partitionierung sind grundlegende Konzepte, welche in
allen verteilten Datenhaltungssystemen zum Tragen kommen
Verteilte Datenhaltungssysteme beschäftigen sich damit,
 wie Daten partitioniert werden
 wie eine konsistente Sicht auf partitionierte Daten gewährleistet wird
 wie ein Cluster auszubalancieren ist, wenn einzelne Nodes wegfallen/hinzukommen
 wie sich ein Cluster verhält, wenn eine große Menge von Nodes wegfallen
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 24 | 77
Name Dropping
Verteilte Filesysteme (DFS)
 Hadoop
Verteilte NoSql-Datenbanken
 HBase
 Cassandra
 MongoDB
 Redis
 Kafka
Verteiltes Konfigurationsmanagement
 Zookeeper
 etcd
 Consul
Clustermanagement
 Yarn
 Kubernetes
 Mesosphere
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
https://urlaubsreich.de/wp-content/uploads/2018/08/Sch%C3%B6n-IMG_5643-ge%C3%A4ndert.jpg
Batch Processing a là Big Data
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 26 | 77
Klassisch: Daten aktiv aus dem Datenspeicher holen
https://www.schwengelpumpe.eu/
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 27 | 77
Klassisches Batch Processing
Klassisch:
Datenverarbeitung holt sich ihre Daten
?
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 28 | 77
Klassisches Batch Processing
Logik der Datenversorgung und Datenverarbeitung
in einer Komponente
?
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Batch Processing a là Big Data
?
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Batch Processing a là Big Data (II)
Optimierung: Verteilung der Daten hat
Einfluss auf das Programmiermodell
?
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 31 | 77
Name Dropping
Map Reduce
Algorithmus, um Daten aus verteilten Datensystemen zu extrahieren
Map Reduce ist der bekannteste Vertreter dieser Verfahren
Entwickelt für Hadoop DFS
Eigenes Programmiermodell für verteilte Filesysteme
 Entwickelt von Google
 Bekannt als Verfahren über Hadoop
Ist relativ langsam
 Heutzutage werden andere Verfahren angewendet
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 32 | 77
Dieser Ansatz funktioniert für beschränkte Verarbeitungsmengen
Warum?
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 33 | 77
Idee verteilter Verarbeitung: Verteilung auf viele
Schultern
?
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 34 | 77
Probleme dieser Architektur
Prämisse „Verarbeitung holt sich die Daten“ hat folgende Konsequenzen:
 Jede einzelne Komponente verantwortet, welche Daten zu verarbeiten sind
 . . ., das kann aber nur im Verbund entschieden werden
 unverhältnismäßig hoher und nicht linear wachsender Abstimmungsbedarf
 Daten werden nicht verarbeitet, wenn sie entstehen,
 sondern wenn sie geholt werden
Um beliebig große Datenmengen zu verarbeiten,
 muss diese Prämisse umgestellt werden
Die Verarbeitungskomponente bekommt
die zu verarbeitenden Daten zugestellt
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 35 | 77
Aufteilung der Verarbeitung auf viele Schultern setzt
eine dynamische Partitionierung der Daten voraus
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 36 | 77
Diese Datenmenge muss
in Fluss gebracht werden
Trennung von Datenzustellung und Datenverarbeitung
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 37 | 77
https://afrika-junior.de/inhalt/kontinent/regionen/das-suedliche-afrika-die-suempfe-und-die-namib-wueste/der-sambesi-die-lebensader-im-suedlichen-afrika.html
Big Data at Flow
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 38 | 77
Stream Processing – Metapher für Daten im Fluss
Daten als kontinuierlicher Strom, der der Verarbeitung zugeführt wird
Datenstrom verästelt sich durch ein System von Leitungen
Daten wandern/meandern durch dieses System
 mehr oder weniger gesteuert
“Stream Processing is a type of data processing engine
that is designed with infinite data sets in mind”
https://www.oreilly.com/ideas/the-world-beyond-batch-streaming-101
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Mississippi Delta – System von Leitungen
https://commons.wikimedia.org/wiki/File:Mississippi_delta_from_space_detalle.jpg
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Blattadern – System von Leitungen
https://blendezwo.de/wp-content/uploads/2015/03/db090510102.jpg
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Pull-Prinzip
?
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Push-Prinzip
Daten werden der Verarbeitungs-
komponente zugestellt
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Daten fließen
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 44 | 77
Stream Processing
Metapher
 Daten als kontinuierlicher Strom, der der Verarbeitung zugeführt wird
Es gibt eine Infrastruktur, welche
 Daten den Verarbeitungskomponenten zustellt (data driven)
 mit schwankenden Mengen von Daten zurechtkommt (Elastizität)
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 45 | 77
Was heißt dies für die Verarbeitung?
Datenverarbeitung wird von kleinen, autonomen Einheiten durchgeführt
 Processoren genannt
Processoren beschreiben, für welchen Typ von Daten sie zuständig sind
 … und bekommen diese Daten durch die Infrastruktur zugestellt
Processoren werden im Cluster verteilt und skaliert
Processoren werden durch die Infrastruktur mit Daten versorgt …
 … verarbeiten diese …
 … und geben diese an die Infrastruktur zurück
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Wo bleiben Ihre Programme?
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Wo bleiben Ihre Programme ?
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 48 | 77
Name Dropping
Messaging Systeme
 Rabbit MQ
 Active MQ
 . . .
Hybride zwischen verteilter Datenhaltung und Messaging
 Kafka
Dezidierte Streaming Engines
 Apache Spark
 Apache Flink
 Apache Samza
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Big-Data-Architektur
https://www.mch-group.com/en-US/news/blog/2016/05/powertage-2016-messe-zuerich.aspx
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 50 | 77
Es sind Architekturen entstanden, die …
sehr gut horizontal skalieren
 bzgl. Datenmengen
 bzgl. Datendurchsatz
 bzgl. Ressourcen
hochgradig parallele Anwendungen ermöglichen
sehr gut mit schwankenden Datenmengen umgehen können
Daten verarbeiten, sobald diese im System verfügbar sind
lose gekoppelte Architekturen propagieren
 Je enger die Kopplung, desto schwieriger ist die Skalierung
i.d.R. Open Source sind
 Es gibt allerdings immer kommerzielle Erweiterungen und Support
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 51 | 77
Technologische Lösungsansätze
Cluster
 Horizontale Skalierbarkeit/Elastizität
Data Storage mit verteilten Datenhaltungssystemen
 Strukturierte sowie un- und semistrukturierte Daten
 Gemischte Datenformate gleichzeitig
Batch Processing mit speziellen Programmiermodellen
 Für Verarbeitung begrenzter Datenmengen
Stream Processing
 Datengetriebene Verarbeitung (data driven)
 Daten werden den Processoren zugestellt
 Asynchrone Verarbeitung
 mit Messagingsystemen
 mit speziellen Stream Processing Engines
 Parallele und skalierbare Verarbeitung
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 52 | 77
Diese Architekturen sind historisch durch Big Data entstanden
Bieten ganz neue Einsatzmöglichkeiten
 Auch jenseits von „riesigen Datenmengen“
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 53 | 77
Active Archiv
?
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 54 | 77
Streaming Architekturen
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 55 | 77
Stream Processing
Streaming Architekturen
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 56 | 77
Stream Processing und Machine Learning
Machine Learning und Stream Processing
 Machine Learning sucht Muster in einem Strom von Daten
 Ergänzen sich ideal
 Machine Learning ist i.d.R. ressourcen-intensiv
 Alle Streaming Engines besitzen Machine-Learning-Funktionalität
Beispiel: Fraud Detection
Spezielle Anforderungen an ML
 Zustandsverwaltung
 Fehlerhandling
 Rekursionen
 Behandlung von bounded Windows
Fraud
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 57 | 77
Wie kommen die Daten in das System?
Batch
Processing
Data Storage
?
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 58 | 77
Wie kommen die Daten in das System?
Batch
Processing
Data Storage
• Viele Datenquellen
• Variierendes Datenaufkommen
• Unterschiedliche Datenformate
• Unterschiedliche DatenqualitätSocial
Media
IoT
Corporate
Data
Logs
Partner
Daten
Datei-
schnittstellen
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 59 | 77
Data Acquisition Layer
Batch
Processing
Data Storage
DataAcquisitionLayer
• Eingangskanäle für alle möglichen Datenquellen
• Pufferungsmechanismen (Backpressure)
• Ggf. Normalisierung der Daten
• Ggf. Bereinigung/Konsolidierung der Daten
• Einspeisung der Daten in Data Storage
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 60 | 77
Data Storage
Batch
Processing
DataAcquisitionLayer
Stream
Processing
Skizze Big Data Architecture (I)
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Clustermanagement
Batch
Processing
Data Storage
DataAcquisitionLayer
Stream
Processing
ServingLayer
Near Real Time Processing
Skizze Big Data Architecture (I)
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
• Anzeige von Verarbeitungsergebnissen
• Schnittstellen für self-service Data
• BI
Clustermanagement
Skizze Big Data Architecture (II) – Blick auf die Daten
Batch
Processing
Rohdaten
DataAcquisitionLayer
Stream
Processing
Konsolidierte
Data
Near Real Time
ServingLayer
Kuratierte
Daten
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Clustermanagement
Batch
Processing
Rohdaten
DataAcquisitionLayer
Stream
Processing
ServingLayer
Konsolidierte
Data
Kuratierte
Daten
Near Real Time
Hadoop
Cassandra
HBase
MapReduce
Hive
Apache Spark
Apache Flink
Apache Kafka
Name Dropping (Apache/Hadoop Eco System)
Sqoop
Flume
StreamSets
Data
Collector
Gobblin
Kafka
Yarn
Mesosphere
Kubernetes
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 64 | 77
Was haben wird noch nicht betrachtet?
Big Data und Datenserialisierung
 Serialisierung bei Persistenz von beliebigen Datenstrukturen
 Problem kleiner Daten bei HDFS
Big Data und Security/Mehrmandantenfähigkeiten
 Authentifizierung, Autorisierung, feingranulare Zugriffsberechtigungen,
Datenverschlüsselung, Kommunikationsverschlüsselung
Administration
 Administration der Plattform
Auswertungen und self-service data
 Öffnen der Plattform für data scientists
Data Governance
 Orchestrierung des Zusammenspiels von Menschen, Prozessen und Daten
Big Data und Hardware
 Insbesondere Big Data/Distributed Processing in virtualisierten Umgebungen
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Hadoop Ecosystem
https://autofei.wordpress.com/2017/07/06/hadoop-ecosystem/
Machine Learning
• komplexe Datenanalyse
Stream und Batch Processing
Datenserialisierung
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 66 | 77
Hadoop Eco System
Hadoop Eco Systems ist groß und im Fluss
Anbieter von Hadoop-Plattformen bündeln die einzelnen Tools
 Bieten eine konsistente Plattform an
 Abgestimmte Funktionalitäten und Versionen
 Transparente Integration zwischen den einzelnen Tools
 Entwickeln insbesondere Managementwerkzeuge aktiv weiter
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 67 | 77
Anbieter von Hadoop-Plattformen
Cloudera
Hortonworks MapR
https://searchdatamanagement.techtarget.com/news/252455907/Cloudera-and-Hortonworks-combo-to-push-CDP-machine-learning
Unity
Datenhaltung
Security
Governance
Kern-
Komponenten Stream
Processing
Betrieb/
Management
Data
Science
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 68 | 77
Hadoop-Plattform am Beispiel von Unity
https://de.hortonworks.com/ecosystems/
Unity
Pig
Hive
Sqoop
Tez
Calcite
HBase Kafka
Storm
Knox
Ranger
Atlas
Hadoop
Yarn
Ooozie
Ambri
Zookeeper
Solr
Spark
Zeppelin
Accumulo
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 69 | 77
Big Data in der Cloud
Bisher haben wir betrachtet:
Selbst verwaltete Plattformen auf Basis des Hadoop Eco System
 on premise
Infrastruktur für Elastizität und Data Processing wird an die Cloud delegiert
 Es werden u.U. andere Komponenten zum Processing und zur Datenhaltung genutzt
 Die Processoren werden selbst entwickelt und deployed
Die Infrastrukturkomponenten mögen andere sein . . .
. . . aber die Konzepte/Prinzipien bleiben die Gleichen
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Abschluss
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 71 | 77
Big Data – nicht nur für riesige Datenmengen
Lösungen aus Big Data sind nicht nur für riesige Datenmengen
zugeschnitten
Mögliche Architekturtreiber für den Einsatz von Big-Data-Lösungen:
 Event- oder message driven Systeme/Architekturen
 hohe Anforderungen an Elastizität/horizontale Skalierbarkeit
 dynamisches Datenaufkommen
 un- oder semistrukturierte Daten
 (dynamische) Auslastung von Systemen
 (dynamische) Verteilung ressourcen-intensiver Operationen
 Einsatz von ML
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 72 | 77
Big Data – technologische Herausforderungen
Die Frameworks aus HDFS, NoSQL, Stream/Batch Processing
 sind komplex zu erlernen
 sind u.U. komplex zu betreiben
 jedes einzelne und es sind viele
Technologiewelt wird volatiler
Big-Data-Lösungen hängen eng mit der Problemstellung zusammen
 Die speziellen Anforderungen bestimmen die Lösung
Big-Data-Lösungen haben Einfluss auf die zu wählende Hardware
 Stichwort: commodity hardware
Big-Data-Technologien sind häufig dissruptiv
 Passen i.d.R. nicht zu bestehenden Architekturen
 Passen i.d.R. nicht zu bestehenden Systemumgebungen
 Ersetzen i.d.R. bestehende Technologien
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 73 | 77
Fragestellungen an Big-Data-Lösungen
Welche Big-Data-Lösung ist die richtige Lösung ?
 Welche Geschäftsanforderungen werden mit Big Data adressiert?
Welche Datenquellen werden importiert?
 Warum werden diese Daten gesammelt?
 Welche Schlüsse können aus diesen Daten gezogen werden?
 Haben diese Datenquellen eine kritisches Volumen?
Welche neuen Anforderungen an Kompetenzen der Mitarbeiter stellt Big
Data?
 Neue technologische Kompetenzen
 Neue Berufsbilder wie Data Scientist
 Woher kommen die Kompetenzen der Mitarbeiter?
Wie fangen Sie an?
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Vielen Dank!
Fragen?
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 75 | 77
Referenzen
Big Data - Entwicklung und Programmierung von Systemen für große
Datenmengen und Einsatz der Lambda-Architektur by Nathan Marz (2016)
http://www.harvardbusinessmanager.de/blogs/a-862657.html
http://www.harvardbusinessmanager.de/blogs/a-862658-2.html
http://www.harvardbusinessmanager.de/blogs/a-861011.html
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 76 | 77
Impulsvorträge für Ihr Unternehmen
Überblick über das gesamte Angebot an Impulsvorträgen unter:
www.iks-gmbh.com/impulsvortraege
Ihr Nutzen:
 Unabhängiges, aktuelles Expertenwissen.
 Individuell auf Ihr Publikum und Ihr Unternehmen zugeschnittene Vorträge.
 Referenten mit langjähriger und branchenübergreifender Expertise in der IT-
Beratung.
 Praxisnahe Vorträge, die aus Projektarbeit entstanden sind, frei von
Produktwerbung.
 Ideale Ergänzung für Ihre Führungskräftetreffen, Abteilungsmeetings, Hausmessen,
Innovation Days, Konferenzen, Open Spaces, Kick-off-Meetings oder
Zukunftsworkshops.
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
WWW.IKS-GMBH.COM
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 78 | 77
https://stock.adobe.com/de/search?k=m%C3%BChlenrad&asset_id=50391961
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
Darf es ein bisschen mehr sein? 79 | 77
https://pixabay.com/illustrations/graphic-
design-wave-element-curves-2822614/
Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream
Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen

Weitere ähnliche Inhalte

Ähnlich wie Darf es ein bisschen mehr sein - Konzepte und Strategien zur Bewältigung großer und wachsender Datenmengen

Hadoop in modernen BI-Infrastrukturen
Hadoop in modernen BI-InfrastrukturenHadoop in modernen BI-Infrastrukturen
Hadoop in modernen BI-Infrastruktureninovex GmbH
 
Big data trend oder hype slideshare
Big data   trend oder hype slideshareBig data   trend oder hype slideshare
Big data trend oder hype slideshareGuido Oswald
 
Hadoop Einführung @codecentric
Hadoop Einführung @codecentricHadoop Einführung @codecentric
Hadoop Einführung @codecentricimalik8088
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data KonnektivitätTrivadis
 
DWH Modernisierung mit Data Lake, Lab und Governance
DWH Modernisierung mit Data Lake, Lab und GovernanceDWH Modernisierung mit Data Lake, Lab und Governance
DWH Modernisierung mit Data Lake, Lab und GovernanceOPITZ CONSULTING Deutschland
 
Cloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von MetadatenCloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von MetadatenMagnus Pfeffer
 
Big Data Governance
Big Data GovernanceBig Data Governance
Big Data GovernanceCapgemini
 
OpenDMA - Daten Management Solution
OpenDMA  - Daten Management SolutionOpenDMA  - Daten Management Solution
OpenDMA - Daten Management SolutionTorsten Glunde
 
Data Mesh: "Daten als Produkt" weitergedacht
Data Mesh: "Daten als Produkt" weitergedachtData Mesh: "Daten als Produkt" weitergedacht
Data Mesh: "Daten als Produkt" weitergedachtIBsolution GmbH
 
Data Lake Architektur: Von den Anforderungen zur Technologie
Data Lake Architektur: Von den Anforderungen zur TechnologieData Lake Architektur: Von den Anforderungen zur Technologie
Data Lake Architektur: Von den Anforderungen zur TechnologieJens Albrecht
 
BARC Studie Webinar: Ausgereifte Analysen mit Apache Hadoop
BARC Studie Webinar: Ausgereifte Analysen mit Apache HadoopBARC Studie Webinar: Ausgereifte Analysen mit Apache Hadoop
BARC Studie Webinar: Ausgereifte Analysen mit Apache HadoopCloudera, Inc.
 
Dataservices - Data Processing mit Microservices
Dataservices - Data Processing mit MicroservicesDataservices - Data Processing mit Microservices
Dataservices - Data Processing mit MicroservicesQAware GmbH
 
Graphing mit Graphite (Webinar vom 06.11.2013)
Graphing mit Graphite (Webinar vom 06.11.2013)Graphing mit Graphite (Webinar vom 06.11.2013)
Graphing mit Graphite (Webinar vom 06.11.2013)NETWAYS
 
Die Macht der Daten - CeBIT 2017
Die Macht der Daten - CeBIT 2017Die Macht der Daten - CeBIT 2017
Die Macht der Daten - CeBIT 2017Detlev Sandel
 
SCAPE Skalierbare Langzeitarchivierung
SCAPE Skalierbare LangzeitarchivierungSCAPE Skalierbare Langzeitarchivierung
SCAPE Skalierbare LangzeitarchivierungSven Schlarb
 
worldiety GmbH - Datenanalyse
worldiety GmbH - Datenanalyse worldiety GmbH - Datenanalyse
worldiety GmbH - Datenanalyse worldiety GmbH
 

Ähnlich wie Darf es ein bisschen mehr sein - Konzepte und Strategien zur Bewältigung großer und wachsender Datenmengen (20)

Hadoop in modernen BI-Infrastrukturen
Hadoop in modernen BI-InfrastrukturenHadoop in modernen BI-Infrastrukturen
Hadoop in modernen BI-Infrastrukturen
 
Big data trend oder hype slideshare
Big data   trend oder hype slideshareBig data   trend oder hype slideshare
Big data trend oder hype slideshare
 
Hadoop Einführung @codecentric
Hadoop Einführung @codecentricHadoop Einführung @codecentric
Hadoop Einführung @codecentric
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data Konnektivität
 
DWH Modernisierung mit Data Lake, Lab und Governance
DWH Modernisierung mit Data Lake, Lab und GovernanceDWH Modernisierung mit Data Lake, Lab und Governance
DWH Modernisierung mit Data Lake, Lab und Governance
 
Cloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von MetadatenCloud Computing für die Verarbeitung von Metadaten
Cloud Computing für die Verarbeitung von Metadaten
 
Big Data Governance
Big Data GovernanceBig Data Governance
Big Data Governance
 
Big Data Appliances
Big Data AppliancesBig Data Appliances
Big Data Appliances
 
OpenDMA - Daten Management Solution
OpenDMA  - Daten Management SolutionOpenDMA  - Daten Management Solution
OpenDMA - Daten Management Solution
 
Data Mesh: "Daten als Produkt" weitergedacht
Data Mesh: "Daten als Produkt" weitergedachtData Mesh: "Daten als Produkt" weitergedacht
Data Mesh: "Daten als Produkt" weitergedacht
 
Data Lake Architektur: Von den Anforderungen zur Technologie
Data Lake Architektur: Von den Anforderungen zur TechnologieData Lake Architektur: Von den Anforderungen zur Technologie
Data Lake Architektur: Von den Anforderungen zur Technologie
 
BARC Studie Webinar: Ausgereifte Analysen mit Apache Hadoop
BARC Studie Webinar: Ausgereifte Analysen mit Apache HadoopBARC Studie Webinar: Ausgereifte Analysen mit Apache Hadoop
BARC Studie Webinar: Ausgereifte Analysen mit Apache Hadoop
 
Dataservices - Data Processing mit Microservices
Dataservices - Data Processing mit MicroservicesDataservices - Data Processing mit Microservices
Dataservices - Data Processing mit Microservices
 
Graphing mit Graphite (Webinar vom 06.11.2013)
Graphing mit Graphite (Webinar vom 06.11.2013)Graphing mit Graphite (Webinar vom 06.11.2013)
Graphing mit Graphite (Webinar vom 06.11.2013)
 
Big Data mit Apache Hadoop
Big Data mit Apache HadoopBig Data mit Apache Hadoop
Big Data mit Apache Hadoop
 
Die Macht der Daten - CeBIT 2017
Die Macht der Daten - CeBIT 2017Die Macht der Daten - CeBIT 2017
Die Macht der Daten - CeBIT 2017
 
BI mit Apache Hadoop (CDH)
BI mit Apache Hadoop (CDH)BI mit Apache Hadoop (CDH)
BI mit Apache Hadoop (CDH)
 
SCAPE Skalierbare Langzeitarchivierung
SCAPE Skalierbare LangzeitarchivierungSCAPE Skalierbare Langzeitarchivierung
SCAPE Skalierbare Langzeitarchivierung
 
Modernes Rechenzentrum
Modernes Rechenzentrum Modernes Rechenzentrum
Modernes Rechenzentrum
 
worldiety GmbH - Datenanalyse
worldiety GmbH - Datenanalyse worldiety GmbH - Datenanalyse
worldiety GmbH - Datenanalyse
 

Mehr von IKS Gesellschaft für Informations- und Kommunikationssysteme mbH

Mehr von IKS Gesellschaft für Informations- und Kommunikationssysteme mbH (20)

Es wird Zeit KI zu nutzen - Wie es mit Azure KI Services und .NET MAUI gelingt
Es wird Zeit KI zu nutzen - Wie es mit Azure KI Services und .NET MAUI gelingtEs wird Zeit KI zu nutzen - Wie es mit Azure KI Services und .NET MAUI gelingt
Es wird Zeit KI zu nutzen - Wie es mit Azure KI Services und .NET MAUI gelingt
 
Thementag 2023 06 Dieses Mal machen wir alles richtig - 9 Hacks für wandelbar...
Thementag 2023 06 Dieses Mal machen wir alles richtig - 9 Hacks für wandelbar...Thementag 2023 06 Dieses Mal machen wir alles richtig - 9 Hacks für wandelbar...
Thementag 2023 06 Dieses Mal machen wir alles richtig - 9 Hacks für wandelbar...
 
Thementag 2023 04 Lindern, heilen oder gar fit machen.pdf
Thementag 2023 04 Lindern, heilen oder gar fit machen.pdfThementag 2023 04 Lindern, heilen oder gar fit machen.pdf
Thementag 2023 04 Lindern, heilen oder gar fit machen.pdf
 
Thementag 2023 05 Wer zu spät kommt, den bestraft das Leben - Modernisierung ...
Thementag 2023 05 Wer zu spät kommt, den bestraft das Leben - Modernisierung ...Thementag 2023 05 Wer zu spät kommt, den bestraft das Leben - Modernisierung ...
Thementag 2023 05 Wer zu spät kommt, den bestraft das Leben - Modernisierung ...
 
Thementag 2023 01 Mut zur Modernisierung - ein Praxisbeispiel.pdf
Thementag 2023 01 Mut zur Modernisierung - ein Praxisbeispiel.pdfThementag 2023 01 Mut zur Modernisierung - ein Praxisbeispiel.pdf
Thementag 2023 01 Mut zur Modernisierung - ein Praxisbeispiel.pdf
 
Thementag 2023 03 Einführung in die Softwaremodernisierung.pdf
Thementag 2023 03 Einführung in die Softwaremodernisierung.pdfThementag 2023 03 Einführung in die Softwaremodernisierung.pdf
Thementag 2023 03 Einführung in die Softwaremodernisierung.pdf
 
Thementag 2022 01 Verpassen Sie nicht den Anschluss.pdf
Thementag 2022 01 Verpassen Sie nicht den Anschluss.pdfThementag 2022 01 Verpassen Sie nicht den Anschluss.pdf
Thementag 2022 01 Verpassen Sie nicht den Anschluss.pdf
 
Thementag 2022 04 ML auf die Schiene gebracht.pdf
Thementag 2022 04 ML auf die Schiene gebracht.pdfThementag 2022 04 ML auf die Schiene gebracht.pdf
Thementag 2022 04 ML auf die Schiene gebracht.pdf
 
Thementag 2022 03 Ein Modell ist trainiert - und jetzt.pdf
Thementag 2022 03 Ein Modell ist trainiert - und jetzt.pdfThementag 2022 03 Ein Modell ist trainiert - und jetzt.pdf
Thementag 2022 03 Ein Modell ist trainiert - und jetzt.pdf
 
Thementag 2022 02 Der Deutschen Bahn in die Karten geschaut.pdf
Thementag 2022 02 Der Deutschen Bahn in die Karten geschaut.pdfThementag 2022 02 Der Deutschen Bahn in die Karten geschaut.pdf
Thementag 2022 02 Der Deutschen Bahn in die Karten geschaut.pdf
 
Daten / Information / Wissen - Möglichkeiten und Grenzen des Machine Learning
Daten / Information / Wissen - Möglichkeiten und Grenzen des Machine LearningDaten / Information / Wissen - Möglichkeiten und Grenzen des Machine Learning
Daten / Information / Wissen - Möglichkeiten und Grenzen des Machine Learning
 
Erste Schritte in die neue Welt-So gelingt der Einstieg in Big Data und Machi...
Erste Schritte in die neue Welt-So gelingt der Einstieg in Big Data und Machi...Erste Schritte in die neue Welt-So gelingt der Einstieg in Big Data und Machi...
Erste Schritte in die neue Welt-So gelingt der Einstieg in Big Data und Machi...
 
Big Data und Machine Learning - Wer braucht das schon!?
Big Data und Machine Learning - Wer braucht das schon!?Big Data und Machine Learning - Wer braucht das schon!?
Big Data und Machine Learning - Wer braucht das schon!?
 
Erste Schritte in die neue Welt - So gelingt der Einstieg in Big Data und Mac...
Erste Schritte in die neue Welt - So gelingt der Einstieg in Big Data und Mac...Erste Schritte in die neue Welt - So gelingt der Einstieg in Big Data und Mac...
Erste Schritte in die neue Welt - So gelingt der Einstieg in Big Data und Mac...
 
Daten / Information / Wissen - Möglichkeiten und Grenzen des Machine Learning
Daten / Information / Wissen - Möglichkeiten und Grenzen des Machine LearningDaten / Information / Wissen - Möglichkeiten und Grenzen des Machine Learning
Daten / Information / Wissen - Möglichkeiten und Grenzen des Machine Learning
 
Big Data und Machine Learning - Wer braucht das schon!?
Big Data und Machine Learning - Wer braucht das schon!?Big Data und Machine Learning - Wer braucht das schon!?
Big Data und Machine Learning - Wer braucht das schon!?
 
Daten / Information / Wissen - Möglichkeiten und Grenzen des Machine Learning
Daten / Information / Wissen - Möglichkeiten und Grenzen des Machine LearningDaten / Information / Wissen - Möglichkeiten und Grenzen des Machine Learning
Daten / Information / Wissen - Möglichkeiten und Grenzen des Machine Learning
 
Big Data und Machine Learning - Wer braucht das schon!
Big Data und Machine Learning - Wer braucht das schon!Big Data und Machine Learning - Wer braucht das schon!
Big Data und Machine Learning - Wer braucht das schon!
 
Erste Schritte in die neue Welt so gelingt der Einstieg in Big Data und Machi...
Erste Schritte in die neue Welt so gelingt der Einstieg in Big Data und Machi...Erste Schritte in die neue Welt so gelingt der Einstieg in Big Data und Machi...
Erste Schritte in die neue Welt so gelingt der Einstieg in Big Data und Machi...
 
Von der Idee zur Lösung in Rekordzeit - Anforderungsmanagement und Qualitätss...
Von der Idee zur Lösung in Rekordzeit - Anforderungsmanagement und Qualitätss...Von der Idee zur Lösung in Rekordzeit - Anforderungsmanagement und Qualitätss...
Von der Idee zur Lösung in Rekordzeit - Anforderungsmanagement und Qualitätss...
 

Darf es ein bisschen mehr sein - Konzepte und Strategien zur Bewältigung großer und wachsender Datenmengen

  • 1. Darf es ein bisschen mehr sein? 1 | 77 Projekte. Beratung. Spezialisten. Darf es ein bisschen mehr sein? IKS-Thementag 12.11.2019 Autor: Christoph Schmidt-Casdorff Konzepte und Strategien zur Bewältigung großer und wachsender Datenmengen
  • 2. Darf es ein bisschen mehr sein? 2 | 77 Agenda Was ist Big Data? Architekturaspekte in Big Data Big Data at Rest Data Processing – Batch a là Big Data Stream Processing – Big Data at Flow Big-Data-Architekturen Hadoop Eco System und Plattform-Anbieter Abschluss
  • 3. Darf es ein bisschen mehr sein? 3 | 77 Große Datenmenge Historisch: Warum Big Data? AntwortFrage Welche technischen Herausforderungen sind zu bewältigen?  Speicherung der Datenmengen  Lesen und Analyse der Datenmengen  Befüllung der Datenmengen Beispiele von Datenquellen  Sensor Daten (IoT)  Kreditkarten-Transaktionen  Aktienbewegungen  Blog Posts  Network Traffic  Log Entries Was charakterisiert Big Data ?  Hohe Geschwindigkeit des Datenaufkommens  Hohe Schwankung des Datenaufkommens  Große Menge der Daten  Keine Beschränkung der Variabilität der Datenstrukturen  Keine Beschränkung in der Varianz der Datenqualität  Große Datenmengen und massives Datenwachstum  Facebook sammelt mehr als 250 Terabytes pro Tag  Daten kommen aus unterschiedlichsten Quellen/Kanälen  Daten haben unterschiedlichste (oder gar keine) Strukturen Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 4. Daten in Ruhe https://www.fjordblick.com/tjodnane-see-am-preikestolen-foto-des-monats-dezember-2018/ Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 5. Darf es ein bisschen mehr sein? 5 | 77 Daten in Ruhe Diskette Datenbank Datei CD Magnetband Festplatten Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 6. Darf es ein bisschen mehr sein? 6 | 77 Informationen und Erkenntnisse gewinnt man nur aus Daten im Fluss Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 7. Darf es ein bisschen mehr sein? 7 | 77 Verarbeitung muss mit Daten versorgt werden https://commons.wikimedia.org/wiki/File:Wechsel_-_M%C3%BChlrad_beim_M%C3%BChlenplatzl_am_Wildwasserweg.jpg Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 8. Darf es ein bisschen mehr sein? 8 | 77 Notation: Daten im Fluss Datenfluss Datenverarbeitung/ Informationsgewinn Datenspeicher stellt Daten zu übergibt Ergebnisse schreibtundliest Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 9. Darf es ein bisschen mehr sein? 9 | 77 Big Data …. Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 10. Darf es ein bisschen mehr sein? 10 | 77 https://www.worldatlas.com/articles/the-great-lakes-ranked-by-size.html Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 11. Darf es ein bisschen mehr sein? 11 | 77 https://afrika-junior.de/inhalt/kontinent/regionen/das-suedliche-afrika-die-suempfe-und-die-namib-wueste/der-sambesi-die-lebensader-im-suedlichen-afrika.html Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 12. Darf es ein bisschen mehr sein? 12 | 77 Funktioniert mit hergebrachten Methoden nicht mehr https://www.n-tv.de/panorama/Land-unter-in-Bayern-und-Sachsen-article10751731.html Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 13. Darf es ein bisschen mehr sein? 13 | 77 Warum reicht es nicht mehr? Physische Kapazitätsbegrenzung der Hardware  Plattenplatz  Hauptspeicher Kapazitätsbegrenzung von Systemen wie relationalen Datenbanken Horizontaler statt vertikaler Skalierung Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 14. Darf es ein bisschen mehr sein? 14 | 77 Lösungsansatz für Daten in Ruhe Aufteilung des großen Datensees in beliebig viele Datenteiche Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 15. Big Data at Rest https://urlaubsreich.de/wp-content/uploads/2018/08/Sch%C3%B6n-IMG_5643-ge%C3%A4ndert.jpg Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 16. Darf es ein bisschen mehr sein? 16 | 77 Cluster Ein Cluster repräsentiert eine Menge an Servern/VMs (kurz Nodes) als gemeinsames System  Die Ressourcen, alle Nodes, werden gemeinsam verwaltet Cluster besteht i.d.R. aus einem komplexen Zusammenspiel unterschiedlicher Prozesse auf den einzelnen Nodes Spezielle Aufgaben sind  clusterweites Ressourcenmanagement  clusterweite Synchronisation  clusterweite Orchestrierung Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 17. Darf es ein bisschen mehr sein? 17 | 77 Partitionen Daten Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 18. Darf es ein bisschen mehr sein? 18 | 77 Partitionen Node Node Node Node Node Daten Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 19. Darf es ein bisschen mehr sein? 19 | 77 Partitionen Node Node Node Node Node Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 20. Darf es ein bisschen mehr sein? 20 | 77 Partitionen Node Node Node Node Node Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 21. Darf es ein bisschen mehr sein? 21 | 77 Partitionen Node Node Node Node Node Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 22. Darf es ein bisschen mehr sein? 22 | 77 Replikationen Node Node Node Node Node Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 23. Darf es ein bisschen mehr sein? 23 | 77 Verteilte Datenhaltungssysteme Replikation und Partitionierung sind grundlegende Konzepte, welche in allen verteilten Datenhaltungssystemen zum Tragen kommen Verteilte Datenhaltungssysteme beschäftigen sich damit,  wie Daten partitioniert werden  wie eine konsistente Sicht auf partitionierte Daten gewährleistet wird  wie ein Cluster auszubalancieren ist, wenn einzelne Nodes wegfallen/hinzukommen  wie sich ein Cluster verhält, wenn eine große Menge von Nodes wegfallen Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 24. Darf es ein bisschen mehr sein? 24 | 77 Name Dropping Verteilte Filesysteme (DFS)  Hadoop Verteilte NoSql-Datenbanken  HBase  Cassandra  MongoDB  Redis  Kafka Verteiltes Konfigurationsmanagement  Zookeeper  etcd  Consul Clustermanagement  Yarn  Kubernetes  Mesosphere Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 25. https://urlaubsreich.de/wp-content/uploads/2018/08/Sch%C3%B6n-IMG_5643-ge%C3%A4ndert.jpg Batch Processing a là Big Data Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 26. Darf es ein bisschen mehr sein? 26 | 77 Klassisch: Daten aktiv aus dem Datenspeicher holen https://www.schwengelpumpe.eu/ Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 27. Darf es ein bisschen mehr sein? 27 | 77 Klassisches Batch Processing Klassisch: Datenverarbeitung holt sich ihre Daten ? Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 28. Darf es ein bisschen mehr sein? 28 | 77 Klassisches Batch Processing Logik der Datenversorgung und Datenverarbeitung in einer Komponente ? Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 29. Batch Processing a là Big Data ? Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 30. Batch Processing a là Big Data (II) Optimierung: Verteilung der Daten hat Einfluss auf das Programmiermodell ? Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 31. Darf es ein bisschen mehr sein? 31 | 77 Name Dropping Map Reduce Algorithmus, um Daten aus verteilten Datensystemen zu extrahieren Map Reduce ist der bekannteste Vertreter dieser Verfahren Entwickelt für Hadoop DFS Eigenes Programmiermodell für verteilte Filesysteme  Entwickelt von Google  Bekannt als Verfahren über Hadoop Ist relativ langsam  Heutzutage werden andere Verfahren angewendet Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 32. Darf es ein bisschen mehr sein? 32 | 77 Dieser Ansatz funktioniert für beschränkte Verarbeitungsmengen Warum? Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 33. Darf es ein bisschen mehr sein? 33 | 77 Idee verteilter Verarbeitung: Verteilung auf viele Schultern ? Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 34. Darf es ein bisschen mehr sein? 34 | 77 Probleme dieser Architektur Prämisse „Verarbeitung holt sich die Daten“ hat folgende Konsequenzen:  Jede einzelne Komponente verantwortet, welche Daten zu verarbeiten sind  . . ., das kann aber nur im Verbund entschieden werden  unverhältnismäßig hoher und nicht linear wachsender Abstimmungsbedarf  Daten werden nicht verarbeitet, wenn sie entstehen,  sondern wenn sie geholt werden Um beliebig große Datenmengen zu verarbeiten,  muss diese Prämisse umgestellt werden Die Verarbeitungskomponente bekommt die zu verarbeitenden Daten zugestellt Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 35. Darf es ein bisschen mehr sein? 35 | 77 Aufteilung der Verarbeitung auf viele Schultern setzt eine dynamische Partitionierung der Daten voraus Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 36. Darf es ein bisschen mehr sein? 36 | 77 Diese Datenmenge muss in Fluss gebracht werden Trennung von Datenzustellung und Datenverarbeitung Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 37. Darf es ein bisschen mehr sein? 37 | 77 https://afrika-junior.de/inhalt/kontinent/regionen/das-suedliche-afrika-die-suempfe-und-die-namib-wueste/der-sambesi-die-lebensader-im-suedlichen-afrika.html Big Data at Flow Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 38. Darf es ein bisschen mehr sein? 38 | 77 Stream Processing – Metapher für Daten im Fluss Daten als kontinuierlicher Strom, der der Verarbeitung zugeführt wird Datenstrom verästelt sich durch ein System von Leitungen Daten wandern/meandern durch dieses System  mehr oder weniger gesteuert “Stream Processing is a type of data processing engine that is designed with infinite data sets in mind” https://www.oreilly.com/ideas/the-world-beyond-batch-streaming-101 Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 39. Mississippi Delta – System von Leitungen https://commons.wikimedia.org/wiki/File:Mississippi_delta_from_space_detalle.jpg Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 40. Blattadern – System von Leitungen https://blendezwo.de/wp-content/uploads/2015/03/db090510102.jpg Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 41. Pull-Prinzip ? Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 42. Push-Prinzip Daten werden der Verarbeitungs- komponente zugestellt Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 43. Daten fließen Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 44. Darf es ein bisschen mehr sein? 44 | 77 Stream Processing Metapher  Daten als kontinuierlicher Strom, der der Verarbeitung zugeführt wird Es gibt eine Infrastruktur, welche  Daten den Verarbeitungskomponenten zustellt (data driven)  mit schwankenden Mengen von Daten zurechtkommt (Elastizität) Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 45. Darf es ein bisschen mehr sein? 45 | 77 Was heißt dies für die Verarbeitung? Datenverarbeitung wird von kleinen, autonomen Einheiten durchgeführt  Processoren genannt Processoren beschreiben, für welchen Typ von Daten sie zuständig sind  … und bekommen diese Daten durch die Infrastruktur zugestellt Processoren werden im Cluster verteilt und skaliert Processoren werden durch die Infrastruktur mit Daten versorgt …  … verarbeiten diese …  … und geben diese an die Infrastruktur zurück Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 46. Wo bleiben Ihre Programme? Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 47. Wo bleiben Ihre Programme ? Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 48. Darf es ein bisschen mehr sein? 48 | 77 Name Dropping Messaging Systeme  Rabbit MQ  Active MQ  . . . Hybride zwischen verteilter Datenhaltung und Messaging  Kafka Dezidierte Streaming Engines  Apache Spark  Apache Flink  Apache Samza Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 49. Big-Data-Architektur https://www.mch-group.com/en-US/news/blog/2016/05/powertage-2016-messe-zuerich.aspx Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 50. Darf es ein bisschen mehr sein? 50 | 77 Es sind Architekturen entstanden, die … sehr gut horizontal skalieren  bzgl. Datenmengen  bzgl. Datendurchsatz  bzgl. Ressourcen hochgradig parallele Anwendungen ermöglichen sehr gut mit schwankenden Datenmengen umgehen können Daten verarbeiten, sobald diese im System verfügbar sind lose gekoppelte Architekturen propagieren  Je enger die Kopplung, desto schwieriger ist die Skalierung i.d.R. Open Source sind  Es gibt allerdings immer kommerzielle Erweiterungen und Support Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 51. Darf es ein bisschen mehr sein? 51 | 77 Technologische Lösungsansätze Cluster  Horizontale Skalierbarkeit/Elastizität Data Storage mit verteilten Datenhaltungssystemen  Strukturierte sowie un- und semistrukturierte Daten  Gemischte Datenformate gleichzeitig Batch Processing mit speziellen Programmiermodellen  Für Verarbeitung begrenzter Datenmengen Stream Processing  Datengetriebene Verarbeitung (data driven)  Daten werden den Processoren zugestellt  Asynchrone Verarbeitung  mit Messagingsystemen  mit speziellen Stream Processing Engines  Parallele und skalierbare Verarbeitung Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 52. Darf es ein bisschen mehr sein? 52 | 77 Diese Architekturen sind historisch durch Big Data entstanden Bieten ganz neue Einsatzmöglichkeiten  Auch jenseits von „riesigen Datenmengen“ Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 53. Darf es ein bisschen mehr sein? 53 | 77 Active Archiv ? Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 54. Darf es ein bisschen mehr sein? 54 | 77 Streaming Architekturen Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 55. Darf es ein bisschen mehr sein? 55 | 77 Stream Processing Streaming Architekturen Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 56. Darf es ein bisschen mehr sein? 56 | 77 Stream Processing und Machine Learning Machine Learning und Stream Processing  Machine Learning sucht Muster in einem Strom von Daten  Ergänzen sich ideal  Machine Learning ist i.d.R. ressourcen-intensiv  Alle Streaming Engines besitzen Machine-Learning-Funktionalität Beispiel: Fraud Detection Spezielle Anforderungen an ML  Zustandsverwaltung  Fehlerhandling  Rekursionen  Behandlung von bounded Windows Fraud Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 57. Darf es ein bisschen mehr sein? 57 | 77 Wie kommen die Daten in das System? Batch Processing Data Storage ? Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 58. Darf es ein bisschen mehr sein? 58 | 77 Wie kommen die Daten in das System? Batch Processing Data Storage • Viele Datenquellen • Variierendes Datenaufkommen • Unterschiedliche Datenformate • Unterschiedliche DatenqualitätSocial Media IoT Corporate Data Logs Partner Daten Datei- schnittstellen Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 59. Darf es ein bisschen mehr sein? 59 | 77 Data Acquisition Layer Batch Processing Data Storage DataAcquisitionLayer • Eingangskanäle für alle möglichen Datenquellen • Pufferungsmechanismen (Backpressure) • Ggf. Normalisierung der Daten • Ggf. Bereinigung/Konsolidierung der Daten • Einspeisung der Daten in Data Storage Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 60. Darf es ein bisschen mehr sein? 60 | 77 Data Storage Batch Processing DataAcquisitionLayer Stream Processing Skizze Big Data Architecture (I) Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 61. Clustermanagement Batch Processing Data Storage DataAcquisitionLayer Stream Processing ServingLayer Near Real Time Processing Skizze Big Data Architecture (I) Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen • Anzeige von Verarbeitungsergebnissen • Schnittstellen für self-service Data • BI
  • 62. Clustermanagement Skizze Big Data Architecture (II) – Blick auf die Daten Batch Processing Rohdaten DataAcquisitionLayer Stream Processing Konsolidierte Data Near Real Time ServingLayer Kuratierte Daten Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 63. Clustermanagement Batch Processing Rohdaten DataAcquisitionLayer Stream Processing ServingLayer Konsolidierte Data Kuratierte Daten Near Real Time Hadoop Cassandra HBase MapReduce Hive Apache Spark Apache Flink Apache Kafka Name Dropping (Apache/Hadoop Eco System) Sqoop Flume StreamSets Data Collector Gobblin Kafka Yarn Mesosphere Kubernetes Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 64. Darf es ein bisschen mehr sein? 64 | 77 Was haben wird noch nicht betrachtet? Big Data und Datenserialisierung  Serialisierung bei Persistenz von beliebigen Datenstrukturen  Problem kleiner Daten bei HDFS Big Data und Security/Mehrmandantenfähigkeiten  Authentifizierung, Autorisierung, feingranulare Zugriffsberechtigungen, Datenverschlüsselung, Kommunikationsverschlüsselung Administration  Administration der Plattform Auswertungen und self-service data  Öffnen der Plattform für data scientists Data Governance  Orchestrierung des Zusammenspiels von Menschen, Prozessen und Daten Big Data und Hardware  Insbesondere Big Data/Distributed Processing in virtualisierten Umgebungen Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 65. Hadoop Ecosystem https://autofei.wordpress.com/2017/07/06/hadoop-ecosystem/ Machine Learning • komplexe Datenanalyse Stream und Batch Processing Datenserialisierung Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 66. Darf es ein bisschen mehr sein? 66 | 77 Hadoop Eco System Hadoop Eco Systems ist groß und im Fluss Anbieter von Hadoop-Plattformen bündeln die einzelnen Tools  Bieten eine konsistente Plattform an  Abgestimmte Funktionalitäten und Versionen  Transparente Integration zwischen den einzelnen Tools  Entwickeln insbesondere Managementwerkzeuge aktiv weiter Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 67. Darf es ein bisschen mehr sein? 67 | 77 Anbieter von Hadoop-Plattformen Cloudera Hortonworks MapR https://searchdatamanagement.techtarget.com/news/252455907/Cloudera-and-Hortonworks-combo-to-push-CDP-machine-learning Unity Datenhaltung Security Governance Kern- Komponenten Stream Processing Betrieb/ Management Data Science Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 68. Darf es ein bisschen mehr sein? 68 | 77 Hadoop-Plattform am Beispiel von Unity https://de.hortonworks.com/ecosystems/ Unity Pig Hive Sqoop Tez Calcite HBase Kafka Storm Knox Ranger Atlas Hadoop Yarn Ooozie Ambri Zookeeper Solr Spark Zeppelin Accumulo Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 69. Darf es ein bisschen mehr sein? 69 | 77 Big Data in der Cloud Bisher haben wir betrachtet: Selbst verwaltete Plattformen auf Basis des Hadoop Eco System  on premise Infrastruktur für Elastizität und Data Processing wird an die Cloud delegiert  Es werden u.U. andere Komponenten zum Processing und zur Datenhaltung genutzt  Die Processoren werden selbst entwickelt und deployed Die Infrastrukturkomponenten mögen andere sein . . . . . . aber die Konzepte/Prinzipien bleiben die Gleichen Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 70. Abschluss Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 71. Darf es ein bisschen mehr sein? 71 | 77 Big Data – nicht nur für riesige Datenmengen Lösungen aus Big Data sind nicht nur für riesige Datenmengen zugeschnitten Mögliche Architekturtreiber für den Einsatz von Big-Data-Lösungen:  Event- oder message driven Systeme/Architekturen  hohe Anforderungen an Elastizität/horizontale Skalierbarkeit  dynamisches Datenaufkommen  un- oder semistrukturierte Daten  (dynamische) Auslastung von Systemen  (dynamische) Verteilung ressourcen-intensiver Operationen  Einsatz von ML Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 72. Darf es ein bisschen mehr sein? 72 | 77 Big Data – technologische Herausforderungen Die Frameworks aus HDFS, NoSQL, Stream/Batch Processing  sind komplex zu erlernen  sind u.U. komplex zu betreiben  jedes einzelne und es sind viele Technologiewelt wird volatiler Big-Data-Lösungen hängen eng mit der Problemstellung zusammen  Die speziellen Anforderungen bestimmen die Lösung Big-Data-Lösungen haben Einfluss auf die zu wählende Hardware  Stichwort: commodity hardware Big-Data-Technologien sind häufig dissruptiv  Passen i.d.R. nicht zu bestehenden Architekturen  Passen i.d.R. nicht zu bestehenden Systemumgebungen  Ersetzen i.d.R. bestehende Technologien Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 73. Darf es ein bisschen mehr sein? 73 | 77 Fragestellungen an Big-Data-Lösungen Welche Big-Data-Lösung ist die richtige Lösung ?  Welche Geschäftsanforderungen werden mit Big Data adressiert? Welche Datenquellen werden importiert?  Warum werden diese Daten gesammelt?  Welche Schlüsse können aus diesen Daten gezogen werden?  Haben diese Datenquellen eine kritisches Volumen? Welche neuen Anforderungen an Kompetenzen der Mitarbeiter stellt Big Data?  Neue technologische Kompetenzen  Neue Berufsbilder wie Data Scientist  Woher kommen die Kompetenzen der Mitarbeiter? Wie fangen Sie an? Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 74. Vielen Dank! Fragen? Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 75. Darf es ein bisschen mehr sein? 75 | 77 Referenzen Big Data - Entwicklung und Programmierung von Systemen für große Datenmengen und Einsatz der Lambda-Architektur by Nathan Marz (2016) http://www.harvardbusinessmanager.de/blogs/a-862657.html http://www.harvardbusinessmanager.de/blogs/a-862658-2.html http://www.harvardbusinessmanager.de/blogs/a-861011.html Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 76. Darf es ein bisschen mehr sein? 76 | 77 Impulsvorträge für Ihr Unternehmen Überblick über das gesamte Angebot an Impulsvorträgen unter: www.iks-gmbh.com/impulsvortraege Ihr Nutzen:  Unabhängiges, aktuelles Expertenwissen.  Individuell auf Ihr Publikum und Ihr Unternehmen zugeschnittene Vorträge.  Referenten mit langjähriger und branchenübergreifender Expertise in der IT- Beratung.  Praxisnahe Vorträge, die aus Projektarbeit entstanden sind, frei von Produktwerbung.  Ideale Ergänzung für Ihre Führungskräftetreffen, Abteilungsmeetings, Hausmessen, Innovation Days, Konferenzen, Open Spaces, Kick-off-Meetings oder Zukunftsworkshops. Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 77. WWW.IKS-GMBH.COM Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 78. Darf es ein bisschen mehr sein? 78 | 77 https://stock.adobe.com/de/search?k=m%C3%BChlenrad&asset_id=50391961 Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen
  • 79. Darf es ein bisschen mehr sein? 79 | 77 https://pixabay.com/illustrations/graphic- design-wave-element-curves-2822614/ Was ist Big Data? | Architekturaspekte | Big Data at Rest | Data Processing | Stream Processing | Big-Data-Architekturen | Hadoop Eco System | Abschluss | Referenzen