SlideShare ist ein Scribd-Unternehmen logo
1 von 7
EVALUATION
STREAMING
FRAMEWORKS
Apache Storm vs. Apache Spark Streaming
Vorstellung Apache Storm
Apache Storm
• Von Backtype entwickelt, von Twitter übernommen, nun
als Apache Projekt
• Definiert ein Netzwerk von Spouts (Streaming Quellen)
und Bolts (Processing – Einheiten), die frei in Topologies
kombinierbar und verkettbar sind.
• Basiert auf Zookeeper, mit einem JobTracker (Nimbus)
zur koordination und für fail over mediation.
• Alternativ werden Resourcen über YARN in einer
existierenden Hadoop Umgebung integriert
• Stream – Verarbeitung ist „garantiert“
• Spouts (Quellen) sind typischerweise Queue – Systeme,
für Kafka gibt es ein Implementierung
Use Case Evaluierung Storm
• ADP Event aus HDFS einlesen und in Kafka einspielen
• Storm-Kafka an topic subscriben und jeweils
• Eine (klassische) Storm Topology die Events verarbeiten lassen und
• Eine Trident Topology die Events verarbeiten lassen
• Aufbau eines Cluster in AWS mit
• Einem Master mit UI und Nimbus, sowie drei Worker
• Zwei Worker Nodes mit jeweils drei Worker
440 Mio. Events aus HDFS in Storm eingespielt.
Throughput bei 5600 events / sek (Limit bei Kafka Server / 100
Mbit/s interface)
Abschuss von einer Node im laufenden Betrieb ohne
Auswirkung auf die Verarbeitung, da dynamisches Rerouting
Vorstellung Streaming – Spark Streaming
Spark Streaming ist eine API aus der Spark Framework Familie und
wird von Databrix entwickelt.
• Anders als Storm oder Samza arbeitet Spark mit dem Konzept von
RDDs (resilient distributed data sets), gekapselte, ausführbare
collections von Datensätzen, die parallelisierbar sind.
• Bei RDDs wird grundsätzlich zwischen Transformationen (ähnlich wie
map bei MR) und Aktionen (reduce bei MR) unterschieden.
• Die Daten und Ihre Ausführung bilden dabei eine Einheit, die
segmentiert wird und parallel ausgeführt wird. Die Ausführung ist
grundsätzlich lazy, d.h. die Transformation wird erst dann ausgeführt,
wenn dessen Ausgabe von einer folgenden Aktion benötigt wird.
• Das ermöglich die dynamische Allokation von Ressourcen durch den
Resource Manager, typischerweise YARN oder Mesos.
• Spark Streaming ist eine Erweiterung von Spark, die es erlaubt
Streams an RDDs anzudocken. Unter anderem wird hier Kafka
unterstützt.
Use Case Evaluierung Spark Streaming
• ADP Event aus HDFS einlesen und in Kafka einspielen
• Setup einer Application, so wie bei Storm auch, die User-
Agents zählt
• Aufbau eines Cluster in AWS mit
• Einem Master mit einem Worker
• Zwei Worker Nodes mit jeweils einem Worker
• Läuft nur mit Kafka 0.8!
440 Mio. Events aus HDFS in Spark einspielen.
Throughput messen
Abschuss von einer Node im laufenden Betrieb
evaluieren
Pros and Cons Spark Streaming
• Für Spark Streaming spricht:
• Umfangreiche API mit vielen Funktionen
• Teil der Spark Plattform, für Data Science sehr relevant (z.B.
MLLib)
• Integration in Hadoop und Akka (Bei CDH5 in der Distribution
enthalten)
• Dagegen spricht:
• Die Java API ist absolut furchtbar, sinnvoll nur mit Scala einsetzbar
• Läuft nur mit Kafka 0.8
• Verarbeitung nicht garantiert, Kafka messages werden bei failures
nicht zurückgespult.
Pros and Cons - Storm
• Für Storm spricht:
• Extrem robust und erprobt
• Einfache Clusterverwaltung
• Einfache API
• Low - level Kafka Anbindung
• Only Once - Garantie mit Trident
• Dagegen spricht:
• Nicht integriert in Hadoop – Infrastruktur

Weitere ähnliche Inhalte

Was ist angesagt?

Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?
Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?
Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?inovex GmbH
 
Oracle Technology Monthly Oktober 2017
Oracle Technology Monthly Oktober 2017Oracle Technology Monthly Oktober 2017
Oracle Technology Monthly Oktober 2017oraclebudb
 
Klonen von Exadata-Datenbanken mit der Oracle ZFS Appliance - Ein Erfahrungsb...
Klonen von Exadata-Datenbanken mit der Oracle ZFS Appliance - Ein Erfahrungsb...Klonen von Exadata-Datenbanken mit der Oracle ZFS Appliance - Ein Erfahrungsb...
Klonen von Exadata-Datenbanken mit der Oracle ZFS Appliance - Ein Erfahrungsb...Loopback.ORG
 
Big Game Data - Event Tracking mit Storm, Kestrel und der Lambda Architektur ...
Big Game Data - Event Tracking mit Storm, Kestrel und der Lambda Architektur ...Big Game Data - Event Tracking mit Storm, Kestrel und der Lambda Architektur ...
Big Game Data - Event Tracking mit Storm, Kestrel und der Lambda Architektur ...Volker Janz
 
Apache Kafka
Apache KafkaApache Kafka
Apache Kafkagedoplan
 
Infrastructure as Code mit Terraform
Infrastructure as Code mit TerraformInfrastructure as Code mit Terraform
Infrastructure as Code mit TerraformHarald Schmaldienst
 
SQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die Cloud
SQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die CloudSQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die Cloud
SQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die CloudAWS Germany
 
Roadshow: What's new in Microsoft SQL Server 2016
Roadshow: What's new in Microsoft SQL Server 2016Roadshow: What's new in Microsoft SQL Server 2016
Roadshow: What's new in Microsoft SQL Server 2016Digicomp Academy AG
 
LinuxTag 2008 - Virtuelle Cold-Standby Server mit Linux
LinuxTag 2008 - Virtuelle Cold-Standby Server mit LinuxLinuxTag 2008 - Virtuelle Cold-Standby Server mit Linux
LinuxTag 2008 - Virtuelle Cold-Standby Server mit LinuxSchlomo Schapiro
 
Cloud Native und Java EE: Freund oder Feind?
Cloud Native und Java EE: Freund oder Feind?Cloud Native und Java EE: Freund oder Feind?
Cloud Native und Java EE: Freund oder Feind?Josef Adersberger
 
Cloud Wars – what‘s the smartest data platform? Vergleich Microsoft Azure, Am...
Cloud Wars – what‘s the smartest data platform? Vergleich Microsoft Azure, Am...Cloud Wars – what‘s the smartest data platform? Vergleich Microsoft Azure, Am...
Cloud Wars – what‘s the smartest data platform? Vergleich Microsoft Azure, Am...inovex GmbH
 
OEM Cloud Control - Hochverfügbar von Kopf bis Fuß
OEM Cloud Control - Hochverfügbar von Kopf bis Fuß OEM Cloud Control - Hochverfügbar von Kopf bis Fuß
OEM Cloud Control - Hochverfügbar von Kopf bis Fuß DanielHillinger
 
Apache Cassandra - Einführung
Apache Cassandra - EinführungApache Cassandra - Einführung
Apache Cassandra - EinführungAndreas Finke
 
BPMN, BPEL oder vielleicht doch Java? Oder auch noch ESB?
BPMN, BPEL oder vielleicht doch Java? Oder auch noch ESB?BPMN, BPEL oder vielleicht doch Java? Oder auch noch ESB?
BPMN, BPEL oder vielleicht doch Java? Oder auch noch ESB?Guido Schmutz
 
Automotive Information Research driven by Apache Solr
Automotive Information Research driven by Apache SolrAutomotive Information Research driven by Apache Solr
Automotive Information Research driven by Apache SolrQAware GmbH
 
OOP2020_Kafka_Entkopplung
OOP2020_Kafka_EntkopplungOOP2020_Kafka_Entkopplung
OOP2020_Kafka_EntkopplungPatrik Kleindl
 

Was ist angesagt? (19)

Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?
Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?
Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?
 
Oracle Technology Monthly Oktober 2017
Oracle Technology Monthly Oktober 2017Oracle Technology Monthly Oktober 2017
Oracle Technology Monthly Oktober 2017
 
Amazon Redshift
Amazon RedshiftAmazon Redshift
Amazon Redshift
 
Klonen von Exadata-Datenbanken mit der Oracle ZFS Appliance - Ein Erfahrungsb...
Klonen von Exadata-Datenbanken mit der Oracle ZFS Appliance - Ein Erfahrungsb...Klonen von Exadata-Datenbanken mit der Oracle ZFS Appliance - Ein Erfahrungsb...
Klonen von Exadata-Datenbanken mit der Oracle ZFS Appliance - Ein Erfahrungsb...
 
Big Game Data - Event Tracking mit Storm, Kestrel und der Lambda Architektur ...
Big Game Data - Event Tracking mit Storm, Kestrel und der Lambda Architektur ...Big Game Data - Event Tracking mit Storm, Kestrel und der Lambda Architektur ...
Big Game Data - Event Tracking mit Storm, Kestrel und der Lambda Architektur ...
 
Apache Kafka
Apache KafkaApache Kafka
Apache Kafka
 
Storage Spaces Direct - Introduction
Storage Spaces Direct - IntroductionStorage Spaces Direct - Introduction
Storage Spaces Direct - Introduction
 
Infrastructure as Code mit Terraform
Infrastructure as Code mit TerraformInfrastructure as Code mit Terraform
Infrastructure as Code mit Terraform
 
SQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die Cloud
SQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die CloudSQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die Cloud
SQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die Cloud
 
Roadshow: What's new in Microsoft SQL Server 2016
Roadshow: What's new in Microsoft SQL Server 2016Roadshow: What's new in Microsoft SQL Server 2016
Roadshow: What's new in Microsoft SQL Server 2016
 
LinuxTag 2008 - Virtuelle Cold-Standby Server mit Linux
LinuxTag 2008 - Virtuelle Cold-Standby Server mit LinuxLinuxTag 2008 - Virtuelle Cold-Standby Server mit Linux
LinuxTag 2008 - Virtuelle Cold-Standby Server mit Linux
 
Cloud Native und Java EE: Freund oder Feind?
Cloud Native und Java EE: Freund oder Feind?Cloud Native und Java EE: Freund oder Feind?
Cloud Native und Java EE: Freund oder Feind?
 
Cloud Wars – what‘s the smartest data platform? Vergleich Microsoft Azure, Am...
Cloud Wars – what‘s the smartest data platform? Vergleich Microsoft Azure, Am...Cloud Wars – what‘s the smartest data platform? Vergleich Microsoft Azure, Am...
Cloud Wars – what‘s the smartest data platform? Vergleich Microsoft Azure, Am...
 
OEM Cloud Control - Hochverfügbar von Kopf bis Fuß
OEM Cloud Control - Hochverfügbar von Kopf bis Fuß OEM Cloud Control - Hochverfügbar von Kopf bis Fuß
OEM Cloud Control - Hochverfügbar von Kopf bis Fuß
 
Apache Cassandra - Einführung
Apache Cassandra - EinführungApache Cassandra - Einführung
Apache Cassandra - Einführung
 
BPMN, BPEL oder vielleicht doch Java? Oder auch noch ESB?
BPMN, BPEL oder vielleicht doch Java? Oder auch noch ESB?BPMN, BPEL oder vielleicht doch Java? Oder auch noch ESB?
BPMN, BPEL oder vielleicht doch Java? Oder auch noch ESB?
 
Devops
DevopsDevops
Devops
 
Automotive Information Research driven by Apache Solr
Automotive Information Research driven by Apache SolrAutomotive Information Research driven by Apache Solr
Automotive Information Research driven by Apache Solr
 
OOP2020_Kafka_Entkopplung
OOP2020_Kafka_EntkopplungOOP2020_Kafka_Entkopplung
OOP2020_Kafka_Entkopplung
 

Andere mochten auch

Oracle OpenWorld - Getting started with MySQL Cluster
Oracle OpenWorld - Getting started with MySQL ClusterOracle OpenWorld - Getting started with MySQL Cluster
Oracle OpenWorld - Getting started with MySQL ClusterBenedita Paúl Vasconcelos
 
xplosion & Exasol Vortrag Big Data Award 2012
xplosion & Exasol Vortrag Big Data Award 2012xplosion & Exasol Vortrag Big Data Award 2012
xplosion & Exasol Vortrag Big Data Award 2012xplosion_de
 
Big Data mit Apache Hadoop
Big Data mit Apache HadoopBig Data mit Apache Hadoop
Big Data mit Apache HadoopAlexander Alten
 
Real-Time Analytics with Kafka, Cassandra and Storm
Real-Time Analytics with Kafka, Cassandra and StormReal-Time Analytics with Kafka, Cassandra and Storm
Real-Time Analytics with Kafka, Cassandra and StormJohn Georgiadis
 
Building large-scale analytics platform with Storm, Kafka and Cassandra - NYC...
Building large-scale analytics platform with Storm, Kafka and Cassandra - NYC...Building large-scale analytics platform with Storm, Kafka and Cassandra - NYC...
Building large-scale analytics platform with Storm, Kafka and Cassandra - NYC...Alexey Kharlamov
 
Spoilt for Choice: How to Choose the Right Enterprise Service Bus (ESB)?
Spoilt for Choice: How to Choose the Right Enterprise Service Bus (ESB)?Spoilt for Choice: How to Choose the Right Enterprise Service Bus (ESB)?
Spoilt for Choice: How to Choose the Right Enterprise Service Bus (ESB)?Kai Wähner
 
Real Time Data Streaming using Kafka & Storm
Real Time Data Streaming using Kafka & StormReal Time Data Streaming using Kafka & Storm
Real Time Data Streaming using Kafka & StormRan Silberman
 
LinkedTV - Crossmedia beim rbb
LinkedTV - Crossmedia beim rbbLinkedTV - Crossmedia beim rbb
LinkedTV - Crossmedia beim rbbNico_deAbreu
 
MapReduce & Apache Hadoop
MapReduce & Apache HadoopMapReduce & Apache Hadoop
MapReduce & Apache HadoopOliver Fischer
 
Social Media: 10 Shit Storm Tips - How to survive a shit storm - Paula Hannemann
Social Media: 10 Shit Storm Tips - How to survive a shit storm - Paula HannemannSocial Media: 10 Shit Storm Tips - How to survive a shit storm - Paula Hannemann
Social Media: 10 Shit Storm Tips - How to survive a shit storm - Paula HannemannPaula Peters
 
Apache Solr vs. Elasticsearch - And The Winner Is...! Ein Vergleich der Shoot...
Apache Solr vs. Elasticsearch - And The Winner Is...! Ein Vergleich der Shoot...Apache Solr vs. Elasticsearch - And The Winner Is...! Ein Vergleich der Shoot...
Apache Solr vs. Elasticsearch - And The Winner Is...! Ein Vergleich der Shoot...SHI Search | Analytics | Big Data
 
Presentation Adinlive Cantine Numérique
Presentation Adinlive Cantine NumériquePresentation Adinlive Cantine Numérique
Presentation Adinlive Cantine Numériquesnarf22
 
Compte-rendu du Conseil municipal du 06 juin 2013
Compte-rendu du Conseil municipal du 06 juin 2013Compte-rendu du Conseil municipal du 06 juin 2013
Compte-rendu du Conseil municipal du 06 juin 2013villedebegles
 
[NEWS #17] (re)découvrez l'essentiel de l'actu mobile
[NEWS #17] (re)découvrez l'essentiel de l'actu mobile[NEWS #17] (re)découvrez l'essentiel de l'actu mobile
[NEWS #17] (re)découvrez l'essentiel de l'actu mobileBemobee Solutions
 

Andere mochten auch (20)

Oracle OpenWorld - Getting started with MySQL Cluster
Oracle OpenWorld - Getting started with MySQL ClusterOracle OpenWorld - Getting started with MySQL Cluster
Oracle OpenWorld - Getting started with MySQL Cluster
 
Apache drill
Apache drillApache drill
Apache drill
 
xplosion & Exasol Vortrag Big Data Award 2012
xplosion & Exasol Vortrag Big Data Award 2012xplosion & Exasol Vortrag Big Data Award 2012
xplosion & Exasol Vortrag Big Data Award 2012
 
Big Data mit Apache Hadoop
Big Data mit Apache HadoopBig Data mit Apache Hadoop
Big Data mit Apache Hadoop
 
Real-Time Analytics with Kafka, Cassandra and Storm
Real-Time Analytics with Kafka, Cassandra and StormReal-Time Analytics with Kafka, Cassandra and Storm
Real-Time Analytics with Kafka, Cassandra and Storm
 
Webinar: Kennzahlen in der Produktion - gewusst wie!
Webinar: Kennzahlen in der Produktion - gewusst wie!Webinar: Kennzahlen in der Produktion - gewusst wie!
Webinar: Kennzahlen in der Produktion - gewusst wie!
 
Building large-scale analytics platform with Storm, Kafka and Cassandra - NYC...
Building large-scale analytics platform with Storm, Kafka and Cassandra - NYC...Building large-scale analytics platform with Storm, Kafka and Cassandra - NYC...
Building large-scale analytics platform with Storm, Kafka and Cassandra - NYC...
 
Spoilt for Choice: How to Choose the Right Enterprise Service Bus (ESB)?
Spoilt for Choice: How to Choose the Right Enterprise Service Bus (ESB)?Spoilt for Choice: How to Choose the Right Enterprise Service Bus (ESB)?
Spoilt for Choice: How to Choose the Right Enterprise Service Bus (ESB)?
 
Real-Time Streaming Data on AWS
Real-Time Streaming Data on AWSReal-Time Streaming Data on AWS
Real-Time Streaming Data on AWS
 
Real Time Data Streaming using Kafka & Storm
Real Time Data Streaming using Kafka & StormReal Time Data Streaming using Kafka & Storm
Real Time Data Streaming using Kafka & Storm
 
LinkedTV - Crossmedia beim rbb
LinkedTV - Crossmedia beim rbbLinkedTV - Crossmedia beim rbb
LinkedTV - Crossmedia beim rbb
 
MapReduce & Apache Hadoop
MapReduce & Apache HadoopMapReduce & Apache Hadoop
MapReduce & Apache Hadoop
 
Social Media: 10 Shit Storm Tips - How to survive a shit storm - Paula Hannemann
Social Media: 10 Shit Storm Tips - How to survive a shit storm - Paula HannemannSocial Media: 10 Shit Storm Tips - How to survive a shit storm - Paula Hannemann
Social Media: 10 Shit Storm Tips - How to survive a shit storm - Paula Hannemann
 
Apache Solr vs. Elasticsearch - And The Winner Is...! Ein Vergleich der Shoot...
Apache Solr vs. Elasticsearch - And The Winner Is...! Ein Vergleich der Shoot...Apache Solr vs. Elasticsearch - And The Winner Is...! Ein Vergleich der Shoot...
Apache Solr vs. Elasticsearch - And The Winner Is...! Ein Vergleich der Shoot...
 
Presentation Adinlive Cantine Numérique
Presentation Adinlive Cantine NumériquePresentation Adinlive Cantine Numérique
Presentation Adinlive Cantine Numérique
 
Salutations
SalutationsSalutations
Salutations
 
Storyboad
StoryboadStoryboad
Storyboad
 
Compte-rendu du Conseil municipal du 06 juin 2013
Compte-rendu du Conseil municipal du 06 juin 2013Compte-rendu du Conseil municipal du 06 juin 2013
Compte-rendu du Conseil municipal du 06 juin 2013
 
[NEWS #17] (re)découvrez l'essentiel de l'actu mobile
[NEWS #17] (re)découvrez l'essentiel de l'actu mobile[NEWS #17] (re)découvrez l'essentiel de l'actu mobile
[NEWS #17] (re)découvrez l'essentiel de l'actu mobile
 
pdf
pdfpdf
pdf
 

Ähnlich wie Eval Apache Storm vs. Spark Streaming - German

Vorlesung - Cloud Infrastrukturen - Clusterbau | anynines
Vorlesung - Cloud Infrastrukturen - Clusterbau  | anyninesVorlesung - Cloud Infrastrukturen - Clusterbau  | anynines
Vorlesung - Cloud Infrastrukturen - Clusterbau | anyninesanynines GmbH
 
Apex on the Rocks - Hochverfügbarkeit
Apex on the Rocks - HochverfügbarkeitApex on the Rocks - Hochverfügbarkeit
Apex on the Rocks - HochverfügbarkeitStefan Witwicki
 
Service Orchestrierung mit Apache Mesos
Service Orchestrierung mit Apache MesosService Orchestrierung mit Apache Mesos
Service Orchestrierung mit Apache MesosRalf Ernst
 
Textanalyse mit UIMA und Hadoop
Textanalyse mit UIMA und HadoopTextanalyse mit UIMA und Hadoop
Textanalyse mit UIMA und Hadoopinovex GmbH
 
Drupal 7 auf Amazon Web Services
Drupal 7 auf Amazon Web ServicesDrupal 7 auf Amazon Web Services
Drupal 7 auf Amazon Web ServicesSven Paulus
 
Einfuehrung in Apache Spark
Einfuehrung in Apache SparkEinfuehrung in Apache Spark
Einfuehrung in Apache SparkJens Albrecht
 
DevDay 2016: Sascha Askani - Cloud-Umgebungen mit Terraform verwalten
DevDay 2016: Sascha Askani - Cloud-Umgebungen mit Terraform verwaltenDevDay 2016: Sascha Askani - Cloud-Umgebungen mit Terraform verwalten
DevDay 2016: Sascha Askani - Cloud-Umgebungen mit Terraform verwaltenDevDay Dresden
 
Private Cloud mit Open Source
Private Cloud mit Open SourcePrivate Cloud mit Open Source
Private Cloud mit Open SourceDaniel Schneller
 
Cloud-native Applikationen
Cloud-native ApplikationenCloud-native Applikationen
Cloud-native ApplikationenQAware GmbH
 
Infrastructure as code: Cloud-Umgebungen mit Terraform verwalten
Infrastructure as code: Cloud-Umgebungen mit Terraform verwaltenInfrastructure as code: Cloud-Umgebungen mit Terraform verwalten
Infrastructure as code: Cloud-Umgebungen mit Terraform verwalteninovex GmbH
 
Cloud Infrastructure with Crossplane
Cloud Infrastructure with CrossplaneCloud Infrastructure with Crossplane
Cloud Infrastructure with CrossplaneQAware GmbH
 
Auszug Seminarunterlagen "Tomcat 6.x"
Auszug Seminarunterlagen "Tomcat 6.x"Auszug Seminarunterlagen "Tomcat 6.x"
Auszug Seminarunterlagen "Tomcat 6.x"schellsoft
 
Einführung in Elasticsearch - August 2014
Einführung in Elasticsearch - August 2014Einführung in Elasticsearch - August 2014
Einführung in Elasticsearch - August 2014inovex GmbH
 
Where are all transactions gone? Was in_der_cloud_alles_verboten_ist
Where are all transactions gone? Was in_der_cloud_alles_verboten_istWhere are all transactions gone? Was in_der_cloud_alles_verboten_ist
Where are all transactions gone? Was in_der_cloud_alles_verboten_istRamon Anger
 
AWR und ASH lizenzfrei für alle Editionen der Oracle-DB
AWR und ASH lizenzfrei für alle Editionen der Oracle-DBAWR und ASH lizenzfrei für alle Editionen der Oracle-DB
AWR und ASH lizenzfrei für alle Editionen der Oracle-DBPeter Ramm
 
Big Data Community Webinar vom 16. Mai 2019: Oracle NoSQL DB im Überblick
Big Data Community Webinar vom 16. Mai 2019: Oracle NoSQL DB im ÜberblickBig Data Community Webinar vom 16. Mai 2019: Oracle NoSQL DB im Überblick
Big Data Community Webinar vom 16. Mai 2019: Oracle NoSQL DB im ÜberblickKarin Patenge
 
Spezialitäten der Oracle Lizenzierung - DOAG Konferenz 2010 - OPITZ CONSULTI...
Spezialitäten der Oracle Lizenzierung -  DOAG Konferenz 2010 - OPITZ CONSULTI...Spezialitäten der Oracle Lizenzierung -  DOAG Konferenz 2010 - OPITZ CONSULTI...
Spezialitäten der Oracle Lizenzierung - DOAG Konferenz 2010 - OPITZ CONSULTI...OPITZ CONSULTING Deutschland
 
Schweine latein-vortrag
Schweine latein-vortragSchweine latein-vortrag
Schweine latein-vortragRamon Wartala
 

Ähnlich wie Eval Apache Storm vs. Spark Streaming - German (20)

Vorlesung - Cloud Infrastrukturen - Clusterbau | anynines
Vorlesung - Cloud Infrastrukturen - Clusterbau  | anyninesVorlesung - Cloud Infrastrukturen - Clusterbau  | anynines
Vorlesung - Cloud Infrastrukturen - Clusterbau | anynines
 
Apex on the Rocks - Hochverfügbarkeit
Apex on the Rocks - HochverfügbarkeitApex on the Rocks - Hochverfügbarkeit
Apex on the Rocks - Hochverfügbarkeit
 
Service Orchestrierung mit Apache Mesos
Service Orchestrierung mit Apache MesosService Orchestrierung mit Apache Mesos
Service Orchestrierung mit Apache Mesos
 
Textanalyse mit UIMA und Hadoop
Textanalyse mit UIMA und HadoopTextanalyse mit UIMA und Hadoop
Textanalyse mit UIMA und Hadoop
 
Drupal 7 auf Amazon Web Services
Drupal 7 auf Amazon Web ServicesDrupal 7 auf Amazon Web Services
Drupal 7 auf Amazon Web Services
 
Einfuehrung in Apache Spark
Einfuehrung in Apache SparkEinfuehrung in Apache Spark
Einfuehrung in Apache Spark
 
DevDay 2016: Sascha Askani - Cloud-Umgebungen mit Terraform verwalten
DevDay 2016: Sascha Askani - Cloud-Umgebungen mit Terraform verwaltenDevDay 2016: Sascha Askani - Cloud-Umgebungen mit Terraform verwalten
DevDay 2016: Sascha Askani - Cloud-Umgebungen mit Terraform verwalten
 
Private Cloud mit Open Source
Private Cloud mit Open SourcePrivate Cloud mit Open Source
Private Cloud mit Open Source
 
Cloud-native Applikationen
Cloud-native ApplikationenCloud-native Applikationen
Cloud-native Applikationen
 
Infrastructure as code: Cloud-Umgebungen mit Terraform verwalten
Infrastructure as code: Cloud-Umgebungen mit Terraform verwaltenInfrastructure as code: Cloud-Umgebungen mit Terraform verwalten
Infrastructure as code: Cloud-Umgebungen mit Terraform verwalten
 
Cloud Infrastructure with Crossplane
Cloud Infrastructure with CrossplaneCloud Infrastructure with Crossplane
Cloud Infrastructure with Crossplane
 
Auszug Seminarunterlagen "Tomcat 6.x"
Auszug Seminarunterlagen "Tomcat 6.x"Auszug Seminarunterlagen "Tomcat 6.x"
Auszug Seminarunterlagen "Tomcat 6.x"
 
Einführung in Elasticsearch - August 2014
Einführung in Elasticsearch - August 2014Einführung in Elasticsearch - August 2014
Einführung in Elasticsearch - August 2014
 
InfraCoders I
InfraCoders IInfraCoders I
InfraCoders I
 
Where are all transactions gone? Was in_der_cloud_alles_verboten_ist
Where are all transactions gone? Was in_der_cloud_alles_verboten_istWhere are all transactions gone? Was in_der_cloud_alles_verboten_ist
Where are all transactions gone? Was in_der_cloud_alles_verboten_ist
 
AWR und ASH lizenzfrei für alle Editionen der Oracle-DB
AWR und ASH lizenzfrei für alle Editionen der Oracle-DBAWR und ASH lizenzfrei für alle Editionen der Oracle-DB
AWR und ASH lizenzfrei für alle Editionen der Oracle-DB
 
Cloud Haskell
Cloud HaskellCloud Haskell
Cloud Haskell
 
Big Data Community Webinar vom 16. Mai 2019: Oracle NoSQL DB im Überblick
Big Data Community Webinar vom 16. Mai 2019: Oracle NoSQL DB im ÜberblickBig Data Community Webinar vom 16. Mai 2019: Oracle NoSQL DB im Überblick
Big Data Community Webinar vom 16. Mai 2019: Oracle NoSQL DB im Überblick
 
Spezialitäten der Oracle Lizenzierung - DOAG Konferenz 2010 - OPITZ CONSULTI...
Spezialitäten der Oracle Lizenzierung -  DOAG Konferenz 2010 - OPITZ CONSULTI...Spezialitäten der Oracle Lizenzierung -  DOAG Konferenz 2010 - OPITZ CONSULTI...
Spezialitäten der Oracle Lizenzierung - DOAG Konferenz 2010 - OPITZ CONSULTI...
 
Schweine latein-vortrag
Schweine latein-vortragSchweine latein-vortrag
Schweine latein-vortrag
 

Eval Apache Storm vs. Spark Streaming - German

  • 2. Vorstellung Apache Storm Apache Storm • Von Backtype entwickelt, von Twitter übernommen, nun als Apache Projekt • Definiert ein Netzwerk von Spouts (Streaming Quellen) und Bolts (Processing – Einheiten), die frei in Topologies kombinierbar und verkettbar sind. • Basiert auf Zookeeper, mit einem JobTracker (Nimbus) zur koordination und für fail over mediation. • Alternativ werden Resourcen über YARN in einer existierenden Hadoop Umgebung integriert • Stream – Verarbeitung ist „garantiert“ • Spouts (Quellen) sind typischerweise Queue – Systeme, für Kafka gibt es ein Implementierung
  • 3. Use Case Evaluierung Storm • ADP Event aus HDFS einlesen und in Kafka einspielen • Storm-Kafka an topic subscriben und jeweils • Eine (klassische) Storm Topology die Events verarbeiten lassen und • Eine Trident Topology die Events verarbeiten lassen • Aufbau eines Cluster in AWS mit • Einem Master mit UI und Nimbus, sowie drei Worker • Zwei Worker Nodes mit jeweils drei Worker 440 Mio. Events aus HDFS in Storm eingespielt. Throughput bei 5600 events / sek (Limit bei Kafka Server / 100 Mbit/s interface) Abschuss von einer Node im laufenden Betrieb ohne Auswirkung auf die Verarbeitung, da dynamisches Rerouting
  • 4. Vorstellung Streaming – Spark Streaming Spark Streaming ist eine API aus der Spark Framework Familie und wird von Databrix entwickelt. • Anders als Storm oder Samza arbeitet Spark mit dem Konzept von RDDs (resilient distributed data sets), gekapselte, ausführbare collections von Datensätzen, die parallelisierbar sind. • Bei RDDs wird grundsätzlich zwischen Transformationen (ähnlich wie map bei MR) und Aktionen (reduce bei MR) unterschieden. • Die Daten und Ihre Ausführung bilden dabei eine Einheit, die segmentiert wird und parallel ausgeführt wird. Die Ausführung ist grundsätzlich lazy, d.h. die Transformation wird erst dann ausgeführt, wenn dessen Ausgabe von einer folgenden Aktion benötigt wird. • Das ermöglich die dynamische Allokation von Ressourcen durch den Resource Manager, typischerweise YARN oder Mesos. • Spark Streaming ist eine Erweiterung von Spark, die es erlaubt Streams an RDDs anzudocken. Unter anderem wird hier Kafka unterstützt.
  • 5. Use Case Evaluierung Spark Streaming • ADP Event aus HDFS einlesen und in Kafka einspielen • Setup einer Application, so wie bei Storm auch, die User- Agents zählt • Aufbau eines Cluster in AWS mit • Einem Master mit einem Worker • Zwei Worker Nodes mit jeweils einem Worker • Läuft nur mit Kafka 0.8! 440 Mio. Events aus HDFS in Spark einspielen. Throughput messen Abschuss von einer Node im laufenden Betrieb evaluieren
  • 6. Pros and Cons Spark Streaming • Für Spark Streaming spricht: • Umfangreiche API mit vielen Funktionen • Teil der Spark Plattform, für Data Science sehr relevant (z.B. MLLib) • Integration in Hadoop und Akka (Bei CDH5 in der Distribution enthalten) • Dagegen spricht: • Die Java API ist absolut furchtbar, sinnvoll nur mit Scala einsetzbar • Läuft nur mit Kafka 0.8 • Verarbeitung nicht garantiert, Kafka messages werden bei failures nicht zurückgespult.
  • 7. Pros and Cons - Storm • Für Storm spricht: • Extrem robust und erprobt • Einfache Clusterverwaltung • Einfache API • Low - level Kafka Anbindung • Only Once - Garantie mit Trident • Dagegen spricht: • Nicht integriert in Hadoop – Infrastruktur