Eval Apache Storm vs. Spark Streaming - German

•Als PPTX, PDF herunterladen•

3 gefällt mir•1,077 views

A short overview of features, pros and cons of Apache Storm and Spark Streaming in German. Eine kurze Übersicht über features, Pro und Kontra des Einsatzes von Apache Storm und Spark Streaming

Technologie

EVALUATION
STREAMING
FRAMEWORKS
Apache Storm vs. Apache Spark Streaming

Vorstellung Apache Storm
Apache Storm
• Von Backtype entwickelt, von Twitter übernommen, nun
als Apache Projekt
• Definiert ein Netzwerk von Spouts (Streaming Quellen)
und Bolts (Processing – Einheiten), die frei in Topologies
kombinierbar und verkettbar sind.
• Basiert auf Zookeeper, mit einem JobTracker (Nimbus)
zur koordination und für fail over mediation.
• Alternativ werden Resourcen über YARN in einer
existierenden Hadoop Umgebung integriert
• Stream – Verarbeitung ist „garantiert“
• Spouts (Quellen) sind typischerweise Queue – Systeme,
für Kafka gibt es ein Implementierung

Use Case Evaluierung Storm
• ADP Event aus HDFS einlesen und in Kafka einspielen
• Storm-Kafka an topic subscriben und jeweils
• Eine (klassische) Storm Topology die Events verarbeiten lassen und
• Eine Trident Topology die Events verarbeiten lassen
• Aufbau eines Cluster in AWS mit
• Einem Master mit UI und Nimbus, sowie drei Worker
• Zwei Worker Nodes mit jeweils drei Worker
440 Mio. Events aus HDFS in Storm eingespielt.
Throughput bei 5600 events / sek (Limit bei Kafka Server / 100
Mbit/s interface)
Abschuss von einer Node im laufenden Betrieb ohne
Auswirkung auf die Verarbeitung, da dynamisches Rerouting

Vorstellung Streaming – Spark Streaming
Spark Streaming ist eine API aus der Spark Framework Familie und
wird von Databrix entwickelt.
• Anders als Storm oder Samza arbeitet Spark mit dem Konzept von
RDDs (resilient distributed data sets), gekapselte, ausführbare
collections von Datensätzen, die parallelisierbar sind.
• Bei RDDs wird grundsätzlich zwischen Transformationen (ähnlich wie
map bei MR) und Aktionen (reduce bei MR) unterschieden.
• Die Daten und Ihre Ausführung bilden dabei eine Einheit, die
segmentiert wird und parallel ausgeführt wird. Die Ausführung ist
grundsätzlich lazy, d.h. die Transformation wird erst dann ausgeführt,
wenn dessen Ausgabe von einer folgenden Aktion benötigt wird.
• Das ermöglich die dynamische Allokation von Ressourcen durch den
Resource Manager, typischerweise YARN oder Mesos.
• Spark Streaming ist eine Erweiterung von Spark, die es erlaubt
Streams an RDDs anzudocken. Unter anderem wird hier Kafka
unterstützt.

Use Case Evaluierung Spark Streaming
• ADP Event aus HDFS einlesen und in Kafka einspielen
• Setup einer Application, so wie bei Storm auch, die User-
Agents zählt
• Aufbau eines Cluster in AWS mit
• Einem Master mit einem Worker
• Zwei Worker Nodes mit jeweils einem Worker
• Läuft nur mit Kafka 0.8!
440 Mio. Events aus HDFS in Spark einspielen.
Throughput messen
Abschuss von einer Node im laufenden Betrieb
evaluieren

Pros and Cons Spark Streaming
• Für Spark Streaming spricht:
• Umfangreiche API mit vielen Funktionen
• Teil der Spark Plattform, für Data Science sehr relevant (z.B.
MLLib)
• Integration in Hadoop und Akka (Bei CDH5 in der Distribution
enthalten)
• Dagegen spricht:
• Die Java API ist absolut furchtbar, sinnvoll nur mit Scala einsetzbar
• Läuft nur mit Kafka 0.8
• Verarbeitung nicht garantiert, Kafka messages werden bei failures
nicht zurückgespult.

Pros and Cons - Storm
• Für Storm spricht:
• Extrem robust und erprobt
• Einfache Clusterverwaltung
• Einfache API
• Low - level Kafka Anbindung
• Only Once - Garantie mit Trident
• Dagegen spricht:
• Nicht integriert in Hadoop – Infrastruktur

Empfohlen

Realtime BigData Step by Step mit Lambda, Kafka, Storm und HadoopValentin Zacharias

Big Game Data - Event Tracking mit Storm, Kestrel und der Lambda Architektur ...Volker Janz

Event-Streaming in Echtzeit: Der MongoDB-Kafka-Connector in Action!confluent

Freie Fahrt für die Reisendeninformation mit Kafka Streamsconfluent

MongoDB Atlas – der beste Weg, MongoDB in der Cloud zu betreiben 1MongoDB

MongoDB Atlas – der beste Weg, MongoDB in der Cloud zu betreiben 2MongoDB

Hadoop 2.0 - The Next LevelSascha Dittmann

Webinar Neues von der re:invent 2013 Teil 1: PostgreSQL RDS, CloudTrail, neue...AWS Germany

Empfohlen

Realtime BigData Step by Step mit Lambda, Kafka, Storm und HadoopValentin Zacharias

Big Game Data - Event Tracking mit Storm, Kestrel und der Lambda Architektur ...Volker Janz

Event-Streaming in Echtzeit: Der MongoDB-Kafka-Connector in Action!confluent

Freie Fahrt für die Reisendeninformation mit Kafka Streamsconfluent

MongoDB Atlas – der beste Weg, MongoDB in der Cloud zu betreiben 1MongoDB

MongoDB Atlas – der beste Weg, MongoDB in der Cloud zu betreiben 2MongoDB

Hadoop 2.0 - The Next LevelSascha Dittmann

Webinar Neues von der re:invent 2013 Teil 1: PostgreSQL RDS, CloudTrail, neue...AWS Germany

Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?inovex GmbH

Oracle Technology Monthly Oktober 2017oraclebudb

Amazon RedshiftAWS Germany

Klonen von Exadata-Datenbanken mit der Oracle ZFS Appliance - Ein Erfahrungsb...Loopback.ORG

Big Game Data - Event Tracking mit Storm, Kestrel und der Lambda Architektur ...Volker Janz

Apache Kafkagedoplan

Storage Spaces Direct - Introduction[MVP] Florian Klaffenbach

Infrastructure as Code mit TerraformHarald Schmaldienst

SQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die CloudAWS Germany

Roadshow: What's new in Microsoft SQL Server 2016Digicomp Academy AG

LinuxTag 2008 - Virtuelle Cold-Standby Server mit LinuxSchlomo Schapiro

Cloud Native und Java EE: Freund oder Feind?Josef Adersberger

Cloud Wars – what‘s the smartest data platform? Vergleich Microsoft Azure, Am...inovex GmbH

OEM Cloud Control - Hochverfügbar von Kopf bis Fuß DanielHillinger

Apache Cassandra - EinführungAndreas Finke

BPMN, BPEL oder vielleicht doch Java? Oder auch noch ESB?Guido Schmutz

Devopsinovex GmbH

Automotive Information Research driven by Apache SolrQAware GmbH

OOP2020_Kafka_EntkopplungPatrik Kleindl

Oracle OpenWorld - Getting started with MySQL ClusterBenedita Paúl Vasconcelos

Apache drillMapR Technologies

xplosion & Exasol Vortrag Big Data Award 2012xplosion_de

Weitere ähnliche Inhalte

Was ist angesagt?

Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?inovex GmbH

Oracle Technology Monthly Oktober 2017oraclebudb

Amazon RedshiftAWS Germany

Klonen von Exadata-Datenbanken mit der Oracle ZFS Appliance - Ein Erfahrungsb...Loopback.ORG

Big Game Data - Event Tracking mit Storm, Kestrel und der Lambda Architektur ...Volker Janz

Apache Kafkagedoplan

Storage Spaces Direct - Introduction[MVP] Florian Klaffenbach

Infrastructure as Code mit TerraformHarald Schmaldienst

SQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die CloudAWS Germany

Roadshow: What's new in Microsoft SQL Server 2016Digicomp Academy AG

LinuxTag 2008 - Virtuelle Cold-Standby Server mit LinuxSchlomo Schapiro

Cloud Native und Java EE: Freund oder Feind?Josef Adersberger

Cloud Wars – what‘s the smartest data platform? Vergleich Microsoft Azure, Am...inovex GmbH

OEM Cloud Control - Hochverfügbar von Kopf bis Fuß DanielHillinger

Apache Cassandra - EinführungAndreas Finke

BPMN, BPEL oder vielleicht doch Java? Oder auch noch ESB?Guido Schmutz

Devopsinovex GmbH

Automotive Information Research driven by Apache SolrQAware GmbH

OOP2020_Kafka_EntkopplungPatrik Kleindl

Was ist angesagt? (19)

Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?

Oracle Technology Monthly Oktober 2017

Amazon Redshift

Klonen von Exadata-Datenbanken mit der Oracle ZFS Appliance - Ein Erfahrungsb...

Big Game Data - Event Tracking mit Storm, Kestrel und der Lambda Architektur ...

Apache Kafka

Storage Spaces Direct - Introduction

Infrastructure as Code mit Terraform

SQL oder NoSQL - Die Auswahl der richtigen Datenbankplattform für die Cloud

Roadshow: What's new in Microsoft SQL Server 2016

LinuxTag 2008 - Virtuelle Cold-Standby Server mit Linux

Cloud Native und Java EE: Freund oder Feind?

Cloud Wars – what‘s the smartest data platform? Vergleich Microsoft Azure, Am...

OEM Cloud Control - Hochverfügbar von Kopf bis Fuß

Apache Cassandra - Einführung

BPMN, BPEL oder vielleicht doch Java? Oder auch noch ESB?

Devops

Automotive Information Research driven by Apache Solr

OOP2020_Kafka_Entkopplung

Andere mochten auch

Oracle OpenWorld - Getting started with MySQL ClusterBenedita Paúl Vasconcelos

Apache drillMapR Technologies

xplosion & Exasol Vortrag Big Data Award 2012xplosion_de

Big Data mit Apache HadoopAlexander Alten-Lorenz

Real-Time Analytics with Kafka, Cassandra and StormJohn Georgiadis

Webinar: Kennzahlen in der Produktion - gewusst wie!Trebing & Himstedt Prozeßautomation GmbH & Co. KG

Building large-scale analytics platform with Storm, Kafka and Cassandra - NYC...Alexey Kharlamov

Spoilt for Choice: How to Choose the Right Enterprise Service Bus (ESB)?Kai Wähner

Real-Time Streaming Data on AWSAmazon Web Services

Real Time Data Streaming using Kafka & StormRan Silberman

LinkedTV - Crossmedia beim rbbNico_deAbreu

MapReduce & Apache HadoopOliver Fischer

Social Media: 10 Shit Storm Tips - How to survive a shit storm - Paula HannemannPaula Peters

Apache Solr vs. Elasticsearch - And The Winner Is...! Ein Vergleich der Shoot...SHI Search | Analytics | Big Data

Presentation Adinlive Cantine Numériquesnarf22

SalutationsLaUra lfr

Storyboadbrendatorressubiabre

Compte-rendu du Conseil municipal du 06 juin 2013villedebegles

[NEWS #17] (re)découvrez l'essentiel de l'actu mobileBemobee Solutions

pdfYeux Verts Kamel

Andere mochten auch (20)

Oracle OpenWorld - Getting started with MySQL Cluster

Apache drill

xplosion & Exasol Vortrag Big Data Award 2012

Big Data mit Apache Hadoop

Real-Time Analytics with Kafka, Cassandra and Storm

Webinar: Kennzahlen in der Produktion - gewusst wie!

Building large-scale analytics platform with Storm, Kafka and Cassandra - NYC...

Spoilt for Choice: How to Choose the Right Enterprise Service Bus (ESB)?

Real-Time Streaming Data on AWS

Real Time Data Streaming using Kafka & Storm

LinkedTV - Crossmedia beim rbb

MapReduce & Apache Hadoop

Social Media: 10 Shit Storm Tips - How to survive a shit storm - Paula Hannemann

Apache Solr vs. Elasticsearch - And The Winner Is...! Ein Vergleich der Shoot...

Presentation Adinlive Cantine Numérique

Salutations

Storyboad

Compte-rendu du Conseil municipal du 06 juin 2013

[NEWS #17] (re)découvrez l'essentiel de l'actu mobile

pdf

Ähnlich wie Eval Apache Storm vs. Spark Streaming - German

Vorlesung - Cloud Infrastrukturen - Clusterbau | anyninesanynines GmbH

Apex on the Rocks - HochverfügbarkeitStefan Witwicki

Service Orchestrierung mit Apache MesosRalf Ernst

Textanalyse mit UIMA und Hadoopinovex GmbH

Drupal 7 auf Amazon Web ServicesSven Paulus

Einfuehrung in Apache SparkJens Albrecht

DevDay 2016: Sascha Askani - Cloud-Umgebungen mit Terraform verwaltenDevDay Dresden

Private Cloud mit Open SourceDaniel Schneller

Cloud-native ApplikationenQAware GmbH

Infrastructure as code: Cloud-Umgebungen mit Terraform verwalteninovex GmbH

Cloud Infrastructure with CrossplaneQAware GmbH

Auszug Seminarunterlagen "Tomcat 6.x"schellsoft

Einführung in Elasticsearch - August 2014inovex GmbH

InfraCoders IHarald Schmaldienst

Where are all transactions gone? Was in_der_cloud_alles_verboten_istRamon Anger

AWR und ASH lizenzfrei für alle Editionen der Oracle-DBPeter Ramm

Cloud HaskellDavid Robakowski

Big Data Community Webinar vom 16. Mai 2019: Oracle NoSQL DB im ÜberblickKarin Patenge

Spezialitäten der Oracle Lizenzierung - DOAG Konferenz 2010 - OPITZ CONSULTI...OPITZ CONSULTING Deutschland

Schweine latein-vortragRamon Wartala

Ähnlich wie Eval Apache Storm vs. Spark Streaming - German (20)

Vorlesung - Cloud Infrastrukturen - Clusterbau | anynines

Apex on the Rocks - Hochverfügbarkeit

Service Orchestrierung mit Apache Mesos

Textanalyse mit UIMA und Hadoop

Drupal 7 auf Amazon Web Services

Einfuehrung in Apache Spark

DevDay 2016: Sascha Askani - Cloud-Umgebungen mit Terraform verwalten

Private Cloud mit Open Source

Cloud-native Applikationen

Infrastructure as code: Cloud-Umgebungen mit Terraform verwalten

Cloud Infrastructure with Crossplane

Auszug Seminarunterlagen "Tomcat 6.x"

Einführung in Elasticsearch - August 2014

InfraCoders I

Where are all transactions gone? Was in_der_cloud_alles_verboten_ist

AWR und ASH lizenzfrei für alle Editionen der Oracle-DB

Cloud Haskell

Big Data Community Webinar vom 16. Mai 2019: Oracle NoSQL DB im Überblick

Spezialitäten der Oracle Lizenzierung - DOAG Konferenz 2010 - OPITZ CONSULTI...

Schweine latein-vortrag

Eval Apache Storm vs. Spark Streaming - German

1. EVALUATION STREAMING FRAMEWORKS Apache Storm vs. Apache Spark Streaming

2. Vorstellung Apache Storm Apache Storm • Von Backtype entwickelt, von Twitter übernommen, nun als Apache Projekt • Definiert ein Netzwerk von Spouts (Streaming Quellen) und Bolts (Processing – Einheiten), die frei in Topologies kombinierbar und verkettbar sind. • Basiert auf Zookeeper, mit einem JobTracker (Nimbus) zur koordination und für fail over mediation. • Alternativ werden Resourcen über YARN in einer existierenden Hadoop Umgebung integriert • Stream – Verarbeitung ist „garantiert“ • Spouts (Quellen) sind typischerweise Queue – Systeme, für Kafka gibt es ein Implementierung

3. Use Case Evaluierung Storm • ADP Event aus HDFS einlesen und in Kafka einspielen • Storm-Kafka an topic subscriben und jeweils • Eine (klassische) Storm Topology die Events verarbeiten lassen und • Eine Trident Topology die Events verarbeiten lassen • Aufbau eines Cluster in AWS mit • Einem Master mit UI und Nimbus, sowie drei Worker • Zwei Worker Nodes mit jeweils drei Worker 440 Mio. Events aus HDFS in Storm eingespielt. Throughput bei 5600 events / sek (Limit bei Kafka Server / 100 Mbit/s interface) Abschuss von einer Node im laufenden Betrieb ohne Auswirkung auf die Verarbeitung, da dynamisches Rerouting

4. Vorstellung Streaming – Spark Streaming Spark Streaming ist eine API aus der Spark Framework Familie und wird von Databrix entwickelt. • Anders als Storm oder Samza arbeitet Spark mit dem Konzept von RDDs (resilient distributed data sets), gekapselte, ausführbare collections von Datensätzen, die parallelisierbar sind. • Bei RDDs wird grundsätzlich zwischen Transformationen (ähnlich wie map bei MR) und Aktionen (reduce bei MR) unterschieden. • Die Daten und Ihre Ausführung bilden dabei eine Einheit, die segmentiert wird und parallel ausgeführt wird. Die Ausführung ist grundsätzlich lazy, d.h. die Transformation wird erst dann ausgeführt, wenn dessen Ausgabe von einer folgenden Aktion benötigt wird. • Das ermöglich die dynamische Allokation von Ressourcen durch den Resource Manager, typischerweise YARN oder Mesos. • Spark Streaming ist eine Erweiterung von Spark, die es erlaubt Streams an RDDs anzudocken. Unter anderem wird hier Kafka unterstützt.

5. Use Case Evaluierung Spark Streaming • ADP Event aus HDFS einlesen und in Kafka einspielen • Setup einer Application, so wie bei Storm auch, die User- Agents zählt • Aufbau eines Cluster in AWS mit • Einem Master mit einem Worker • Zwei Worker Nodes mit jeweils einem Worker • Läuft nur mit Kafka 0.8! 440 Mio. Events aus HDFS in Spark einspielen. Throughput messen Abschuss von einer Node im laufenden Betrieb evaluieren

6. Pros and Cons Spark Streaming • Für Spark Streaming spricht: • Umfangreiche API mit vielen Funktionen • Teil der Spark Plattform, für Data Science sehr relevant (z.B. MLLib) • Integration in Hadoop und Akka (Bei CDH5 in der Distribution enthalten) • Dagegen spricht: • Die Java API ist absolut furchtbar, sinnvoll nur mit Scala einsetzbar • Läuft nur mit Kafka 0.8 • Verarbeitung nicht garantiert, Kafka messages werden bei failures nicht zurückgespult.

7. Pros and Cons - Storm • Für Storm spricht: • Extrem robust und erprobt • Einfache Clusterverwaltung • Einfache API • Low - level Kafka Anbindung • Only Once - Garantie mit Trident • Dagegen spricht: • Nicht integriert in Hadoop – Infrastruktur