Diese Präsentation wurde erfolgreich gemeldet.
Die SlideShare-Präsentation wird heruntergeladen. ×

K8s-native Daten-Pipelines mit Argo Workflows und Events

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Wird geladen in …3
×

Hier ansehen

1 von 16 Anzeige

K8s-native Daten-Pipelines mit Argo Workflows und Events

Herunterladen, um offline zu lesen

Data2Day, Karlsruhe, September 2022, Mario-Leander Reimer (@LeanderReimer, Principal Software Architect bei QAware).
== Dokument bitte herunterladen, falls unscharf! Please download slides if blurred! ==

Daten sind der neue Brennstoff für moderne digital Produkte. Aber auch Daten müssen zunächst gefördert und anschließend aufwendig raffiniert und angereichert werden, bevor sie wirklich nutzbringend verwendet werden können. Die hierfür verwendeten ETL- und ELT-Ansätze und Tools sind dabei häufig entweder proprietär oder extrem individuell. Die Wartbarkeit und Skalierbarkeit solcher Ansätze ist leider beschränkt.

Dieser Vortrag beschreibt die Evolution und Migration einer individuellen Datenversorgung auf Basis von Jenkins und einzelnen Maven-Projekten, hinzu flexibel orchestrierbaren Kubernetes-nativen Datenpipelines auf Basis von Argo Workflows und Events zur Orchestrierung.

Data2Day, Karlsruhe, September 2022, Mario-Leander Reimer (@LeanderReimer, Principal Software Architect bei QAware).
== Dokument bitte herunterladen, falls unscharf! Please download slides if blurred! ==

Daten sind der neue Brennstoff für moderne digital Produkte. Aber auch Daten müssen zunächst gefördert und anschließend aufwendig raffiniert und angereichert werden, bevor sie wirklich nutzbringend verwendet werden können. Die hierfür verwendeten ETL- und ELT-Ansätze und Tools sind dabei häufig entweder proprietär oder extrem individuell. Die Wartbarkeit und Skalierbarkeit solcher Ansätze ist leider beschränkt.

Dieser Vortrag beschreibt die Evolution und Migration einer individuellen Datenversorgung auf Basis von Jenkins und einzelnen Maven-Projekten, hinzu flexibel orchestrierbaren Kubernetes-nativen Datenpipelines auf Basis von Argo Workflows und Events zur Orchestrierung.

Anzeige
Anzeige

Weitere Verwandte Inhalte

Ähnlich wie K8s-native Daten-Pipelines mit Argo Workflows und Events (20)

Weitere von QAware GmbH (20)

Anzeige

Aktuellste (20)

K8s-native Daten-Pipelines mit Argo Workflows und Events

  1. 1. qaware.de K8s-native Daten-Pipelines mit Argo Workflows und Events Mario-Leander Reimer mario-leander.reimer@qaware.de @LeanderReimer
  2. 2. 2 Mario-Leander Reimer Principal Software Architect @LeanderReimer #cloudnativenerd #qaware #gernperDude
  3. 3. Anno 2016 QAware | 3
  4. 4. Anno 2017 QAware | 4
  5. 5. Anno 2018 QAware | 5
  6. 6. ■ In einem Whitepaper haben wir Ende 2018 zunächst die Modernisierung und Cloudifizierung des kompletten Systemverbunds beschrieben. Migration in 3 Phasen: – Enabling (Infrastruktur, CI/CD) – Microservice Decomposition und Service Migration – Data Decomposition, Solr und Loader Migration ■ Natürlich gab es unvorhergesehene Herausforderungen: – Zunehmende Datenmenge machte kurzfristige Bedatungs-Jobs quasi unmöglich – Datenqualität der Quellsysteme ist häufig suboptimal und wird erst zu spät erkannt – Instabilitäten der On-Premise Infrastruktur sorgen für schlechte Availability – EOL der Server-Hardware der Solr und Loader Services verschärft die Dringlichkeit – AWS EC2 Instanzen mit AMIs zur Loader Orchestrierung funktioniert, führt jedoch zu langen Feedback Cycles und schlechter Dev-Prod Parity – Betriebsverantwortung und TLM für self-hosted Services (z.B. Jenkins) ist aufwändig Seit dem ist viel passiert … QAware | 6
  7. 7. TO THE RESCUE?
  8. 8. Die einfachen Kubernetes Resources sind nicht für komplexe containerisierte Workflow Orchestrierung geeignet. QAware | 8
  9. 9. TO THE RESCUE!
  10. 10. Argo Workflow im Überblick QAware | 10 ■ Open source Container-native Workflow Engine zur parallelen Job Orchestrierung mit Kubernetes ■ Ermöglicht die einfache und schnelle Ausführung von rechenintensive Jobs für maschinelles Lernen, Datenverarbeitung und ETL Jobs, CI/CD sowie Infrastructure Automation auf Kubernetes. ■ Definition der Workflows erfolgt über Kubernetes CRDs (Custom Resource Definition). – Jeder Schritt einer Workflow Definition ist dabei ein Container – Komplexe Workflows können über eine Sequenz von Schritten einfach abgebildet werden, oder aber über eine DAG (Directed Acyclic Graph) – Workflows können parametrisiert werden, über Artifacts können Ergebnisse zwischen Steps ausgetauscht und übergeben werden – Zahlreiche Features wie Schleifen, Conditionals, Parallelität, Synchronisation, Retries, Templates, Lifecycle Hooks werden unterstützt ■ Einfache Installation via Plain YAML oder Helm Chart
  11. 11. QAware | 11 WorkflowTemplate Workflow CronWorkflow submit reference Container Script Resource Suspend HTTP Steps DAG Resources Work Items Argo Workflow Concepts Execution reference Parameters inputs entrypoint
  12. 12. Argo Workflow Example QAware | 12
  13. 13. Argo Events im Überblick QAware | 13 ■ Ein Event-driven Workflow Automation Framework für Kubernetes ■ Ermöglicht das generische Triggern von K8s Objects, Argo Workflows, Serverless Workloads, etc. auf Basis von Events aus mehr als 20+ verschiedenen unterstützten Quellen – Trigger: Argo Rollouts, Argo Workflows, HTTP Requests, Slack Notifications, Kubernetes Objects, Kafka und NATS Message, etc.pp – Sources: Webhooks, Kubernetes Objects, File-based Events, Minio, AWS SNS, AWS SQS, etc.pp ■ Einfache Installation via Plain YAML oder Helm Chart
  14. 14. Argo Events Conceptual Architecture QAware | 14
  15. 15. lreimer/k8s-dataflows argoproj/argo-workflows argoproj/argo-events
  16. 16. qaware.de QAware GmbH Aschauer Straße 32 81549 München Tel. +49 89 232315-0 info@qaware.de twitter.com/qaware linkedin.com/company/qaware-gmbh xing.com/companies/qawaregmbh slideshare.net/qaware github.com/qaware

×