OSMC 2022 | Vom Spam zum Mehrwert: Ganzheitliches APM und intelligentes Incident Management by Olena Kharchenko & Franco Sollner

Vom Spam zum Mehrwert
Ganzheitliches APM und intelligentes
Incident Management

2
Olena Kharchenko, Consultant
Incident und Transformation Management
Franco Sollner, Senior Consultant
Application Performance Management

Agenda
1. Warum Observability / APM?
2. Observability VS. Monitoring
3. Die drei Grundsäulen der Observability
4. Live-Demo:
− Grafana
− Prometheus
− Jaeger
− Loki
4

...so ist es Software ohne
Monitoring zu betreiben!

Observability ist die Antwort!
7
▪ Ist meine Applikation erreichbar?
▪ Sind alle Komponenten verfügbar?
▪ Wie sind meine Benutzer oder Geschäftstransaktionen von Fehlern betroffen?
▪ Wie schnell können wir auf Fehler reagieren?
▪ Werden Ressourcen effizient genutzt?
▪ Wie kann ich schnell einen Überblick meiner Applikation und
ihres Gesundheitszustandes erhalten?
▪ Wie wird mein Service genutzt?
▪ Wie zufrieden sind Benutzer mit meinem Service?

Noch nicht überzeugt?
8
▪ Ein kontinuierlicher, detaillierter und stets aktueller Einblick in
das Verhalten Ihrer IT-Systeme sowie in die Fachprozesse
ermöglicht es, Probleme automatisch zu erkennen und zu
beheben, bevor sie sich negativ auf die Kundenzufriedenheit
auswirken.
openapm.io

Observability VS. Monitoring
9

Monitoring ist das Fundament der Observability
10
Monitoring
Was ist passiert?
Observability
Warum ist es passiert?

Die drei Grundsäulen der Observability
11

Die Dreifaltigkeit der Observability
12
2019-03-02 8:22.312 “GET /products/16572/page”
2019-03-02 8:23.651 “POST /cart/submit”
2019-03-02 8:27.279 “GET /home”
2019-03-02 8:31.334 “GET /products/85417/page”
2019-03-02 8:33.677 “GET /home”
2019-03-02 8:34.927 “POST /cart/submit”
Observability
Metrics
Events
/ Logs
Traces

Wertschöpfende APM Features
13

Agenda
1. Incident und Problem Management
2. Phasen des Incident Management
3. Herausforderungen und Risiken
4. Best Practices im Incident Management
5. Mehrwert erreichen
16

Incident und Problem Management
17

▪ Incident (Vorfall) ist eine ungeplante Unterbrechung vom Service oder eine
erhebliche Minderung seiner Qualität.
▪ Incident Management minimiert die negativen Auswirkungen von Störungen,
indem der normale Betrieb so schnell wie möglich wiederhergestellt wird.
▪ Problem ist eine Ursache für einen oder mehrere Vorfälle.
▪ Problem Management verringert die Wahrscheinlichkeit und die Auswirkungen
von Vorfällen, indem Ursachen von Vorfällen ermittelt werden.
Incident Management
18

Phasen des Incident Management
19
Team
IT/Dev
Stack
Monitoring
Tools
Customers Support
Bemerken Kommunizieren Wiederherstellen Analysieren

▪ Zu viele Alarme
▪ Fehlende Priorisierung
▪ Falsch positive Meldungen
▪ Unklare Zuständigkeiten
▪ Falsche Weiterleitung von Alarmen
▪ Fehlende Eskalationen
Herausforderungen und Risiken
20
Team

“Alarme als Spam” Mindset
21

Best Practices im Incident
Management
22

▪ Prozesse definieren
▪ Richtige Tools einsetzen
▪ Vor- und Nachbereitung leisten
Incident Management
23

▪ Wo befindet sich die Information über Vorfälle?
▪ Wer ist für was zuständig?
▪ Welche Kommunikationswege werden benutzt?
▪ Welche Eskalationswege gibt es?
▪ Welche Voraussetzungen müssen technisch erfüllt werden?
Prozesse definieren
24

Richtige Tools einsetzen
25
IT/Dev
Stack
Monitoring
Tools
Customers Support
Messaging
Documentation &
Reporting
On-Call Tool
Team
Ticketing
system

▪ Einheitliches Dashboard
▪ Definierte Zuständigkeiten
▪ Automatische Alarm-Weiterleitung
▪ Einfache Priorisierung
▪ Eskalationsregeln
▪ Postmortem Analyse
▪ Berichte
Alarm– und Incident Management Tools
26
Messaging
Documentation
& Reporting
On-Call Tool
Team
Ticketing
system

Alarm– und Incident Management Tools
27
Cabot
Openduty

▪ Service-Zuständigkeiten abklären
▪ Monitoring aufsetzen
▪ SLAs, SLOs und SLIs definieren
▪ Run- und Playbooks anlegen
▪ Root Cause/ Ursachenanalyse durchführen
▪ Wissensaustausch und Vertrauenskultur fördern
Vor- und Nachbereitung auf Service-Ebene
28

▪ Alarme richtig mappen
▪ Priorisierung der Alarme aktualisieren
▪ Nur kritische und wichtige Alarme verschicken
▪ Benachrichtigungsregeln anlegen
▪ Alarmregeln immer wieder hinterfragen
Vor- und Nachbereitung auf Alert-Ebene
29

Oh Gott, das klingt nach viel!
30

▪ Aussagekräftige Daten zu Applikationen und Services
▪ Nachverfolgbare und nachvollziehbare Alarme
▪ Unterstützung der Root-Cause-Analyse
▪ Einfache und verständliche Prozesse im Falle eines Incidents
▪ Schnelle Reaktionszeiten bei Service-Ausfall
▪ Mitarbeiterzufriedenheit durch weniger False Positives
▪ Höhere Zufriedenheit aller Stakeholder dank besseren Uptimes
Mehrwert von APM mit IcM
32

Novatec Consulting GmbH
Bertha-Benz-Platz 1
D-70771 Leinfelden-Echterdingen
T. +49 711 22040-700
info@novatec-gmbh.de
www.novatec-gmbh.de
37

OSMC 2022 | Vom Spam zum Mehrwert: Ganzheitliches APM und intelligentes Incident Management by Olena Kharchenko & Franco Sollner

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie OSMC 2022 | Vom Spam zum Mehrwert: Ganzheitliches APM und intelligentes Incident Management by Olena Kharchenko & Franco Sollner

Ähnlich wie OSMC 2022 | Vom Spam zum Mehrwert: Ganzheitliches APM und intelligentes Incident Management by Olena Kharchenko & Franco Sollner (20)

OSMC 2022 | Vom Spam zum Mehrwert: Ganzheitliches APM und intelligentes Incident Management by Olena Kharchenko & Franco Sollner