OSMC 2017 | Monitoring - dos and don'ts by Markus Thiel

Agenda
▪ Persönliche Vorstellung
▪ Negative Erfahrung wiederspiegeln (don´ts)
▪ Impulse & Tips geben (do´s)
▪ Modell präsentieren
▪ Initiierung
▪ Planung
▪ Ausführung
▪ Betrieb
23.11.2017 2Monitoring - do´s and don´ts

Vorstellung / Fachliche Schwerpunkte
▪ Markus Thiel, IT-Consultant
▪ Monitoring & ITSM
• aus Kunden- und Beratersicht
• Open Source und Produkte
▪ Projektmanagement
▪ IT-Security & SIEM
▪ Follow me on:

Motivation / Eingangsfragen
▪ Wer macht zurzeit was?
▪ Was ist gut und soll so bleiben?
▪ Was kann man weglassen?
▪ Was muss man ändern?
23.11.2017 4
„Ich wünsche mir die Gelassenheit, Dinge hinzunehmen, die ich nicht ändern kann;
den Mut, Dinge zu ändern, die ich ändern kann; und die Weisheit, das eine vom
anderen zu unterscheiden.“
Zitat, das Reinhold Niebuhr zugeschrieben wird
Monitoring - do´s and don´ts

Methode / Mögliches Modell
23.11.2017 5
Initiierung
Planung
Ausführung
Betrieb

Reale Szenarien I
▪ Organisation passt sich den Tools an
▪ Isolierte „Werkzeuge“ arbeiten nicht übergreifend sondern in Inseln und/oder
separierten Silos der Organisationsstruktur
▪ Cronjob: Generieren von Systemmails an Personen- oder Gruppenkonten
▪ Silodenken - Keine übergreifende Transparenz
▪ Fehlende Updatestrategie - „Never touch a running system“
▪ Mehrfach redundante Events mit unterschiedlichen Aussagen (z. B. CPU-Auslastung zu einem
Zeitpunkt) aus verschiedenen tools
▪ Schwarz-Weiß-Sicht auf Tools
▪ Für jedes Monitoring-Tool ein einen separierten Bildschirm
23.11.2017 6
Nicht bis wenig service- & prozessorientiertes Vorgehen

Reale Szenarien II
▪ Implementierung mit initialem „Big Bang“ – und dann …?
▪ 50 PT Implementierung, Logotausch nach 1 Jahr
▪ Möglichst rasch, möglichst viel - Masse und Zeit im Fokus
▪ “Nach 3 Wochen mit dem Externen hatten wir bereits 80% der Systeme in der Überwachung“
▪ SAP-Monitoring (Alle MTEs aus den SAP-Systemen importieren und analysieren)
▪ Manuelles Verwalten der Elemente, Schwellenwerte, …
▪ „Der Monitoring-Admin hat kurzfristig das Unternehmen verlassen“
▪ Nicht oder nicht ausreichend dokumentierte Installationen, Metriken &
Schnittstellen („Steht im Wiki“)
▪ 3000 Meldungen im System vs. „alles läuft“
▪ Ein CRM-System wurde nicht überwacht
23.11.2017 7
Geringe Nachhaltigkeit & mangelnde Qualitätssicherung

Mögliches Vorgehen
▪ Mögliche Meilensteine der Initiierung
23.11.2017 8
Organisatorische Basistasks Organisatorisch-technische Basistasks Schnittstellen
Start I II III

Organisatorische Basistasks
▪ Entscheider beeinflussen -> Monitoring ist essentiell (Stichwort HBI)
▪ Gerade in Unternehmen und Organisationen haben sich existentielle Abhängigkeiten entwickelt,
teilweise haben sie sich schleichend eingestellt und sind damit bisweilen nicht bewusst. Studien
belegen regelmäßig, dass bei Ausfall der IT innerhalb weniger Stunden enorme Schäden entstehen
und bereits eine Ausfallzeit im Tagesbereich ausreichen kann, um das Überleben von Organisationen
zu gefährden (BSI Hochverfügbarkeitskompendium Band G, Kapitel 1, Einführung Seite 5)
▪ Monitoring in einer möglichst frühen Phase organisatorisch mit Rückendeckung
des C-Level als Service etablieren, Verantwortlichkeiten und Servicedefinition in
der Organisation klären und eindeutig kommunizieren lassen (Stichwort: Mandat)
▪ Team an Monitoring-Spezialisten aufbauen
▪ Qualitativ hochwertige und fortgeführte Dokumentation ist elementar
23.11.2017 9
Monitoring ist ein kontinuierlicher Prozess

Organisatorisch-technische Tasks I
▪ Konsumenten und Stakeholder identifizieren
▪ Anforderungen, Erwartungen, Befürchtungen jeweils spezifisch und messbar
beschreiben
23.11.2017 10
▪ Peers installieren
▪ Stetiger Erfahrungsaustausch (PDCA)
▪ Monitoring zum Bestandteil des Designs machen
▪ Monitoring bei der „Digitalen Agenda“ berücksichtigen
▪ Kommunikation positiv und beratend gestalten: Was bietet „Monitoring“ an? Negative, spekulative
oder indifferente Kommunikation meiden
Betroffene werden zu Beteiligten

Organisatorisch-technische Tasks II
▪ Monitoring inclusive Checkpoints in Bereitstellungsprozessen etablieren
▪ Ziel: Standardisierung, Verantwortungsübergänge und Revisionssicherheit
23.11.2017 11
Genehmigter Change inclusive Stammdatenblatt
Bereitstellung des Systems
Installation OS
Installation OS-Monitoring
Installation Applikation, Middleware, DB
Installation Fachliches Monitoring
Aktivierung und Übergabe an den regulären Betrieb
Checkpoints platzieren

Schnittstellen
▪ Monitoring des Monitorings sicherstellen
▪ Mögliche Anforderungen North- und Southbound identifizieren
23.11.2017 12
▪ Adressatengerechte Aufbereitung der Events
▪ Fokus von Meldungen bzw. Sichtweisen berücksichtigen
▪ Symptome vs. Mapping auf IT-Services
▪ Incidentbearbeitung
▪ Antwort auf „Bearbeitung in welchem tool?“
▪ Anzahl der Meldungen pro Zeiteinheit versus gewissenhafte Bearbeitung - Balance finden
▪ Alarmierung per Mail nur in Ausnahmefällen oder bei Eskalationen

23.11.2017 13
Initiierung
Planung
Ausführung
Betrieb

Reale Szenarien
▪ Aussagen von Tool-Herstellern: Wir haben bei einem Kunden die MTTR auf n
Minuten reduziert
▪ Unwahre Messergebnisse
▪ Unsichere rechtliche Situation (Plugin upload – Rechtsabteilung)
▪ Planung einer 1:1-Migration
▪ Monitoring verursacht 20% des Traffic über eine Anbindung via Satellit
▪ Security-Gaps
▪ Agents laufen mit hoch privilegierten Rechten
▪ Logfiles werden unverschlüsselt übertragen
▪ NRPE mit „nasty arguments“, eventhandlern und zig allowed-hosts
▪ SNMP in V1 und 2c mit community „public“

Tooleinsatz - Mögliches Vorgehen
▪ Typische Meilensteine der Planung
23.11.2017 15
Analyse Pflichtenheft Entscheidungsmatrix PoC
Start I II III

Zielbeschreibung (Pflichtenheft)
▪ Monitoring methodisch beschreiben
▪ „Was soll überwacht werden?“ klar beantworten und messbar gestalten
(Zielerreichung)
▪ Koexistenz verschiedener Werkzeuge mit Umbrella
• „Jemandem etwas wegnehmen“
• Produktseitige Unterstützung neuer Features
• Selfservicegedanke
▪ 3-Stufigkeit anstreben (EVAL-INT-PROD)
▪ Monitoring technisch beschreiben
▪ Positionierung des Systems bzw. der Systeme in der Netztopologie
• Userverbindungen, Rechte-Rollenkonzept, Southbound, Northbound
▪ Sicherheit, z. B. DMZ-Kontext, HTTPS-Zugriff, SNMP-Version & -Communities
▪ Clouddienste

Serviceorientiertes Monitoring
▪ Mehrwerte durch Einbinden der Peers
▪ Fachliches Know-How für die Erstellung von Servicebäumen nutzen
23.11.2017 17
Systembetrieb Linux – Managed OS
Systembetrieb MySQL – Managed DB
JBOSS - Managed Technical App
„Meine Anwendung“ – Business-Service
CIs
SLA
OLA
OLA
OLA

Kriterien für die Toolauswahl (neue Strategie)
▪ Existierende IT-Strategien & Regelwerke betrachten
▪ z. B. (Künftige) Nutzung von Clouddiensten, Präferenz von Webtechnologie
▪ Zuständige Gruppen/Gremien für IT-Sec & Datenschutz einbeziehen
▪ Einsatz von Software-Agenten
▪ Ggf. Verträge für Systeme checken, die nicht in der Verantwortung liegen
▪ Stichworte Systemuser/privilegierte Rechte
▪ Toolseitig bereitgestellte Versionskontrolle
▪ Revisionssicherheit der Konfiguration
▪ Funktion möglicher AddOns überprüfen

Mögliche ToDos beim Einsatz von Open Source
▪ Existierende Unternehmensrichtlinie anstreben
▪ Rechtliche Implikationen – Beispiele:
▪ Regelung, wie mit individuell beauftragten Entwicklungen umzugehen ist (z. B.
Offenlegung von Betriebsgeheimnissen und Entwicklungen mit hohem
Fertigungsgrad)
▪ Beschränkungen / zusätzliche Nutzungsbedingungen in kommerziellen
Lizenzverträgen
▪ …

Entscheidungsmatrix I
▪ Unterstützt bei der transparenten Entscheidungsfindung
▪ Möglichst konkrete, harte Kriterien und Gewichtung anstreben
▪ Eingesetzte Komponenten (Input von Peers) betrachten (Facilities,
Hardware, Appliances, OS, DB, Applikationen, …)
▪ Trafficanalyse (Bandbreite/Grundrauschen/Satellitensysteme)
▪ Supportmatrix betrachten
▪ Ansprechpartner analog Anforderung – insbesondere bei „Follow the sun“
▪ Support beschränkt auf neueste Version?
▪ Individuelle Anforderungen sammeln

Entscheidungsmatrix II
▪ Beispiele für Anforderungen und technische Faktoren
▪ Sprache (GUI, Dokumentation, Support) incl. Zeichensätze
▪ Deployment der Instrumentierung (eigene plugins, …)
▪ Anreichern von Alarmen mit HTML-Links & additiven Informationen
▪ Upgradeprozedur (z. B. Beschreibung inplace-upgrade)
▪ Agent-footprint
▪ Mapping vom Event auf Metrik
▪ Versionierung von Metriken und Templates
▪ Abhängigkeit von Standard-Technologien (z. B. JAVA) berücksichtigen
23.11.2017 21
▪ AGBs prüfen (lassen)
▪ Stichwort: Vendor-lock
▪ Hersteller-Angaben kritisch gegenüber stehen

PoC
▪ Entscheidungsmatrix auswerten
▪ Fokussierung auf max. 3 Anbieter
▪ PoC mit externer Unterstützung durchführen
▪ Installation durchführen, Aufwände erfassen
▪ Realistische Targets
• kein Abspecken auf 5-6 Systeme
• Beispielservices in EVAL-Umgebungen nachbauen
▪ Validität der Angaben in der Entscheidungsmatrix verifizieren, z. B. Agent-
footprint in eigener Umgebung ausloten
▪ Szenarien und Supportcall simulieren
▪ Peers einbeziehen

23.11.2017 23
Initiierung
Planung
Ausführung
Betrieb

Go-Live planen
▪ Realistischer Zeitplan (Qualität vor Zeit)
▪ Funktionale Tests einplanen und durchführen
▪ Zeit für Hardening usw. planen/reservieren
▪ Bei Projekt: Betriebsübergabe
▪ Planen
▪ Durchführen
▪ In Protokollen dokumentieren
▪ Nächsten Schritte andenken
▪ Prioritäten aus Sicht Technik und Business beim Rollout des/der
Tool(s) berücksichtigen (Stichwort high business impact (HBI)
machines) – Peers informieren und aktiv einbinden

Während der Migration
▪ Parallelbetrieb anstreben
▪ Qualitätskontrolle
▪ Mehrwerte gegenüber der alten Lösung bzw. Konfiguration aufzeigen
▪ Customer-experience beleuchten
▪ Induktives Vorgehen
▪ Individuelle Betrachtung jeder Überwachungsrichtlinie
▪ Stakeholder informiert halten
▪ z. B. Intranet nutzen

23.11.2017 26
Initiierung
Planung
Ausführung
Betrieb

Empfehlungen für den Betrieb
▪ Lessons-learned nach geplanten und ungeplanten Ausfällen
▪ Komplexe Zusammenhänge visualisieren
▪ Optimierung fest einplanen
▪ Schwachstellenscan bei Releasewechsel
▪ Aktive checks bevorzugt ausrollen
▪ Baselining vor Threshold-Definition
▪ KPIs ermitteln (Ziel: „Besser werden“)
▪ Top-Talker identifizieren
▪ Events pro Zeiteinheit, pro Zeitraum
▪ Reifegradanalyse (Gaps ausfindig machen)

Kontinuierlicher Prozess
23.11.2017 28
Initiierung
Planung
Ausführung
Betrieb

OSMC 2017 | Monitoring - dos and don'ts by Markus Thiel

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie OSMC 2017 | Monitoring - dos and don'ts by Markus Thiel

Ähnlich wie OSMC 2017 | Monitoring - dos and don'ts by Markus Thiel (20)

OSMC 2017 | Monitoring - dos and don'ts by Markus Thiel