Which monitoring- responsible does not know this or similar questions? How could a CRM fall-out remain undetected for hours, despite profound monitoring? Why do we have 3000 events in the console even if everything works? In monitoring- projects there are always multi-layered problems and challenges, and the causes may be of technical or non-technical nature. The goal of this talk is to present field-tested approaches and tips on how to identify the causes by analysing the environment and thereby deducing countermeasures and strategies.
3. Vorstellung / Fachliche Schwerpunkte
▪ Markus Thiel, IT-Consultant
▪ Monitoring & ITSM
• aus Kunden- und Beratersicht
• Open Source und Produkte
▪ Projektmanagement
▪ IT-Security & SIEM
▪ Follow me on:
23.11.2017 3Monitoring - do´s and don´ts
4. Motivation / Eingangsfragen
▪ Wer macht zurzeit was?
▪ Was ist gut und soll so bleiben?
▪ Was kann man weglassen?
▪ Was muss man ändern?
23.11.2017 4
„Ich wünsche mir die Gelassenheit, Dinge hinzunehmen, die ich nicht ändern kann;
den Mut, Dinge zu ändern, die ich ändern kann; und die Weisheit, das eine vom
anderen zu unterscheiden.“
Zitat, das Reinhold Niebuhr zugeschrieben wird
Monitoring - do´s and don´ts
5. Methode / Mögliches Modell
23.11.2017 5
Initiierung
Planung
Ausführung
Betrieb
Monitoring - do´s and don´ts
6. Reale Szenarien I
▪ Organisation passt sich den Tools an
▪ Isolierte „Werkzeuge“ arbeiten nicht übergreifend sondern in Inseln und/oder
separierten Silos der Organisationsstruktur
▪ Cronjob: Generieren von Systemmails an Personen- oder Gruppenkonten
▪ Silodenken - Keine übergreifende Transparenz
▪ Fehlende Updatestrategie - „Never touch a running system“
▪ Mehrfach redundante Events mit unterschiedlichen Aussagen (z. B. CPU-Auslastung zu einem
Zeitpunkt) aus verschiedenen tools
▪ Schwarz-Weiß-Sicht auf Tools
▪ Für jedes Monitoring-Tool ein einen separierten Bildschirm
23.11.2017 6
Nicht bis wenig service- & prozessorientiertes Vorgehen
Monitoring - do´s and don´ts
7. Reale Szenarien II
▪ Implementierung mit initialem „Big Bang“ – und dann …?
▪ 50 PT Implementierung, Logotausch nach 1 Jahr
▪ Möglichst rasch, möglichst viel - Masse und Zeit im Fokus
▪ “Nach 3 Wochen mit dem Externen hatten wir bereits 80% der Systeme in der Überwachung“
▪ SAP-Monitoring (Alle MTEs aus den SAP-Systemen importieren und analysieren)
▪ Manuelles Verwalten der Elemente, Schwellenwerte, …
▪ „Der Monitoring-Admin hat kurzfristig das Unternehmen verlassen“
▪ Nicht oder nicht ausreichend dokumentierte Installationen, Metriken &
Schnittstellen („Steht im Wiki“)
▪ 3000 Meldungen im System vs. „alles läuft“
▪ Ein CRM-System wurde nicht überwacht
23.11.2017 7
Geringe Nachhaltigkeit & mangelnde Qualitätssicherung
Monitoring - do´s and don´ts
8. Mögliches Vorgehen
▪ Mögliche Meilensteine der Initiierung
23.11.2017 8
Organisatorische Basistasks Organisatorisch-technische Basistasks Schnittstellen
Start I II III
Monitoring - do´s and don´ts
9. Organisatorische Basistasks
▪ Entscheider beeinflussen -> Monitoring ist essentiell (Stichwort HBI)
▪ Gerade in Unternehmen und Organisationen haben sich existentielle Abhängigkeiten entwickelt,
teilweise haben sie sich schleichend eingestellt und sind damit bisweilen nicht bewusst. Studien
belegen regelmäßig, dass bei Ausfall der IT innerhalb weniger Stunden enorme Schäden entstehen
und bereits eine Ausfallzeit im Tagesbereich ausreichen kann, um das Überleben von Organisationen
zu gefährden (BSI Hochverfügbarkeitskompendium Band G, Kapitel 1, Einführung Seite 5)
▪ Monitoring in einer möglichst frühen Phase organisatorisch mit Rückendeckung
des C-Level als Service etablieren, Verantwortlichkeiten und Servicedefinition in
der Organisation klären und eindeutig kommunizieren lassen (Stichwort: Mandat)
▪ Team an Monitoring-Spezialisten aufbauen
▪ Qualitativ hochwertige und fortgeführte Dokumentation ist elementar
23.11.2017 9
Monitoring ist ein kontinuierlicher Prozess
Monitoring - do´s and don´ts
10. Organisatorisch-technische Tasks I
▪ Konsumenten und Stakeholder identifizieren
▪ Anforderungen, Erwartungen, Befürchtungen jeweils spezifisch und messbar
beschreiben
23.11.2017 10
▪ Peers installieren
▪ Stetiger Erfahrungsaustausch (PDCA)
▪ Monitoring zum Bestandteil des Designs machen
▪ Monitoring bei der „Digitalen Agenda“ berücksichtigen
▪ Kommunikation positiv und beratend gestalten: Was bietet „Monitoring“ an? Negative, spekulative
oder indifferente Kommunikation meiden
Betroffene werden zu Beteiligten
Monitoring - do´s and don´ts
11. Organisatorisch-technische Tasks II
▪ Monitoring inclusive Checkpoints in Bereitstellungsprozessen etablieren
▪ Ziel: Standardisierung, Verantwortungsübergänge und Revisionssicherheit
23.11.2017 11
Genehmigter Change inclusive Stammdatenblatt
Bereitstellung des Systems
Installation OS
Installation OS-Monitoring
Installation Applikation, Middleware, DB
Installation Fachliches Monitoring
Aktivierung und Übergabe an den regulären Betrieb
Checkpoints platzieren
Monitoring - do´s and don´ts
12. Schnittstellen
▪ Monitoring des Monitorings sicherstellen
▪ Mögliche Anforderungen North- und Southbound identifizieren
23.11.2017 12
▪ Adressatengerechte Aufbereitung der Events
▪ Fokus von Meldungen bzw. Sichtweisen berücksichtigen
▪ Symptome vs. Mapping auf IT-Services
▪ Incidentbearbeitung
▪ Antwort auf „Bearbeitung in welchem tool?“
▪ Anzahl der Meldungen pro Zeiteinheit versus gewissenhafte Bearbeitung - Balance finden
▪ Alarmierung per Mail nur in Ausnahmefällen oder bei Eskalationen
Monitoring - do´s and don´ts
13. Methode / Mögliches Modell
23.11.2017 13
Initiierung
Planung
Ausführung
Betrieb
Monitoring - do´s and don´ts
14. Reale Szenarien
▪ Aussagen von Tool-Herstellern: Wir haben bei einem Kunden die MTTR auf n
Minuten reduziert
▪ Unwahre Messergebnisse
▪ Unsichere rechtliche Situation (Plugin upload – Rechtsabteilung)
▪ Planung einer 1:1-Migration
▪ Monitoring verursacht 20% des Traffic über eine Anbindung via Satellit
▪ Security-Gaps
▪ Agents laufen mit hoch privilegierten Rechten
▪ Logfiles werden unverschlüsselt übertragen
▪ NRPE mit „nasty arguments“, eventhandlern und zig allowed-hosts
▪ SNMP in V1 und 2c mit community „public“
23.11.2017 14Monitoring - do´s and don´ts
15. Tooleinsatz - Mögliches Vorgehen
▪ Typische Meilensteine der Planung
23.11.2017 15
Analyse Pflichtenheft Entscheidungsmatrix PoC
Start I II III
Monitoring - do´s and don´ts
16. Zielbeschreibung (Pflichtenheft)
▪ Monitoring methodisch beschreiben
▪ „Was soll überwacht werden?“ klar beantworten und messbar gestalten
(Zielerreichung)
▪ Koexistenz verschiedener Werkzeuge mit Umbrella
• „Jemandem etwas wegnehmen“
• Produktseitige Unterstützung neuer Features
• Selfservicegedanke
▪ 3-Stufigkeit anstreben (EVAL-INT-PROD)
▪ Monitoring technisch beschreiben
▪ Positionierung des Systems bzw. der Systeme in der Netztopologie
• Userverbindungen, Rechte-Rollenkonzept, Southbound, Northbound
▪ Sicherheit, z. B. DMZ-Kontext, HTTPS-Zugriff, SNMP-Version & -Communities
▪ Clouddienste
23.11.2017 16Monitoring - do´s and don´ts
17. Serviceorientiertes Monitoring
▪ Mehrwerte durch Einbinden der Peers
▪ Fachliches Know-How für die Erstellung von Servicebäumen nutzen
23.11.2017 17
Systembetrieb Linux – Managed OS
Systembetrieb MySQL – Managed DB
JBOSS - Managed Technical App
„Meine Anwendung“ – Business-Service
CIs
SLA
OLA
OLA
OLA
Monitoring - do´s and don´ts
18. Kriterien für die Toolauswahl (neue Strategie)
▪ Existierende IT-Strategien & Regelwerke betrachten
▪ z. B. (Künftige) Nutzung von Clouddiensten, Präferenz von Webtechnologie
▪ Zuständige Gruppen/Gremien für IT-Sec & Datenschutz einbeziehen
▪ Einsatz von Software-Agenten
▪ Ggf. Verträge für Systeme checken, die nicht in der Verantwortung liegen
▪ Stichworte Systemuser/privilegierte Rechte
▪ Toolseitig bereitgestellte Versionskontrolle
▪ Revisionssicherheit der Konfiguration
▪ Funktion möglicher AddOns überprüfen
23.11.2017 18Monitoring - do´s and don´ts
19. Mögliche ToDos beim Einsatz von Open Source
▪ Existierende Unternehmensrichtlinie anstreben
▪ Rechtliche Implikationen – Beispiele:
▪ Regelung, wie mit individuell beauftragten Entwicklungen umzugehen ist (z. B.
Offenlegung von Betriebsgeheimnissen und Entwicklungen mit hohem
Fertigungsgrad)
▪ Beschränkungen / zusätzliche Nutzungsbedingungen in kommerziellen
Lizenzverträgen
▪ …
23.11.2017 19Monitoring - do´s and don´ts
20. Entscheidungsmatrix I
▪ Unterstützt bei der transparenten Entscheidungsfindung
▪ Möglichst konkrete, harte Kriterien und Gewichtung anstreben
▪ Eingesetzte Komponenten (Input von Peers) betrachten (Facilities,
Hardware, Appliances, OS, DB, Applikationen, …)
▪ Trafficanalyse (Bandbreite/Grundrauschen/Satellitensysteme)
▪ Supportmatrix betrachten
▪ Ansprechpartner analog Anforderung – insbesondere bei „Follow the sun“
▪ Support beschränkt auf neueste Version?
▪ Individuelle Anforderungen sammeln
23.11.2017 20Monitoring - do´s and don´ts
21. Entscheidungsmatrix II
▪ Beispiele für Anforderungen und technische Faktoren
▪ Sprache (GUI, Dokumentation, Support) incl. Zeichensätze
▪ Deployment der Instrumentierung (eigene plugins, …)
▪ Anreichern von Alarmen mit HTML-Links & additiven Informationen
▪ Upgradeprozedur (z. B. Beschreibung inplace-upgrade)
▪ Agent-footprint
▪ Mapping vom Event auf Metrik
▪ Versionierung von Metriken und Templates
▪ Abhängigkeit von Standard-Technologien (z. B. JAVA) berücksichtigen
23.11.2017 21
▪ AGBs prüfen (lassen)
▪ Stichwort: Vendor-lock
▪ Hersteller-Angaben kritisch gegenüber stehen
Monitoring - do´s and don´ts
22. PoC
▪ Entscheidungsmatrix auswerten
▪ Fokussierung auf max. 3 Anbieter
▪ PoC mit externer Unterstützung durchführen
▪ Installation durchführen, Aufwände erfassen
▪ Realistische Targets
• kein Abspecken auf 5-6 Systeme
• Beispielservices in EVAL-Umgebungen nachbauen
▪ Validität der Angaben in der Entscheidungsmatrix verifizieren, z. B. Agent-
footprint in eigener Umgebung ausloten
▪ Szenarien und Supportcall simulieren
▪ Peers einbeziehen
23.11.2017 22Monitoring - do´s and don´ts
23. Methode / Mögliches Modell
23.11.2017 23
Initiierung
Planung
Ausführung
Betrieb
Monitoring - do´s and don´ts
24. Go-Live planen
▪ Realistischer Zeitplan (Qualität vor Zeit)
▪ Funktionale Tests einplanen und durchführen
▪ Zeit für Hardening usw. planen/reservieren
▪ Bei Projekt: Betriebsübergabe
▪ Planen
▪ Durchführen
▪ In Protokollen dokumentieren
▪ Nächsten Schritte andenken
▪ Prioritäten aus Sicht Technik und Business beim Rollout des/der
Tool(s) berücksichtigen (Stichwort high business impact (HBI)
machines) – Peers informieren und aktiv einbinden
23.11.2017 24Monitoring - do´s and don´ts
25. Während der Migration
▪ Parallelbetrieb anstreben
▪ Qualitätskontrolle
▪ Mehrwerte gegenüber der alten Lösung bzw. Konfiguration aufzeigen
▪ Customer-experience beleuchten
▪ Induktives Vorgehen
▪ Individuelle Betrachtung jeder Überwachungsrichtlinie
▪ Stakeholder informiert halten
▪ z. B. Intranet nutzen
23.11.2017 25Monitoring - do´s and don´ts
26. Methode / Mögliches Modell
23.11.2017 26
Initiierung
Planung
Ausführung
Betrieb
Monitoring - do´s and don´ts
27. Empfehlungen für den Betrieb
▪ Lessons-learned nach geplanten und ungeplanten Ausfällen
▪ Komplexe Zusammenhänge visualisieren
▪ Optimierung fest einplanen
▪ Schwachstellenscan bei Releasewechsel
▪ Aktive checks bevorzugt ausrollen
▪ Baselining vor Threshold-Definition
▪ KPIs ermitteln (Ziel: „Besser werden“)
▪ Top-Talker identifizieren
▪ Events pro Zeiteinheit, pro Zeitraum
▪ Reifegradanalyse (Gaps ausfindig machen)
23.11.2017 27Monitoring - do´s and don´ts