Im Laufe des zweiten Halbjahres 2005 wurde die bei der MAN IT Services GmbH gewachsene heterogene Infrastruktur für das Monitoring und die Performancemessungen in einem eigenen Projekt durch eine homogene Nagios Umgebung abgelöst. Insgesamt wurden dabei knapp 200 Hosts und fast 5000 Services konsolidiert. Dabei wurden nahezu sämtliche fortgeschrittenen Features, z.B. Distributed Monitoring, von Nagios genutzt, eigene Plugins geschrieben und zahlreiche weitere Tools wie RRDTOOL und SNMPTT integriert.
Diese Umgebung in einer Projekt- / Fallstudie vorzustellen, ist Gegenstand dieses Vortrags.
From Zero to still Zero: Die schönsten Fehler auf dem Weg in die Cloud
Nagios Conference 2006 | Nagios - Fallstudie bei der MAN IT Services GmbH by Tobias Mucke
1. Fallstudie – Nagios bei MIT 21.09.2006 1Tobias MuckeMAN IT Services GmbH
Fallstudie – Nagios bei MIT
2. Fallstudie – Nagios bei MIT 21.09.2006MAN IT Services GmbH 2Tobias Mucke
Vorstellung - MAN IT Services GmbH
IT Dienstleister für die MAN Gruppe
Gründung als eigenständige GmbH in 2005, Betrieb ab
Januar 2006
10 Standorte
320 Mitarbeiter
Geschäftsfelder
RZ Infrastruktur und Betrieb
Entwicklung teilkonzernübergreifender Anwendungen
Beratung
3. Fallstudie – Nagios bei MIT 21.09.2006MAN IT Services GmbH 3Tobias Mucke
Vorstellung - Referent
MIT Enterprise Engineering – Linux Systemadministration
derzeit etwa 200 Linux basierte Systeme
Projekte
Standardisierung der Linux Enterprise Server Umgebung
Zentrales und automatisiertes Deployment für die Systeminstallation,
-konfiguration und -wartung
Hochverfügbarkeit
Hardware- und Systemmonitoring mit Nagios
4. Fallstudie – Nagios bei MIT 21.09.2006MAN IT Services GmbH 4Tobias Mucke
Gliederung (1)
I. Begriffsabgrenzung
II. Einführung in das Spannungsverhältnis zwischen der
1. Heterogenität der Monitoring Infrastruktur vor Nagios
2. Homogenität der Linux Infrastruktur
III. Projektziele und -rahmen
…
5. Fallstudie – Nagios bei MIT 21.09.2006MAN IT Services GmbH 5Tobias Mucke
Gliederung (2)
IV. Nagios Monitoring Infrastruktur
1. Grundlegende Entscheidungen und Konfigurationsansätze
2. Infrastrukturüberblick
3. In Zahlen
V. Plugins
VI. Auswertung der Performancedaten
VII. Rückblick - Ein Jahr Nagios
6. Fallstudie – Nagios bei MIT 21.09.2006MAN IT Services GmbH 6Tobias Mucke
Begriffsabgrenzung - Monitoring
Hardwaremonitoring
Lüfter, Netzteile, HDDs, Memorymodule, Temperaturen usw.
Systemmonitoring
Dateisysteme, Prozesse, Arbeitsspeicher usw.
Netzwerk- und Basisdienstemonitoring
Netzwerkkomponenten, DNS, Webserver, Oracle Datenbanken
Status: GRGRÜÜNN, GELBGELB oder ROTROT z.B. zur Alarmierung / Eskalation
7. Fallstudie – Nagios bei MIT 21.09.2006MAN IT Services GmbH 7Tobias Mucke
Begriffsabgrenzung – Messung von Performancedaten
Kurz-, mittel- und langfristige Aufzeichnung von Messwerten
Einsatz unterschiedlicher Messmethoden (Pegelstände,
Zähler, Differenzen usw. )
Einheit des Messergebnisses (Sekunden, Grad, Bytes usw.)
Geeignete Verdichtung über die Zeit
Messwerte: Grafische Darstellung in Diagrammen z.B.
zur Trendanalyse / Planung
8. Fallstudie – Nagios bei MIT 21.09.2006MAN IT Services GmbH 8Tobias Mucke
Monitoring Infrastruktur vor Nagios
Intranet DMZ Internet
Firewall
Firewall
Skripte
Bigbrother Cacti
Messwerte
Cacti
Messwerte
Bigbrother
HW
Alarme
HW
Alarme
9. Fallstudie – Nagios bei MIT 21.09.2006MAN IT Services GmbH 9Tobias Mucke
Homogenität der Linux Infrastruktur
Hoher Standardisierungsgrad der Systeme
Drei- bis vierschichtige Infrastrukturkonzepte
Hoher Anteil von in Farmen (60%) / Clustern (20%)
organisierter Systeme
Starke Homogenität der Systeme,
kaum (< 10%) Einzelsysteme
10. Fallstudie – Nagios bei MIT 21.09.2006MAN IT Services GmbH 10Tobias Mucke
Spannungsverhältnis
Heterogenität der Monitoring Infrastruktur
vs.
Homogentität der Linux Infrastruktur
Neukonzeptionierung der Monitoring Infrastruktur
11. Fallstudie – Nagios bei MIT 21.09.2006MAN IT Services GmbH 11Tobias Mucke
Primäre Projektziele
1. Konsolidierung
2. Zentralisierung
3. Verfügbarkeit
4. Kostensenkung
12. Fallstudie – Nagios bei MIT 21.09.2006MAN IT Services GmbH 12Tobias Mucke
Sekundäre Projektziele
1. Skalierbarkeit
2. Integration
3. Flexibilisierung
4. Paradigmenwechsel
5. Standardisierung
13. Fallstudie – Nagios bei MIT 21.09.2006MAN IT Services GmbH 13Tobias Mucke
Projektrahmen
Zeit
Implementierung der Basisinfrastruktur durch Michael Frank im
Rahmen des ersten Praxissemester FH Augsburg (20 Wochen)
Budget
Nutzung bereits vorhandener Ressourcen, kein eigenes Budget
14. Fallstudie – Nagios bei MIT 21.09.2006MAN IT Services GmbH 14Tobias Mucke
Entscheidungsfindung Nagios
Szenarien
Zentrales Network Monitoring System
Distributed Monitoring Server
HA Network Monitoring
Skalierbarkeit
Konsolidierung und Integration
Flexibilität
Weiche Faktoren
15. Fallstudie – Nagios bei MIT 21.09.2006MAN IT Services GmbH 15Tobias Mucke
Nagios Infrastruktur
Intranet DMZ Internet
Firewall
Firewall
Messwerte
NMS
Messwerte
Mailserver / Ticketsystem
NRPE
NRPE
SSH
NSCA
Config
Deploy
16. Fallstudie – Nagios bei MIT 21.09.2006MAN IT Services GmbH 16Tobias Mucke
In Zahlen
HA NMS mit jeweils 2 CPUs à 3.00 GHz und 2 GB Memory
3x DMS mit jeweils 2 CPUs à 3.00 GHz und 2 GB Memory
Etwa 200 Systeme
Knapp 5500 Checks
Knapp 5300 RRD Datenbanken
17. Fallstudie – Nagios bei MIT 21.09.2006MAN IT Services GmbH 17Tobias Mucke
Plugins - Überblick
Standardplugins aus dem Nagios Plugin Development Projekt
Ergänzende Plugins von Nagios Exchange
Einige selbst geschriebene Plugins
18. Fallstudie – Nagios bei MIT 21.09.2006MAN IT Services GmbH 18Tobias Mucke
Plugins - Hardwaremonitoring
Herstellerspezifische Agenten
SNMP Traps an SNMPTRAPD
SNMPTRAPD übergibt Traps an SNMP Trap Translator
Weitermeldung an NMS durch passiven Check
19. Fallstudie – Nagios bei MIT 21.09.2006MAN IT Services GmbH 19Tobias Mucke
Plugins - Systemmonitoring (1)
Monitoring für MD und DRBD
check_md
check_drbd
Statistiken interner Kernelcaches (Slabinfo)
check_slabstat
20. Fallstudie – Nagios bei MIT 21.09.2006MAN IT Services GmbH 20Tobias Mucke
Plugins - Systemmonitoring (2)
Monitoring der NRPE daemons
check_nrpe
Monitoring der Systemzeit
check_ntp
DNS Einträge in der Vorwärts- und Rückwärtsauflösung
check_dns
21. Fallstudie – Nagios bei MIT 21.09.2006MAN IT Services GmbH 21Tobias Mucke
Plugins - Nagios
Monitoring des Nagios Systems: check_nagios
Statistiken: check_nagios_stats
22. Fallstudie – Nagios bei MIT 21.09.2006MAN IT Services GmbH 22Tobias Mucke
Plugins - Sonstiges
RPC und NFS Statistiken (Server / Client)
check_rpcstat
check_nfsstat
Monitoring HTTP Server und SSL Zertifikate
check_http
23. Fallstudie – Nagios bei MIT 21.09.2006MAN IT Services GmbH 23Tobias Mucke
Performancedaten mit RRD
Auswertung der Plugin Performancedaten
Kurz-,
Mittel- und
Langfristig
Nutzung des bestehenden RRDTool Know Hows
Umgehung des Flaschenhals beim Weitergeben der
Performancedaten
Maximale Flexibilität beim Erstellen und Anzeigen der Daten
24. Fallstudie – Nagios bei MIT 21.09.2006MAN IT Services GmbH 24Tobias Mucke
Sammlung und Auswertung der Performancedaten
Übergabe der Performancedaten durch Nagios mittels einer
Datei
Regelmäßiger Aufruf von Nagiosgraph
Nagiosgraph zur Erstellung und Pflege der RRDs
Nagiostat und Drraw zur Anzeige / Dashboards
25. Fallstudie – Nagios bei MIT 21.09.2006MAN IT Services GmbH 25Tobias Mucke
Rückblick nach einem Jahr Nagios
Einteilung der Zeitrechnung in eine Zeit vor und nach
Nagios
Projektziele
Konsolidierung und Zentralisierung
Skalierbarkeit und Verfügbarkeit
Integration
Kostensenkung
Standardisierung