OSMC 2009 | Das Nagios-Benachrichtigungssystem (Grundlagen, Escalations, Dependencies, Workflow) by Wolfgang Barth

Open Source Monitoring Conference 2009 © Wolfgang Barth 1
Das Nagios-
Benachrichtigungssystem
Grundlagen, Eskalationen,
Dependencies, Workflow
Nürnberg, 2009-10-29

Agenda
● Grundlagen
● Eskalationen, Dependencies
● Einflussfaktoren: Flapping, Downtime,
Acknowledgements
● Custom Notifications

Benachrichtigungen
● Direkte Information von
Verantwortlichen (push statt pull wie
bei der Weboberfläche
● Auslöser für eine Benachrichtigung:
– Ein Hard State wechselt in einen anderen
Hard State
– Ein Hard State mit Fehlerzustand besteht
weiterhin
> notification_period
> is_volatile

Einflussmöglichkeiten
statisch:
● Konfiguration
– System
– Host, Service
– Kontakt
● Eskalationen
dynamisch:
● Acknowledgements
● Downtime
● Flapping
● Dependencies

Konfigurations-
möglichkeiten
Host/
Service
System
Kontakt
Command
enable_notfications=1
notfications_enabled=1
Filter (was, wann, wer, wie oft)
host/service_notfications_enabled=1
Filter (was, wann, wie)
E-Mail, SMS, Ampel, ...
... alles, was sich mit einem Programm
ansteuern lässt ...
tactical overview

Notifications: Parameter
Host Service
notification_period
notification_options
notification_interval
first_notification_delay
Contact/
-group
host_notification_period
host_notification_options
service_notification_period
service_notification_options
Command
externes Programm, z.B. E-
Mail, SMS, Webservice, ...

Notifications: Was
Host Service
notification_period
Contact/
-group
Command

Host:
– d: down
– u: unreachable
– r: recovery
– f: flapping
– s: scheduled
downtime
– n: “none“
– a: „all“ (*)
Service:
– w: warning
– u: unknown
– c: critical
– r: recovery
– f: flapping
– s: scheduled
downtime
– n: „none“
– a: „all“ (*)
(*) undokumentiert

Notifications: Wann
Host Service
notification_period
Contact/
-group
Command

n*_period, n*_interval
● notification_period:
– timeperiod-Objekt
– Zeitraum, in dem die Benachrichtigungen
generiert (Host/Service) oder gefiltert
(Kontakt) werden
● notification_interval:
– Wiederholungsintervall
● delay_first_notification:
– Verzögert die erste Nachricht

Timing-Beispiel (I)
define service { ...
check_interval = 15 ; (min)
max_check_attempts = 1 ;
notification_period = 9x5 ; (8h-17h)
notification_interval = 120 ; (min)
... }
7h 8h 9h 10h
Fehler 1. Nachricht 2. Nachricht
7h30

Timing-Beispiel (II)
notification_period = 7x24 ; (immer)
... }
define contact {
}
7h 8h 9h 10h
Fehler 1. Nachricht 2. Nachricht
7h30 9h30

Timing-Beispiel (III)
notification_period = 7x24 ; (immer)
first_notification_delay = 15 ; (min)
... }
define contact {
}
7h 8h 9h 10h
Fehler 1. Nachricht
7h30
2. Nachricht
9h45

Notifications: Wer
Host Service
contactgroups
contacts
Contact/
-group
Command

Generiert/gefiltert
Host Service
Contact/
-group
Command
Nachricht ist generiert
Nachricht ist gefiltert

is_volatile=1
● nur bei Services vorhanden
● Benachrichtigung bei jedem „Non-OK
Hard State“ Ergebnis
● notification_interval = deaktiviert
● sinnvoll bei Services, die sich selbst
zurücksetzen:
– Counter in aktiven Netzwerkkomponenten
– Logfile-Überwachung

Notifications: Wie
Host Service
Contact/
-group
host_notification_commands service_notification_commands
Command

*_notification_commands (I)
● wie jedes andere command-Objekt:
define command{
command_name notify-by-email
command_line /usr/bin/printf "%b"
"***** Nagios *****nn
Notification Type: $NOTIFICATIONTYPE$nn
Service: $SERVICEDESC$n
Host: $HOSTNAME$n
Address: $HOSTADDRESS$n
State: $SERVICESTATE$nn
Date/Time: $LONGDATETIME$n
Duration: $SERVICEDURATION$nn
Additional Info:nn
$SERVICEOUTPUT$" |
/usr/bin/mail -s "$NOTIFICATIONTYPE$ alert -
$HOSTNAME$/$SERVICEDESC$ is $SERVICESTATE$" $CONTACTEMAIL$
}

*_notification_commands (II)
● Alternative: externes Skript, das
Environment-Variablen verwendet:
$HOSTNAME$ -> $NAGIOS_HOSTNAME
● wichtig:
enable_environment_macros = 1

Eskalationen
&
Dependencies

Eskalationen (I)
● Wann wird welcher Kontakt informiert?
➔ „wann“ = Anzahl der Benachrichtigungen
1 2 3 4 5 6 7 8 9 10 11
admins
admins, secondlevel
GF
..3 4..8 7..10
Anzahl der Nachrichten

Eskalationen (II)
serviceescalation {
host_name web01
service_description HTTP
first_notification 4
last_notification 8
notification_interval 60
contact_groups admins,secondlevel
escalation_period 7x24
escalation_options c,r ; w,u
...}
Überlappungen

Service-Dependencies (I)
web01
Disks
web01
Users
web01
Load
web01
NRPE
Nagios
host_name
service_description
dependent_host_name
dependent_service_desc*

Service-Dependencies (II)
service_dependency {
host_name web01 ;master
service_description NRPE ;master
dependent_host_name web01
dependent_service_description Disks
notification_failure_criteria o,w,u,c,p,n
}
 unterbindet eine Benachrichtigung
 Bezug: Zustand des Master-Services

Same Host Dependency
service_dependency {
hostgroup_name WEB ;master
service_description NRPE ;master
dependent_host_name web01
dependent_service_description Disks
notification_failure_criteria w,u,c
}
 durch Weglassen des Client-Hosts ist ab
Nagios 3.0 der sinnvolle Einsatz von
Hostgruppen möglich

Service-Dependencies:
weitere Parameter
● dependency_period
– zeitliche Einschränkung der Abhängigkeit
● inherit_parents=0
– bei Dependency-Verkettungen:
normalerweise gilt die Dependency nur
unmittelbar und wird nicht vererbt
● execution_failure_criteria
– zur Unterbindung weiterer Checks
– für Notifications nur indirekt relevant

Host-Dependencies (I)
pc01 pc02 pc03 srv01 srv02 nagios
switch1
switch2
pc04
pc05
pc06
proxy
gate
internet-
server
http://www.swobspace.de
Firewall
DNS
UP
DOWN
UNREACHABLE
UNREACHABLE
UNREACHABLE
1CRITICAL
2
3
4
5
6
Abbildung entnommen aus: „Nagios – System und Netzwerk-Monitoring“, 2. Auflage, Open Source Press, Seite 92

Host-Dependencies (II)
● einfachste Lösung: parents
– builtin ohne zusätzlichen Aufwand
● Host-Dependencies erlauben
Abhängigkeiten außerhalb der
normalen Topologie
● Predictive Dependency Checks
– enable_predictive_host_dependency_checks
– enable_predictive_service_dependency_checks

Weitere Einflussgrößen:
Flapping
Acknowledgements
Scheduled Downtime

Flapping
● Nagios speichert die letzten 21 Zustände
● Flapping ein: > high_*flap_threshold (20.0)
● Flapping aus: < low_*flap_threshold (5.0)
● Bei Beginn/Ende eine eigene Nachricht vom
Typ „FLAPPINGSTART“, „FLAPPINGSTOP“ bei:
– notification_options = f
OK
WARNING
CRITICAL
UNKNOWN
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
12/20=60%
gewichtet:
=62,21%

Scheduled Downtime
● Unterbindet Benachrichtigungen
während der Downtime
● notification_options = s
– Beim Start (DOWNTIMESTART)
– Beim Ende (DOWNTIMEEND)
– bei Abbruch (DOWNTIMECANCELLED)

Acknowledgements (I)
● verhindern weitere Benachrichtigungen zu
Fehlerzuständen
● Nachricht vom Typ „ACKNOWLEDGEMENT“
beim Setzen des ACKs
● notification_options = ...
– zur Zeit nicht implementiert

Acknowledgements (II)
● Benachrichtigung heißt: es hat noch
niemand reagiert
● Differenzierung bereits bestätigter
Fehler über die Weboberfläche:
status.cgi?host=all&type=detail
&hoststatustypes=3&serviceprops=42
&servicestatustypes=28

status.cgi
● servicestatustypes = 28
– 4: WARNING
– 8: UNKNOWN
– 16: CRITICAL
● serviceprops = 42
– 2: keine geplante Downtime
– 8: kein Acknowledgement
– 32: Service-Check aktiviert

Custom Notifications
● „External Command File“-Schnittstelle
● ermöglicht zusätzliche Notifications
● weiterhin an Host/Service gebunden
● Optionen (Bitmaske):
– 0: keine Option
– 1: Broadcast: normale + eskalierte Kontakte
– 2: Force: unabhängig von zeitlichen Schranken
– 4: erhöht den Notification Counter (muss
explizit mit angegeben werden!)
SEND_CUSTOM_HOST_NOTIFICATION;host;opts;who;comment
SEND_CUSTOM_SVC_NOTIFICATION;host;svc;opts;who;comment

External Command File
#!/bin/sh
now=`date +%s`
commandfile='/var/lib/nagios3/rw/nagios.cmd'
cmd='SET_HOST_NOTIFICATION_NUMBER;web01;0'
/bin/printf "[%lu] $cmdn“, $now > $commandfile
Beispielskripte unter
old.nagios.org/developerinfo/externalcommands/

das wars ...
Vielen Dank
für Ihre Aufmerksamkeit.
Fragen?

timeperiod-Objekt
2008-06-09 00:00-24:00
june 1 00:00-24:00
day 2 00:00-24:00
monday 1 00:00-24:00
monday 2 june 00:00-24:00
monday 00:00-24:00
2008-06-09 - 2008-06-12 00:00-24:00
2008-06-09 - 2008-06-15 / 2 00:00-24:00
exclude tp1,tp2,tp3

OSMC 2009 | Das Nagios-Benachrichtigungssystem (Grundlagen, Escalations, Dependencies, Workflow) by Wolfgang Barth

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie OSMC 2009 | Das Nagios-Benachrichtigungssystem (Grundlagen, Escalations, Dependencies, Workflow) by Wolfgang Barth

Ähnlich wie OSMC 2009 | Das Nagios-Benachrichtigungssystem (Grundlagen, Escalations, Dependencies, Workflow) by Wolfgang Barth (20)

OSMC 2009 | Das Nagios-Benachrichtigungssystem (Grundlagen, Escalations, Dependencies, Workflow) by Wolfgang Barth