Neben dem Monitoring betriebssystemnaher Parameter (Auslastung CPU, Memory, Plattenpartitionen) von Nachrichtensystemen, ist für den Betrieb dieser Komponenten insbesondere die generelle Funktion der Applikationen, sowie das Abgreifen von Performancedaten zB hinsichtlich Resourcenplanung wichtig. Der Vortrag geht auf Methoden ein, diese Informationen abzugreifen.
4. Big picture
IT Prozesse
Incident-
Management
Problem
Management
Service Lev.
Management
BusinessSicht
Business Service
Monitoring
Business Service
Dashboard SLA-Monitoring
Eventmanagement und Korrelation
BP-Monitoring
4
Capacity
Management
Configuration
Management
Change
Management
CMDB
TechnischeSicht
Release
Management
Server Netzwerke Datenbanken Middleware Anwendungen Integration
Schwellwerte Status E2E
Monitoring
Performancedaten
Monitoring
Alarmierung
5. Nagios – Werkzeuge
passive checkspassive checks
CIaktive checks CI
5
Weitere Werkzeuge
Kommerzielle
Tools
Hersteller-
spezifische
Tools
Open Source
Tools
z.B. …
18. Lotus Notes Domino - Methoden
Domino-Server
LNSNMP
QuerySet Handler
Event Interceptor
QuerySet Handler
fragt die Statistikinformationen des Server ab
und gibt diese an den LNSNMP ab, der diese
Informationen an den plattformspezifischen
SNMP Agent übergibt
18
Event Interceptor
weist den LNSNMP an, zB einen snmp-trap
abzusetzen
25. LND Monitoring – OIDs from MIB
Service OID Description from MIB
dead-mail enterprises.334.72.1.1.4.1.0 Number of dead (undeliverable) mail messages
routing-failures enterprises.334.72.1.1.4.3.0 Total number of routing failures since the server started
pending-routing enterprises.334.72.1.1.4.6.0 Number of mail messages waiting to be routed
pending-local enterprises.334.72.1.1.4.7.0 Number of pending mail messages awaiting local delivery
max-mail-delivery-time enterprises.334.72.1.1.4.12.0 Maximum time for mail delivery in seconds
25
router-unable-to-transfer enterprises.334.72.1.1.4.19.0 Number of mail messages the router was unable to transfer
mail-held-in-queue enterprises.334.72.1.1.4.21.0 Number of mail messages in message queue on hold
mails-pending enterprises.334.72.1.1.4.31.0 Number of mail messages pending
replicator-status enterprises.334.72.1.1.6.1.3.0 Status of the Replicator task
router-status enterprises.334.72.1.1.6.1.4.0 Status of the Router task
databases-in-cache enterprises.334.72.1.1.10.15.0 The number of databases currently in the cache. Administrators should
monitor this number to see whether it approaches the
NSF_DBCACHE_MAXENTRIES setting. If it does, this indicates the cache is
under pressure. If this situation occurs frequently, the administrator should
increase the setting for NSF_DBCACHE_MAXENTRIES
26. LND Monitoring – OIDs from MIB 2
Service OID Description from MIB
messages-send enterprises.334.72.1.1.4.2.0 Number of messges received by router
messages-routed enterprises.334.72.1.1.4.4.0 Total number of mail messages routed since the server started
router-messages-attempted-to-
transfer
enterprises.334.72.1.1.4.5.0 Number of messages router attempted to transfer
delivered-mail-size-avg enterprises.334.72.1.1.4.11.0 Average size of mail messages delivered in bytes
delivered-mail-size-max enterprises.334.72.1.1.4.14.0 Maximum size of mail delivered in bytes
26
total-mail-transferred enterprises.334.72.1.1.4.18.0 Total mail transferred in kilobytes
transferred-per-min-peak enterprises.334.72.1.1.4.27.0 Peak number of messages transferred
…
MemAllocProcess enterprises.334.72.1.1.9.2 Total process-private memory allocated by all currently-running
processes.
DriveFree enterprises.334.72.1.1.8.3.1.4 The amount of free space left on this drive in kilobytes.
A value of zero may indicate the statistic's value is
too large to be passed via SNMP.
27. Lotus Notes Domino – Dienste checken
• Installation check_lotus_notes_services plugin *
nsgios-server:~ # snmpwalk -c <COMMUNITY> -v 1 <HOSTADRESS> .1.3.6.1.4.1.334.72.1.1.6.1.2.1.4
| awk -F"STRING: " '{ print $2 }' | sort | uniq
…
"Statistic Collector“
"Event Interceptor“
"QuerySet Handler“
"Cluster Replicator“
…
• Übergabe der Ergebnisse als Argument im command
• Auslesen der gestarteten Dienste auf dem LND Server
27
• Übergabe der Ergebnisse als Argument im command
nagios-server:<PLUGINDIR> # ./check_lotus_notes_services.sh -H <HOSTNAME>
-S “Event Interceptor”
-C <SNMP COMMUNITY>
OK - "Idle: [07/10/2008 13:34:08 CEDT]“ | Counter=1Services
28. Lotus Notes Domino – Transfer Peak Time
• Nagios Plugin:
check_lotus_notes_transfer_per_minute_peak_time *
#!/bin/bash
…
UNIXTIME=`snmpwalk -c <COMMUNITY> -v 1 <HOSTNAME> 1.3.6.1.4.1.334.72.1.1.6.3.4.0
| awk -F"INTEGER: " '{ print $2 }'`
HUMANTIME=`echo $UNIXTIME | logtime`
…
Umrechnung UNIX-Timestamp in
Format YYYY-MM-DD hh:mm:ss
28
Format YYYY-MM-DD hh:mm:ss
• logtime *:
Installation in $PATH des users nagios
• Ausgabe im Webfrontend
30. LND Cluster Monitoring – OIDs from MIB
Service OID Description from MIB
ClusterTransRunningAvgTime 1.3.6.1.4.1.334.72.1.1.6.4.10.6 Average total running time of cluster transactions.
ClusterTransRunningAvgTime 1.3.6.1.4.1.334.72.1.1.6.4.10.7 Average total running time of cluster transactions.
ClusterTransRunningCount 1.3.6.1.4.1.334.72.1.1.6.4.10.8 Number of cluster transactions.
ClusterTransRunningTime 1.3.6.1.4.1.334.72.1.1.6.4.10.9 Total running time of cluster transactions.
ClusterProbeError 1.3.6.1.4.1.334.72.1.1.6.4.11 The number of times a server received an error while
probing another server.
30
…
33. Munin - Funktionsweise
Der Munin-Server sammelt Leistungsdaten von im Netzwerk verteilten
Computern, speichert diese, und stellt die Daten mittels Webinterface
graphisch dar. Die Speicherung der Messwerte geschieht mit Hilfe von Tobi
Oetikers RRD Tool. ***
1. Serverseitig muss der
munin-node
munin-plugins
CI
33
munin-server:/var# telnet 192.168.0.105 4949
Trying 192.168.0.105...
Connected to 192.168.0.105.
Escape character is '^]'.
# munin node at mfe01.itnovum.de
bla
# Unknown command. Try list, nodes, config, fetch, version or quit
list
memory df cpu exim_mailstats swap exim_mailqueue load
fetch load
load.value 1.39
.
3. Testen einer Munin-Konfiguration
1. Serverseitig muss der
CI in der munin.conf
eingetragen sein
2. Client-seitig muss der
Munin-Server in der
munin-node.conf
eingetragen sein
CI
35. Munin – Schwellwerte
Definition von Schwellwerten in dem ensprechenden munin-plugin
munin-node:/etc/munin/plugins# grep -E 'QUEUE.*=.*0' exim_mailqueue
QUEUEWARN=100
QUEUECRIT=200
Darstellung im Webfrontend
Stati – Nagios like
35
Stati – Nagios like
OK || Warning || Critical
36. Munin – Nagios Schnittstelle
Mailserver
Server
36
Mailserver
munin-node
munin-plugins CI
nsca
38. Munin – Nagios Schnittstellenkonfig 2
• munin.conf anpassen (Munin-Server)
#!/bin/bash
…
# For those with Nagios, the following might come in handy. In addition,
# the services must be defined in the Nagios server as well.
contact.nagios.command /usr/sbin/send_nsca -H nagios-server -c /etc/send_nsca.cfg
• Auslesen des graph title aus dem munin-plugin (Munin-Server)
38
GRAPHTITLE='Exim Mailqueue'
echo "graph_title $GRAPHTITLE“
…
• Definition des Services als Passive Service (Nagios-Server)
define service{
use passive-service
host_name mgmt05.itnovum.de
service_description Exim Mailqueue
}
39. Munin – Nagios Schnittstellenkonfig 3
Munin-Server
munin-server:~# printf "%st%st%st%sn" "mgmt05.itnovum.de" "Exim Mailqueue" "0" "ALLES OK"
| /usr/sbin/send_nsca -H <NAGIOSSERVER> -c /etc/nsca.cfg
1 data packet(s) sent to host successfully.
Nagios-Server
• Valedierung der Konfiguration
39
nagios-server:<PATH_NAGIOS_LOG># tail -f nagios.log | logtime
[2008-09-06 18:47:34] PASSIVE SERVICE CHECK: mgmt05.itnovum.de;Exim Mailqueue;0;ALLES OK
• Nagios-Frontend