Nagios Conference 2007 | Aufbau eines hochverfügbaren Nagios Clusters by Martin Fürstenau

Beyond the Ordinary
Océ
Mission Control
A Nagios based
Monitoring Cluster

2
Zur Person
 Martin Fürstenau (martin.fuerstenau@oce.com)
 Senior System Engineer bei Oce Printing Systems, Poing
 Dozent VHS
 Seit 20 Jahren in der IT, seit 19 Jahren Unix,
seit ca. 12 Jahren Linux, seit 3 Jahren Nagios
 Administration von Mainframes, Unix/Linux, Windows,
Datenbanken, RZ-Automation, RZ-Planung, Netzwerk,E-
Learning, Aufbau einer Lernplattform...

3
Oce European Data Center - Monitoring
 Rechenzentrum von Océ Printing Systems, Poing
 Ansiedelung von:
Lokaler IT
Netzwerk (Lokal, Corporate und Europa)
Entwicklungs Server
Großteil der unternehmensweiten IT
Zentrales Rechenzentrum für Europa

4
 Etwa 600 hosts
Davon 130 mit MS Windows
Über 160 Netzwerkkomponenten (Switches,
Router,Firewalls)
 4400 services
Davon 1140 auf MS Windows
Der Rest ist haupsächlich Unix/Linux und Netzwerk
 Verdoppelung im Lauf des nächsten Jahres
Was wir überwachen

5
 Überwachte Dienste
SAP
Verfügbarkeit
Plattenauslastung / Dateisysteme
Netzwerkstatus
 Erreichbarkeit
 Interface Fehler
 Failover (Linux: Bonding, Windows: Teaming)
Prozesse
Rack Temperatur & Luftfeuchte
Memory-/Swap-Usage, CPU-Usage, Load ....
Web-Sites (like www.oce.com)
....
Was wir überwachen

6
 Und natürlich soll das 24x7 laufen
 Fazit – das Monitoring muss hochverfügbar
sein
Was wir überwachen

7
Also hochverfügbar – aber wie?
 Der erste Gedanke – Master/Slave oder einfach 2 Server?
Vorteil:
einfach aufzusetzen
Nachteile:
Doppelte Konfigration
Manuelles Mischen der Logfiles f. Auswertungen
notwendig
Master/Slave ist Eigenschaft der Anwendung, nicht des
zugrunde liegenden Betriebssystems – was mache ich da
mit anderen Anwendungen, die benötigt werden?
Probleme mit passiven Checks wie z.B. SNMPTRAPS
 Der zweite Gedanke – ein Cluster muss her

8
Also Cluster – aber wie?
 Randbedingungen:
Betriebssystem (SLES, RedHat, CentOS,Debian oder...)
Clustersuite (Kommerziell oder frei, LinuxHA, RedHat Clustersuite ...)
Clusterstorage
 drdb (distributed replicated block device) oder
 Cluster File System
 drdb:
Preiswert
Evtl. hohe Netzlast
Gleiche Nachteile wie Master/Slave oder 2 Server
 Clusterfilesystem
Sicher
Parallel zugreifbar, dadurch keine Downtime, kein Filesystemcheck
Aber Overhead/Serverlast durch Lockmanager

9
Die Wahl – CentOS mit Clustersuite
 Frei verfügbar
 Identisch mit RedHat und RedHat Clustersuite
 Clustermanager und Clusterfilesystem aus einer Hand
 Synergien mit weiteren Clustern im Unternehmen (z.B. f. SAP)
 Ausgereift
 Gute Administrationstools
 Alphanumerisch
 Grafisch
 Web

10
Die Hardwareanforderungen - Server
 Eine Clustersuite generiert deutlich mehr Grundlast
 Insbesondere mit Clusterfilesystem durch das Lock
Management
 Nagios parallelisiert Prozesse (!) sehr gut, kann also mehrere
CPUs ausnutzen.
 Multicore CPUs skalieren nur bedingt. (DualCore ca. 1,6 – 1,8
CPU)
 Bei intensivem File-IO und Memory Zugriff bricht bei Multicore-
CPUs die Performance ein.
 Intel oder AMD? 64 Bit oder 32 Bit?
 Redundanz in allen wichtigen Teilen (Strom, StorageController
(iSCSI oder FC), Netzwerk)
 Netzwerk 2 Dual-Port oder 4 Single-Port Karten
 Remote Management (IPMI - Outband)

11
Die Hardwareauswahl - Storage
 RAID-Controller im Storage und nicht im Server
 Viele nicht zu große Platten
 Redundante parallelisierbare Controller (Failover UND
Lastverteilung)
 Grosser Cache
 Möglichst RAID 6
 Outband Management
 Monitorbar
 Bei FC integrierter Hub oder Verwendung von FC-Switches

12
Redundante
Netzwerkanbindung
Das Resultat - Mission Control
LAN
Storage:
Infortrend RAID
2 x 1 TB RAID 5
3 Global Spare
Redundante Controller
Redundante Netzteile
Server:
2 x Supermicro
Quad Dual Core Opteron
16 GB Memory
(max 32 GB)
Redundante Fibre Channel
Controller
Redundante Netzteile
Remote Management
Karten (Outband)
als Fence Device
Redundante
Fibre Channel
Verbindung
Redundanter
Serverinterconnect f.
clusterinternen Traffik
Redundante Server

13
Installation – Als erstes der Storage
 Storage einrichten
 RAID-Sets bauen
 LUN-Mapping so einrichten, das beide Channel alle
RAIDs sehen können
 d.h. 0,1 = 1,1 bzw. 1,0 = 0,0
 Verifiziert wird später, wenn die Controller im Server laufen

14
Installation – Operating System
 Operating System, Clustersuite und GFS installieren
 Netzwerkbonding für 2 Interfaces (bond0 und bond) jeweils
über 2 physikalischen Karten (eth0 + eth2 und eth1 + eth3)
einrichten.
 bond1 ist für die clusterinterne Kommunikation.
Verwendung von Adressen nach RFC1918 (Private
Netze) möglich
Verwendung von gekreuzten Kabeln möglich

15
Installation – Operating System- Bonding (CentOS/RedHat)
/etc/modprobe.conf
alias eth0 e1000
alias eth1 e1000
alias eth2 e1000
alias eth3 e1000
alias net-pf-10 off
install bond0 /sbin/modprobe -a eth0 eth2 && /sbin/modprobe bonding
alias bond0 bonding
install bond1 /sbin/modprobe -a eth1 eth3 && /sbin/modprobe bonding
alias bond1 bonding
options bond0 miimon=100 mode=1 max_bonds=2
options bond1 miimon=100 mode=1 max_bonds=2

16
Installation – Operating System- Bonding (CentOS/RedHat)
/etc/sysconfig/network-scripts/
 ifcfg-bond0:
DEVICE=bond0
BOOTPROTO=none
BROADCAST=MyBroadcastAddress
IPADDR=MyAddress
NETMASK=MyNetmask
NETWORK=MyNetwork
ONBOOT=yes
USERCTL=no
TYPE=Ethernet
IPV6INIT=no
GATEWAY=MyGateway
 ifcfg-ethx
DEVICE=eth0
BOOTPROTO=none

17
Installation – Operating System - Bonding (Suse)
/etc/sysconfig/network/
 ifcfg-bond0:
BOOTPROTO='static'
BROADCAST='MyBroadcastAddress'
IPADDR='MyAddress'
MTU=''
NETMASK='MyNetmask'
NETWORK='MyNetwork'
REMOTE_IPADDR=''
STARTMODE='onboot'
BONDING_MASTER='yes'
BONDING_MODULE_OPTS='miimon=100 mode=1'
BONDING_SLAVE0='eth0'
BONDING_SLAVE1='eth2'
 ifcfg-"MAC-Adresse"
BOOTPROTO='none'
Installation – Bonding (

18
Installation – Operating System - Storage
 fdisk -l
 Anzahl auf dem Storage gefundener Geräte muss sein:
RAID-Sets x Storage Controller (bei Verwendung eines Hubs)
RAID-Sets x Storage Controller x FC Controller (bei Verwendung von
Switches und entsprechenem Zoning)
 Verifizieren, dass das LUN-Mapping passt.
Bei gleich großen RAID-Sets hilf das Einrichten
einer Partition auf einem Set.
Die Reihenfolge muss auf allen Controllern gleich sein.
 device-mapper-multipathd installieren und Reboot

19
device-mapper-multipathd - /etc/multipathd.conf
defaults {
udev_dir /dev
polling_interval 5
selector "round-robin 0"
path_grouping_policy failover
prio_callout none
path_checker readsector0
rr_min_io 1000
rr_weight uniform
failback immediate
# no_path_retry fail
no_path_retry queue
user_friendly_names yes
}

20
device-mapper-multipathd -Kontrolle
Root# multipath -ll
mpath1 (.....) dm-4 IFT,A16F-R2221
[size=9340][features=1 queue_if_no_path][hwhandler=0]
_ round-robin 0 [prio=1][active]
_ 9:0:1:0 sdc 0:22 [active]{ready]
_ round-robin 0 [prio=1][enabled]
_ 10:0:1:0 sde 0:22 [active]{ready]
mpath1 (.....) dm-3 IFT,A16F-R2221
[size=9340][features=1 queue_if_no_path][hwhandler=0]
_ round-robin 0 [prio=1][active]
_ 9:0:0:0 sdb 0:22 [active]{ready]
_ round-robin 0 [prio=1][enabled]
_ 10:0:0:0 sdd 0:22 [active]{ready]

21
Installation – Remote Management Interfaces – Fence Devices
 Konfiguration der IPMI basierten Managementkarten nach
Herstellerangabe.
 Es muss eine Kennung mit Administratorrechten zur Verfügung
stehen, da der RedHat/CentOS-Cluster keine Rollen adressiert.
 Mit ipmitool testen, ob sich die Server ab-/einschalten lassen,
sowie eine Statusüberprüfung möglich ist.
 Bei IPMI V2 ist der Operand -C (Cipher - z.B. md5) wichtig. Der
verwendete Cipher hängt von der Management Karte ab.
 Die Interfaces werden für das Fencing (fenced, Stonith) benötigt.
 Alternativ sind auch z.B. über das Netz schaltbare Steckdosen
(z.B. APC) möglich.
 Es sind weiter Fence Devices (z.B. FC-Switches) möglich.

22
Installation – Die Software
 Alle Pakete werden auf beiden Knoten installiert und getestet.
Pakete (z.B.)
Nagios
net-snmp (incl. Snmptrap)
snmptt
cacti
MySQL
....

23
Cluster einrichten - Cluster Configuration Tool
 GUI zum Clustermanagement - Aufruf durch system-config-cluster
 Erstellt / Editiert die Datei
etc/cluster/cluster.conf
 Einrichten von Failover-
Domains und Fence Devices
 Einrichten von Services und
Zuordnung zu den Failover
Domains

24
Der Kunstgriff - /cluster
 Was ist ein Clusterfilesystem?
Es kann auf mehreren Knoten gleichzeitig gemountet sein
Ein Distributed Lockmanager, der als Demon auf den
beteiligten Clusterknoten läuft, und für ein
serverübergreifendes
Lockmanagement sorgt.
Erfolgt ein Mount nicht auf allen Knoten, sondern wird von
einem Knoten zum anderen geschoben, entfällt der
aufwendige
Filesystemcheck
 Hier erfolgt der Mount auf beiden Maschinen auf /cluster.
 Kommen weitere lastintensive Services hinzu, verteilt man die Last
über die Controller, mountet aber in einen Baum.
 z.B. f. Cacti:
/cluster und /cluster/var/www/cacti

25
Lvm – Logical Volume Manager
Volume Groups einrichten:

26
Die Verzeichnisstruktur auf /cluster
/cluster
etc
httpd
logrotate.d
nagios
rc.d
sms
snmp
opt
bin
usr
lib lib64 share
nagios
nagios
nagios
var
lib
mysql
log
cacti
httpd
www
cacti
mysqld nagios
snmptrapd
snmptt
= /dev/VolGroup01/LogVol01
= /dev/VolGroup02/LogVol01

27
clustat
Member Status: Quorate
Member Name ID Status
------ ---- ---- ------
CLMonNode1 1 Online, rgmanager
CLMonNode2 2 Online, Local, rgmanager
Service Name Owner (Last) State
------- ---- ----- ------ -----
service:smsd CLMonNode1 started
service:snmptraptt CLMonNode1 started
service:mysqld CLMonNode2 started
service:httpd CLMonNode1 started
service:nagios CLMonNode1 started
service:nfs CLMonNode2 started

28
Cronjobs im Cluster
 Umschreiben und als Demon laufen lassen
An die Entkopplung von stdin, stdout und stderr
denken
oder
 An Knoten festmachen
oder
 An Service festmachen

29
start)
echo -n "Starting nagios:"
# Is a nagios running via the cluster manager?
/usr/sbin/clustat | grep nagios > /dev/null 2>&1
if [ $? -eq 0 ]; then
echo "ERROR! Start aborted."
echo "There is a running Nagios in the cluster!."
exit 1
fi
$NagiosBin -v $NagiosCfgFile > /dev/null 2>&1;
/etc/init.d/nagios – Start Modifikation

30
load|force-reload)
printf "Running configuration check..."
/usr/sbin/clustat | grep nagios > /dev/null 2>&1
if [ $? -eq 0 ]
then
THIS_NODE=$(/usr/sbin/clustat | grep Local | awk '{print $1}')
RUN_NODE=$(/usr/sbin/clustat | grep nagios | awk '{print $2}')
if [ $THIS_NODE != $RUN_NODE ]
then
echo "ERROR! Reload aborted."
echo "Nagios is not running on this cluster node."
exit 1
fi
fi
$NagiosBin -v $NagiosCfgFile > /dev/null 2>&1;
/etc/init.d/nagios – Reload Modifikation

31
Zusätzliche Adresse auf inaktivem Interface setzen
IP_ADDRESS=192.168.216.3
# Check that networking is configured.
[ ${NETWORKING} = "no" ] && exit 0
start() {
echo -n $"Setting interface bond1:0 to $IP_ADDRESS: "
if [ $UID -ne 0 ]; then
RETVAL=1
failure
else
ifconfig bond1:0 $IP_ADDRESS up
ifconfig | grep $IP_ADDRESS > /dev/null 2>&1
RETVAL=$?
[ $RETVAL -eq 0 ] && echo "ok"
fi;
return $RETVAL
}

32
Ende
Vielen Dank für Ihre Aufmerksamkeit
Noch Fragen – oder erschlagen?

Nagios Conference 2007 | Aufbau eines hochverfügbaren Nagios Clusters by Martin Fürstenau

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (15)

Ähnlich wie Nagios Conference 2007 | Aufbau eines hochverfügbaren Nagios Clusters by Martin Fürstenau

Ähnlich wie Nagios Conference 2007 | Aufbau eines hochverfügbaren Nagios Clusters by Martin Fürstenau (20)

Nagios Conference 2007 | Aufbau eines hochverfügbaren Nagios Clusters by Martin Fürstenau