SlideShare ist ein Scribd-Unternehmen logo
1 von 28
Downloaden Sie, um offline zu lesen
© 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 1/28
Environmental Monitoring
in der Praxis
© 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 2/28
Environmental Monitoring
● whoami
– Carsten John
– Ursprünglich Studium der Elektrotechnik
– Danach im Bereich Netzwerke, *nixserver etc.
projektbezogen unterwegs
– Seit 2004 am Max-Planck-Institut für marine
Mikrobiologie in Bremen
– Schwerpunkte: Infrastruktur, *nix-Server,
Netzwerk, Sicherheit
© 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 3/28
Environmental Monitoring
● Agenda
– Warum dieser Vortrag
– Fallbeispiele aus der Praxis
– Konsequenzen für die Sensorik
– Lösung für das kontrollierte Herunterfahren der
Systeme
– Diskussion
© 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 4/28
Environmental Monitoring
● Warum dieser Vortrag
– Versorgung der IT-Infrastruktur nimmt eine
Schlüsselposition ein:
● Gibt es Probleme in der Versorgungstechnik
(insbesondere Kühlung) nutzen die tollsten Server
nichts. Es kommt zu Ausfällen und meist auch zu
Hardwareschäden
● Alle denkbaren Ausfälle ereignen sich irgendwann
● ich habe einige Vorfälle dieser Art live erlebt (in großen
wie in kleinen Umgebungen)
● “If you can't monitor it, you can't manage it”
© 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 5/28
Environmental Monitoring
Fallbeispiele aus der Praxis
© 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 6/28
Environmental Monitoring
● Fall A (kleine Umgebung, Arztpraxis), der
Klassiker
– Die Klimaanlage (Splitgerät), in dem als
“Serverraum” genutzen Lagerraum, fällt am
Wochenende aus. Am Montag ist dann alles “gar”.
– In der Folge sterben in schneller Folge der DLT
Streamer, ein Servermainboard sowie ein
redundant ausgelegtes Netzteil.
© 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 7/28
Environmental Monitoring
© 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 8/28
Environmental Monitoring
● Fall B
– System mit gekühlten Schränken (Rittal LCP), Kühlung erfolgt
über Luft/Wasser Wärmetauscher mit zentraler
Kühlwasserversorgung
– Bei Wartungsarbeiten an der elektrischen Anlage fällt die
Steuerung der Kühlwasserpumpen aus. Dies bleibt zunächst
unbemerkt, da das System der Gebäudeleittechnik nur die Vor-
und Rücklauftemperaturen sowie den (quasi statischen)
Wasserdruck, nicht aber den Durchfluss überwacht.
– Als die Temperaturüberwachung der Schränke anspricht ist
kaum noch Zeit zu reagieren
– Nach kurzer Zeit erreichen einzelne Schränke 90°C
– Die Hardwareschäden sind erheblich (insbes. Festplatten)
© 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 9/28
Environmental Monitoring
© 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 10/28
Environmental Monitoring
Pumpe Pumpe
Wärmetauscher
Regelventil
Rittal LCP
°C Pa
© 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 11/28
Environmental Monitoring
© 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 12/28
Environmental Monitoring
● Fall C
– Die Stellgröße (Steuerspannung) für ein
Regelventil der primären Külwasserversorgung
fällt aufgrund eines technischen Defektes aus.
– Das Ventil fährt daraufhin in Stellung “ZU”
– In der Folge kommt es zum Ausfall der gesamten
Kühlung
– Die (paranoid eingestellte) Überwachung der
Vorlauftemperatur der IT-Systeme schlägt
rechtzeitig Alarm.
© 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 13/28
Environmental Monitoring
● In den Fällen A und B wäre durch eine
geeignete Überwachung der Schaden deutlich
geringer ausgefallen.
● Versorgungssysteme können in der Praxis
systematische Fehler haben. Ein
Kühlwasserventil wie im Fall C sollte bei
Verlust der Stellgröße in Stellung “AUF”
fahren.
● Die Überwachung muss unabhängig vom
Regelkreis des Systems sein!
© 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 14/28
Environmental Monitoring
● Unabhängigkeit der Überwachung von den
Regelkreisen der überwachten Systemen
– Sensoren, die Bestandteil der Regelung sind,
sollten nicht zur Überwachung/Alarmierung
genutzt werden!
● Ein defekter Sensor, der zu fehlerhaftem Verhalten der
Regelung führt bleibt sonst unentdeckt.
– Auch bei den Sensoren ist Redundanz notwendig
© 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 15/28
Environmental Monitoring
Pumpe Pumpe
Wärmetauscher
Regelventil
Rittal LCP
°C Pa
All die schönen Sensoren sind für die Überwachung
nur eingeschränkt zu gebrauchen, da sie integraler
Bestandteil der Regelung sind!
Diese Sensoren liefern wert-
volle Informationen.
© 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 16/28
Environmental Monitoring
● Auswertung der Informationen aus den LCPs
– Per SNMP lassen sich alle Messwerte der Rittal
LCPs auslesen
– Interessant sind hier die Vorlauftemperaturen, die
Stellung des Regelventiles sowie der
Kühlmittelfluss
● Wenn die Vorlauftemperatur mehr als 2°C vom Sollwert
abweicht → Alarm
● Wenn das Ventil offen ist, aber kein Durchfluss → Alarm
● Wenn das Ventil geschlossenn ist, aber trotzdem
Durchfluss → Alarm
© 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 17/28
Environmental Monitoring
● Die zahlreichen vorhandenen Plugins für Rittal
LCPs boten nicht die gewünschte Funktion
● die beiden “quick and dirty” Plugins stehen
zum Download zur Verfügung:
http://magnum.mpi­bremen.de/~cjohn/OSMC_2012/check_rittal_inlet_temp.sh
http://magnum.mpi­bremen.de/~cjohn/OSMC_2012/check_rittal_waterflow.sh
© 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 18/28
Environmental Monitoring
● Zusätzliche netzwerkfähige Sensorunits sind
von unterschiedlichen Herstellern verfügbar.
● Nagios Plugins sind i.d.R. vorhanden (oder
einfach SNMP basiert zu implementieren)
© 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 19/28
Environmental Monitoring
● Bei direkt gekühlten Schränken (z.B. Rittal LCP,
Knürr o.ä.) muss jeder Schrank mit einem eigenen
Sensor ausgestattet werden.
● Bei Raumkühlung reicht oft ein Sensor pro Raum
● Die Sensorunits ermöglichen oft den Anschluss
mehrerer Sensoren, häufig auch für weitere phys.
Größen (Luftfeuchtigkeit, Leckage etc.)
● Eine gute Zusammenarbeit mit den Kollegen von der
Gebäudebetriebstechnik ist extrem vorteilhaft.
© 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 20/28
Environmental Monitoring
● Kontrolliertes Herunterfahren der Systeme bei
kritischen Umgebungsbedingungen
– Die bestehenden Lösungen (SNMP Traps,
herstellerspezifische Lösungen) waren uns zu
unflexiblel
– Lösung: der NetworkWeatherReport
(M.Döhle, MPI Bremen)
© 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 21/28
Environmental Monitoring
● NetworkWeatherReport
– An verschiedenen Orten werden “Wetterdaten”
gesammelt (Temperatur, Luftfeuchtigkeit, USV
Status usw.)
– Das Ergebnis wird als “Wetterbericht” per
Multicast gesendet
– Alle Maschinen empfangen den “Wetterbericht”
– Werden individuelle Grenzwerte überschritten,
fahren die betroffenen Maschinen herunter (oder
führen einen beliebigen Befehl aus)
© 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 22/28
Environmental Monitoring
Server (nwrd)
Standort A Standort B
Environment Unit Environment Unit
SNM
P-GET
Multicast
Client (nwr) Client (nwr)
© 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 23/28
Environmental Monitoring
● Auf einem Server läuft die Serverkomponente
(nwrd) und sammelt die Umgebungsdaten von
den Standorten ein.
● Die Information wird als Multicast gesendet.
● Auf den Hosts läuft jeweils die Clientkomponente
(nwr).
– nwr ermittelt zunächst per SNMP den eigenen
Standort (SysLocation, 1.3.6.2.1.6, localhost). Wenn
ein empfangener Messwert zum eigenen Standort
ausserhalb des Grenzwertes liegt, wird ein Shell-
Kommando ausgeführt.
© 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 24/28
Environmental Monitoring
/etc/nwrd.conf (Serverkomponente)
port = 54321 
group = 224.0.0.42
interfaces = eth0 eth1 eth2 eth3 eth5 eth6 
secret = geheim
community = public  
interval = 20
MPI|R107|rack1.temp: 1.3.6.1.4.1.318.1.1.10.4.2.3.1.5.0.1@env­monitor­r107­1
MPI|R107|rack2.temp: 1.3.6.1.4.1.318.1.1.10.4.2.3.1.5.0.2@env­monitor­r107­1
MPI|R107|rack3.temp: 1.3.6.1.4.1.318.1.1.10.4.2.3.1.5.0.3@env­monitor­r107­1
MPI|R107|rack4.temp: 1.3.6.1.4.1.318.1.1.10.4.2.3.1.5.0.4@env­monitor­r107­1
MPI|R107|rack5.temp: 1.3.6.1.4.1.318.1.1.10.4.2.3.1.5.0.5@env­monitor­r107­1
MPI|R107|rack7.temp: 1.3.6.1.4.1.318.1.1.10.4.2.3.1.5.0.6@env­monitor­r107­1
MPI|R1212|rack1.temp: 1.3.6.1.4.1.318.1.1.10.4.2.3.1.5.0.1@env­monitor­r1212­1
MPI|R1212|rack2.temp: 1.3.6.1.4.1.318.1.1.10.4.2.3.1.5.0.2@env­monitor­r1212­1
MPI|R1212|rack3.temp: 1.3.6.1.4.1.318.1.1.10.4.2.3.1.5.0.3@env­monitor­r1212­1
MPI|R107.remaining: 1.3.6.1.4.1.318.1.1.1.2.2.3.0@usv­r107
MPI|R107.usvTemp: 1.3.6.1.4.1.318.1.1.1.2.2.2.0@usv­r107
MPI|R1134.remaining: 1.3.6.1.4.1.318.1.1.1.2.2.3.0@usv­r1134
MPI|R1134.usvTemp: 1.3.6.1.4.1.318.1.1.1.2.2.2.0@usv­r1134
© 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 25/28
Environmental Monitoring
nwr (Clientkomponente)
port = 54321
group = 224.0.0.42
secret = geheim
timeout = 60
retimeout = 3600
# Mindestanzahl der Überschreitungen
threshold = 5 
.temp > 28 : init 0 
.temp > 26 : # gridengine foo 
.remaining < 10 : init 0
timeout :  cat /etc/nwr.msg | mail ­s 'no more Weather reports' it@mpi­bremen.de
© 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 26/28
Environmental Monitoring
● Über unterschiedliche Grenzwerte lässt sich
ggf. eine zeitliche Staffelung beim
Herunterfahren erreichen:
– z.B. Clusterknoten bei 26°C, NFS Server bei 28°C
– Abhängigkeiten zwischen Servern können ein
Problem darstellen!
© 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 27/28
Environmental Monitoring
● Die Clientkomponente ist auch für Windows
verfügbar
● Die Quellen (GPL) und die Dokumentation des
NetWeatherReports stehen unter
 http://magnum.mpi­bremen.de/~cjohn/OSMC_2012/nwr.tar.gz
zur Verfügung.
© 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 28/28
Danke für die Aufmerksamkeit
mailto:cjohn@mpi­bremen.de

Weitere ähnliche Inhalte

Empfohlen

How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...DevGAMM Conference
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationErica Santiago
 
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellGood Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellSaba Software
 
Introduction to C Programming Language
Introduction to C Programming LanguageIntroduction to C Programming Language
Introduction to C Programming LanguageSimplilearn
 

Empfohlen (20)

How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
 
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellGood Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
 
Introduction to C Programming Language
Introduction to C Programming LanguageIntroduction to C Programming Language
Introduction to C Programming Language
 

OSMC 2012 | Environmental Monitoring in der Praxis by Carsten John

  • 1. © 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 1/28 Environmental Monitoring in der Praxis
  • 2. © 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 2/28 Environmental Monitoring ● whoami – Carsten John – Ursprünglich Studium der Elektrotechnik – Danach im Bereich Netzwerke, *nixserver etc. projektbezogen unterwegs – Seit 2004 am Max-Planck-Institut für marine Mikrobiologie in Bremen – Schwerpunkte: Infrastruktur, *nix-Server, Netzwerk, Sicherheit
  • 3. © 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 3/28 Environmental Monitoring ● Agenda – Warum dieser Vortrag – Fallbeispiele aus der Praxis – Konsequenzen für die Sensorik – Lösung für das kontrollierte Herunterfahren der Systeme – Diskussion
  • 4. © 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 4/28 Environmental Monitoring ● Warum dieser Vortrag – Versorgung der IT-Infrastruktur nimmt eine Schlüsselposition ein: ● Gibt es Probleme in der Versorgungstechnik (insbesondere Kühlung) nutzen die tollsten Server nichts. Es kommt zu Ausfällen und meist auch zu Hardwareschäden ● Alle denkbaren Ausfälle ereignen sich irgendwann ● ich habe einige Vorfälle dieser Art live erlebt (in großen wie in kleinen Umgebungen) ● “If you can't monitor it, you can't manage it”
  • 5. © 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 5/28 Environmental Monitoring Fallbeispiele aus der Praxis
  • 6. © 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 6/28 Environmental Monitoring ● Fall A (kleine Umgebung, Arztpraxis), der Klassiker – Die Klimaanlage (Splitgerät), in dem als “Serverraum” genutzen Lagerraum, fällt am Wochenende aus. Am Montag ist dann alles “gar”. – In der Folge sterben in schneller Folge der DLT Streamer, ein Servermainboard sowie ein redundant ausgelegtes Netzteil.
  • 7. © 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 7/28 Environmental Monitoring
  • 8. © 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 8/28 Environmental Monitoring ● Fall B – System mit gekühlten Schränken (Rittal LCP), Kühlung erfolgt über Luft/Wasser Wärmetauscher mit zentraler Kühlwasserversorgung – Bei Wartungsarbeiten an der elektrischen Anlage fällt die Steuerung der Kühlwasserpumpen aus. Dies bleibt zunächst unbemerkt, da das System der Gebäudeleittechnik nur die Vor- und Rücklauftemperaturen sowie den (quasi statischen) Wasserdruck, nicht aber den Durchfluss überwacht. – Als die Temperaturüberwachung der Schränke anspricht ist kaum noch Zeit zu reagieren – Nach kurzer Zeit erreichen einzelne Schränke 90°C – Die Hardwareschäden sind erheblich (insbes. Festplatten)
  • 9. © 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 9/28 Environmental Monitoring
  • 10. © 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 10/28 Environmental Monitoring Pumpe Pumpe Wärmetauscher Regelventil Rittal LCP °C Pa
  • 11. © 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 11/28 Environmental Monitoring
  • 12. © 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 12/28 Environmental Monitoring ● Fall C – Die Stellgröße (Steuerspannung) für ein Regelventil der primären Külwasserversorgung fällt aufgrund eines technischen Defektes aus. – Das Ventil fährt daraufhin in Stellung “ZU” – In der Folge kommt es zum Ausfall der gesamten Kühlung – Die (paranoid eingestellte) Überwachung der Vorlauftemperatur der IT-Systeme schlägt rechtzeitig Alarm.
  • 13. © 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 13/28 Environmental Monitoring ● In den Fällen A und B wäre durch eine geeignete Überwachung der Schaden deutlich geringer ausgefallen. ● Versorgungssysteme können in der Praxis systematische Fehler haben. Ein Kühlwasserventil wie im Fall C sollte bei Verlust der Stellgröße in Stellung “AUF” fahren. ● Die Überwachung muss unabhängig vom Regelkreis des Systems sein!
  • 14. © 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 14/28 Environmental Monitoring ● Unabhängigkeit der Überwachung von den Regelkreisen der überwachten Systemen – Sensoren, die Bestandteil der Regelung sind, sollten nicht zur Überwachung/Alarmierung genutzt werden! ● Ein defekter Sensor, der zu fehlerhaftem Verhalten der Regelung führt bleibt sonst unentdeckt. – Auch bei den Sensoren ist Redundanz notwendig
  • 15. © 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 15/28 Environmental Monitoring Pumpe Pumpe Wärmetauscher Regelventil Rittal LCP °C Pa All die schönen Sensoren sind für die Überwachung nur eingeschränkt zu gebrauchen, da sie integraler Bestandteil der Regelung sind! Diese Sensoren liefern wert- volle Informationen.
  • 16. © 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 16/28 Environmental Monitoring ● Auswertung der Informationen aus den LCPs – Per SNMP lassen sich alle Messwerte der Rittal LCPs auslesen – Interessant sind hier die Vorlauftemperaturen, die Stellung des Regelventiles sowie der Kühlmittelfluss ● Wenn die Vorlauftemperatur mehr als 2°C vom Sollwert abweicht → Alarm ● Wenn das Ventil offen ist, aber kein Durchfluss → Alarm ● Wenn das Ventil geschlossenn ist, aber trotzdem Durchfluss → Alarm
  • 17. © 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 17/28 Environmental Monitoring ● Die zahlreichen vorhandenen Plugins für Rittal LCPs boten nicht die gewünschte Funktion ● die beiden “quick and dirty” Plugins stehen zum Download zur Verfügung: http://magnum.mpi­bremen.de/~cjohn/OSMC_2012/check_rittal_inlet_temp.sh http://magnum.mpi­bremen.de/~cjohn/OSMC_2012/check_rittal_waterflow.sh
  • 18. © 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 18/28 Environmental Monitoring ● Zusätzliche netzwerkfähige Sensorunits sind von unterschiedlichen Herstellern verfügbar. ● Nagios Plugins sind i.d.R. vorhanden (oder einfach SNMP basiert zu implementieren)
  • 19. © 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 19/28 Environmental Monitoring ● Bei direkt gekühlten Schränken (z.B. Rittal LCP, Knürr o.ä.) muss jeder Schrank mit einem eigenen Sensor ausgestattet werden. ● Bei Raumkühlung reicht oft ein Sensor pro Raum ● Die Sensorunits ermöglichen oft den Anschluss mehrerer Sensoren, häufig auch für weitere phys. Größen (Luftfeuchtigkeit, Leckage etc.) ● Eine gute Zusammenarbeit mit den Kollegen von der Gebäudebetriebstechnik ist extrem vorteilhaft.
  • 20. © 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 20/28 Environmental Monitoring ● Kontrolliertes Herunterfahren der Systeme bei kritischen Umgebungsbedingungen – Die bestehenden Lösungen (SNMP Traps, herstellerspezifische Lösungen) waren uns zu unflexiblel – Lösung: der NetworkWeatherReport (M.Döhle, MPI Bremen)
  • 21. © 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 21/28 Environmental Monitoring ● NetworkWeatherReport – An verschiedenen Orten werden “Wetterdaten” gesammelt (Temperatur, Luftfeuchtigkeit, USV Status usw.) – Das Ergebnis wird als “Wetterbericht” per Multicast gesendet – Alle Maschinen empfangen den “Wetterbericht” – Werden individuelle Grenzwerte überschritten, fahren die betroffenen Maschinen herunter (oder führen einen beliebigen Befehl aus)
  • 22. © 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 22/28 Environmental Monitoring Server (nwrd) Standort A Standort B Environment Unit Environment Unit SNM P-GET Multicast Client (nwr) Client (nwr)
  • 23. © 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 23/28 Environmental Monitoring ● Auf einem Server läuft die Serverkomponente (nwrd) und sammelt die Umgebungsdaten von den Standorten ein. ● Die Information wird als Multicast gesendet. ● Auf den Hosts läuft jeweils die Clientkomponente (nwr). – nwr ermittelt zunächst per SNMP den eigenen Standort (SysLocation, 1.3.6.2.1.6, localhost). Wenn ein empfangener Messwert zum eigenen Standort ausserhalb des Grenzwertes liegt, wird ein Shell- Kommando ausgeführt.
  • 24. © 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 24/28 Environmental Monitoring /etc/nwrd.conf (Serverkomponente) port = 54321  group = 224.0.0.42 interfaces = eth0 eth1 eth2 eth3 eth5 eth6  secret = geheim community = public   interval = 20 MPI|R107|rack1.temp: 1.3.6.1.4.1.318.1.1.10.4.2.3.1.5.0.1@env­monitor­r107­1 MPI|R107|rack2.temp: 1.3.6.1.4.1.318.1.1.10.4.2.3.1.5.0.2@env­monitor­r107­1 MPI|R107|rack3.temp: 1.3.6.1.4.1.318.1.1.10.4.2.3.1.5.0.3@env­monitor­r107­1 MPI|R107|rack4.temp: 1.3.6.1.4.1.318.1.1.10.4.2.3.1.5.0.4@env­monitor­r107­1 MPI|R107|rack5.temp: 1.3.6.1.4.1.318.1.1.10.4.2.3.1.5.0.5@env­monitor­r107­1 MPI|R107|rack7.temp: 1.3.6.1.4.1.318.1.1.10.4.2.3.1.5.0.6@env­monitor­r107­1 MPI|R1212|rack1.temp: 1.3.6.1.4.1.318.1.1.10.4.2.3.1.5.0.1@env­monitor­r1212­1 MPI|R1212|rack2.temp: 1.3.6.1.4.1.318.1.1.10.4.2.3.1.5.0.2@env­monitor­r1212­1 MPI|R1212|rack3.temp: 1.3.6.1.4.1.318.1.1.10.4.2.3.1.5.0.3@env­monitor­r1212­1 MPI|R107.remaining: 1.3.6.1.4.1.318.1.1.1.2.2.3.0@usv­r107 MPI|R107.usvTemp: 1.3.6.1.4.1.318.1.1.1.2.2.2.0@usv­r107 MPI|R1134.remaining: 1.3.6.1.4.1.318.1.1.1.2.2.3.0@usv­r1134 MPI|R1134.usvTemp: 1.3.6.1.4.1.318.1.1.1.2.2.2.0@usv­r1134
  • 25. © 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 25/28 Environmental Monitoring nwr (Clientkomponente) port = 54321 group = 224.0.0.42 secret = geheim timeout = 60 retimeout = 3600 # Mindestanzahl der Überschreitungen threshold = 5  .temp > 28 : init 0  .temp > 26 : # gridengine foo  .remaining < 10 : init 0 timeout :  cat /etc/nwr.msg | mail ­s 'no more Weather reports' it@mpi­bremen.de
  • 26. © 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 26/28 Environmental Monitoring ● Über unterschiedliche Grenzwerte lässt sich ggf. eine zeitliche Staffelung beim Herunterfahren erreichen: – z.B. Clusterknoten bei 26°C, NFS Server bei 28°C – Abhängigkeiten zwischen Servern können ein Problem darstellen!
  • 27. © 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 27/28 Environmental Monitoring ● Die Clientkomponente ist auch für Windows verfügbar ● Die Quellen (GPL) und die Dokumentation des NetWeatherReports stehen unter  http://magnum.mpi­bremen.de/~cjohn/OSMC_2012/nwr.tar.gz zur Verfügung.
  • 28. © 2012 Carsten John, Max-Planck-Institut für marine Mikrobiologie Seite 28/28 Danke für die Aufmerksamkeit mailto:cjohn@mpi­bremen.de