SlideShare ist ein Scribd-Unternehmen logo
1 von 32
Downloaden Sie, um offline zu lesen
Vom Bordstein zur Skyline
Von Xymon/Zabbix zu Icinga/Prometheus
Einleitung
Einleitung - Wer bin ich?
● System Engineer
○ Automatisierung mit Puppet
○ Monitoring mit Icinga
○ Dashboards mit Grafana
○ Logs mit ELK
○ Programmierung mit Ruby
● 10 Jahre Berufserfahrung
○ Monitoring war immer Thema
● Momentan bei Publicis Pixelpark
○ Senior System Administrator
○ Webmaster
○ Automatisierung
○ Infrastruktur - “DevOps”
○ Monitoring
● Level 120 Undead Rogue
Einleitung - Publicis Pixelpark
● Bestehend seit 1991
● Seit 2014 Publicis Konzern
● Berlin, Frankfurt, Hamburg, Köln und
München
● Werbe- und Digitalagentur
● 900+ VMs
● Linux + Solaris
● Hardware, VM, Container, Zonen
● Diverse, große, deutsche, nicht näher
genannte Kunden
Wo kommen wir her?
Wo kommen wir her?
Vorhandenes Monitoring
● Xymon
● Zabbix
● ELK
Metriken
● Default Metriken von Zabbix
● Default Metriken von Xymon
● 5 Minuten Intervall
Monitoring nicht automatisiert oder nur
teilautomatisiert. Hoher Pflegeaufwand. Niedrige
Akzeptanz.
Wo kommen wir her? - Xymon
● Früher: Big Brother, Hobbit
● Checks ähnlich Icinga in Shell
● Client - Server Model
● Interface statisches HTML
● RRD Graphen
● Hohe Intervalle
● Keine Verschlüsselung
● Solaris und Linux Clients
Wo kommen wir her? - Xymon Übersicht
Wo kommen wir her? - Xymon Details
Wo kommen wir her? - Zabbix
● Nicht gemanagter Server
● Vorwiegend nur Webchecks
● Nicht Updatefähig (int. Abhängigkeiten)
● Unlogischer Aufbau der GUI
● Datenbankprobleme
● Vorhanden Checks zeigen oft wenig Daten
● Anzeige Prinzip: nur Fehler zeigen
● Wissen abgewandert
● Sollte Xymon ablösen
Wo kommen wir her? - Zabbix
Wo kommen wir her? - ELK
● Zwei Stacks
○ ein Älterer für Legacy Kunden
○ ein Neuerer
● Neuerer Stack: 2-Node-Cluster #insider
● Trennung auch wegen sensitiver Daten
● Keine Automatisierung
● Redis, Logstash, Elasticsearch auf einer
Node
● Graylog als Alternativ-Versuch
○ Zu langsame Entwicklung
○ mit 3.0 erst ES 6.x Unterstützung
○ Keine Unterstützung von ES 7.x
Wo sind wir?
Wo sind wir?
● Xymon und Zabbix als Haupt-Monitoring
● Grafana im Aufbau
○ Prometheus
○ InfluxDB
○ Graphite
○ Elasticsearch
● Icinga2 als PoC
● ELK7 als PoC
Wo sind wir? - Prometheus
● Komplett neue Technik
● Sehr an Kubernetes gebunden
● Außerhalb von K8S gibt es Probleme
○ Keine Authentifizierung / Autorisierung
○ Offene Ports - plain HTML + allen Daten
○ Apache als HTTPS-Reverse-Proxy
○ Require auf IP des anfragenden Server
● Datenhaltung bei 15+ Tagen schwierig
● Node Liste pflegen schwierig
Wo sind wir? - Influx
● Wissen nicht vorhanden
● Als Docker Container installiert.
● Telegraf als extra Container
● Datenhalde für:
○ vSphere
○ Icinga2
○ sFlow
● Wartungsarm
● komplizierte Abfrage
Wo sind wir? - Graphite
● Als Docker Container installiert.
○ Zoo von Python-Geraffel
● Datenhalde für:
○ Icinga2
○ Puppetserver
● Wartungsarm
● Leichte Abfrage
● Muss noch ein PoC für influxDB Graphite
Adapter gemacht werden - dann ist es
obsolete
Wo sind wir? - ELK
● PoC zum ELK 7.x
● Schwierig da Puppet 7 nicht unterstützt
● Ansible ja, aber kein TLS
● Prio niedrig, andere Themen wichtiger 😩
● Für Kunden: Graylog-System
Wo sind wir? - Icinga2
● Automatische installation mit Puppet
○ Super Module - Danke!
● Hosts über Exported Resources
● PuppetCA wird mitgenutzt
● Mitarbeiter finden GUI intuitiv
● Solaris Checks mit check_by_ssh
● Solaris OpenCSW nagios-plugins
● Alles steht und fällt mit dem Monitoring von
Solaris
● Installation von Puppet auf allen Nodes
Wohin gehen wir?
Wo gehen wir hin? - Icinga
● Host Inventarisierung
○ Puppet + Icinga2
● Agent ausrollen
● Übertragen der Xymon Checks
○ Evaluation auf Sinnhaftigkeit
● Notifikationen definieren
○ Integration mit Chat-System
○ Integration mit Asterisk
● Mitarbeiter abholen und mitnehmen
● Entkoppeln vom Kunden-Webserver
○ Kunde down, Monitoring down = :-(
● Langzeitspeicherung der Graphen
○ Inperformant?
○ Thanos?
● Dynamischer Aufbau der Job-Listen
● Influx Langzeit-Datenhaltung prüfen
● Zugriffskontrolle prüfen
Wo gehen wir hin? - Prometheus
Wo gehen wir hin? - Influx
Wo gehen wir hin? - ELK
● ELK mandantenfähig aufbauen
● Auf vmware-Basis neu aufbauen
● Cluster mit mehr als 2 Nodes
● Service-Trennung
Fazit
Fazit
● Es ist noch viel zu tun
● Bereits mehr Sichtbarkeit
○ Packet Loss sichtbar gemacht
● ELK/Graylog: mehr Sichtbarkeit für Kunden
● Prometheus + Kubernetes = ✅
● Icinga2 ist übersichtlicher in der GUI
○ Mehr Akzeptanz bei Kollegen
● Icinga2 komplett ausbauen
+ vSphereDB
+ x509 Monitoring
+ BPM
+ Reporting
Fragen?

Weitere ähnliche Inhalte

Ähnlich wie OSMC 2019 | Vom Bordstein zur Skyline by Robert Waffen

DOAG 2011: MySQL Performance Tuning
DOAG 2011: MySQL Performance TuningDOAG 2011: MySQL Performance Tuning
DOAG 2011: MySQL Performance Tuning
FromDual GmbH
 
Software Defined Freifunk Backbones
Software Defined Freifunk BackbonesSoftware Defined Freifunk Backbones
Software Defined Freifunk Backbones
Maximilian Wilhelm
 
Software Defined Freifunk Backbones
Software Defined Freifunk BackbonesSoftware Defined Freifunk Backbones
Software Defined Freifunk Backbones
Maximilan Wilhelm
 
Grundlagen puppet
Grundlagen puppetGrundlagen puppet
Grundlagen puppet
inovex GmbH
 
Grundlagen postgresql
Grundlagen postgresqlGrundlagen postgresql
Grundlagen postgresql
inovex GmbH
 

Ähnlich wie OSMC 2019 | Vom Bordstein zur Skyline by Robert Waffen (20)

TechTalkThursday 27.10.2016: upd89.org - Orchestrierung von Security-Updates ...
TechTalkThursday 27.10.2016: upd89.org - Orchestrierung von Security-Updates ...TechTalkThursday 27.10.2016: upd89.org - Orchestrierung von Security-Updates ...
TechTalkThursday 27.10.2016: upd89.org - Orchestrierung von Security-Updates ...
 
DOAG 2011: MySQL Performance Tuning
DOAG 2011: MySQL Performance TuningDOAG 2011: MySQL Performance Tuning
DOAG 2011: MySQL Performance Tuning
 
OSMC 2018 | Netzwerkmonitoring mit Prometheus by Matthias Gallinger
OSMC 2018 | Netzwerkmonitoring mit Prometheus by Matthias GallingerOSMC 2018 | Netzwerkmonitoring mit Prometheus by Matthias Gallinger
OSMC 2018 | Netzwerkmonitoring mit Prometheus by Matthias Gallinger
 
Zentrales Logging mit Elasticsearch
Zentrales Logging mit ElasticsearchZentrales Logging mit Elasticsearch
Zentrales Logging mit Elasticsearch
 
OSMC 2010 | Merlin - status quo by Wolfgang Barth
OSMC 2010 | Merlin - status quo by Wolfgang BarthOSMC 2010 | Merlin - status quo by Wolfgang Barth
OSMC 2010 | Merlin - status quo by Wolfgang Barth
 
MySQL Beispiele aus der Praxis - Wie setzen Kunden MySQL ein?
MySQL Beispiele aus der Praxis - Wie setzen Kunden MySQL ein?MySQL Beispiele aus der Praxis - Wie setzen Kunden MySQL ein?
MySQL Beispiele aus der Praxis - Wie setzen Kunden MySQL ein?
 
Software Defined Freifunk Backbones
Software Defined Freifunk BackbonesSoftware Defined Freifunk Backbones
Software Defined Freifunk Backbones
 
Software Defined Freifunk Backbones
Software Defined Freifunk BackbonesSoftware Defined Freifunk Backbones
Software Defined Freifunk Backbones
 
Python Installationen für Data Science
Python Installationen für Data SciencePython Installationen für Data Science
Python Installationen für Data Science
 
Grundlagen puppet
Grundlagen puppetGrundlagen puppet
Grundlagen puppet
 
Icinga 2011 at FrOSCon 6
Icinga 2011 at FrOSCon 6Icinga 2011 at FrOSCon 6
Icinga 2011 at FrOSCon 6
 
Icinga 2: Neues in 2.4 (Webinar vom 08. Dezember 2015)
Icinga 2: Neues in 2.4 (Webinar vom 08. Dezember 2015)Icinga 2: Neues in 2.4 (Webinar vom 08. Dezember 2015)
Icinga 2: Neues in 2.4 (Webinar vom 08. Dezember 2015)
 
Icinga 2: Grundaufbau einer Monitoring Umgebung (Webinar vom 01. August 2018)
Icinga 2: Grundaufbau einer Monitoring Umgebung (Webinar vom 01. August 2018)Icinga 2: Grundaufbau einer Monitoring Umgebung (Webinar vom 01. August 2018)
Icinga 2: Grundaufbau einer Monitoring Umgebung (Webinar vom 01. August 2018)
 
Grundlagen postgresql
Grundlagen postgresqlGrundlagen postgresql
Grundlagen postgresql
 
Von Test nach Live mit Rex
Von Test nach Live mit RexVon Test nach Live mit Rex
Von Test nach Live mit Rex
 
Von Test nach live mit Rex
Von Test nach live mit RexVon Test nach live mit Rex
Von Test nach live mit Rex
 
Weltweite Produktionsdatenverwaltung mit MySQL-Replikation
Weltweite Produktionsdatenverwaltung mit MySQL-ReplikationWeltweite Produktionsdatenverwaltung mit MySQL-Replikation
Weltweite Produktionsdatenverwaltung mit MySQL-Replikation
 
Dual-Stack IPv6 Monitoring bei AWK - Member Anlass Swiss IPv6 Council Nov 2013
Dual-Stack IPv6 Monitoring bei AWK - Member Anlass Swiss IPv6 Council Nov 2013Dual-Stack IPv6 Monitoring bei AWK - Member Anlass Swiss IPv6 Council Nov 2013
Dual-Stack IPv6 Monitoring bei AWK - Member Anlass Swiss IPv6 Council Nov 2013
 
Monitoring der DualStack Umgebung der AWK Group
Monitoring der DualStack Umgebung der AWK GroupMonitoring der DualStack Umgebung der AWK Group
Monitoring der DualStack Umgebung der AWK Group
 
2004 | Kryptographie in Theorie und Praxis: Only the Paranoids Survive
2004 | Kryptographie in Theorie und Praxis: Only the Paranoids Survive2004 | Kryptographie in Theorie und Praxis: Only the Paranoids Survive
2004 | Kryptographie in Theorie und Praxis: Only the Paranoids Survive
 

OSMC 2019 | Vom Bordstein zur Skyline by Robert Waffen

  • 1. Vom Bordstein zur Skyline Von Xymon/Zabbix zu Icinga/Prometheus
  • 3. Einleitung - Wer bin ich? ● System Engineer ○ Automatisierung mit Puppet ○ Monitoring mit Icinga ○ Dashboards mit Grafana ○ Logs mit ELK ○ Programmierung mit Ruby ● 10 Jahre Berufserfahrung ○ Monitoring war immer Thema ● Momentan bei Publicis Pixelpark ○ Senior System Administrator ○ Webmaster ○ Automatisierung ○ Infrastruktur - “DevOps” ○ Monitoring ● Level 120 Undead Rogue
  • 4. Einleitung - Publicis Pixelpark ● Bestehend seit 1991 ● Seit 2014 Publicis Konzern ● Berlin, Frankfurt, Hamburg, Köln und München ● Werbe- und Digitalagentur ● 900+ VMs ● Linux + Solaris ● Hardware, VM, Container, Zonen ● Diverse, große, deutsche, nicht näher genannte Kunden
  • 6. Wo kommen wir her? Vorhandenes Monitoring ● Xymon ● Zabbix ● ELK Metriken ● Default Metriken von Zabbix ● Default Metriken von Xymon ● 5 Minuten Intervall Monitoring nicht automatisiert oder nur teilautomatisiert. Hoher Pflegeaufwand. Niedrige Akzeptanz.
  • 7. Wo kommen wir her? - Xymon ● Früher: Big Brother, Hobbit ● Checks ähnlich Icinga in Shell ● Client - Server Model ● Interface statisches HTML ● RRD Graphen ● Hohe Intervalle ● Keine Verschlüsselung ● Solaris und Linux Clients
  • 8. Wo kommen wir her? - Xymon Übersicht
  • 9. Wo kommen wir her? - Xymon Details
  • 10. Wo kommen wir her? - Zabbix ● Nicht gemanagter Server ● Vorwiegend nur Webchecks ● Nicht Updatefähig (int. Abhängigkeiten) ● Unlogischer Aufbau der GUI ● Datenbankprobleme ● Vorhanden Checks zeigen oft wenig Daten ● Anzeige Prinzip: nur Fehler zeigen ● Wissen abgewandert ● Sollte Xymon ablösen
  • 11. Wo kommen wir her? - Zabbix
  • 12. Wo kommen wir her? - ELK ● Zwei Stacks ○ ein Älterer für Legacy Kunden ○ ein Neuerer ● Neuerer Stack: 2-Node-Cluster #insider ● Trennung auch wegen sensitiver Daten ● Keine Automatisierung ● Redis, Logstash, Elasticsearch auf einer Node ● Graylog als Alternativ-Versuch ○ Zu langsame Entwicklung ○ mit 3.0 erst ES 6.x Unterstützung ○ Keine Unterstützung von ES 7.x
  • 14. Wo sind wir? ● Xymon und Zabbix als Haupt-Monitoring ● Grafana im Aufbau ○ Prometheus ○ InfluxDB ○ Graphite ○ Elasticsearch ● Icinga2 als PoC ● ELK7 als PoC
  • 15. Wo sind wir? - Prometheus ● Komplett neue Technik ● Sehr an Kubernetes gebunden ● Außerhalb von K8S gibt es Probleme ○ Keine Authentifizierung / Autorisierung ○ Offene Ports - plain HTML + allen Daten ○ Apache als HTTPS-Reverse-Proxy ○ Require auf IP des anfragenden Server ● Datenhaltung bei 15+ Tagen schwierig ● Node Liste pflegen schwierig
  • 16.
  • 17.
  • 18. Wo sind wir? - Influx ● Wissen nicht vorhanden ● Als Docker Container installiert. ● Telegraf als extra Container ● Datenhalde für: ○ vSphere ○ Icinga2 ○ sFlow ● Wartungsarm ● komplizierte Abfrage
  • 19. Wo sind wir? - Graphite ● Als Docker Container installiert. ○ Zoo von Python-Geraffel ● Datenhalde für: ○ Icinga2 ○ Puppetserver ● Wartungsarm ● Leichte Abfrage ● Muss noch ein PoC für influxDB Graphite Adapter gemacht werden - dann ist es obsolete
  • 20. Wo sind wir? - ELK ● PoC zum ELK 7.x ● Schwierig da Puppet 7 nicht unterstützt ● Ansible ja, aber kein TLS ● Prio niedrig, andere Themen wichtiger 😩 ● Für Kunden: Graylog-System
  • 21. Wo sind wir? - Icinga2 ● Automatische installation mit Puppet ○ Super Module - Danke! ● Hosts über Exported Resources ● PuppetCA wird mitgenutzt ● Mitarbeiter finden GUI intuitiv ● Solaris Checks mit check_by_ssh ● Solaris OpenCSW nagios-plugins ● Alles steht und fällt mit dem Monitoring von Solaris ● Installation von Puppet auf allen Nodes
  • 22.
  • 23.
  • 25. Wo gehen wir hin? - Icinga ● Host Inventarisierung ○ Puppet + Icinga2 ● Agent ausrollen ● Übertragen der Xymon Checks ○ Evaluation auf Sinnhaftigkeit ● Notifikationen definieren ○ Integration mit Chat-System ○ Integration mit Asterisk ● Mitarbeiter abholen und mitnehmen
  • 26. ● Entkoppeln vom Kunden-Webserver ○ Kunde down, Monitoring down = :-( ● Langzeitspeicherung der Graphen ○ Inperformant? ○ Thanos? ● Dynamischer Aufbau der Job-Listen ● Influx Langzeit-Datenhaltung prüfen ● Zugriffskontrolle prüfen Wo gehen wir hin? - Prometheus Wo gehen wir hin? - Influx
  • 27. Wo gehen wir hin? - ELK ● ELK mandantenfähig aufbauen ● Auf vmware-Basis neu aufbauen ● Cluster mit mehr als 2 Nodes ● Service-Trennung
  • 28.
  • 29.
  • 30. Fazit
  • 31. Fazit ● Es ist noch viel zu tun ● Bereits mehr Sichtbarkeit ○ Packet Loss sichtbar gemacht ● ELK/Graylog: mehr Sichtbarkeit für Kunden ● Prometheus + Kubernetes = ✅ ● Icinga2 ist übersichtlicher in der GUI ○ Mehr Akzeptanz bei Kollegen ● Icinga2 komplett ausbauen + vSphereDB + x509 Monitoring + BPM + Reporting