Redundantes Live-Monitoring
===========================
In der Folge des `MonitoringLove-Sprints
`_ im Juni 2013 haben wir begonnen,
unser Monitoring nach und nach umzustellen um in Echtzeit relevante
Informationen zu erhalten. Ein Problem des damaligen Setups war jedoch, dass
es Lücken in der Aufzeichnung gab sobald ein Monitoring-Node ausfiel.
|Apache Cassandra Logo|
Nun haben wir mit `Apache Cassandra `_ eine
Möglichkeit gefunden, diese Lücken zu schließen da sich Cassandra :abbr:`ggf.
(gegebenenfalls)` resynchronisiert sofern auch nur ein Node immer
erreichbar ist.
.. |Apache Cassandra Logo| image:: cassandra_logo.png
:class: image-right
Zukünftig wird an jedem der beiden Rechenzentrumsstandorte einen
Monitoring-Node betrieben. Durch ein entsprechendes `Resource Record
`_-Set kann eine einfache
Verteilung auf die beiden Standorte gewährleistet werden. Zudem wird jeder
Admin einen *Monitoring-Client* auf seinem Notebook oder PC haben, der auf einen
der Monitoring-Nodes zugreift.
Im Einzelnen setzen wir nun folgende Toolchain ein:
#. `collectd `_ zur Erfassung der Daten
#. `riemann `_ zur Aggregation der Events
#. `cyanite `_ zur persistenten und redundanten
Speicherung mittels Apache Cassandra und `Elasticsearch
`_.
#. `graphite-api `_
zur Abfrage von Clients mit dem Graphite-Protokoll.
Dabei erfolgt die Netzwerkkommunikation von allen Systemen zu den `Riemann
`_-Instanzen via `stunnel
`_ und von den Clients zum REST-Service
mit ``HTTPS``.