Difference between revisions of "Nagios"

From A-Eskwiki
Jump to: navigation, search
m
m (entropy)
Line 6: Line 6:
 
In de map /etc/nagios/conf.d/ staan de instellingen voor Nagios.<br />
 
In de map /etc/nagios/conf.d/ staan de instellingen voor Nagios.<br />
 
Als het goed is zijn alle hosts (computers en vm's) en services goed geordend in bestanden voor workstations (centos), server(s) en vm's.<br />
 
Als het goed is zijn alle hosts (computers en vm's) en services goed geordend in bestanden voor workstations (centos), server(s) en vm's.<br />
 +
Bij alle services staat een ''command'' om de check uit te voeren; in principe staan deze in check-commands.cfg. Als de check op de andere host uitgevoerd wordt in plaats van op vm-nagios zelf gebruik je als command <code>check_nrpe!</code> + een commando dat op de remote host gedefinieerd is in nrpe (zie nrpe sectie).<br />
 
'''Alle wijzigingen hier moeten in salt gezet worden'''. Gebruik hiervoor:<br />
 
'''Alle wijzigingen hier moeten in salt gezet worden'''. Gebruik hiervoor:<br />
 
<code>scp ''bestandsnaam1 bestandsnaam2 (...)'' root@vm-salt-master:/srv/salt/centos/vm-nagios/conf.d/</code><br />
 
<code>scp ''bestandsnaam1 bestandsnaam2 (...)'' root@vm-salt-master:/srv/salt/centos/vm-nagios/conf.d/</code><br />
Line 23: Line 24:
 
=== Kernel check (Haskell) ===
 
=== Kernel check (Haskell) ===
 
Als Haskell met een andere kernel opstart geeft Nagios hiervan een melding. Als de nieuwe kernel goed werkt en mag blijven, pas dan op Haskell in /etc/nagios/nrpe.d/haskell.cfg de kernelversie aan en voer <code>service nagios-nrpe-server restart</code> uit.
 
Als Haskell met een andere kernel opstart geeft Nagios hiervan een melding. Als de nieuwe kernel goed werkt en mag blijven, pas dan op Haskell in /etc/nagios/nrpe.d/haskell.cfg de kernelversie aan en voer <code>service nagios-nrpe-server restart</code> uit.
 +
 +
=== Entropy check ===
 +
Het is helaas hardgecodeerd in deze plugin hoe veel entropy er nodig is; als deze check een blijvende fout laat zien staat waarschijnlijk je minimum entropy lager. Met de entropykey die wij hebben is entropy niet gauw een probleem, dus je mag best een ruime hoeveelheid ervan op alle computers bewaren.

Revision as of 18:18, 15 October 2014

Nagios gebruiken we om op alle computers en virtuele machines een aantal belangrijke zaken in de gaten te houden. Het draait op de vm-nagios; op de andere machines staat nrpe geïnstalleerd om de checks te kunnen uitvoeren die niet op afstand gedaan kunnen worden.

vm-nagios

In de map /etc/nagios/conf.d/ staan de instellingen voor Nagios.
Als het goed is zijn alle hosts (computers en vm's) en services goed geordend in bestanden voor workstations (centos), server(s) en vm's.
Bij alle services staat een command om de check uit te voeren; in principe staan deze in check-commands.cfg. Als de check op de andere host uitgevoerd wordt in plaats van op vm-nagios zelf gebruik je als command check_nrpe! + een commando dat op de remote host gedefinieerd is in nrpe (zie nrpe sectie).
Alle wijzigingen hier moeten in salt gezet worden. Gebruik hiervoor:
scp bestandsnaam1 bestandsnaam2 (...) root@vm-salt-master:/srv/salt/centos/vm-nagios/conf.d/
Het is een goede gewoonte om dan op vm-salt-master naar deze map te gaan en svn ci uit te voeren om je wijzigingen te committen.

NRPE

De commando's die nrpe gebruikt om deze checks uit te voeren zijn gedefinieerd in bestanden in de map /etc/nrpe.d/. Ook is configuratie in /etc/nagios/nrpe.cfg en /etc/nagios/nrpe_local.cfg mogelijk maar het is mooier om die niet te gebruiken. Na het aanpassen hiervan moet nrpe opnieuw gestart worden met een van de volgende commando's:
CentOS: service nrpe restart
Debian (Haskell en oud systeem): service nagios-nrpe-server restart

Op CentOS 6 is het mogelijk om "service nrpe reload" te doen, maar dat commando werkt niet! NRPE zal stoppen met een fout in /var/log/messages als je dit doet. Nagios zal je dan voor alle services van deze host mailtjes sturen. Op CentOS 7 is niet meer mogelijk om service nrpe reload te doen en zal dit dus ook niet meer fout gaan.

SMART check

Om op de workstations de SMART status te checken, moet je dit commando uitvoeren wat op dit moment (1 oktober 2014) nog niet in salt gebeurt:
chmod +x /usr/lib64/nagios/plugins/check_ide_smart

Kernel check (Haskell)

Als Haskell met een andere kernel opstart geeft Nagios hiervan een melding. Als de nieuwe kernel goed werkt en mag blijven, pas dan op Haskell in /etc/nagios/nrpe.d/haskell.cfg de kernelversie aan en voer service nagios-nrpe-server restart uit.

Entropy check

Het is helaas hardgecodeerd in deze plugin hoe veel entropy er nodig is; als deze check een blijvende fout laat zien staat waarschijnlijk je minimum entropy lager. Met de entropykey die wij hebben is entropy niet gauw een probleem, dus je mag best een ruime hoeveelheid ervan op alle computers bewaren.