Anzeige:
Ergebnis 1 bis 4 von 4

Thema: Nagios

  1. #1
    Registrierter Benutzer
    Registriert seit
    01.04.2009
    Ort
    Essen
    Beiträge
    25

    Nagios

    Hallo zusammen.
    Ich habe ein paar Probleme mit Nagios (3.0.6), da ich selber kein Rat mehr weiß und das Suchen im Internet mir auch keine Vernünftige Ergebnisse mehr liefert Frage ich mal hier ob irgendjemand schonmal dieses Problem hatte.

    Grundsätzlich einmal zum Aufbau. Ich habe einen Server aufgesetzt auf dem Nagios läuft. Dieser soll logischerweise andere Server überwachen. Die weiteren Servern haben lokale Dienste die überwacht werden sollen. Um dies zu berwerkstelligen nutze ich den NRPE Server. Dieser läuft auf den Servern, und der Nagios Server initiert einige Checks die er dann auswertet.

    Nun zum eigentlichen Problem, kurz in einem Satz gesagt: Anscheind zufällig funktionieren die NRPE Checks nicht. Ich bekomme hier hauptsächlich zwei meldungen zurück.

    1) CHECK_NRPE: Socket timeout after 10 seconds.
    2) NRPE: Unable to read output

    Die Checks an sich Funktionieren. Wenn ich sie von der Shell manuell starte, sei es nun mit root rechten oder dem "nagios" benutzer so bekomme ich immer eine korrekte rückmeldung zurück.

    Allerdiengs automatisiert über Nagios klappt dies (anscheind zufällig) mal nicht. Hier mal ein paar ausschnitte wie sie zu haufen zu finden sind in der "Alert History".

    [04-06-2009 03:29:40] SERVICE ALERT: backupserver;Bacula;OK;SOFT;2;OK - Backups: 36 Backups completed successfull
    [04-06-2009 03:27:40] SERVICE ALERT: backupserver;Bacula;CRITICAL;SOFT;1;CHECK_NRPE: Socket timeout after 10 seconds.
    [04-06-2009 03:17:40] SERVICE ALERT: backupserver;Bacula;OK;SOFT;2;OK - Backups: 35 Backups completed successfull
    [04-06-2009 03:15:40] SERVICE ALERT: backupserver;Bacula;CRITICAL;SOFT;1;CHECK_NRPE: Socket timeout after 10 seconds.

    Hier sieht man beispielsweise das der erste check fehlschlägt mit einem Timeout, kurz danach funktioniert er wieder eindfrei. Manchmal funktioniert es 2 mal hintereinander nicht, und beim dritten mal klappt es. Manchmal dann dreimal nicht (wodurch er vom SOFT in einem HARD State fällt) und eMails versendet.

    Nachvollziehbar oder gründe warum es nicht klappt gibt es nicht wirklich. Wenn man nach diesem Problem generell sucht findet man meistens nur Probleme wo diese Meldung "immer" kommt, und dann bei den meisten Leuten dateirechte verändert werden müssen etc. und es dann bei den meisten geht. Aber das ist hier ja nicht der fall, mal geht es, mal geht es nicht.

    Interessant ist auch das ich vor kurzem einen fall hatte der knapp über drei Tage ging. Dort wurde dann ebenfalls wieder Problem 2) gemeldet. Habe ich alle Checks allerdiengs von hand ausgeführt auf dem Nagios server liefen diese einwandfrei mit einer korrekten rückgabe. Auch die Checks auf dem Server liefen logischerweise eindfrei. Und nach dem vierten Tag ohne etwas zu verändern läuft der check wieder einwandfrei ohne eine Fehlermeldung.

    Während es automatisciert übrigens nicht Funktionierte habe ich die Checks Manuell ausgeführt und dort gingen diese einwandfrei.

    Irgendjemand schonmal das gleiche Problem gehabt, oder weiß jemand woran es liegen könnte?

  2. #2
    Registrierter Benutzer
    Registriert seit
    28.07.2000
    Beiträge
    123
    hast du schon mal das timeout hoch gesetzt?

    grüße

    reinhard

  3. #3
    Registrierter Benutzer
    Registriert seit
    09.01.2001
    Beiträge
    242
    oftmals tritt sowas auf, wenn der zu überprüfende rechner in dem moment grad mit sich selbst beschäftigt ist!


    tom

  4. #4
    Registrierter Benutzer
    Registriert seit
    05.08.2004
    Beiträge
    8
    Ruf doch das Plugin mal manuell direkt auf dem Server auf, ohne NRPE.
    Wenn es dort schon lange dauert, dann weisst du warum du ab und zu in ein Timeout läufts..
    Hatte ich auch, gerade bei Checks die die Raid-Arrays abfragen etc..

Lesezeichen

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • Anhänge hochladen: Nein
  • Beiträge bearbeiten: Nein
  •