Управление частотой входа в Nagios при мониторинге удаленных хостов

Я создал настройку мониторинга удаленного хоста Nagios (не NRPE), и она функциональна и полезна, за исключением:

Каким-то образом я обнаружил, что хост Nagios входит в систему на различных удаленных хостах только для того, чтобы выйти из системы через одну секунду (если не в ту же секунду), каждые 3 минуты или около того; как часто это происходит, это не кажется детерминированным. Эти входы в систему не совпадают ни с одним из установленных мною периодов проверки.

Из произвольного члена моего массива удаленных хостов auth.log:

Feb 25 10:51:11 MACHINE sshd[3590]: Accepted publickey for nagios from 10.1.2.110 port 54069 ssh2
Feb 25 10:51:11 MACHINE sshd[3590]: pam_unix(sshd:session): session opened for user nagios by (uid=0)
Feb 25 10:51:11 MACHINE sshd[3599]: Received disconnect from 10.1.2.110: 11: disconnected by user
Feb 25 10:51:11 MACHINE sshd[3590]: pam_unix(sshd:session): session closed for user nagios

И вот, через три минуты:

Feb 25 10:54:10 MACHINE sshd[3632]: Accepted publickey for nagios from 10.1.2.110 port 54176 ssh2
Feb 25 10:54:10 MACHINE sshd[3632]: pam_unix(sshd:session): session opened for user nagios by (uid=0)
Feb 25 10:54:10 MACHINE sshd[3642]: Received disconnect from 10.1.2.110: 11: disconnected by user
Feb 25 10:54:10 MACHINE sshd[3632]: pam_unix(sshd:session): session closed for user nagios

Я не могу понять это. Моя служба следует шаблону универсальной службы, который я изменил для немного более длительного интервала проверки и максимального числа попыток проверки. Почему Nagios участвует в этом серийном входе в систему?


person Nhar Gobange    schedule 25.02.2013    source источник


Ответы (2)


Вы проверили определения хоста? Что вы используете для проверки хоста? Если это выполняет проверку «через» проверку NRPE (а не что-то вроде «локальной» проверки ping), то это также может быть вход в систему.

Также вы можете проверить файл журнала Nagios, чтобы увидеть, какие проверки выполняются на самом деле. Обычно я выполняю команду 'tail -f nagios.log | grep [IP_ADDRESS_of_target_host]», чтобы сузить результаты до конкретной машины.

Если там ничего не отображается, в крайнем случае вы можете включить отладку и проверить файл отладки Nagios — ВСЕ, что делает Nagios, попадет в этот файл. Поскольку файл отладки имеет тенденцию работать очень быстро (по крайней мере, в нашей установке — > 6,8 КБ проверок), вам, возможно, придется проявить творческий подход с помощью «grep», чтобы найти то, что вы ищете.

person Jim Black    schedule 05.03.2013

Если проверка возвращает состояние CRITICAL/WARNING, возможно, ваш retry_interval установлен на 3 минуты, что, как я полагаю, является значением по умолчанию. Дважды проверьте свой шаблон службы в nagios/etc/objects/templates

person KBerstene    schedule 13.08.2014