Nagios-plugins

Плагіни Nagios у системі ALT Linux, підтримка яких здійснюється у ТОВ "Етерсофт"

Зміст

nagios-plugins-check_glusterfs

. На даний момент плагін працює незадовільно: може забити чергу команд glusterd і генерує warning'і на порожньому місці. Частково вина лежить на самому glusterd.

Плагін фактично викликає команду gluster volume status detail та аналізує результат. Якщо з якихось проблем команда коректно не відображається - отримаємо unknown повідомлення. Плагін може проінформувати про деякі проблеми: наприклад, на конкретному брику закінчується місце (хоча це якраз не повинно хвилювати: важливо лише вільне місце на всьому томі). Також виводить кількість split-brain'ів, зафіксованих glusterd.

Команда для NRPE вимагає лише два суттєві параметри: ім'я тома та штатна кількість бриків у томі (виявить менше - подасть сигнал тривоги):

40 і 10 - це числа в ГБ, коли повідомляти, що залишилося мало місця. За бажання їх можна перетворити на $ARG3$ і $ARG4$ відповідно. Зазначимо, що sudo захований усередині плагіна (написаний на bash), що не скасовує необхідність мати відповідне sudoers налаштування для безпарольного sudo для цієї команди.

Запис у objects:

nagios-plugins-check-mem

Цей плагін використовує можливості сервера snmpd отримати інформацію про значення доступної оперативної пам'яті. Якщо відповідь вище заданих значень (розрахунок виробляється у відсотках) - генерується відповідне попередження. Для отримання інформації використовує сервер snmpd: фактично, запитуються конкретні OID, тому потрібний налаштований snmpd з дозволом читання. Параметр COMMUNITY якраз і визначає "групу" доступу, тому залежить від налаштування сервера. У світліОстанні проблеми з безпекою, snmpd не рекомендується "відкривати назовні", тому плагін слід використовувати спільно з NRPE.

nagios-plugins-check_monit

У команди nagios'а плагін додається з таким записом:

Використання в objects:

nagios-plugins-check_pgactivity

Увага: при роботі плагін пише тимчасові файли, тому вкрай бажано, вказувати тимчасові файли та директорії, доступні для читання та записуЯВНО, так як через NRPE він працює не від root'а, а привілеї root'a йому й до чого. Тоді запис в /etc/nagios/nrpe.cfg:

Приклад запису objects:

nagios-plugins-check_raid

Цей плагін просто перевіряє виведення /proc/mdstat на наявність повідомлень про проблеми (диск дзеркала відпав, йде перевірка тощо) з кожним масивом raid (перевіряє відразу все). Якихсь спеціальних аргументів не вимагає. Використовується у зв'язці з NRPE, sudo не вимагає (оскільки інформація про raid зазвичай доступна для читання всім).

Запис /etc/nagios/nrpe.cfg:

Запис у objects:

nagios-plugins-nginx

. Плагін в даний час не використовується, опис наведено згідно з висновком --help.

Плагін зчитує сторінку статистики, якщо кількість поточних з'єднань перевищує задані значення – генеруються WARNING та CRITICAL повідомлення. Сам плагін робить запит URL, тому може застосовуватись як безпосередньо, так і через NRPE.

nagios-plugins-rdiff-backup

Цей плагін запитує файл backup.log в директорії службової інформації rdiff-backup-data на наявність в кінці блоку статистики з проведеного бекапу, тому робочим параметром є тільки шлях до зазначеного каталогу (сам каталог вписувати не потрібно), який, ймовірно, лежить серед інших одному виділеному диску.Запис в /etc/nagios/nrpe.cfg сервера бекапів:

А приклад запису в objects:

Увага !Плагін дещо "примхливий", а саме видає повідомлення UNKNOWN, що не може знайти інформацію про бекапу, якщо:

Бекап у процесі виконання і вже здійснилася хоча б одна помилка доступу до якого-небудь файлу, що бекапується (наприклад, він змінився в процесі читання)
Відбулася критична помилка, внаслідок чого бекапірування аварійно завершено - у backup.log випаде trace або повідомлення про помилку (наприклад, закінчилося місце на цільовому диску)
Після закінчення запису файлу metadata.gz падіння rdiff-backup з trace'ом у beckup.log. Причому бекап повністю виконаний (таке спостерігалося при відновленні бекапірування після попередніх провалів, причому наступний бекап виконувався вже без помилки: це якась дивина rdiff-backup).

У всіх цих випадках наприкінці backup.log присутні сторонні записи, відмінні від блоку статистики, тому й видається UNKNOWN попередження. Для системного адміністратора - це сигнал перевірити, що саме сталося.

nagios-plugins-smartmon

Простий плагін, написаний на python. Запитує у локальної служби smartd інформацію про температуру диска і за вказаними межами генерує OK, Warning або Critical. Потребує встановленої служби smartd. Рекомендовано використовувати разом із NRPE, оскільки перевірка лише локальна. До того ж потребує настроєних sudoers. Іде без запису в /etc/nagios/commands/, а /etc/nagios/nrpe.cfg слід внести, наприклад, так:

Відповідний запис у /etc/nagios/objects/ виглядатиме так:

Можна написати мультикоманду для NRPE, якщо кілька дисків:

Тоді запис у objects:

Налаштування sudo

Увага, у багатьох випадках у командах присутні sudo, і недарма: наприклад, smartd дозволяє отримувати інформацію тільки root'у, a NRPE виконує команди від виділеного користувача (nagios). Це означає, що потрібно прописати безпарольний sudo для команд-плагінів /etc/sudoers:

Файл /etc/sudoers.d/nagios-nrpe містить таку інформацію в пакеті ALT Linux: nagios-nrpe

У разі проблем роботи плагінів слід вручну відпрацювати запуск тих чи інших команд, наприклад: