@ZabbixPro

Страница 832 из 1183
Aleksej
07.05.2018
07:41:38
да :)

в правилах обнаружения

Yuriy
07.05.2018
07:41:44
Ну я сейчас не помню где там оно

Но можно и раз в час

Google
Artem
07.05.2018
07:43:03
Спасибо, я тогда подожду, а почему я ручками не могу тож самое сделать?

Yuriy
07.05.2018
07:44:23
Спасибо, я тогда подожду, а почему я ручками не могу тож самое сделать?
Ты знаешь все оиды температурных датчиков наизусть?

Корзины трёх типов есть

G1 g2 g3

>:)
07.05.2018
07:54:15
Ребят , заббикс из коробки умеет читать логи ?

Alexander
07.05.2018
07:54:28
умеет

>:)
07.05.2018
07:54:37
можно его в качестве внешнего сервера логирования использовать ?

умеет
это потом в последних данных просматриать ?

Alexander
07.05.2018
07:56:25
ELK

>:)
07.05.2018
07:57:19
Уже читаю, спачибо

Alexander
07.05.2018
07:58:39
Graylog

Zabbix несколько для другого предназначен просто и это неправильное применение технологий. Он умеет смотреть в логи и находить там то что интересует и если надо считать или алертовать

Google
Alexander
07.05.2018
08:10:33
он активным агентом следит

>:)
07.05.2018
08:13:56
ну вот )) а мне свитчи мониторить , спасибо за ответ )

Alexander
07.05.2018
08:19:02
посмотри в сторону SNMP Trap

Роман
07.05.2018
09:24:55
Привет всем в этом чатике

Настроил алерт для мониторинга кол-ва процессов PostgreSQL / PgBouncer

PostgreSQL {Template DB PostgreSQL:proc.num[,postgres,sleep,(postgres: |pgsql)].last()}+{Template DB PostgreSQL:proc.num[,postgres,run,(postgres: |pgsql)].last()}+{Template DB PostgreSQL:proc.num[,postgres,disk,(postgres: |pgsql)].last()}<1 PgBouncer {Template DB PostgreSQL - PgBouncer:proc.num[,pgbouncer,sleep,pgbouncer.*-d.*pgbouncer.ini].count(180,1,"ge")}+{Template DB PostgreSQL - PgBouncer:proc.num[,pgbouncer,run,pgbouncer.*-d.*pgbouncer.ini].count(180,1,"ge")}+{Template DB PostgreSQL - PgBouncer:proc.num[,pgbouncer,disk,pgbouncer.*-d.*pgbouncer.ini].count(180,1,"ge")}<1

с PostgreSLQ все ок, а вот PgBouncer ложно алертит (причем может раз в неделю днем триггернуть, а может раз 5 за ночь)

Zabbix 3.4 (CentOS 7), PgBouncer 1.7.2 (RHEL 7)

есессно, вот это читал: https://www.zabbix.com/documentation/3.4/ru/manual/appendix/items/proc_mem_num_notes

Ilya
07.05.2018
09:34:41
с PostgreSLQ все ок, а вот PgBouncer ложно алертит (причем может раз в неделю днем триггернуть, а может раз 5 за ночь)
Не используй proc.num, если не можешь отдебажить. Просто создай айтем с UserParameter или system.run, который будет делать почти то же самое – pgrep -f, тогда сможешь раскопать.

А вообще можно создать действие на триггер, которое сделает ps aux в момент алерта, узнаешь, что в данный момент происходит на сервере и почему твоя формула не работает.

Роман
07.05.2018
09:36:27
Сделать проверку проверки - воркэранд интересный, но звучит ужасно

Вопрос такой: кто как мониторит запущенные процессы в Zabbix на никсах?

Irek
07.05.2018
09:38:33
Вопрос такой: кто как мониторит запущенные процессы в Zabbix на никсах?
ни как не мониторим...зайдете себе вопрос, а оно вообще надо ли?)

Ilya
07.05.2018
09:39:05
Сделать проверку проверки - воркэранд интересный, но звучит ужасно
Чем ужасно? Если для этого придумали методы из коробки

Роман
07.05.2018
09:39:50
я наивно думал, что для этого есть proc.num

Danil
07.05.2018
09:40:14
Вопрос такой: кто как мониторит запущенные процессы в Zabbix на никсах?
А мониторить что именно? Я мониторю процессы ntpd, cron, sshd и что-то там ещё с помощью этого же proc.num.

Google
Ilya
07.05.2018
09:40:39
я наивно думал, что для этого есть proc.num
Если ты не можешь сам ответить на вопрос, почему так происходит – значит он тебе не нужен. Никто не полезет на твой сервер проверять, почему proc.num не матчит название процесса.

Irek
07.05.2018
09:49:58
у нас кстати на парочке хостов имеется proc.num и они успешно работают

Ilya
07.05.2018
09:52:30
у нас кстати на парочке хостов имеется proc.num и они успешно работают
proc.num["nginx"] – такого рода? proc.num[,pgbouncer,run,pgbouncer.*-d.*pgbouncer.ini] - достаточно один раз чихнуть и оно заалертит

Danil
07.05.2018
10:02:58
proc.num["nginx"] – такого рода? proc.num[,pgbouncer,run,pgbouncer.*-d.*pgbouncer.ini] - достаточно один раз чихнуть и оно заалертит
Поэтому у меня в основном стоит алерт на последние 3 неудачи подряд. Функция count, но скорее всего есть иные более изящные решения.

Irek
07.05.2018
10:11:18
где ora10gas это имя пользователя

frmweb это имя процесса

помоему вида proc.num[nginx] работать не будет, надо пробовать писать proc.num[nginx,(тут запятая)]

Danil
07.05.2018
10:14:04
А в чем разница между 1 и 3 неудачами?
Мне не нужен алерт когда процесс перезапустился. Может он обновился просто и продолжил работать нормально. Но мне нужно знать когда в течение нескольких проверок подряд его нет. Почему не одна проверка с бОльшим интервалом - опять же есть риск ложного срабатывания.

Danil
07.05.2018
10:15:32
это как обновился просто?
Ссш новый пришёл утром в 6 утра и перезапустился :) Секунду его может не быть. И сотня серверов тебе будет рада об этом сказать :))

Alexander
07.05.2018
10:16:16
у нас ссш сам не обновляется

на время деплоя или апгрейда хосты ставятся в мейнтенанс

Danil
07.05.2018
10:16:57
лучше логи анализировать все же, это более верный способ
Каждый сам для себя решает. Мне нужно знать, работает ли ссш или нет к примеру. Или инсинк синхронизатор для гугл драйва. Или exim. Или ldap. Продолжайте сами :)

Irek
07.05.2018
10:17:11
новый ссш утром? Без ведома админа? Вот это поворот..

Danil
07.05.2018
10:17:15
Google
Danil
07.05.2018
10:19:29
Это стало недавно современным :)) Да и какая разница накосячил системды или нет - надо понимать работает ли процесс или нет. Мы как-то вышли за рамки обсуждения и обсуждаем кто лучше - блондинки или брюнетки ;)

Irek
07.05.2018
10:19:52
рыжие)

по-твоему
я и написал, что по-моему

Artem
07.05.2018
10:20:33
Ты знаешь все оиды температурных датчиков наизусть?
Спасибо, все появилось,просто супер, теперь еще по циске найти и настроить)

Admin
ERROR: S client not available

Danil
07.05.2018
10:20:50
С systemd и Zabbix тогда не нужен :)

Alexander
07.05.2018
10:21:06
системд не панацея

Danil
07.05.2018
10:21:24
работает процесс само по себе ничего не значит
Это уже дальнейшие дебри, согласен. Я ещё прослушивание портов проверяю ;)

Alexander
07.05.2018
10:21:50
и прослушивание ничего не значит ;)

Irek
07.05.2018
10:21:56
все зависит от целей, но мониторить базовые процесс, нах-нах лишнию работу себе делать

Alexander
07.05.2018
10:21:57
надо проверять работает сервис или нет :)

Irek
07.05.2018
10:22:33
системд не панацея
как и заббикс собственно.

Alexander
07.05.2018
10:22:49
но мониторинг может быть многоуровневым, просто тогда в заббиксе надо рисовать все правильно и рисовать зависимсти триггеров между собой

Irek
07.05.2018
10:23:02
процессы лучше мониторить через логи, это куда более верное решение и заббикс для этого, скажем прямо, не подходит

Danil
07.05.2018
10:23:11
Посмотрите последних мстителей, и поймёте что с камнем реальности вообще НИЧЕГО-НИЧЕГО ничего не значит :))

Google
Danil
07.05.2018
10:25:02
процессы лучше мониторить через логи, это куда более верное решение и заббикс для этого, скажем прямо, не подходит
Как это? Процесс упал и не написал в логи. Системды тоже молчит. Юзеры звонят жалуются, а ты такой "у меня в логах все нормально!"

Irek
07.05.2018
10:27:09
Как это? Процесс упал и не написал в логи. Системды тоже молчит. Юзеры звонят жалуются, а ты такой "у меня в логах все нормально!"
1. долгое время не писал в логи - уже странно 2.systemd знает что процесс жив/мертв и будет его стартовать сам при необходимости

Danil
07.05.2018
10:27:28
процесс упал и не написал - плохой процесс
Позиция "я дартаньян а все вокруг ***" в принципе имеет место. Но это каждый для себя сам решает. Техническую сторону мы обсудили

Alexander
07.05.2018
10:27:49
техническую сторону мы не обсудили до конца

Alexander
07.05.2018
10:28:30
Alexander
07.05.2018
10:28:48
и приведите пример

П1 я также реализовал для некоторых процессов, все верно.
по п.1 потенциально (и на практике так и было) когда все хорошо и процесс ничего не пишет в лог то появляются ложные срабатывания

Irek
07.05.2018
10:29:31
скажите, как часто вам помогал перезапуск процессов самим системд?
у нас нет процессов которые просто падают, а если падают то мы стараемся все делать отказоучивым к падениям.

Alexander
07.05.2018
10:29:38
но тут смотря какой процесс и какой уровень журналирования

Irek
07.05.2018
10:30:20
а все базовые службы успешно отрабатываются через systemd

Страница 832 из 1183