
Dmitriy
17.08.2016
11:13:06
Заббикс предлагали?

Juriy
17.08.2016
11:16:47

Марк
17.08.2016
11:17:42

Google

Dmitriy
17.08.2016
11:18:55
Я бы на sensu поставил

Fike
17.08.2016
11:19:33
5$ на ответ "prometheus"

Felix
17.08.2016
11:19:56
я ставлю на заббикс

{{{Tolik}}}
17.08.2016
11:20:17
с 4000 дела не имел, но ставлю на заббикс

Rinat
17.08.2016
11:20:51
датадог ?))

Phil
17.08.2016
11:21:11
Что такое "мониторить" ? В большинстве случаев надо отталкиваться от этого

{{{Tolik}}}
17.08.2016
11:21:22

nikoinlove
17.08.2016
11:21:42
нагиос же

Антон
17.08.2016
11:21:45
https://github.com/firehol/netdata

Марк
17.08.2016
11:24:17

Антон
17.08.2016
11:24:18
еще хорошая альтернатива https://sourcegraph.github.io/checkup/ и https://bosun.org/

Марк
17.08.2016
11:24:56
Не, давайте не альтернативно одаренные поделки, а бест практис

Max
17.08.2016
11:25:26

Google

Paul
17.08.2016
11:25:46
а дальше он не развивается, я как я понял

Konstantin
17.08.2016
11:26:02
нет альтернатив заббиксу

Phil
17.08.2016
11:27:28
нет альтернатив заббиксу
Согласен. Всё вышеперечисленное вместе и по частям заббикс делает хуже чем что либо ещё. Никакой альтернативой это являться не может

Magistr
17.08.2016
11:28:33

Phil
17.08.2016
11:29:27
Причем сейчас вылезет @demeliorator и мы с ним устроим файтинг на тему того, должен быть анализ и алертер отдельным сервисом, или захаркоженным как в prometheus. Если конечно Денис не потрет

Марк
17.08.2016
11:30:15


Phil
17.08.2016
11:36:36
Предлагаешь держать зоопарк?
Почему зоопарк? Я предлагаю делить всё по сервисам. Собственно тот же алертер у прометеуса это всё равно отдельный сервис. Но ты понимаешь - ни один "намазанный" алертер не дотягивает до nagios. И графики видишь на графану валят. Ты не поверишь, даже @demeliorator использует collectd как сборщик метрик для прости прометеуса. Нет никакого выигрыша. UNIX-вей. Ну вот с анализаторами туго. Но честно, я ещё не видел хорошего следящего анализатора. А событийный - да там пишется на три притопа два прихлопа на голом корн шелл.
Предлагаешь держать зоопарк?
Опять же, намазанные подсервисы обычно намазывают с маркетинговой точки зрения - так легче продвигать. И это даже какой-то смысл имеет. Вон, докер по умолчанию на такое ставится, что волосы шеволятся. Зато сразу работает


Марк
17.08.2016
11:38:46
Почему зоопарк? Я предлагаю делить всё по сервисам. Собственно тот же алертер у прометеуса это всё равно отдельный сервис. Но ты понимаешь - ни один "намазанный" алертер не дотягивает до nagios. И графики видишь на графану валят. Ты не поверишь, даже @demeliorator использует collectd как сборщик метрик для прости прометеуса. Нет никакого выигрыша. UNIX-вей. Ну вот с анализаторами туго. Но честно, я ещё не видел хорошего следящего анализатора. А событийный - да там пишется на три притопа два прихлопа на голом корн шелл.
Меня, если чесн, напрягает ситуация, когда графики - это одна страница, алерты - другая, дополнительные метрики - третья. В итоге, человек, который за этим всем следит, слегка заебывается в обилие морд


Vladimir
17.08.2016
11:40:35
Проблема всего этого в том, что алретит хорошо одно, рисует другое, а приятно для пользователя третье
Если хочешь рисовать много графиков и хранить данных - графит безальтернативен
если достаточно каких-то не очень больших нагрузок, порядка миллионов точек в минуту - там возможны вариации
про алерты - вообще там более правильный подход алертить по событиям и событийный мониторинг делать, а не по графикам или чекам.
(если с точки зрения работы сервиса)
и делать анализ отклонения текущего потока событий от ожидаемого или правильного

Phil
17.08.2016
11:42:25

Vladimir
17.08.2016
11:42:25
но вот такие системы не шибко масштабируются
и еще метаданные важны в этом месте

Google

Марк
17.08.2016
11:42:57
Графики полезны тем, чтоб потом разобраться, откуда ноги растут. Это я Капитаном подрабатываю

Phil
17.08.2016
11:43:51

Марк
17.08.2016
11:43:55

Juriy
17.08.2016
11:46:59
вот дичь-то, 100 сервисов поднять, подружить, еще и следить за ними наверняка надо, вдруг что помре и СМС не приедет

Phil
17.08.2016
11:48:18
XXI век. В принципе все сервисы отлично автоматизируются. Только успевай в ansible подкидывать

Juriy
17.08.2016
11:48:30
вот хейтите Заббикс хейтите, а его настроить грамотно, слайдшоу на стену на телевизор, комплексные экраны дежурным админам (там же список телефонов повесить) и нотификации во все нужные шлюзы - и все работает

twwlf
17.08.2016
11:49:42
не забывайте мониторить мониторинг

Марк
17.08.2016
11:51:33

twwlf
17.08.2016
11:51:53
ну тут можно рейдом обойтись

Juriy
17.08.2016
11:51:56
не забывайте мониторить мониторинг
ну это конечно всяко сложнее, чем борщ из collectd, telegraf, graphite. prometheus, influxdb, grafana, nagios, icinga2, shinken.
а ну еще ansible и какой-нибудь CD к нему, чтоб конфиги раскидывал автоматом

twwlf
17.08.2016
11:52:27
не, погодите, я не говорю что это ПЛОХО и из-за этого не нужно юзать заббикс

Марк
17.08.2016
11:52:35
А че кактус забыли?

Paul
17.08.2016
11:52:35
к заббиксу лично у меня довольно короткий и детальный список претензий

Марк
17.08.2016
11:53:16

Juriy
17.08.2016
11:53:22

Paul
17.08.2016
11:58:15
не, ну а чо:
* у заббикс отвратительно работает ситуация, когда клиент не может получить данные или получает неожиданные значения (например NaN вместо 0). Он тупо банит клиента и это ужасно.
* клиенты, увы, текут по памяти. Порой приходится их убивать
* сервер довольно плохо масштабируется (говорю о 1.6 -> 2.4 - работал только с ними). В первую очередь выжираются диски. Постоянно приходится прикидывать, какие метрики мне прям нужны, а без каких я как-нибудь так проживу
* прокси помогают масштабировать, но ломают выполнение задач на ноде. То есть приходится решать, что мне нужнее - масштабирование или выполнение задачи
* очень, очень, очень неочевидный и неудобный UI. Кошмарное устройство выражений. Без толстого справочника хрен разберешься

Марк
17.08.2016
12:01:50
Эм, ты о хистори таблицах, которые засирают место?

Andrey
17.08.2016
12:04:12
кто-то не осилил партиционирование )

Google

Марк
17.08.2016
12:04:17
Если скуль, то есть же механизмы предотвращения такого. Arhive двигло юзать

Andrey
17.08.2016
12:05:10
"* у заббикс отвратительно работает ситуация, когда клиент не может получить данные или получает неожиданные значения (например NaN вместо 0). Он тупо банит клиента и это ужасно."
я бы сказал так, надо писать скрипты, которые возвращают ожидаемые значения.

Juriy
17.08.2016
12:05:11
в постгресе тоже варианты есть
плюсмного

Марк
17.08.2016
12:05:33
*Или партишн, да

Admin
ERROR: S client not available

Phil
17.08.2016
12:05:39
Кстати, а в чем заббикс собранные метрики для графиков хранит?

Paul
17.08.2016
12:05:40
это кривые руки.

Andrey
17.08.2016
12:06:01
и заббикс не для задач на ноде

Марк
17.08.2016
12:06:06

Andrey
17.08.2016
12:06:07
хорошо что тут это есть

Phil
17.08.2016
12:06:24
в SQL
что там люди выше о метриках и "работает" говорят?

Paul
17.08.2016
12:06:29

Andrey
17.08.2016
12:06:30

Paul
17.08.2016
12:06:47

Марк
17.08.2016
12:06:56

Andrey
17.08.2016
12:07:12

Paul
17.08.2016
12:07:59

Google

Andrey
17.08.2016
12:08:09
я не о том
ваш скрипт не должен слать говно

Phil
17.08.2016
12:08:24
отказаться от хранения TSD в SQL.
слушай, они серьёзно про заббикс после этого? у меня осталось только старое "поверил на слово" - отстутсвие шедулинга опроса событий там, а о таких пепяках я даже не знал. не, реально - это они серьёзно заббикс защищают/

Paul
17.08.2016
12:08:29
ШТОА???
я умею тюнить базы :) Я с заббиксом с 1.4 версии

Juriy
17.08.2016
12:08:46
чтобы не присылать кастомными проверками в заббикс ерунду множно (нужно) это дело в userparameters слегка обернуть:
UserParameter=supercommand | awk '{ print $1 } END { if (!NR) print "0" }'

Andrey
17.08.2016
12:08:52
в остальном - согласен с предъявами

Paul
17.08.2016
12:08:55

Марк
17.08.2016
12:09:00

Paul
17.08.2016
12:09:29
и исключения нужно обрабатывать. Хоть как-то. Писать нули, писать ошибки, писать код возврата. Заббикс делает худшее из возможного. Увы.

Марк
17.08.2016
12:09:29
Не, ну пджди, любая мониторилка может ебануться

Paul
17.08.2016
12:10:28
Не, ну пджди, любая мониторилка может ебануться
так вопрос не в том, что заббикс умирает. Как раз если бы он умирал - это было бы более заметно и легко обрабатываемо. Вопрос в том, что он молча скрывает информацию. И нигде кроме сервер-лога инфы не будет просто.

Juriy
17.08.2016
12:11:31

Paul
17.08.2016
12:11:55
оооооо

Марк
17.08.2016
12:11:58
Paul, по твою душу по пунктам
1. раньше у меня работал кастомный итем, который показывал сколько unsupported итемов у меня на ноде. в 3 версии они вели итем zabbix[host,,items_unsupported]
2. у меня не текут, на каждой ноде под 300 метрик в среднем
3. сделать мастер - слейв репликацию для бд и партицирование. на мастере хранить историю с трендами 3 дня, на слейве 3 месяца.
и графики отдавать со слейва
4. не понял, что такое ломает.
5. не нравиться ui, пишите свое и/или используй апи

Paul
17.08.2016
12:12:10
в 3.0 НАКОНЕЦ-ТО сделали поддержку unsupported!