@devops_ru

Страница 938 из 4568
Juriy
17.08.2016
11:16:47
Марк
17.08.2016
11:17:42
Zabbix параша
И таки чем вы мониторите 4000+ хостов?

Google
Dmitriy
17.08.2016
11:18:55
Я бы на sensu поставил

Fike
17.08.2016
11:19:33
5$ на ответ "prometheus"

Felix
17.08.2016
11:19:56
я ставлю на заббикс

{{{Tolik}}}
17.08.2016
11:20:17
с 4000 дела не имел, но ставлю на заббикс

Rinat
17.08.2016
11:20:51
датадог ?))

Phil
17.08.2016
11:21:11
Что такое "мониторить" ? В большинстве случаев надо отталкиваться от этого

{{{Tolik}}}
17.08.2016
11:21:22
датадог ?))
ПИНГДОМ

nikoinlove
17.08.2016
11:21:42
нагиос же

Антон
17.08.2016
11:21:45
https://github.com/firehol/netdata

Марк
17.08.2016
11:24:17
Что такое "мониторить" ? В большинстве случаев надо отталкиваться от этого
Снять всю хуйню и построить графики, настроить тригеры и воткнуть их в задницу зондер-команде

Антон
17.08.2016
11:24:18
еще хорошая альтернатива https://sourcegraph.github.io/checkup/ и https://bosun.org/

Марк
17.08.2016
11:24:56
Не, давайте не альтернативно одаренные поделки, а бест практис

Max
17.08.2016
11:25:26
еще хорошая альтернатива https://sourcegraph.github.io/checkup/ и https://bosun.org/
Альтернатива чему? Заббиксу? Чет не тянет на альтернативу.

Google
Paul
17.08.2016
11:25:46
Не, давайте не альтернативно одаренные поделки, а бест практис
у босун была интересная идея, но в прометеус она уже реализована

а дальше он не развивается, я как я понял

Konstantin
17.08.2016
11:26:02
нет альтернатив заббиксу

Phil
17.08.2016
11:27:28
Снять всю хуйню и построить графики, настроить тригеры и воткнуть их в задницу зондер-команде
#zabbix #collectd #prometheus #мониторинг #telegraf #nagios #icinga #grafana Снять всю хуйню - collectd, telegraf, graphite. prometheus, influxdb (там варианты). Никаких бестов нет - там у всех есть свои косяки и плюсы Построить графики почти безалтернативно grafana Выслать алерты - nagios, icinga2, shinken. Обычно сейчас icinga2

нет альтернатив заббиксу
Согласен. Всё вышеперечисленное вместе и по частям заббикс делает хуже чем что либо ещё. Никакой альтернативой это являться не может

Phil
17.08.2016
11:29:27
Причем сейчас вылезет @demeliorator и мы с ним устроим файтинг на тему того, должен быть анализ и алертер отдельным сервисом, или захаркоженным как в prometheus. Если конечно Денис не потрет

Phil
17.08.2016
11:36:36
Предлагаешь держать зоопарк?
Почему зоопарк? Я предлагаю делить всё по сервисам. Собственно тот же алертер у прометеуса это всё равно отдельный сервис. Но ты понимаешь - ни один "намазанный" алертер не дотягивает до nagios. И графики видишь на графану валят. Ты не поверишь, даже @demeliorator использует collectd как сборщик метрик для прости прометеуса. Нет никакого выигрыша. UNIX-вей. Ну вот с анализаторами туго. Но честно, я ещё не видел хорошего следящего анализатора. А событийный - да там пишется на три притопа два прихлопа на голом корн шелл.

Предлагаешь держать зоопарк?
Опять же, намазанные подсервисы обычно намазывают с маркетинговой точки зрения - так легче продвигать. И это даже какой-то смысл имеет. Вон, докер по умолчанию на такое ставится, что волосы шеволятся. Зато сразу работает

Vladimir
17.08.2016
11:40:35
Проблема всего этого в том, что алретит хорошо одно, рисует другое, а приятно для пользователя третье

Если хочешь рисовать много графиков и хранить данных - графит безальтернативен

если достаточно каких-то не очень больших нагрузок, порядка миллионов точек в минуту - там возможны вариации

про алерты - вообще там более правильный подход алертить по событиям и событийный мониторинг делать, а не по графикам или чекам.

(если с точки зрения работы сервиса)

и делать анализ отклонения текущего потока событий от ожидаемого или правильного

Phil
17.08.2016
11:42:25
Меня, если чесн, напрягает ситуация, когда графики - это одна страница, алерты - другая, дополнительные метрики - третья. В итоге, человек, который за этим всем следит, слегка заебывается в обилие морд
Что такое дополнительные метрики? Почему на графики и алерты смотрит вообще один человек? Если он в принципе один - зачем он смотрит на них? Ну т.е. это чисто административная запутка.

Vladimir
17.08.2016
11:42:25
но вот такие системы не шибко масштабируются

и еще метаданные важны в этом месте

Google
Марк
17.08.2016
11:42:57
Графики полезны тем, чтоб потом разобраться, откуда ноги растут. Это я Капитаном подрабатываю

Phil
17.08.2016
11:43:51
Графики полезны тем, чтоб потом разобраться, откуда ноги растут. Это я Капитаном подрабатываю
Ну и где запутка? У тебя только алерт-мониторинг и всё. Надо - полез в графану

Juriy
17.08.2016
11:46:59
вот дичь-то, 100 сервисов поднять, подружить, еще и следить за ними наверняка надо, вдруг что помре и СМС не приедет

Phil
17.08.2016
11:48:18
XXI век. В принципе все сервисы отлично автоматизируются. Только успевай в ansible подкидывать

Juriy
17.08.2016
11:48:30
вот хейтите Заббикс хейтите, а его настроить грамотно, слайдшоу на стену на телевизор, комплексные экраны дежурным админам (там же список телефонов повесить) и нотификации во все нужные шлюзы - и все работает

Марк
17.08.2016
11:51:33
он тоже модульный и частями может молча умирать
А, еще админ может тоже крякнуть. Срочно браслет, чтобы его мониторил.

twwlf
17.08.2016
11:51:53
ну тут можно рейдом обойтись

Juriy
17.08.2016
11:51:56
не забывайте мониторить мониторинг
ну это конечно всяко сложнее, чем борщ из collectd, telegraf, graphite. prometheus, influxdb, grafana, nagios, icinga2, shinken. а ну еще ansible и какой-нибудь CD к нему, чтоб конфиги раскидывал автоматом

twwlf
17.08.2016
11:52:27
не, погодите, я не говорю что это ПЛОХО и из-за этого не нужно юзать заббикс

Марк
17.08.2016
11:52:35
А че кактус забыли?

Paul
17.08.2016
11:52:35
к заббиксу лично у меня довольно короткий и детальный список претензий

Марк
17.08.2016
11:53:16
Paul
17.08.2016
11:58:15
не, ну а чо: * у заббикс отвратительно работает ситуация, когда клиент не может получить данные или получает неожиданные значения (например NaN вместо 0). Он тупо банит клиента и это ужасно. * клиенты, увы, текут по памяти. Порой приходится их убивать * сервер довольно плохо масштабируется (говорю о 1.6 -> 2.4 - работал только с ними). В первую очередь выжираются диски. Постоянно приходится прикидывать, какие метрики мне прям нужны, а без каких я как-нибудь так проживу * прокси помогают масштабировать, но ломают выполнение задач на ноде. То есть приходится решать, что мне нужнее - масштабирование или выполнение задачи * очень, очень, очень неочевидный и неудобный UI. Кошмарное устройство выражений. Без толстого справочника хрен разберешься

Марк
17.08.2016
12:01:50
Эм, ты о хистори таблицах, которые засирают место?

Andrey
17.08.2016
12:04:12
кто-то не осилил партиционирование )

Google
Марк
17.08.2016
12:04:17
Если скуль, то есть же механизмы предотвращения такого. Arhive двигло юзать

Andrey
17.08.2016
12:05:10
"* у заббикс отвратительно работает ситуация, когда клиент не может получить данные или получает неожиданные значения (например NaN вместо 0). Он тупо банит клиента и это ужасно." я бы сказал так, надо писать скрипты, которые возвращают ожидаемые значения.

Juriy
17.08.2016
12:05:11
в постгресе тоже варианты есть

плюсмного

Марк
17.08.2016
12:05:33
*Или партишн, да

Admin
ERROR: S client not available

Phil
17.08.2016
12:05:39
Кстати, а в чем заббикс собранные метрики для графиков хранит?

Paul
17.08.2016
12:05:40
кто-то не осилил партиционирование )
обожаю диагнозы по телефону. партицирование, тюнинг базы, тюнинг файловой системы, ssd. Это не панацея

это кривые руки.

Andrey
17.08.2016
12:06:01
и заббикс не для задач на ноде

Марк
17.08.2016
12:06:06
Кстати, а в чем заббикс собранные метрики для графиков хранит?
Там интовые и бигинтовые в основном, но могу спиздеть.

Andrey
17.08.2016
12:06:07
хорошо что тут это есть

Phil
17.08.2016
12:06:24
в SQL
что там люди выше о метриках и "работает" говорят?

Paul
17.08.2016
12:06:47
а что панацея?
отказаться от хранения TSD в SQL.

Paul
17.08.2016
12:07:59
зачем их обрабатывать, если легко и просто их можно ликвидировать?
да, действительно. можно просто фигануть ноду

Google
Andrey
17.08.2016
12:08:09
я не о том

ваш скрипт не должен слать говно

Phil
17.08.2016
12:08:24
отказаться от хранения TSD в SQL.
слушай, они серьёзно про заббикс после этого? у меня осталось только старое "поверил на слово" - отстутсвие шедулинга опроса событий там, а о таких пепяках я даже не знал. не, реально - это они серьёзно заббикс защищают/

Paul
17.08.2016
12:08:29
ШТОА???
я умею тюнить базы :) Я с заббиксом с 1.4 версии

Juriy
17.08.2016
12:08:46
чтобы не присылать кастомными проверками в заббикс ерунду множно (нужно) это дело в userparameters слегка обернуть: UserParameter=supercommand | awk '{ print $1 } END { if (!NR) print "0" }'

Andrey
17.08.2016
12:08:52
в остальном - согласен с предъявами

Paul
17.08.2016
12:08:55
ваш скрипт не должен слать говно
он может слать всякое. Он может упасть. Никто никогда и нигде не дает 100% гарантии

Марк
17.08.2016
12:09:00
Paul
17.08.2016
12:09:29
и исключения нужно обрабатывать. Хоть как-то. Писать нули, писать ошибки, писать код возврата. Заббикс делает худшее из возможного. Увы.

Марк
17.08.2016
12:09:29
Не, ну пджди, любая мониторилка может ебануться

Paul
17.08.2016
12:10:28
Не, ну пджди, любая мониторилка может ебануться
так вопрос не в том, что заббикс умирает. Как раз если бы он умирал - это было бы более заметно и легко обрабатываемо. Вопрос в том, что он молча скрывает информацию. И нигде кроме сервер-лога инфы не будет просто.

Paul
17.08.2016
12:11:55
оооооо

Марк
17.08.2016
12:11:58
Paul, по твою душу по пунктам

1. раньше у меня работал кастомный итем, который показывал сколько unsupported итемов у меня на ноде. в 3 версии они вели итем zabbix[host,,items_unsupported] 2. у меня не текут, на каждой ноде под 300 метрик в среднем 3. сделать мастер - слейв репликацию для бд и партицирование. на мастере хранить историю с трендами 3 дня, на слейве 3 месяца. и графики отдавать со слейва 4. не понял, что такое ломает. 5. не нравиться ui, пишите свое и/или используй апи

Paul
17.08.2016
12:12:10
в 3.0 НАКОНЕЦ-ТО сделали поддержку unsupported!

Страница 938 из 4568