
Daniel
30.08.2016
19:19:03
чем кассандра не кассандра?

Vladimir
30.08.2016
19:19:14

Phil
30.08.2016
19:19:15
Ещё одна чем что? Чем немасштабируемый достаточно прожорливый my/pg sql?

Vladimir
30.08.2016
19:19:17
а ни у кого не получилось пока

Google

Daniel
30.08.2016
19:19:24
разве?
у меня отлично она приготовлена, по мою задачу

Vladimir
30.08.2016
19:19:40
разве?
Угу. Были попытки прикрутить кассандру - Cyanite, KairosDB, Heroic
еще чо-то такое
но для time-series чот не взлетает

Daniel
30.08.2016
19:20:02
приготовления, правда, включают в себя терабайтный ссд кеш на чтение на каждой ноде

Vladimir
30.08.2016
19:20:07
есть надежда что raintank сделают таки правильно

Daniel
30.08.2016
19:20:30
и в чем пробелма писать таймсериес

Vladimir
30.08.2016
19:20:32
в каждой ноде
пока микс еще
точнее читать и писать разом

Google

Daniel
30.08.2016
19:21:00
тоже я нипанимайтунг :(

Vladimir
30.08.2016
19:21:07
и делать это так чтоб люди не ждали по 30-40 секунд на график

Phil
30.08.2016
19:21:09
Что вы со всем этим делаете? Откуда вы столько нужных данных берете?

Vladimir
30.08.2016
19:21:27

Daniel
30.08.2016
19:21:40
у меня 4 прод сервера вваливают примерно 200К метрик в секунду

Phil
30.08.2016
19:21:45
Десятки тысяч хостов - это я тут с гуглем что ли разговариваю?

Vladimir
30.08.2016
19:21:56

Daniel
30.08.2016
19:21:59
не все они нужны, но я пока не понимаю - какие лишние

Vladimir
30.08.2016
19:22:13
у гугла по слухам порядка миллиона
но они даже порядков уже не называют
десятки тысяч это уровень вконтактика, одноклассников и прочих
ну и ща у захудалого стартапа тысячи виртуалок на амазоне

Phil
30.08.2016
19:23:01
ну тип того
Ну так это гавно
Количество виртуалок Богу количества виртуалок?

Vladimir
30.08.2016
19:23:36
ну никто не виноват что если хочешь оптимально тратить деньги то это в лучшем случаи 2xE5-2620
а для говнокода таких железок нужно много )
а для говнокода в Machine Learning еще больше

nikoinlove
30.08.2016
19:25:34
200к метрик в графит это захудалая машинка же сдержит

Google

nikoinlove
30.08.2016
19:26:00
Из них 180к никто не читает все равно

Phil
30.08.2016
19:26:46

Vladimir
30.08.2016
19:27:02

nikoinlove
30.08.2016
19:30:27
Смотря что ты с ними делаешь) если кладешь на хард со скоростью 200к иопс, то да)

Daniel
30.08.2016
19:31:55
иопсы прометей тратит правильно
грфит, правда, тоже можно научить
так что проблем нет

Phil
30.08.2016
19:32:28
кроме ррд все норм тратят иопсы

Daniel
30.08.2016
19:32:36
и не читает дам никто 199К метрик

Vladimir
30.08.2016
19:33:50
работал я как-то в стартапе где любиымым занятием менеджера было вывести на 1 график 200 метрик
и чо то в этой каше искать

Daniel
30.08.2016
19:34:48
ну вот поиск ответа на вопрос “почему тормозит” превращается в поиск подходящей метрики, которая покажет корреляцию

nikoinlove
30.08.2016
19:35:17
А еще их аггрегировать можно:)

Daniel
30.08.2016
19:35:27
а вот это надо с умом делать

Phil
30.08.2016
19:35:41
Так. Вот посмотрел прометеус алертинг. Расписания не нашел. Достаточно муторно. Как подключить свой плагин сходу не понял. И можно ли вообще кроме как через ещё один сервис и вебхук. Как например простую задачу "пингуем 20 хостов, алертим состояния" решить я даже сходу не знаю

Vladimir
30.08.2016
19:35:53
и потом удивляются почему оно не то показывает

nikoinlove
30.08.2016
19:36:13
И все разъезжается красиво
Мм

Phil
30.08.2016
19:36:21

Google

Daniel
30.08.2016
19:36:26
я тоже ведь не знаю, че как
у меня к прометею роман интерфейс обеспечивает

Phil
30.08.2016
19:37:28
Я просто подозреваю, что как алертер мало что до nagios-clone дотягивает. Вот есть ещё sensu и bosun. Но сходу тоже не понятно, потому что они все заводят сначала песню о метриках

Vladimir
30.08.2016
19:38:04

Daniel
30.08.2016
19:38:19
девопсный
measure, блеать!

Phil
30.08.2016
19:39:07
подход чего? я вообще про метрики не интересуюсь - мне алертер состояний нужен. и кстати вам тоже, потому что любой доклад заканчивается "и тут я начал настраивать алерты"

Denis 災 nobody
30.08.2016
19:39:43

Vladimir
30.08.2016
19:39:56

Admin
ERROR: S client not available

Phil
30.08.2016
19:41:33

Vladimir
30.08.2016
19:41:53
а деградация сервиса волнует

Phil
30.08.2016
19:42:59
Тебя не может не волновать смерть процента. Она может быть не критична и волновать мало, но просто не волновать не может. Про 10000 мы уже говорили - мы все их знаем в лицо. А остальные?

Vladimir
30.08.2016
19:43:20

Phil
30.08.2016
19:43:45
Это другой вопрос. Но о ней надо знать что ли

Vladimir
30.08.2016
19:43:52
ну ты можешь о ней знать из графиков
нет данных - надо пойти на хост и попырить

Daniel
30.08.2016
19:43:59
если их 4, как у меня - смерть одного повод для алертов

Google

Daniel
30.08.2016
19:44:36
если их будет 10 - я даже отключу sms, оно до утра прекрасно подождет

Vladimir
30.08.2016
19:45:37
а, ну физические проблемы с железом еще

Phil
30.08.2016
19:46:12
Так. Верните меня на место. А зачем все эти оправдания, если можно просто мониторить состояния. Деградация это в конечном итоге тоже состояние

Vladimir
30.08.2016
19:46:29
просто такие состояния удобно описывать метриками

Daniel
30.08.2016
19:46:50
потому что хер ты поймешь по состояниям, как оно себя в целом чувствует

Phil
30.08.2016
19:47:33

Vladimir
30.08.2016
19:47:35
мониторинг от SLA удобно описывать метриками
мониторинг от железа удобно чеками

Phil
30.08.2016
19:48:01
Тип того

Vladimir
30.08.2016
19:48:19
проблема в том, что реально одно не заменяет другое, хотя все пытаются
а, ну и имея метрики можно делать простенький анализ

Phil
30.08.2016
19:48:38
Правда мониторинг от SLA в итоге тебе всё равно дает состояние, которое можно смотреть чеками. Я вот где не понимаю разницы. Только получение состояния разное
Я не отрицаю метрик
У меня недопонимание с отрицанием чеков в том числе и хостов

Vladimir
30.08.2016
19:50:04

Phil
30.08.2016
19:54:49
Мы из каких-то разных миров. У меня упала сеть и я хочу об этом знать и не хочу получить 100 смс от сервисов за этой сетью. У меня есть резервы и они тоже иногда помирают, знать о них чуть ли не важнее, чем об основном сервисе. Есди у меня 10 серверов и один из них упал, то я как бы хочу послать туда замену. Я об этом должен знать. Ну и да. Я утверждаю, что 100% HA вширину не бывает. Всегда узкие места и единые точки отказа типа БД или стораджа.
послать замену даже если это не влияет на текущую работу. или есть какое-то волшебство, позволяющее на все это забить?

Vladimir
30.08.2016
19:56:32

Daniel
30.08.2016
19:56:40
есть волшебство, которое позволяет генерить эти алерты из метрик

Vladimir
30.08.2016
19:56:53
есть места где метрики прям удобно использовать
пример выше - дропы

Denis 災 nobody
30.08.2016
19:56:57
У заббикса что-то было на тему, что если упал гейт, не надо слать о падениях серверов за этим гейтом