@devops_ru

Страница 1049 из 4568
Daniel
30.08.2016
19:19:03
чем кассандра не кассандра?

Vladimir
30.08.2016
19:19:14
чем кассандра не кассандра?
ее нужно готовить правильно

Phil
30.08.2016
19:19:15
Ещё одна чем что? Чем немасштабируемый достаточно прожорливый my/pg sql?

Vladimir
30.08.2016
19:19:17
а ни у кого не получилось пока

Google
Daniel
30.08.2016
19:19:24
разве?

у меня отлично она приготовлена, по мою задачу

Vladimir
30.08.2016
19:19:40
разве?
Угу. Были попытки прикрутить кассандру - Cyanite, KairosDB, Heroic

еще чо-то такое

но для time-series чот не взлетает

Daniel
30.08.2016
19:20:02
приготовления, правда, включают в себя терабайтный ссд кеш на чтение на каждой ноде

Vladimir
30.08.2016
19:20:07
есть надежда что raintank сделают таки правильно

Daniel
30.08.2016
19:20:30
и в чем пробелма писать таймсериес

Vladimir
30.08.2016
19:20:32
в каждой ноде

пока микс еще

и в чем пробелма писать таймсериес
писать не проблема, читать проблема

точнее читать и писать разом

Google
Daniel
30.08.2016
19:21:00
тоже я нипанимайтунг :(

Vladimir
30.08.2016
19:21:07
и делать это так чтоб люди не ждали по 30-40 секунд на график

Phil
30.08.2016
19:21:09
Что вы со всем этим делаете? Откуда вы столько нужных данных берете?

Vladimir
30.08.2016
19:21:27
Что вы со всем этим делаете? Откуда вы столько нужных данных берете?
да просто, берем десятки тысяч хостов (тм) и считаем топ5 занятого места

Daniel
30.08.2016
19:21:40
у меня 4 прод сервера вваливают примерно 200К метрик в секунду

Phil
30.08.2016
19:21:45
Десятки тысяч хостов - это я тут с гуглем что ли разговариваю?

Vladimir
30.08.2016
19:21:56
Daniel
30.08.2016
19:21:59
не все они нужны, но я пока не понимаю - какие лишние

Vladimir
30.08.2016
19:22:13
Десятки тысяч хостов - это я тут с гуглем что ли разговариваю?
ну чисто для справки - у яндекса сотни тысяч

у гугла по слухам порядка миллиона

но они даже порядков уже не называют

десятки тысяч это уровень вконтактика, одноклассников и прочих

ну и ща у захудалого стартапа тысячи виртуалок на амазоне

Phil
30.08.2016
19:23:01
ну тип того

Ну так это гавно

Количество виртуалок Богу количества виртуалок?

Vladimir
30.08.2016
19:23:36
ну никто не виноват что если хочешь оптимально тратить деньги то это в лучшем случаи 2xE5-2620

а для говнокода таких железок нужно много )

а для говнокода в Machine Learning еще больше

nikoinlove
30.08.2016
19:25:34
200к метрик в графит это захудалая машинка же сдержит

Google
nikoinlove
30.08.2016
19:26:00
Из них 180к никто не читает все равно

Vladimir
30.08.2016
19:27:02
nikoinlove
30.08.2016
19:30:27
Смотря что ты с ними делаешь) если кладешь на хард со скоростью 200к иопс, то да)

Daniel
30.08.2016
19:31:55
иопсы прометей тратит правильно

грфит, правда, тоже можно научить

так что проблем нет

Phil
30.08.2016
19:32:28
кроме ррд все норм тратят иопсы

Daniel
30.08.2016
19:32:36
и не читает дам никто 199К метрик

Vladimir
30.08.2016
19:33:50
работал я как-то в стартапе где любиымым занятием менеджера было вывести на 1 график 200 метрик

и чо то в этой каше искать

Daniel
30.08.2016
19:34:48
ну вот поиск ответа на вопрос “почему тормозит” превращается в поиск подходящей метрики, которая покажет корреляцию

nikoinlove
30.08.2016
19:35:17
А еще их аггрегировать можно:)

Daniel
30.08.2016
19:35:27
а вот это надо с умом делать

Phil
30.08.2016
19:35:41
Так. Вот посмотрел прометеус алертинг. Расписания не нашел. Достаточно муторно. Как подключить свой плагин сходу не понял. И можно ли вообще кроме как через ещё один сервис и вебхук. Как например простую задачу "пингуем 20 хостов, алертим состояния" решить я даже сходу не знаю

Vladimir
30.08.2016
19:35:53
А еще их аггрегировать можно:)
люди иногда делают странные вещи типа 4 ретеншн периода где делают среднее от среднего от среднего от среднего

и потом удивляются почему оно не то показывает

nikoinlove
30.08.2016
19:36:13
И все разъезжается красиво

Мм

Google
Phil
30.08.2016
19:37:28
Я просто подозреваю, что как алертер мало что до nagios-clone дотягивает. Вот есть ещё sensu и bosun. Но сходу тоже не понятно, потому что они все заводят сначала песню о метриках

Daniel
30.08.2016
19:38:19
девопсный

measure, блеать!

Phil
30.08.2016
19:39:07
подход чего? я вообще про метрики не интересуюсь - мне алертер состояний нужен. и кстати вам тоже, потому что любой доклад заканчивается "и тут я начал настраивать алерты"

Denis 災 nobody
30.08.2016
19:39:43
я в ирц до сих пор посиживаю
Ну например это самый простой способ пообщаться с разрабами фрисвича или камаилио

Admin
ERROR: S client not available

Phil
30.08.2016
19:41:33
мониторить сервис а не хосты или софт
В чем 10 отличий? Отрицание мониторинга хостов это вообще какое-то поветрие

Vladimir
30.08.2016
19:41:53
В чем 10 отличий? Отрицание мониторинга хостов это вообще какое-то поветрие
когда их у тебя тысячи то смерть какого-то процента тебя не волнует

а деградация сервиса волнует

Phil
30.08.2016
19:42:59
Тебя не может не волновать смерть процента. Она может быть не критична и волновать мало, но просто не волновать не может. Про 10000 мы уже говорили - мы все их знаем в лицо. А остальные?

Phil
30.08.2016
19:43:45
Это другой вопрос. Но о ней надо знать что ли

Vladimir
30.08.2016
19:43:52
ну ты можешь о ней знать из графиков

нет данных - надо пойти на хост и попырить

Daniel
30.08.2016
19:43:59
если их 4, как у меня - смерть одного повод для алертов

Google
Daniel
30.08.2016
19:44:36
если их будет 10 - я даже отключу sms, оно до утра прекрасно подождет

Vladimir
30.08.2016
19:45:37
Это другой вопрос. Но о ней надо знать что ли
с тем же графитом, меня волнует процентиль времени ответа пользователю, колличество "не 200", потери в любой точке инфраструктуры. А остальное в общем не шибко беспокоит

а, ну физические проблемы с железом еще

Phil
30.08.2016
19:46:12
Так. Верните меня на место. А зачем все эти оправдания, если можно просто мониторить состояния. Деградация это в конечном итоге тоже состояние

Vladimir
30.08.2016
19:46:29
просто такие состояния удобно описывать метриками

Daniel
30.08.2016
19:46:50
потому что хер ты поймешь по состояниям, как оно себя в целом чувствует

Phil
30.08.2016
19:47:33
потому что хер ты поймешь по состояниям, как оно себя в целом чувствует
Эм, а по чему ты это поймешь? По шумам в голове? Ты ведь метрики анализируешь и всё равно даёшь состояние.

Vladimir
30.08.2016
19:47:35
мониторинг от SLA удобно описывать метриками

мониторинг от железа удобно чеками

Phil
30.08.2016
19:48:01
Тип того

Vladimir
30.08.2016
19:48:19
проблема в том, что реально одно не заменяет другое, хотя все пытаются

а, ну и имея метрики можно делать простенький анализ

Phil
30.08.2016
19:48:38
Правда мониторинг от SLA в итоге тебе всё равно дает состояние, которое можно смотреть чеками. Я вот где не понимаю разницы. Только получение состояния разное

Я не отрицаю метрик

У меня недопонимание с отрицанием чеков в том числе и хостов

Vladimir
30.08.2016
19:50:04
У меня недопонимание с отрицанием чеков в том числе и хостов
нет отриация их необходимости. Но объективно мне не очень важно почему у меня дропы - потому что сервис упал или хост упал

Phil
30.08.2016
19:54:49
Мы из каких-то разных миров. У меня упала сеть и я хочу об этом знать и не хочу получить 100 смс от сервисов за этой сетью. У меня есть резервы и они тоже иногда помирают, знать о них чуть ли не важнее, чем об основном сервисе. Есди у меня 10 серверов и один из них упал, то я как бы хочу послать туда замену. Я об этом должен знать. Ну и да. Я утверждаю, что 100% HA вширину не бывает. Всегда узкие места и единые точки отказа типа БД или стораджа.

послать замену даже если это не влияет на текущую работу. или есть какое-то волшебство, позволяющее на все это забить?

Daniel
30.08.2016
19:56:40
есть волшебство, которое позволяет генерить эти алерты из метрик

Vladimir
30.08.2016
19:56:53
есть места где метрики прям удобно использовать

пример выше - дропы

Denis 災 nobody
30.08.2016
19:56:57
У заббикса что-то было на тему, что если упал гейт, не надо слать о падениях серверов за этим гейтом

Страница 1049 из 4568