@metrics_ru

Страница 427 из 681
Алексей
22.01.2018
21:54:30
нормальный мониторинг короткоживущих сущностей.

пром завершенный ага.

но крючки на будущее многиеделают

M
22.01.2018
21:54:52
а сейчас разве не нормальный?

Google
M
22.01.2018
21:54:58
Алексей
22.01.2018
21:55:35
а сейчас разве не нормальный?
а. не правильно тя понял. да сейчас уже нормальный.

M
22.01.2018
22:02:38
а. не правильно тя понял. да сейчас уже нормальный.
ты часто говорил что у него проблема с не краткосрояными, это уже изменилось?

Алексей
22.01.2018
22:02:52
нет. 15 дней и досвидос

M
22.01.2018
22:02:53
или по прежнему графит?

((

так обидно и ничего не сделать?

а в будущем планируется на длительный период, или это принципиально было сделано что короткий период

Алексей
22.01.2018
22:09:18
ну они там remote_write предлагают

Роман
22.01.2018
22:10:25
Коллеги, а как можно прометеем мониторить наличие эндпоинтов, сервисов и ингрессов кубернетеса? То есть, я хочу знать, что, допустим, у меня существует эндпоинт и, если он вдруг пропадёт, то его значение (их количество) будет равно нулю и я получу алерт.

Роман
23.01.2018
06:07:33
Эмм, ну up же для каждого таргета, не?
Не совсем понял. Я хочу монитроить сущности, не являющиеся подами и деплойментами.

Andrew
23.01.2018
06:08:55
Ну ок, я не очень представляю как это выглядит со стороны кубера, но вопрос - эти эндпойнты идут отдельной метрикой в проме?

Google
Oleg ?
23.01.2018
06:14:45
Ребят привет. Использует кто ? https://github.com/messagebird/sachet

Alex
23.01.2018
06:48:31
кто юзал

?

Роман
23.01.2018
07:10:15
Ну ок, я не очень представляю как это выглядит со стороны кубера, но вопрос - эти эндпойнты идут отдельной метрикой в проме?
Если бы шли, вопроса бы не возникло. Просто мало ли, вдруг кто-то сталкивался и знает экспортер какой-то, который их собирает.

Oleg ?
23.01.2018
07:22:25
кто юзал
я и юзаю) просто вопрос был, уже решил)

Andrew
23.01.2018
07:23:04
и как, шлет смс-ки? :D

Bogdan (SirEdvin)
23.01.2018
07:42:46
так обидно и ничего не сделать?
Можно изменить, у меня вот 60 стоит. Теоретически внешними тулзами можно сделать ретеншн для отдельных рядов.

Andrew
23.01.2018
07:44:56
угу, кстати да, ретеншен же указывается при запуске - я 30 поставил

Oleg ?
23.01.2018
07:46:18
Вот так примерно



через инфобип настроил

Andrew
23.01.2018
07:47:45
слуушай, а на основе чего взводишь host_down?

недоступность таргета для скрейпа?

Dorian
23.01.2018
07:53:35
Когда пром будет string поддерживать ?

Есть ли у кого инфа на этот счёт ?

Есть мысль заменить nrpe

Paul
23.01.2018
07:54:48
Когда пром будет string поддерживать ?
что значит - поддерживать strings?

Google
Dorian
23.01.2018
07:56:12
Ват?

Paul
23.01.2018
07:57:43
я пытаюсь понять, чего именно вы хотите

задача-то какая?

Andrew
23.01.2018
07:57:54
т.е. чтобы значение метрики содержало текст, а не число?

Dorian
23.01.2018
07:58:04
Да

Paul
23.01.2018
07:58:45
а зачем?

что вы будете делать с метрикой в виде текста?

Dorian
23.01.2018
07:58:56
Задача хранить состояния не 1/0 а значением

Проходиться regex и решать все ли с ней в порядке

Например

Как сейчас нагиос тот же делает с nrpe плагином

Andrew
23.01.2018
07:59:55
по моему это не тот инструмент для такой задачи

Dorian
23.01.2018
08:00:49
Тогда бы можно отказаться от нагиос

Хотя без трапов вида dying gasp может быть тяжело

Или я наркоман?

Роман
23.01.2018
08:05:47
Blackbox
Выглядит неплохо, но не то немного.

Sergey
23.01.2018
08:09:22
Или я наркоман?
https://landing.google.com/sre/book/chapters/monitoring-distributed-systems.html особо смотреть на white-box and black-box

Oleg ?
23.01.2018
08:18:59
слуушай, а на основе чего взводишь host_down?
в данном случае - да, исторически сложилось)

по сути это просто же alertname

Google
Andrew
23.01.2018
08:20:23
ну я больше о сути алерта. Можно ли считать host down если скрейп не происходит? Т.е. можно ли приравнять это к icmp availability.

Bogdan (SirEdvin)
23.01.2018
08:38:13
ну я больше о сути алерта. Можно ли считать host down если скрейп не происходит? Т.е. можно ли приравнять это к icmp availability.
Если вы про пром, у каждого job есть метрика up. Стоит заметить, она не появится, если скрап не прошел хотя бы раз.

Andrew
23.01.2018
08:39:13
ну да, это-то понятно. Только это может значит недоступность экспортера, но не самого узла например

Paul
23.01.2018
08:39:36
Stanislav
23.01.2018
08:40:31
теперь он показывает латентность
Не путайте латентность и latency, ok?

Andrew
23.01.2018
08:40:50
так то да, НО, для этого как раз и есть whitebox метрики, по которым уже ясно, что хоть и icmp отвечает - хост мертв. При этом если icmp недоступен, то понятно, что совсем все плохо. Т.е. в идеале - это совмещение всех этих метрик.

Bogdan (SirEdvin)
23.01.2018
08:41:54
Мне кажется, что хост недоступен - это не совсем нужная метрика. По факту же вам важно, что какой-то ресурс недоступен, скорее всего. Или я ошибаюсь?

То есть, возможно, стоит нафигашить blackbox или consul чеков для ресурсов?

Paul
23.01.2018
08:42:39
Admin
ERROR: S client not available

Andrew
23.01.2018
08:44:21
ну в целом можно думать так: по недоступности экспортера взводить host down, при этом понимая, что есть два варианта: 1. Упал только экспортер - это тоже очень плохо и надо сообщать и идти поднимать. 2. упал целиком хост, или он в предсмертном состоянии - тоже мы об этом узнаем из метрики up, т.к. value станет down.

при любом раскладе мы получаем полезную информированность.

Navern
23.01.2018
09:04:27
еще есть oklog который может быть интересно, но я пока не знаю ни одного человека, кто бы его щупал
О, оклог это респект) я как то когда ичкал больше инфы по всяким решениям наткнулся на пост про эту тему. Жаль чувак его походу совсем в свободное от остальноно время пилит) было бы интересно посмотреть в работе)

Марк ☢
23.01.2018
09:37:02
Не путайте латентность и latency, ok?
Судя по коду — его писали гомосексуалисты, так что я всё верно написал

Artem
23.01.2018
09:37:33
латентность это оч размазанный термин

Stanislav
23.01.2018
09:37:34
Обосновал, чо.

Sergey
23.01.2018
09:37:38
о господи, Марк набежал в церковь и устроил здесь ceph-ru

Artem
23.01.2018
09:37:40
если ты о пидарасах подумал - уже латентный пидр

Марк ☢
23.01.2018
09:37:55
началось, блять

Vladimir
23.01.2018
09:39:30
народ

Google
Vladimir
23.01.2018
09:39:47
@aabramovich продолжишь - пойдешь в бан.

в смысле в рид онли

Artem
23.01.2018
09:40:14
молчу, сир ?

Navern
23.01.2018
09:41:24
Гошном, как я понимаю

И идея оч прикольная

Vladimir
23.01.2018
09:41:37
да

там авторов больше 1 )

Navern
23.01.2018
09:43:25
хм..ну в изначальном посте, который я читал(оч длинный с описанием что для чего) он писал что начал его 1, чтобы сделать что-то такое для логов как прометеус для монитроинга

мне показалось что он тогда писал 1

надо почекать гитхуб

Andrew
23.01.2018
09:53:11
а кто как собирает кастомные метрики, которые надо генерить своим каким-нибудь скриптом?

Bogdan (SirEdvin)
23.01.2018
09:54:39
Зависит от скрипта. Если он тянет данные из бд, то через соответствующий экспортер обычно можно, иначе самописным или push gateway, если лень делать самописный, наверное.

Navern
23.01.2018
09:55:03
там авторов больше 1 )
https://github.com/oklog/oklog/graphs/contributors ну судя по коммитам он его всё таки в соло пилит

https://peter.bourgon.org/ok-log/ вот кстати та статья

хотя это не совсем сюда наверное, лан

Bogdan (SirEdvin)
23.01.2018
10:00:32
Вроде отдельного чата по логам пока нет ..

Navern
23.01.2018
10:11:49
и так уже слишком много чатов с ондими и теми же людьми

Bogdan (SirEdvin)
23.01.2018
10:12:08
Это да)

Andrew
23.01.2018
10:31:56
Зависит от скрипта. Если он тянет данные из бд, то через соответствующий экспортер обычно можно, иначе самописным или push gateway, если лень делать самописный, наверное.
нашел такой вариант https://github.com/influxdata/telegraf/tree/master/plugins/outputs/prometheus_client А телеграф в свою очередь запускает нужные скрипты через exec.input модуль, получает вывод и экспортит его для Прома. Норм? :)

Andor
23.01.2018
10:32:29
Вцелом работает

Страница 427 из 681