
Алексей
22.01.2018
21:54:30
нормальный мониторинг короткоживущих сущностей.
пром завершенный ага.
но крючки на будущее многиеделают

M
22.01.2018
21:54:52
а сейчас разве не нормальный?

Google

M
22.01.2018
21:54:58

Алексей
22.01.2018
21:55:35

M
22.01.2018
22:02:38

Алексей
22.01.2018
22:02:52
нет. 15 дней и досвидос

M
22.01.2018
22:02:53
или по прежнему графит?
((
так обидно и ничего не сделать?
а в будущем планируется на длительный период, или это принципиально было сделано что короткий период

Алексей
22.01.2018
22:09:18
ну они там remote_write предлагают

Роман
22.01.2018
22:10:25
Коллеги, а как можно прометеем мониторить наличие эндпоинтов, сервисов и ингрессов кубернетеса? То есть, я хочу знать, что, допустим, у меня существует эндпоинт и, если он вдруг пропадёт, то его значение (их количество) будет равно нулю и я получу алерт.

Andrew
23.01.2018
05:51:37
Коллеги, а как можно прометеем мониторить наличие эндпоинтов, сервисов и ингрессов кубернетеса? То есть, я хочу знать, что, допустим, у меня существует эндпоинт и, если он вдруг пропадёт, то его значение (их количество) будет равно нулю и я получу алерт.
Эмм, ну up же для каждого таргета, не?

Роман
23.01.2018
06:07:33

Andrew
23.01.2018
06:08:55
Ну ок, я не очень представляю как это выглядит со стороны кубера, но вопрос - эти эндпойнты идут отдельной метрикой в проме?

Google

Oleg ?
23.01.2018
06:14:45
Ребят привет. Использует кто ? https://github.com/messagebird/sachet

Alex
23.01.2018
06:48:31
кто юзал
?

Zhenia
23.01.2018
06:56:31

Роман
23.01.2018
07:10:15

Oleg ?
23.01.2018
07:22:25
кто юзал
я и юзаю) просто вопрос был, уже решил)

Andrew
23.01.2018
07:23:04
и как, шлет смс-ки? :D

Bogdan (SirEdvin)
23.01.2018
07:42:46

Andrew
23.01.2018
07:44:56
угу, кстати да, ретеншен же указывается при запуске - я 30 поставил

Oleg ?
23.01.2018
07:46:18
Вот так примерно
через инфобип настроил

Andrew
23.01.2018
07:47:45
слуушай, а на основе чего взводишь host_down?
недоступность таргета для скрейпа?

Dorian
23.01.2018
07:53:35
Когда пром будет string поддерживать ?
Есть ли у кого инфа на этот счёт ?
Есть мысль заменить nrpe

Paul
23.01.2018
07:54:48

Dorian
23.01.2018
07:55:08

Google

Dorian
23.01.2018
07:56:12
Ват?

Paul
23.01.2018
07:57:43
я пытаюсь понять, чего именно вы хотите
задача-то какая?

Andrew
23.01.2018
07:57:54
т.е. чтобы значение метрики содержало текст, а не число?

Dorian
23.01.2018
07:58:04
Да

Paul
23.01.2018
07:58:45
а зачем?
что вы будете делать с метрикой в виде текста?

Dorian
23.01.2018
07:58:56
Задача хранить состояния не 1/0 а значением
Проходиться regex и решать все ли с ней в порядке
Например
Как сейчас нагиос тот же делает с nrpe плагином

Andrew
23.01.2018
07:59:55
по моему это не тот инструмент для такой задачи

Dorian
23.01.2018
08:00:49
Тогда бы можно отказаться от нагиос
Хотя без трапов вида dying gasp может быть тяжело
Или я наркоман?

Роман
23.01.2018
08:05:47
Blackbox
Выглядит неплохо, но не то немного.

Sergey
23.01.2018
08:09:22
Или я наркоман?
https://landing.google.com/sre/book/chapters/monitoring-distributed-systems.html
особо смотреть на white-box and black-box

Dorian
23.01.2018
08:12:26

Oleg ?
23.01.2018
08:18:59
по сути это просто же alertname

Google

Andrew
23.01.2018
08:20:23
ну я больше о сути алерта.
Можно ли считать host down если скрейп не происходит? Т.е. можно ли приравнять это к icmp availability.

Bogdan (SirEdvin)
23.01.2018
08:38:13

Andrew
23.01.2018
08:39:13
ну да, это-то понятно.
Только это может значит недоступность экспортера, но не самого узла например

Paul
23.01.2018
08:39:36

Stanislav
23.01.2018
08:40:31

Andrew
23.01.2018
08:40:50
так то да, НО, для этого как раз и есть whitebox метрики, по которым уже ясно, что хоть и icmp отвечает - хост мертв.
При этом если icmp недоступен, то понятно, что совсем все плохо.
Т.е. в идеале - это совмещение всех этих метрик.

Bogdan (SirEdvin)
23.01.2018
08:41:54
Мне кажется, что хост недоступен - это не совсем нужная метрика. По факту же вам важно, что какой-то ресурс недоступен, скорее всего. Или я ошибаюсь?
То есть, возможно, стоит нафигашить blackbox или consul чеков для ресурсов?

Paul
23.01.2018
08:42:39

Admin
ERROR: S client not available

Andrew
23.01.2018
08:44:21
ну в целом можно думать так:
по недоступности экспортера взводить host down, при этом понимая, что есть два варианта:
1. Упал только экспортер - это тоже очень плохо и надо сообщать и идти поднимать.
2. упал целиком хост, или он в предсмертном состоянии - тоже мы об этом узнаем из метрики up, т.к. value станет down.
при любом раскладе мы получаем полезную информированность.

Navern
23.01.2018
09:04:27

Марк ☢
23.01.2018
09:37:02

Artem
23.01.2018
09:37:33
латентность это оч размазанный термин

Stanislav
23.01.2018
09:37:34
Обосновал, чо.

Sergey
23.01.2018
09:37:38
о господи, Марк набежал в церковь и устроил здесь ceph-ru

Artem
23.01.2018
09:37:40
если ты о пидарасах подумал - уже латентный пидр

Марк ☢
23.01.2018
09:37:55
началось, блять

Vladimir
23.01.2018
09:39:30
народ

Google

Vladimir
23.01.2018
09:39:47
@aabramovich продолжишь - пойдешь в бан.
в смысле в рид онли

Artem
23.01.2018
09:40:14
молчу, сир ?

Vladimir
23.01.2018
09:40:24

Navern
23.01.2018
09:41:24
Гошном, как я понимаю
И идея оч прикольная

Vladimir
23.01.2018
09:41:37
да
там авторов больше 1 )

Navern
23.01.2018
09:43:25
хм..ну в изначальном посте, который я читал(оч длинный с описанием что для чего) он писал что начал его 1, чтобы сделать что-то такое для логов как прометеус для монитроинга
мне показалось что он тогда писал 1
надо почекать гитхуб

Andrew
23.01.2018
09:53:11
а кто как собирает кастомные метрики, которые надо генерить своим каким-нибудь скриптом?

Bogdan (SirEdvin)
23.01.2018
09:54:39
Зависит от скрипта. Если он тянет данные из бд, то через соответствующий экспортер обычно можно, иначе самописным или push gateway, если лень делать самописный, наверное.

Navern
23.01.2018
09:55:03
там авторов больше 1 )
https://github.com/oklog/oklog/graphs/contributors
ну судя по коммитам он его всё таки в соло пилит
https://peter.bourgon.org/ok-log/
вот кстати та статья
хотя это не совсем сюда наверное, лан

Bogdan (SirEdvin)
23.01.2018
10:00:32
Вроде отдельного чата по логам пока нет ..

Navern
23.01.2018
10:11:49
и так уже слишком много чатов с ондими и теми же людьми

Bogdan (SirEdvin)
23.01.2018
10:12:08
Это да)

Andrew
23.01.2018
10:31:56

Andor
23.01.2018
10:32:29
Вцелом работает