@metrics_ru

Страница 172 из 681
Oleg ?
31.05.2017
06:49:02
? у меня каждый час настроен слак хук посылать алерты

User ?
31.05.2017
06:49:57
Неправильно понял проблему твою.

Vladimir
31.05.2017
06:51:07
Я не знаю про алерт манагер, но в том числе встречал что то что тебе нужно зовется гистерезисом, а конкретно разные уровни алертинга и превращения в ок

Andor
31.05.2017
06:53:35
Так это тебе надо инхеританс алертов сделать, а не тупой сайленс

Google
Andor
31.05.2017
06:54:09
Т.е. если в алертах совпадают такие-то поля, то считать их зависящими друг от друга и слать только тот что важнее

Там даже в примерах такое было

Oleg ?
31.05.2017
06:54:40
сейчас поищу

спасибо

Dmitry
31.05.2017
08:30:14
кстати, а можно в прометее делать проверки типа if (up == 1) and (service == down) ALERT ...

Евгений
31.05.2017
08:34:40
А group by?

Andor
31.05.2017
08:40:11
логическое and делается через and on

https://www.robustperception.io/combining-alert-conditions/

вот вам статья про это

Dmitry
31.05.2017
08:41:12
круто, спс

and on () hour() > 9 < 17 # From 9am to 5pm UTC.

вот кстати кусок для предыдущего гражданина

Евгений
31.05.2017
08:47:30
А group by не поможет?

Google
Andrey
31.05.2017
16:09:54
#RIPE #link ишь чего бывает https://www.ripe.net/participate/ripe/wg/mat

lastsky
31.05.2017
17:40:03
господа, а вот как правильнее всего задетектить ребут узла если он очень быстро ребутнулся, мне нужен алерт в alertmanager. навскидку мне подумалось что нужно смотреть на метрику node_boot_time. верно ж?

ну и алертить правилом, что если < 30 минут назад, например, произошел ребут.

может есть более красивые/правильные решения?

Alexander
31.05.2017
17:45:31
По-моему, вполне нормальное решение.

ptchol
31.05.2017
17:48:40
если есть аптайм можно просто смотреть что следующее значение меньше предыдущего.

lastsky
31.05.2017
17:55:24
теперь вот думаю, то ли если node_boot_time changed, то ли если node_boot_time < 30 min ago.

без математики наверное более правильно будет, но как тогда авторезолв сделать.

есть node_boot_time и оно в unix time, в общем. а на хостах сидят prometheus node_exporter'ы.

Paul
31.05.2017
17:57:41
коллеги по прометею, кто как мониторит SMART?

lastsky
31.05.2017
17:59:56
коллеги по прометею, кто как мониторит SMART?
мне кажется с момента как депрекейтнули megacli, остаётся только скриптами класть text_file метрики.

Vladimir
31.05.2017
18:08:00
В линуксе есть boot uuid

Надо мониторить его изменение

Так как это единственный абсолютно достоверный источник информации

/proc/sys/kernel/random/boot_id

Изменение его гарантирует что это был ребут

А ещё к нему можно привязывать данные

Чтобы мерять что то и знать что был ребут

lastsky
31.05.2017
18:14:40
хмммммммммммммм

Google
Vladimir
31.05.2017
18:15:42
Я не знаю кто это коллектит правда

lastsky
31.05.2017
18:15:59
так вот в том то и дело, что никто )

Vladimir
31.05.2017
18:16:07
Но надо именно так

Andrey
31.05.2017
18:16:12
а чем uptime не надёжен?

lastsky
31.05.2017
18:16:12
только text_file писать туда

а вот если у бубунды live patch накатится, интересно, он сменится или нет. пошел узнаю )

Paul
31.05.2017
18:26:36
Я не знаю кто это коллектит правда
секуристы такое очень любят

Евгений
31.05.2017
18:35:02
а чем uptime не надёжен?
С ним всё в порядке, для этой задачи он кажется разумнее

Andor
31.05.2017
20:10:41
Это аптайм процесса, а не ос

lastsky
31.05.2017
20:15:07
http://docs.grafana.org/guides/whats-new-in-v4-3/

Release Highlights: New Heatmap Panel

lastsky
31.05.2017
20:15:35
ого, это та самая панель :)

Admin
ERROR: S client not available

lastsky
31.05.2017
20:16:57
Это аптайм процесса, а не ос
да, это аптайм node_exporter # HELP process_start_time_seconds Start time of the process since unix epoch in seconds. # TYPE process_start_time_seconds gauge process_start_time_seconds 1.49558882545e+09

Andrey
31.05.2017
20:17:25
Это аптайм процесса, а не ос
задача же задетектить ребут а не получить аптайм. эту метрику можно использовать.

lastsky
31.05.2017
20:18:05
задача же задетектить ребут а не получить аптайм. эту метрику можно использовать.
ложное срабатывание будет когда я обновлю конфигурацию node_exporter. в этом случае node_boot_time решит проблему и так. пока ищу откуда он берет этот boot_time.

lastsky
31.05.2017
20:39:48
ага, https://github.com/prometheus/node_exporter/blob/61f36ac1ab87c40f7ce42de00908d7101c223217/vendor/github.com/prometheus/procfs/stat.go#L38

Google
Dmitry
01.06.2017
09:00:36
что скажете?

В рамках рубрики Как интересно убить время и послушать умных людей, вами от нас этот плейлист докладов с прошедшей UPTIMEDAY. Рассказывали про системы мониторинга в непростых и больших проектах. https://goo.gl/J46Uiz

смотрел кто?

Andor
01.06.2017
09:03:43
Женя клёвый

именно этот доклад не видел, но он клёвый

Nklya
01.06.2017
09:09:26
Там второй доклад после Жени очень странный

Alex
01.06.2017
09:36:46
"Как надо хранить данные" — MySQL ?

Alex
01.06.2017
10:09:05
Судя по чуваку в кепаре писали они его не в тех местах)

Dmitry
01.06.2017
10:10:51
Alex
01.06.2017
10:12:05
Женя клёвый
кто по мальчикам тут?

Евгений
01.06.2017
10:13:27
Женя клёвый
Это чуваки с графиками, где тыши алертов? А ещё они кастомят телеграм, но не делятся?

Алексей
01.06.2017
10:14:04
ага

позовите кто нить его сюда ? @eapotapov вроде он :)

Евгений
01.06.2017
10:17:29
Они наверняка ещё и по колено в битрексе давным давно, ничего клёвого

Алексей
01.06.2017
10:25:24
будто бы факт использования ими технологии "а" вместо "б" делает их хорошими или плохими, если это конечно не заббикс.

User ?
01.06.2017
10:34:04
Тут спор возник. Кто как тестирует правила срабатывания алертов (заббикс, пром, что-то своё - не важно)?

Alexey
01.06.2017
11:06:37
смотрел кто?
и даже лично видел ) отличный Парень

Andor
01.06.2017
11:08:59

Страница 172 из 681