@metrics_ru

« Назад

Страница 172 из 681

Далее »

Oleg ?

31.05.2017
06:49:02

? у меня каждый час настроен слак хук посылать алерты

User ?

31.05.2017
06:49:57

Неправильно понял проблему твою.

Vladimir

31.05.2017
06:51:07

Я не знаю про алерт манагер, но в том числе встречал что то что тебе нужно зовется гистерезисом, а конкретно разные уровни алертинга и превращения в ок

Andor

31.05.2017
06:53:35

Так это тебе надо инхеританс алертов сделать, а не тупой сайленс

Google

Andor

31.05.2017
06:54:09

Т.е. если в алертах совпадают такие-то поля, то считать их зависящими друг от друга и слать только тот что важнее

Там даже в примерах такое было

Oleg ?

31.05.2017
06:54:40

сейчас поищу

спасибо

Dmitry

31.05.2017
08:30:14

кстати, а можно в прометее делать проверки типа if (up == 1) and (service == down) ALERT ...

Евгений

31.05.2017
08:34:40

А group by?

Andor

31.05.2017
08:40:11

логическое and делается через and on

https://www.robustperception.io/combining-alert-conditions/

вот вам статья про это

Dmitry

31.05.2017
08:41:12

круто, спс

and on () hour() > 9 < 17 # From 9am to 5pm UTC.

вот кстати кусок для предыдущего гражданина

Евгений

31.05.2017
08:47:30

А group by не поможет?

Google

Andrey

31.05.2017
16:09:54

#RIPE #link ишь чего бывает https://www.ripe.net/participate/ripe/wg/mat

lastsky

31.05.2017
17:40:03

господа, а вот как правильнее всего задетектить ребут узла если он очень быстро ребутнулся, мне нужен алерт в alertmanager. навскидку мне подумалось что нужно смотреть на метрику node_boot_time. верно ж?

ну и алертить правилом, что если < 30 минут назад, например, произошел ребут.

может есть более красивые/правильные решения?

Alexander

31.05.2017
17:45:31

По-моему, вполне нормальное решение.

ptchol

31.05.2017
17:48:40

если есть аптайм можно просто смотреть что следующее значение меньше предыдущего.

Alexander

31.05.2017
17:49:32

если есть аптайм можно просто смотреть что следующее значение меньше предыдущего.

Тогда сработает один раз только

lastsky

31.05.2017
17:55:24

теперь вот думаю, то ли если node_boot_time changed, то ли если node_boot_time < 30 min ago.

без математики наверное более правильно будет, но как тогда авторезолв сделать.

есть node_boot_time и оно в unix time, в общем. а на хостах сидят prometheus node_exporter'ы.

Paul

31.05.2017
17:57:41

коллеги по прометею, кто как мониторит SMART?

lastsky

31.05.2017
17:59:56

коллеги по прометею, кто как мониторит SMART?

мне кажется с момента как депрекейтнули megacli, остаётся только скриптами класть text_file метрики.

Vladimir

31.05.2017
18:08:00

В линуксе есть boot uuid

Надо мониторить его изменение

Так как это единственный абсолютно достоверный источник информации

/proc/sys/kernel/random/boot_id

Изменение его гарантирует что это был ребут

А ещё к нему можно привязывать данные

Чтобы мерять что то и знать что был ребут

lastsky

31.05.2017
18:14:40

хмммммммммммммм

Google

Vladimir

31.05.2017
18:15:42

Я не знаю кто это коллектит правда

lastsky

31.05.2017
18:15:59

так вот в том то и дело, что никто )

Vladimir

31.05.2017
18:16:07

Но надо именно так

Andrey

31.05.2017
18:16:12

а чем uptime не надёжен?

lastsky

31.05.2017
18:16:12

только text_file писать туда

а вот если у бубунды live patch накатится, интересно, он сменится или нет. пошел узнаю )

Paul

31.05.2017
18:26:36

Я не знаю кто это коллектит правда

секуристы такое очень любят

Евгений

31.05.2017
18:35:02

а чем uptime не надёжен?

С ним всё в порядке, для этой задачи он кажется разумнее

Andrey

31.05.2017
20:03:43

господа, а вот как правильнее всего задетектить ребут узла если он очень быстро ребутнулся, мне нужен алерт в alertmanager. навскидку мне подумалось что нужно смотреть на метрику node_boot_time. верно ж?

process_start_time_seconds

Andor

31.05.2017
20:10:41

Это аптайм процесса, а не ос

lastsky

31.05.2017
20:15:07

http://docs.grafana.org/guides/whats-new-in-v4-3/

Release Highlights: New Heatmap Panel

lastsky

31.05.2017
20:15:35

ого, это та самая панель :)

Admin

ERROR: S client not available

lastsky

31.05.2017
20:16:57

Это аптайм процесса, а не ос

да, это аптайм node_exporter # HELP process_start_time_seconds Start time of the process since unix epoch in seconds. # TYPE process_start_time_seconds gauge process_start_time_seconds 1.49558882545e+09

Andrey

31.05.2017
20:17:25

Это аптайм процесса, а не ос

задача же задетектить ребут а не получить аптайм. эту метрику можно использовать.

lastsky

31.05.2017
20:18:05

задача же задетектить ребут а не получить аптайм. эту метрику можно использовать.

ложное срабатывание будет когда я обновлю конфигурацию node_exporter. в этом случае node_boot_time решит проблему и так. пока ищу откуда он берет этот boot_time.

Andrey

31.05.2017
20:30:06

ложное срабатывание будет когда я обновлю конфигурацию node_exporter. в этом случае node_boot_time решит проблему и так. пока ищу откуда он берет этот boot_time.

node_boot_time он берет из /proc/stat

btime

lastsky

31.05.2017
20:39:48

ага, https://github.com/prometheus/node_exporter/blob/61f36ac1ab87c40f7ce42de00908d7101c223217/vendor/github.com/prometheus/procfs/stat.go#L38

Google

Dmitry

01.06.2017
09:00:36

что скажете?

В рамках рубрики Как интересно убить время и послушать умных людей, вами от нас этот плейлист докладов с прошедшей UPTIMEDAY. Рассказывали про системы мониторинга в непростых и больших проектах. https://goo.gl/J46Uiz

смотрел кто?

Andor

01.06.2017
09:03:43

Женя клёвый

именно этот доклад не видел, но он клёвый

Nklya