
Andor
23.01.2018
10:32:43
Но перфекционист внутри меня не очень рад этому

Andrew
23.01.2018
10:33:02
а. Ну да, согласен, выглядит не очень красиво.

Andor
23.01.2018
10:33:05
Надо писать наколенные скрипты (прям как в нагиосе)

Andrew
23.01.2018
10:33:29
просто есть метрики, которые ничто не экспортит, или я пока не нашел :)
И вот для таких приходится писать собственные скрипты

Google

Andrew
23.01.2018
10:33:46
а для них еще и экспортер писать - сильно обременительно и трудозатратно

Navern
23.01.2018
10:34:39

Pablo
23.01.2018
10:35:08

Andrew
23.01.2018
10:37:23
например показатели планок памяти.
извлекаемые из /sys/devices/system/edac/mc/mc...

Andor
23.01.2018
10:38:23

отделение
23.01.2018
10:38:54

Bogdan (SirEdvin)
23.01.2018
10:39:20

Алексей
23.01.2018
15:33:22
Теперь не хочу
Вообще думаю научатся когда типы научатся
Но идеологически они говорят что строки плохо и их не будет

Ivan
23.01.2018
15:41:33

Alexander
23.01.2018
16:17:11

Google

Алексей
23.01.2018
16:18:03
ну они прям при запуске говорили что пром клон гугловой системы. она у них умеет строки но они считают поддержку строк - bad design

Nklya
23.01.2018
16:20:38
Ну заббикс поддерживает строки, а это ж индустриальный стандарт

Bogdan (SirEdvin)
23.01.2018
16:21:18
На самом деле, я на половину согласен, что строки это так себе. А вот поддержка enum или хотя бы какого-то маппинга на выходе было бы неплохо.

отделение
23.01.2018
16:22:28
а то мне надоело смотреть на все эти числовые статусы, забираемые с адаптеков по snmp, например

Andrew
23.01.2018
16:24:33
да, маппинг было бы круто...
а FR есть на это? Никто не смотрел?

Pablo
23.01.2018
16:38:36
FR ?

Andrew
23.01.2018
16:38:50
feature request )

Evgeny
23.01.2018
20:12:44
Подскажите с выбором сервиса, требуется аналог WorldPing (https://worldping.raintank.io/) с несколькими точками проверок из разных регионов России? Есть такой в природе (а если еще и с Grafana будет интегрирован так совсем шоклад)?
(про то что в WorldPing можно добавлять свои ноды в курсе, но хотелось избежать покупки vds в разных регионах и возможно у разных хостеров)
проверок будет достаточно простых http, https, dns и ping с latency

Andrey
23.01.2018
20:32:37
пора наверное уже в фак добавлять :)))

Andrew
23.01.2018
20:32:45
:) точно

Nik
23.01.2018
20:56:24
А для тупых - как нормально отрисовать алерты из прома в графане?
1 - как отобрасить msg? {{msg}} не прокатило
2 - когда я пытаюсь скрыть часть столбцов - сзлопывается вся таблица, остается только время
3 - как посмотреть только за текущее время алерты? А то у меня таблица на 9 листов
4 - как сделать более сложный expr? сейчас из примера
node_load1 > 0.0
, а хотел
1 - (avg without (cpu)(irate(node_cpu{job="node",mode="idle"}[5m])) > 0.5
, но с ним пром при запуске падает, но если его в веб морде передаю - отрабатывает корректно
Попробовал https://github.com/camptocamp/grafana-prometheus-alertmanager-datasource - вообще не полетел, не рисует алерты в принципе (или я не умею его готовить)

Andrew
23.01.2018
21:01:14
я пока смотрю только на это
http://docs.alerta.io/en/latest/
В графане одна кривизна

Dorian
23.01.2018
21:03:00

Алексей
23.01.2018
21:08:59
они умеют маппить value в тег

Dorian
23.01.2018
21:11:06
Я несколько систем только на тегах и выстроил
Все value 0 или 1

Evgeny
23.01.2018
21:21:45

Google

Nik
23.01.2018
21:34:10

Andrey
23.01.2018
21:38:43
зачем на алерты смотреть, алерты должны алертить

отделение
23.01.2018
21:42:10

Nik
23.01.2018
21:53:49

Dorian
23.01.2018
21:55:08
НОК должен смотреть на дашки
Простыни уже для расследованния инцидентов

Alexander
23.01.2018
22:18:53

Nik
23.01.2018
22:19:27

Alexander
23.01.2018
22:19:38
удобно

Nik
23.01.2018
22:19:42
только их с телефона литстаь неудобно
а если еще хочешь скопировать хостнейм чтоб зайти на хост...

Andrew
24.01.2018
05:54:02

Andrew
24.01.2018
05:54:25
Ну или придумывать какие-то workaround, типа встроить в морду алерты ифрейм с графаной :)

Andrey
24.01.2018
06:11:43
алерту мне тут посоветовали и ее вполне достаточно дежурному. Если это класс проблем который он может решить сам, ему даже незачем лезть в графики. А линки на графики уже с эскалационным сообщением уходят кому надо
Хотя смотря у кого какие дежурные, у нас они ребята начинающие

Andrew
24.01.2018
06:19:36
угу, я тоже так думаю, что для базого наблюдения и понимания общего состояния проблем, алерты достаточно в качестве "простыни с проблемами".
А графана все же больше инструмент для анализа уже.

Nik
24.01.2018
07:22:58
Оке, уговорили.
Пойду разверну алерту)

Andor
24.01.2018
08:58:57

Andrew
24.01.2018
08:59:21

Google

Nik
24.01.2018
09:00:03

Andrew
24.01.2018
09:00:26
ну там нагрузки не предполагается, так что думаю не критично

Evgeny
24.01.2018
09:01:11

Andor
24.01.2018
09:02:07
А у хост-трекер только картинки в стиле начала нулевых
Ну и плагин для терраформа есть

Evgeny
24.01.2018
09:03:44

Andor
24.01.2018
09:04:05
Статускейк подороже будет, но не на дофига

Admin
ERROR: S client not available

Andor
24.01.2018
09:05:31
Ещё есть сервисок, который даёт прометей-совместимые метрики (у них внутри патченый блекбокс-экспортер), но я название не запомнил
У них на ДО всё, так что точек в россии нет

Andrew
24.01.2018
09:54:45
А кто-то встречал ошибку скрейпа у Прома - Get url...: EOF?
При этом если курлом забирать - все хорошо отдается.

отделение
24.01.2018
09:57:59

Dan
24.01.2018
10:01:49
bump
Помню, в работе, постараюсь сегодня, но не обещаю на 100%. Но сразу предупреждаю, никаких эпических историй там не было, всё очень приземлённо. Потестировали, погоняли, посмотрели, в итоге ушли на pgsql. Может быть просто нераскурили как следует, фиг его знает. Сами искали единомышленников, но тогда никто и слыхом не слышал про timescale

Evgeny
24.01.2018
14:58:23
Я правильно понимаю, что blackbox_exporter нужно постоянно пинать по HTTP чтобы он пинговал тот или иной хост?

Andor
24.01.2018
14:58:37
да
один запрос - один пинг
к сожалению

Evgeny
24.01.2018
15:02:11
а есть что-нибудь похожее, только чтобы можно было сконфигурировать список и интервал?

Andor
24.01.2018
15:02:26
можешь пропатчить :)

Google

Andor
24.01.2018
15:02:36
ну или телеграф какой-нибудь

отделение
24.01.2018
15:22:39
https://github.com/avito-tech/bioyino
тут всё выглядит как WIP, но решил всё-таки закинуть эту случайную находку сюда

Evgeny
24.01.2018
15:24:45

Nik
24.01.2018
15:30:53
Народ, а так задумано, что ALERT имеет всегда value 1?
`ALERTS{alertname="high_load",alertstate="firing",instance="web1:9000",job="node",mode="idle",severity="warning"} 1 ``
expr: (1
- (avg(irate(node_cpu{job="node",mode="idle"}[5m])) WITHOUT (cpu)))
> 0.6

Andrew
24.01.2018
15:32:01
Ну наверное при alertstate="firing" - значение 1.

отделение
24.01.2018
15:32:25
а какое значение ты ожидаешь там увидеть?

Andrew
24.01.2018
15:32:41
Если 0 - значит не firing :)

отделение
24.01.2018
15:33:22
про «не firing» там есть alertstate="pending"

Andrew
24.01.2018
15:33:37
Ну и value наверно ж 0 тогда?

отделение
24.01.2018
15:34:07
с чего бы? тоже 1.
в 1.8 он в каких-то случаях мог падать в 0, но ненадолго и вообще никуда это применить нельзя было

Nik
24.01.2018
15:35:15
Я ожидал что там будет результат expr

Andrew
24.01.2018
15:35:20
А вот вопрос еще такой.
Можно ли в графане сделать отдельный набор переменных, при выборе одной из которых, в соседнем выпадающем списке, будем применятся другой regexp для фильтрации хостов?

отделение
24.01.2018
15:35:22
в 2.0 я вот смотрю и не вижу, чтобы ALERTS хоть раз был != 1 для чего-либо за последние 12h

Nik
24.01.2018
15:36:33

Andrew
24.01.2018
15:36:35
Т.е. либо это в формате кнопок-переключателей, либо тоже выпадающий список без multivalue, при выборе любого из пунктов, задается определенное значение переменной, которая используется в другом выпадающем списке.

Nik
24.01.2018
15:36:55
и как бы в алерте адекватрно видеть значение expr, не?
и если уже поставил тег firing, нафиг эта единица