
ptchol
01.03.2017
09:40:16
Курл и греп :)

Vladimir
01.03.2017
09:40:27
+1 за курл и греп

Дмитрий
01.03.2017
09:41:20
А если надо мониторить много(сотни) url и ещё бы какой-то дашборд к этому?
Писать самому что-то не очень хочется...

Google

Zon
01.03.2017
09:42:04

ptchol
01.03.2017
09:42:05
Если серьезно, и данные проверки входят в состав блэкбокс тестинга, Заставьте своих тестеров на все эти урлы накидать сценариев в постмане, а сами раньте их ньюманом

lastsky
01.03.2017
09:42:10
у меня на 2 url работает telegraf с модулем http_response. не знаю, что с ним случится, если туда зарядить сотню url. (скорее всего, что-нибудь нехорошее случится) da linka: https://github.com/influxdata/telegraf/tree/master/plugins/inputs/http_response

ptchol
01.03.2017
09:42:39

Zon
01.03.2017
09:43:07
Хостед != селфхостед... Или равно

Дмитрий
01.03.2017
09:43:25
Я имел ввиду селфхостед, конечно.

ptchol
01.03.2017
09:43:33
Сорян, может я попутал

Zon
01.03.2017
09:45:11
Таки равно. Кажется мы босуну такое скармливали

Антон
01.03.2017
09:51:43

ptchol
01.03.2017
09:52:25
Больше сущностей

Дмитрий
01.03.2017
09:53:09

Антон
01.03.2017
09:55:35
ну понятно, что можно поднять prometheus и к нему все что нужно прикрутить, просто это займет время намного больше, чем поднять этот маленький сервис, тут уже от задачи зависит.

Google

lastsky
01.03.2017
09:55:36

Антон
01.03.2017
09:57:59

Дмитрий
01.03.2017
10:01:37

Dmitriy
01.03.2017
10:02:56
http://s1.micp.ru/1KtN8.png

lastsky
01.03.2017
10:03:13

Dmitriy
01.03.2017
10:03:19
http://s3.micp.ru/6LuFh.png
все работает норм

Антон
01.03.2017
10:04:49

lastsky
01.03.2017
10:05:13
если из одного места - то конечно.

Zhenia
01.03.2017
10:05:47
я worldping юзаю для разных мест
бесплатных 2 лямов в месяц - хватает

Дмитрий
01.03.2017
10:08:57

Dmitriy
01.03.2017
10:09:43
Покажи вкладку Time Range

Дмитрий
01.03.2017
10:10:36

Dmitriy
01.03.2017
10:11:03
У тебя за час усредняются значения
Хотя это вроде не сильно должно влиять

Дмитрий
01.03.2017
10:13:00
На предыдущем скрине выбрано Value: current
Разве это не то, что выводится?
Переключился в другой дашборд, а потом обратно - и заработало.
Видимо нужен релоад страницы для отображения.

Антон
01.03.2017
10:16:30
там можно указать интервал через сколько релоадить с траницу автоматически

Google

Дмитрий
01.03.2017
10:19:01
В-общем, с up/down разобрался. Спасибо.
Как-то не додумался туда дробные значения вбить.

Andrey
01.03.2017
12:39:48
кто-нить знает как посмотреть что записано в leveldb?
есть тулзы какие-то?

Maxim
01.03.2017
15:35:26

Oleg ?
01.03.2017
15:41:48
That's the group_interval, which is intended to stop you getting spammed from alerts changing status within a group.
You should never need to change resolve_timeout in normal circumstances.
Оно по умолчанию 5мин и более
Сегодня не успел протестить
Заатра буду пробовать
?

Maxim
01.03.2017
15:43:13

Алексей
02.03.2017
12:07:56
народ есть кто серьезнь Infkuxdb использует ?

Алексей
02.03.2017
12:08:14
поставил тут ее под нагрузку под тестовую хочу понять можно ли что то сделать с результатами
щас у меня получается такой вот график
очень не нравятся просадки по скорости записи. influx-stress генерирует стабильную полосу в 120к
но на графике мы видим 100к и пилу

Oleg ?
02.03.2017
13:14:44
Ребят, а кто через прометей мониторит nginx ? коннекты, статусы? какой exporter юзаете?

lastsky
02.03.2017
13:17:40
есть nginx_exporter но мне лень было из него собирать пакет, и я задействовал telegraf )
и в nginx надо включить stub модуль чтобы оно мониторило

Google

lastsky
02.03.2017
13:18:48
https://nginx.org/en/docs/http/ngx_http_stub_status_module.html - вот всё что по data - собирается. статусов (4XX/5XX) там нету.

jagga
02.03.2017
13:31:12
выше по vts был сбор у кого-то

Oleg ?
02.03.2017
13:36:44
пасиб сча гляну
В общем с такими настройками, алерты стали норм приходить с alertmanager в slack
group_by: ['alertname','instance']
group_wait: 10s
group_interval: 10s
repeat_interval: 1h

Admin
ERROR: S client not available

Oleg ?
03.03.2017
07:39:23
и сам алерты и их резолвы
кому то было интересно там :)

lastsky
03.03.2017
07:40:39
точняк :) как и ожидалось

Maxim
03.03.2017
07:41:32

Oleg ?
03.03.2017
07:42:29
единственное не могу понять, как задать текст алерта на резолв событие
приходят вот так
ALARM
Instance prom-node:9100 DOWN
[RESOLVED] ALARM
соответственно если несколько алармов, и один из них резолвится, то не понятно какой из
кто нить настраивал под slack ?)

lastsky
03.03.2017
07:43:48
разгруппируй их

Oleg ?
03.03.2017
07:44:24
хм. ну у меня вот две ноды с node_exporter
и я сделал critical если они не отвечают

lastsky
03.03.2017
07:45:12
там строчка есть, вида group_by: ['alertname', 'env']
если по имени алерта совпало - то они группируются

Oleg ?
03.03.2017
07:45:40
а вот оно шо) сча попробую

Google

lastsky
03.03.2017
07:45:46
а ещё нужно правило алерта снабдить метками

Oleg ?
03.03.2017
07:46:48
это то что match/match_re ?

ptchol
03.03.2017
07:47:40
Как у вас всё удобно я смотрю ) в прометеусом вашем

Maxim
03.03.2017
07:48:07

ptchol
03.03.2017
07:48:44
Неоспоримо )))

Pablo
03.03.2017
07:49:15
Лойс
А вот на devopsdays Moscow кто-то собирается?

lastsky
03.03.2017
07:50:08
ALERT host_down
IF up{job!~"^(service|database)$"} == 0
FOR 2m
LABELS {
severity="critical"
}
ANNOTATIONS {
summary = "Instance {{$labels.instance}} of job {{$labels.job}} has been down for more than 2 minutes."
}
вот примерно так

ptchol
03.03.2017
07:50:19
Кстати да

Pablo
03.03.2017
07:50:20
Там должна быть вроде мониторинг/метрикс опенспейс сессия а-ля митап

ptchol
03.03.2017
07:50:23
http://devopsdays.ru/

Pablo
03.03.2017
07:50:36
Ага
Так вот у этих devopsdays'ов есть такой формат в рамках конфы - опенспейс
Это типа обсуждений по интересам

ptchol
03.03.2017
07:51:58
Главное чтобы нашелся тот кто вбросит

Pablo
03.03.2017
07:52:19
Предлагаются темы на обсуждение и если достаточно заинтересованных то выделяют тайм слот