
Zhenia
28.02.2017
08:23:59
у нее ж и так авторизация есть

lastsky
28.02.2017
08:30:07
не забудь выключить sign up, иначе к тебе можно будет сделать sign up, создать датасурс и получить доступ к метрикам (как-то так совпало, что дефолтные параметры у графаны разрешают sign up, либо его нужно настроить так, чтобы sign up требовал аппрува руками)

Aleksandr
28.02.2017
08:31:15
господа, пробую tick стек. вопрос по kapacitor'у. эта штука умеет в какое-то подобие макросов, как в заббиксе? а то очень неудобно в тик скрипте прописывать условия для отдельных тэгов

Алексей
28.02.2017
08:31:52

Google

Aleksandr
28.02.2017
08:37:54
шаблоны тут не подходят. зачем мне плодить проверку для каждого хоста, который не подходит под стандартные условия.
я додумался пока только до хранения словаря в тик скрипте с исключениями.

Alex
28.02.2017
08:43:23
Тем временем, в параллельной вселенной

Алексей
28.02.2017
08:44:00
пусть проверит с виндовс

Vitaly
28.02.2017
09:00:57
Народ, а как кто делает alert в графане, когда у тебя хосты появляются и исчезают (autoscale в aws). В теории мне нужны алерты, когда данные null или unavailable. Так как если хост сдох, мне нужен алерт. Но если хост был убран скейлером, тут как поступить? В заббиксе у меня был хук и я удалял хост при scale down. В графане такого походу нет.

ptchol
28.02.2017
09:09:39
Тебе нужен такой же хук но который ремувнит / переместит метрики в архив. А в самом алерте (метрике) у тебя в каком то узле будет вайлдкард по имени хостов или еще как то. Не ?

Vitaly
28.02.2017
09:14:29
оу, так grafana не алертит если одной метрики не хватает
If no data or *all* values are null
SELECT MEAN(usage_system) + MEAN(usage_user) + MEAN(usage_irq) AS cpu_total FROM "cpu" WHERE $timeFilter GROUP BY time(10s), "host", "host_ip" fill(null)
при таком запросе, если 1 хост уйдет, алерты не будет :/

ptchol
28.02.2017
10:06:57
Мне кажется это если маппим поламается
Типа юзер тайм есть а систем тайма нет для хоста

Google

ptchol
28.02.2017
10:07:47
Если целиком метрику выпилить как он узнает то про нее

Vitaly
28.02.2017
10:08:13
просто остановил хост и он больше не пишет данные в influx
когда 100% usage было, алерт пришел, при остановке хоста - нет

ptchol
28.02.2017
10:09:16
Поидее nodata условие сработать должно
Что в nodata указано в алерте ?

Vitaly
28.02.2017
10:09:46
Alerting

ptchol
28.02.2017
10:10:14
А период в алерте какой ?

Vitaly
28.02.2017
10:10:23
минута

ptchol
28.02.2017
10:10:32
Тогда косяк :(((

Алексей
28.02.2017
11:41:11
Артур, который мониторинг используешь ?

Zhenia
28.02.2017
13:42:03
а кто как оверолл состояние системы смотрит?
в графане

ptchol
28.02.2017
14:10:50
зацените https://www.packetmischief.ca/2017/02/15/why-i-enthusiastically-switched-from-cacti-to-zabbix-for-system-monitoring/

Антон
28.02.2017
14:15:34
zabbix detected )

Andrey
28.02.2017
14:20:19
ну и дебил
зачем ты это сделал? разве не знаешь что таких мест уже много?!

Google

Vitaly
28.02.2017
14:41:50
а что еще кроме заббикса для адекватного мониторинга с алертингом?
с алертингом в графане играюсь и пока ей до прода как до луны. Prometheus.io? pull концепт нам к сожалению не подходит

Александр
28.02.2017
14:45:24
icinga?

Vitaly
28.02.2017
14:49:46
icinga?
о, точно, как же я про нее забыл
просто да, после 5 лет с заббиксом, его не хочется, но он работал и алертил когда надо

Алексей
28.02.2017
14:56:48

Vitaly
28.02.2017
14:57:23
Прометей?
хосты ходят туда-сюда и сервис дисковери нет
там же пулл насколько я знаю

Алексей
28.02.2017
14:57:56
Пусть ходят. Ты же их не руками носишь
Пусть паппет пример носит

Vitaly
28.02.2017
14:58:26
т.е. при старте, у меня на хосте запускается паппет и регистрирует в прометее?
а когда хост дохнет, shutdown скрипт уберет регистрацию

Алексей
28.02.2017
14:59:04
Как пример

Vitaly
28.02.2017
14:59:06
так возможно?

Алексей
28.02.2017
15:03:13
У Прометея есть файл кого опрашивать
По hup он его перечитывает

lastsky
28.02.2017
16:01:40
По hup он его перечитывает
а если это статический file_sd_config - то прометею даж перезапуска не нужно, выкатил сервер(группу) -> положил в /etc/prometheus/file_sd_configs/ ещё один отдельный yaml файлик (на сервер или на группу) -> через пару минут прометей уже сходил за метриками ?

Timur
28.02.2017
17:41:58
Привет! Кто нибудь пробовал телеграфом метрики в грейлог или пром слать?

lastsky
28.02.2017
17:43:44
в пром нормально шлется, только телеграфом имеет смысл слать узкий набор метрик, которые не снимает кто-то ещё, потому что просто нет смысла.
например, http_response или dns_response в две команды, отличный вариант telegraf -> prometheus -> grafana (а i/o latency с этих же серверов выгоднее снять через node_exporter -> prometheus -> grafana)

Google

Zhenia
28.02.2017
17:48:40
А телеграф умеет в вебсокеты?

Timur
28.02.2017
17:52:37
Есть просто желание собрать стек с удобным: а)алертингом, б)хранением "состояний недоступности" для всяких sla в будущем. И все это с упором на мониторинг виндовых машин и мс sql. Сейчас подружил telegraf, nxlog-to-logstash-> influxdb-> grafana. Но желания пока особого алертить ни графаной (пока они не запилили свой обещанный гибкий мониторинг групп) ни капаситором нет, про "периоды недоступности" тоже пока не совсем ясно. Вот и думаю что-нибудь припердолить к этому стеку

lastsky
28.02.2017
17:55:11
лично мне думается, алертинг графаны задумывался под другие задачи, а именно, под визуализацию проблем на дашбордах. а не как промышленное управление алертами.

Zhenia
28.02.2017
18:01:09
Он неплох под маленькие сетапы

Admin
ERROR: S client not available

Timur
28.02.2017
18:02:15

lastsky
28.02.2017
18:04:57

Timur
28.02.2017
18:08:58
Спасибо! Попробую его тогда, тем более раз grouping есть

Denis
28.02.2017
20:03:25
Крутое описание у группы :)

Алексей
28.02.2017
20:04:09
А, чего :)?

Oleg ?
01.03.2017
07:36:58
Ребят, салют
подскажите, чо не так. настраиваю alertmanager для прометея. указываю global: resolve_timeout: 5s
роут slack
но приходит резолв все равно через 5 мин

Maxim
01.03.2017
07:38:17
так а алертманагер тут не при чем может быть

Oleg ?
01.03.2017
07:38:33
скрап тоже 5c

Maxim
01.03.2017
07:38:35
ты уверен, что это его прометей не через пять минут оповещает?

Oleg ?
01.03.2017
07:39:22
ээ

Google

Oleg ?
01.03.2017
07:39:36
не знаю :)
кого его?
вот алерт
ALERT host_down
IF up == 0
FOR 15s
ANNOTATIONS {
description = "Instance {{ $labels.instance }} DOWN",
}
скрап каждые 5сек
что еще где?)))

lastsky
01.03.2017
07:46:42
ну так а group_wait у тебя сколько?
5 минут?

Oleg ?
01.03.2017
07:47:39
я не выставлял этот параметр

lastsky
01.03.2017
07:48:56
# When a new group of alerts is created by an incoming alert, wait at
# least 'group_wait' to send the initial notification.
# This way ensures that you get multiple alerts for the same group that start
# firing shortly after another are batched together on the first
# notification.
group_wait: 30s
# When the first notification was sent, wait 'group_interval' to send a batch
# of new alerts that started firing for that group.
group_interval: 5m
посмотри вот тут пример: https://prometheus.io/docs/alerting/configuration/
покажи gist с конфигом может быть
просто если у тебя алерт группировался, резолв тоже сгруппируется, поэтому тут могут влиять настройки группировки.

Oleg ?
01.03.2017
07:59:45
сейчас
https://gist.github.com/anonymous/85491a90eb2d77aa3da7df286b5fe7d9
выставил group_wait 5s но ничего(
сам алерт быстро прилетел DOWN, а резолва до сих пор нет
и есть подозрение что через 2 мин он придет, то есть через 5 мин ровно