@metrics_ru

« Назад

Страница 109 из 681

Далее »

Zhenia

28.02.2017
08:23:59

у нее ж и так авторизация есть

lastsky

28.02.2017
08:30:07

не забудь выключить sign up, иначе к тебе можно будет сделать sign up, создать датасурс и получить доступ к метрикам (как-то так совпало, что дефолтные параметры у графаны разрешают sign up, либо его нужно настроить так, чтобы sign up требовал аппрува руками)

Aleksandr

28.02.2017
08:31:15

господа, пробую tick стек. вопрос по kapacitor'у. эта штука умеет в какое-то подобие макросов, как в заббиксе? а то очень неудобно в тик скрипте прописывать условия для отдельных тэгов

Алексей

28.02.2017
08:31:52

господа, пробую tick стек. вопрос по kapacitor'у. эта штука умеет в какое-то подобие макросов, как в заббиксе? а то очень неудобно в тик скрипте прописывать условия для отдельных тэгов

умеет шаблоны

Google

Aleksandr

28.02.2017
08:37:54

шаблоны тут не подходят. зачем мне плодить проверку для каждого хоста, который не подходит под стандартные условия. я додумался пока только до хранения словаря в тик скрипте с исключениями.

Alex

28.02.2017
08:43:23

Тем временем, в параллельной вселенной

Алексей

28.02.2017
08:44:00

пусть проверит с виндовс

Vitaly

28.02.2017
09:00:57

Народ, а как кто делает alert в графане, когда у тебя хосты появляются и исчезают (autoscale в aws). В теории мне нужны алерты, когда данные null или unavailable. Так как если хост сдох, мне нужен алерт. Но если хост был убран скейлером, тут как поступить? В заббиксе у меня был хук и я удалял хост при scale down. В графане такого походу нет.

ptchol

28.02.2017
09:09:39

Тебе нужен такой же хук но который ремувнит / переместит метрики в архив. А в самом алерте (метрике) у тебя в каком то узле будет вайлдкард по имени хостов или еще как то. Не ?

Vitaly

28.02.2017
09:14:29

Тебе нужен такой же хук но который ремувнит / переместит метрики в архив. А в самом алерте (метрике) у тебя в каком то узле будет вайлдкард по имени хостов или еще как то. Не ?

Да у меня дашборды с * мониторингом которые алертят. Посмотрим как поведет себя графана, если я удалю метрики к определенному хосту.

оу, так grafana не алертит если одной метрики не хватает

If no data or *all* values are null

SELECT MEAN(usage_system) + MEAN(usage_user) + MEAN(usage_irq) AS cpu_total FROM "cpu" WHERE $timeFilter GROUP BY time(10s), "host", "host_ip" fill(null)

при таком запросе, если 1 хост уйдет, алерты не будет :/

ptchol

28.02.2017
10:06:57

Мне кажется это если маппим поламается

Типа юзер тайм есть а систем тайма нет для хоста

Google

ptchol

28.02.2017
10:07:47

Если целиком метрику выпилить как он узнает то про нее

Vitaly

28.02.2017
10:08:13

Если целиком метрику выпилить как он узнает то про нее

она даже не алертит, если не выпиливать метрику

просто остановил хост и он больше не пишет данные в influx

когда 100% usage было, алерт пришел, при остановке хоста - нет

ptchol

28.02.2017
10:09:16

Поидее nodata условие сработать должно

Что в nodata указано в алерте ?

Vitaly

28.02.2017
10:09:46

Alerting

ptchol

28.02.2017
10:10:14

А период в алерте какой ?

Vitaly

28.02.2017
10:10:23

минута

ptchol

28.02.2017
10:10:32

Тогда косяк :(((

Алексей

28.02.2017
11:41:11

Артур, который мониторинг используешь ?

Zhenia

28.02.2017
13:42:03

а кто как оверолл состояние системы смотрит?

в графане

ptchol

28.02.2017
14:10:50

зацените https://www.packetmischief.ca/2017/02/15/why-i-enthusiastically-switched-from-cacti-to-zabbix-for-system-monitoring/

Антон

28.02.2017
14:15:34

zabbix detected )

Andrey

28.02.2017
14:20:19

ну и дебил

зачем ты это сделал? разве не знаешь что таких мест уже много?!

Google

Vitaly

28.02.2017
14:41:50

а что еще кроме заббикса для адекватного мониторинга с алертингом?

с алертингом в графане играюсь и пока ей до прода как до луны. Prometheus.io? pull концепт нам к сожалению не подходит

Александр

28.02.2017
14:45:24

icinga?

Vitaly

28.02.2017
14:49:46

icinga?

о, точно, как же я про нее забыл

просто да, после 5 лет с заббиксом, его не хочется, но он работал и алертил когда надо

Алексей

28.02.2017
14:56:48

просто да, после 5 лет с заббиксом, его не хочется, но он работал и алертил когда надо

Прометей?

Vitaly

28.02.2017
14:57:23

Прометей?

хосты ходят туда-сюда и сервис дисковери нет

там же пулл насколько я знаю

Алексей

28.02.2017
14:57:56

Пусть ходят. Ты же их не руками носишь

Пусть паппет пример носит

Vitaly

28.02.2017
14:58:26

т.е. при старте, у меня на хосте запускается паппет и регистрирует в прометее?

а когда хост дохнет, shutdown скрипт уберет регистрацию

Алексей

28.02.2017
14:59:04

Как пример

Vitaly

28.02.2017
14:59:06

так возможно?

Алексей

28.02.2017
15:03:13

У Прометея есть файл кого опрашивать

По hup он его перечитывает

lastsky

28.02.2017
16:01:40

По hup он его перечитывает

а если это статический file_sd_config - то прометею даж перезапуска не нужно, выкатил сервер(группу) -> положил в /etc/prometheus/file_sd_configs/ ещё один отдельный yaml файлик (на сервер или на группу) -> через пару минут прометей уже сходил за метриками ?

Timur

28.02.2017
17:41:58

Привет! Кто нибудь пробовал телеграфом метрики в грейлог или пром слать?

lastsky

28.02.2017
17:43:44

в пром нормально шлется, только телеграфом имеет смысл слать узкий набор метрик, которые не снимает кто-то ещё, потому что просто нет смысла.

например, http_response или dns_response в две команды, отличный вариант telegraf -> prometheus -> grafana (а i/o latency с этих же серверов выгоднее снять через node_exporter -> prometheus -> grafana)

Google

Zhenia

28.02.2017
17:48:40

А телеграф умеет в вебсокеты?

Timur

28.02.2017
17:52:37

Есть просто желание собрать стек с удобным: а)алертингом, б)хранением "состояний недоступности" для всяких sla в будущем. И все это с упором на мониторинг виндовых машин и мс sql. Сейчас подружил telegraf, nxlog-to-logstash-> influxdb-> grafana. Но желания пока особого алертить ни графаной (пока они не запилили свой обещанный гибкий мониторинг групп) ни капаситором нет, про "периоды недоступности" тоже пока не совсем ясно. Вот и думаю что-нибудь припердолить к этому стеку

lastsky

28.02.2017
17:55:11

А телеграф умеет в вебсокеты?

https://github.com/influxdata/telegraf/tree/master/plugins/inputs/http_response он умеет вот так

Есть просто желание собрать стек с удобным: а)алертингом, б)хранением "состояний недоступности" для всяких sla в будущем. И все это с упором на мониторинг виндовых машин и мс sql. Сейчас подружил telegraf, nxlog-to-logstash-> influxdb-> grafana. Но желания пока особого алертить ни графаной (пока они не запилили свой обещанный гибкий мониторинг групп) ни капаситором нет, про "периоды недоступности" тоже пока не совсем ясно. Вот и думаю что-нибудь припердолить к этому стеку

лично я использую везде alertmanager, потому что он отлично управляется через ansible и поддерживает много переменных и условий, не нужно мышью натыкивать.

лично мне думается, алертинг графаны задумывался под другие задачи, а именно, под визуализацию проблем на дашбордах. а не как промышленное управление алертами.

Zhenia

28.02.2017
18:01:09

Он неплох под маленькие сетапы

Admin

ERROR: S client not available

Timur

28.02.2017
18:02:15

лично я использую везде alertmanager, потому что он отлично управляется через ansible и поддерживает много переменных и условий, не нужно мышью натыкивать.

А как у него с языком запросов? Я тут босун попробовать решил и от таких вот новостей вообще прифигел: https://github.com/bosun-monitor/bosun/issues/1298

lastsky

28.02.2017
18:04:57

А как у него с языком запросов? Я тут босун попробовать решил и от таких вот новостей вообще прифигел: https://github.com/bosun-monitor/bosun/issues/1298

https://prometheus.io/docs/alerting/rules/ проще некуда.

Timur

28.02.2017
18:08:58

Спасибо! Попробую его тогда, тем более раз grouping есть

Denis

28.02.2017
20:03:25

Крутое описание у группы :)

Алексей

28.02.2017
20:04:09

А, чего :)?

Oleg ?

01.03.2017
07:36:58

Ребят, салют

подскажите, чо не так. настраиваю alertmanager для прометея. указываю global: resolve_timeout: 5s

роут slack

но приходит резолв все равно через 5 мин

Maxim

01.03.2017
07:38:17

так а алертманагер тут не при чем может быть

Oleg ?

01.03.2017
07:38:33

скрап тоже 5c

Maxim

01.03.2017
07:38:35

ты уверен, что это его прометей не через пять минут оповещает?

Oleg ?

01.03.2017
07:39:22

ээ

Google

Oleg ?

01.03.2017
07:39:36

не знаю :)

кого его?

вот алерт

ALERT host_down IF up == 0 FOR 15s ANNOTATIONS { description = "Instance {{ $labels.instance }} DOWN", }

скрап каждые 5сек

что еще где?)))

lastsky

01.03.2017
07:46:42

ну так а group_wait у тебя сколько?

5 минут?

Oleg ?

01.03.2017
07:47:39

я не выставлял этот параметр

lastsky

01.03.2017
07:48:56

# When a new group of alerts is created by an incoming alert, wait at # least 'group_wait' to send the initial notification. # This way ensures that you get multiple alerts for the same group that start # firing shortly after another are batched together on the first # notification. group_wait: 30s # When the first notification was sent, wait 'group_interval' to send a batch # of new alerts that started firing for that group. group_interval: 5m

посмотри вот тут пример: https://prometheus.io/docs/alerting/configuration/ покажи gist с конфигом может быть

просто если у тебя алерт группировался, резолв тоже сгруппируется, поэтому тут могут влиять настройки группировки.

Oleg ?

01.03.2017
07:59:45

сейчас

https://gist.github.com/anonymous/85491a90eb2d77aa3da7df286b5fe7d9

выставил group_wait 5s но ничего(

сам алерт быстро прилетел DOWN, а резолва до сих пор нет

и есть подозрение что через 2 мин он придет, то есть через 5 мин ровно

« Назад

Страница 109 из 681

Далее »

Открыть в Telegram