
Alexander
02.05.2018
08:49:20

Roman
02.05.2018
09:00:03

Evgeny
02.05.2018
09:10:39

Google

Andrey
02.05.2018
09:27:02

Алексей
02.05.2018
10:36:13

M
02.05.2018
10:41:44
ребят а ктото знает как правильно считать uptime сервера в % относительно первого числа января и текущего дня
ну тоесть основываясь на uptime

Andor
02.05.2018
10:42:26
странная хотелка

M
02.05.2018
10:42:41
ну это для начала
ну а как правильно считать uptime ?

Andor
02.05.2018
10:46:33
выводишь дату и всё
ну то есть time() - node_boot_time примерно

Igor
02.05.2018
10:50:42
берёшь время даунтайма в секундах за последние 365 дней и делишь на год в секундах. 1е января тут ни при чем

Sergey
02.05.2018
11:45:32
сла слашечки

Nklya
02.05.2018
11:49:45
И сло

buttno
02.05.2018
11:49:51
OLA уж тогда

Google

Nklya
02.05.2018
11:49:56
И сли
https://www.youtube.com/watch?v=tEylFyxbDLE

Alexander
02.05.2018
13:04:40

Igor
02.05.2018
13:17:26

Alexander
02.05.2018
13:18:52

Igor
02.05.2018
13:25:00
Не знаю чем они отличаются по коду. По данным на диске вижу что в партишне за прошлый месяц лежала куча частей. После optimize лежит одна часть. До optimize я вижу полные данные в таблмцах за даты из прошлого месяца, после оптимайза они огрубились так как ожидается

Юрий
02.05.2018
15:02:08
Кто-нибудь работал с ним?
https://github.com/kairosdb/kairosdb

?
02.05.2018
15:06:02

Ilja
02.05.2018
15:06:34
Ребята подскажите плиз, у меня в бозуне стоит кверина
$series = 100 - graphite("groupByNode(servers.*.cpu.*.percent.idle, 1, 'avg')", "30m", "", "host")
как мне исключить группу хостов? Это вообще возможно? В доках не нашел
Спасибо!

Sergey
02.05.2018
15:20:42
в графите есть функция exclude()
и в вызове скорее всего ошибка, нужно не host а .host, как и операция 100-набор подозреваю что не отработает... но лень проверить :)

Ilja
02.05.2018
15:23:39
спасибо, буду копаться

Sergey
02.05.2018
15:29:18
Общий совет: если можно уменьшить количество данных вываливающихся в бозон со стороны бекенда, то лучше так и делать (проще всего проверять тайминги отработки в логах бозона). Условные критерии для данного примера - если серверов 100, то норм, если 200+ то уже стоит поиграться, если их 1000+ то точно нужно думать и применять всякие MaximumAbove(), TOP() и прочие фильтры
бозон хоть и обладает математикой, но не особо шустр... и да это если бекендом carbonapi и go-carbon... если чистый графит то вполне возможна и обратная ситуация

Ilja
02.05.2018
15:31:20
все конфиги на коленке писаны, 7к хостов, хочу выкинуть big data, там CPU usage всегда в районе 98%. Остальное разносить буду по группам

Sergey
02.05.2018
15:33:32
ох уж этот триггер cpu.busy... сколько копий сломано

Maxim
02.05.2018
17:14:43
копий триггера?

M
02.05.2018
21:14:36
ребят а вот можно сделать вот так
какой-то сервис регистрирует свой адрес в consule
prometheus без перезагрузки сразу это видит и передаёт Black box exporter проверять эти сервисы по http
тоесть своего рода health check

Google

M
02.05.2018
21:15:32
ну а black box тоже начинает проверять это все без перезагрузки конфига

Andor
02.05.2018
21:15:41
Можно

M
02.05.2018
21:16:11
я просто не делал связку prom + consule и не знаю как он считывает оттуда конфиги

Алексей
02.05.2018
21:25:31
господа. это грустно и плохо. как лучше ?
prometheus > alertmanager > webhook > alerta > mattermost > bridge > telegram

Andor
02.05.2018
21:26:44
А нельзя вебхуком в телеграм слать? Вроде ж бот уже есть готовый?

Алексей
02.05.2018
21:26:54
я в россии.

Andor
02.05.2018
21:27:06
Лол
Аргумент

Алексей
02.05.2018
21:27:45
для мм нашелся https://github.com/42wim/matterbridge
конвертилко

Andor
02.05.2018
21:29:49
А маттермост не умеет в апи как в слаке?
Не юзал его

Алексей
02.05.2018
21:36:56
он умеет как раз именно в это api

Andor
02.05.2018
21:42:35
То есть тебе даже отдельный вебхук не надо, можно просто взять слак интеграцию в алертменеджере

Алексей
02.05.2018
21:43:28
для чего ?
для отправки в mm ? дак она есть и работает

Andor
02.05.2018
21:44:01
У тебя ж в схеме мм был
Не?
Или тебе алерта в схеме обязательна?

Алексей
02.05.2018
21:51:40
ну а где кроме как в алерте взять дашик ?

Google

Andor
02.05.2018
21:51:51
Хз
Я её не юзал

Алексей
02.05.2018
21:52:20
можно конечно копировать в сторону дашика. но разницы не оч много.

Andor
02.05.2018
21:52:29
А ваще в графане есть плагин для алертменеджера как датасорса

Алексей
02.05.2018
21:52:31
слишко много компонентов и всё слишком н епрозрачное

Andor
02.05.2018
21:52:44
Но хз подойдёт ли

Алексей
02.05.2018
21:52:55
ну графану еще в стек не хватает притащить с активным алертингом ага...

Andor
02.05.2018
21:53:36
У тебя есть пром но нет графаны?
https://raw.githubusercontent.com/camptocamp/grafana-prometheus-alertmanager-datasource/master/images/overview.png я вот это имел в виду

Admin
ERROR: S client not available

Алексей
02.05.2018
21:54:32
у меня есть и пром и графана. но в цепочке отификации графаны нету.

Andor
02.05.2018
21:55:00
Ну в данном случае она сбоку чисто для овервью

Алексей
02.05.2018
21:55:15

Andor
02.05.2018
21:55:54
Хм

Алексей
02.05.2018
21:57:55
читать алерты удобно в телеге. смотреть списком удобно в дашике. посылать алерты удобно в слак. что за черт

Andor
02.05.2018
21:58:05
Беда
Значит каждый инструмент говно
По-своему
В общем-то это известный факт :)

Алексей
02.05.2018
21:59:39
надо больше json-а и еще немного yaml и тогда точно добавив чутьчуть toml станет всем хорошо. ведь jinja.

Google

Andor
02.05.2018
22:00:59
К слову, шаблонизировать ямль джинджей и гошными шаблонами - дно

Алексей
02.05.2018
22:01:31
{{ to_nice_yaml }}

Andor
02.05.2018
22:01:51
И отступы
Я в папете делал <%= @data.to_yaml %> и это было менее дно, потому что я структуру контролировал и валидировал

Sergey
03.05.2018
06:48:38
за маттербридж гранд мерси

Алексей
03.05.2018
07:24:52

Sergey
03.05.2018
07:26:27
ну на го же :) если что доработаем напильником
У меня "шланг" мониторинга кстати длинее (или толще) смотря в какой проекции на него смотреть.
Сейчас вот осталось редиску за динамит спрятать чтобы бозон стал условно отказоустойчивым и буду этим монстром хвастаца :)

Алексей
03.05.2018
07:36:33

Sergey
03.05.2018
07:37:07
кластерность же... чтоб она у всех всегда стабильно работала

Vadim
03.05.2018
07:37:14
пацаны, я тут мимокрокодилом. а чего у вас за шлангомер тут, где взять?

Sergey
03.05.2018
07:37:56
ты там 4 версию Z продолжай пилить... неча к нам в огородик ходить и капусту грызть :)
вы хоть в 4 версии 50К NVPS преодолеете?
хоть это в принципе и не нужно для рынка который освоен Z

Vadim
03.05.2018
07:44:10

Andor
03.05.2018
07:46:13
а что такое nvps?

Sergey
03.05.2018
07:46:35
а чего ты сравнить хочешь? коробочные решения надо сравнивать с другими коробочными решениями
и с ТЗ заказчика :)
это metric per sec но в другой церкви, там исторически возникло название new value per sec

Andor
03.05.2018
07:53:24
так 50к значений в секунду это ж для локалхоста

Алексей
03.05.2018
07:54:29

Andor
03.05.2018
07:54:43
кажется в той что тут запрещена