
Vladimir
13.07.2017
10:20:23
и понимаешь примерно какие запросы на анализ будут
а, ну если это нужно близкое к реалтайму, иначе проще в elasticsearch скормить и не парится

Edouard
13.07.2017
10:21:31
Уже функционирует. Запросы формализованы, выданы операторам, фидбэк в основном позитивный.

Vladimir
13.07.2017
10:21:58

Google

Edouard
13.07.2017
10:24:52
Визуализация. Полученные логи заводятся под работу с конкретно следующим
https://github.com/Vertamedia/clickhouse-grafana
И обработка ( вернее, замена ) timestamp` ов nginx`а на требуемые Date | DateTime выходит некоторым образом дорогой по iops..

Vladimir
13.07.2017
10:36:38
потому что, возможно, вы делаете что-то не так
https://t.me/clickhouse_ru

Edouard
13.07.2017
10:49:21

Bogdan (SirEdvin)
13.07.2017
11:30:56
А не напомните группу про заббикс?

Wom
13.07.2017
12:13:55

Bogdan (SirEdvin)
13.07.2017
12:14:05
Хм ... я правильно понимаю, что если у меня вот такой запрос в grafana:
sum(100 - ((container_spec_memory_limit_bytes{name=~".+"} - container_memory_usage_bytes{name=~".+"}) * 100 / container_spec_memory_limit_bytes{name=~".+"}) ) by (name)
то сделать по нему alert я не смогу?

Alexander
13.07.2017
13:53:10

Bogdan (SirEdvin)
13.07.2017
14:10:44
Почему?
У меня выводится довольно странная ошибка "body json marshal"

Alexander
13.07.2017
14:11:26

Bogdan (SirEdvin)
13.07.2017
14:12:31
Ну, кое-как. Вроде нормально, но иногда странным образом сбоит другой график. Но вот удалось добиться вроде нормально результата.

Google

Bogdan (SirEdvin)
13.07.2017
14:12:42
Ага, ругается на +
t=2017-07-13T14:11:23+0000 lvl=eror msg="body json marshal" logger=context userId=1 orgId=1 uname=siredvin error="json: error calling MarshalJSON for type null.Float: invalid character '+' looking for beginning of value"

Alexander
13.07.2017
14:14:32
Может на 0 поделили?
Там будет +Inf, кажется
Вот и ругается

Bogdan (SirEdvin)
13.07.2017
14:15:07
Ага, в самом деле, вполне может быть
Сейчас буду думать, как выкрутится, спасибо за совет)
Мда, теперь нужно придумать, как отфильтровать лишние метрики)
А, ну да. Понятно)

terry
13.07.2017
21:30:31
Ребята, ребятушечки, нид хелп. Я правильно понимаю, что нужно убрать веник с рейда и внести его + запустить синхронизацию ?
Первый раз такую хрень вижу ((
DegradedArray event on /dev/md/1:server.net
This is an automatically generated mail message from mdadm
running on server.net
A DegradedArray event had been detected on md device /dev/md/1.
Faithfully yours, etc.
P.S. The /proc/mdstat file currently contains the following:
Personalities : [raid1] [raid0] [linear] [multipath] [raid6] [raid5] [raid4] [raid10]
md2 : active raid1 sda4[0]
208925568 blocks super 1.0 [2/1] [U_]
bitmap: 2/2 pages [8KB], 65536KB chunk
md1 : active raid1 sda3[0]
20479872 blocks super 1.0 [2/1] [U_]
md0 : active raid1 sda1[0]
1023936 blocks super 1.0 [2/1] [U_]
unused devices:

Edouard
13.07.2017
21:36:51
Примерно так навскидку:
mdadm --detail /dev/mdn
mdadm --manage /dev/mdn --fail /dev/sdXn
mdadm --manage /dev/mdn --remove /dev/sdXn
mdadm --manage /dev/mdn --add /dev/sdXn

Alexander
13.07.2017
21:36:56
смотри в dmesg
что там у тебя - сбойнул контроллер или диск накрылся
если первое, то рецепт уже привели

Andor
14.07.2017
05:18:49
"веник"

Roman
14.07.2017
07:09:20
Привет! На счет алертов в Графане. Я правильно понимаю, что они будут срабатывать даже если дашборд не будет открыт в браузере?

Vladimir
14.07.2017
07:10:08

Roman
14.07.2017
07:34:16
А подскажите, плз, есть ли какой-то период времени, в течении которого должен срабатывать алерт чтобы перейти в режим FIRE?

Bogdan (SirEdvin)
14.07.2017
07:36:03

Roman
14.07.2017
07:38:17
Вы имеете в виду "query(A, 5m, now)" - т.е. алерт по запросу перейдет в FIRE, если каждый раз при проверке в течении 5мин условие возвращало true?

Bogdan (SirEdvin)
14.07.2017
07:39:48

Google

Bogdan (SirEdvin)
14.07.2017
07:40:31
Например, avg() of query(A, 5m, now) > 70 означает, что если среднее значение метрики за 5 минут больше 70, то алерт сработает
Если вам нужно, что бы именно значение метрики все пять минут было выше какого-то значения, то вроде совсем прямо такого сделать нельзя. Но я не уверен, что вам именно это нужно. Обычно avg() или median() весьма неплохо работают.
И если у вас метрики более-менее постоянны (что бывает довольно часто), то вроде и avg() будет делать то же самое, что вам нужно

Roman
14.07.2017
07:47:54

Denys ??
14.07.2017
08:22:47
Ну, еще есть период проверки, по умолчанию 60 секунд

Alexander
14.07.2017
08:24:41

Bogdan (SirEdvin)
14.07.2017
08:25:10
min ?
И в самом деле( Спасибо за подсказку)

Anton
14.07.2017
10:30:42
котаны, а кто в докере пром крутит? как к алертменеджеру цеплятся, без модификации ентрипойнта?

Алексей
14.07.2017
10:31:03
у меня так

Anton
14.07.2017
10:34:00
ну тип, в ентрипойнт влез всё же)
-alertmanager.url=http://alertmanager:9093
я так воображаю, чтобы забубехать типа docker pull prometheus/prometheus для обновления, рестартнуть его беднягу и всё

Anton
14.07.2017
10:34:43
видимо придётся влезать ручонками в него :(

Алексей
14.07.2017
10:36:09
ну я просто pull делаю и голову не грею
у меня работает норм

Anton
14.07.2017
10:36:45
а это композовский файл, верно? или для чего?

Алексей
14.07.2017
10:36:51
да это он
я от туда повыкусывал
у меня там еще обвязки понакручено
типа traefik графана и вот это вот всё

Google

Anton
14.07.2017
10:37:39
а в системд пихаешь его? или как ты рулишь этим всем?

Admin
ERROR: S client not available

Oleg ?
14.07.2017
10:37:56
парни, кто юзал ? https://github.com/messagebird/sachet

Алексей
14.07.2017
10:37:58
docker-compose up -d
и всё
там рестарт же написан

Anton
14.07.2017
10:38:41

Алексей
14.07.2017
10:38:57
докер стартует - стартует зависимые контейнеры

Anton
14.07.2017
10:39:41
thats pretty goood

Andor
14.07.2017
12:10:18
https://prometheus.io/docs/operating/configuration/#<alertmanager_config>

Anton
14.07.2017
12:34:55
спасибо большое, решает мой кейс

Dorian
14.07.2017
14:09:21
Есть пользователи Bosun?
Там обычный алерт по полкам или что то более изощрённые ?

Vladimir
14.07.2017
14:25:56
что значит по полкам?

ptchol
14.07.2017
15:16:25
наверно имеется ввиду пороговое значение

Maxim
14.07.2017
19:18:37
https://github.com/prometheus/blackbox_exporter/releases/tag/v0.7.0
[FEATURE] Automatically determine timeout from Prometheus’s scrape_timeout
[FEATURE] Expose http version as metric
[FEATURE] Allow specifying with http versions classify as a success
[FEATURE] Add metric for regex or query response failure
[FEATURE] Expose configuration on /config
[ENHANCEMENT] Improve logging of tcp module errors
[BUGFIX] Set DNS lookup duration metric even if lookup fails

Andor
14.07.2017
19:45:33
надеюсь показ конфига отключаемый

Google

Vladimir
14.07.2017
20:43:37
/subscribe prometheus/blackbox_exporter all
или бота выгнали?
вот должен теперь оповещения о этой репе слать, если будут релизы
если будет работать надо вообще все полезное добавить будет

Алексей
14.07.2017
20:45:11
ок, давай посомтрим, главное что бы он на всех входящих не агрился приветствием

Vladimir
14.07.2017
20:45:20

Алексей
14.07.2017
20:45:33
я прошлый раз его как раз за это пнул

Vladimir
14.07.2017
20:45:37
да?
хм, ща уберу