@metrics_ru

Страница 207 из 681
Vladimir
13.07.2017
10:20:23
и понимаешь примерно какие запросы на анализ будут

а, ну если это нужно близкое к реалтайму, иначе проще в elasticsearch скормить и не парится

Edouard
13.07.2017
10:21:31
Уже функционирует. Запросы формализованы, выданы операторам, фидбэк в основном позитивный.

Google
Edouard
13.07.2017
10:24:52
Визуализация. Полученные логи заводятся под работу с конкретно следующим https://github.com/Vertamedia/clickhouse-grafana И обработка ( вернее, замена ) timestamp` ов nginx`а на требуемые Date | DateTime выходит некоторым образом дорогой по iops..

Vladimir
13.07.2017
10:36:38
потому что, возможно, вы делаете что-то не так

https://t.me/clickhouse_ru

Edouard
13.07.2017
10:49:21
https://t.me/clickhouse_ru
Спасибо, верно.

Bogdan (SirEdvin)
13.07.2017
11:30:56
А не напомните группу про заббикс?

Wom
13.07.2017
12:13:55
Bogdan (SirEdvin)
13.07.2017
12:14:05
Хм ... я правильно понимаю, что если у меня вот такой запрос в grafana: sum(100 - ((container_spec_memory_limit_bytes{name=~".+"} - container_memory_usage_bytes{name=~".+"}) * 100 / container_spec_memory_limit_bytes{name=~".+"}) ) by (name) то сделать по нему alert я не смогу?

Bogdan (SirEdvin)
13.07.2017
14:10:44
Почему?
У меня выводится довольно странная ошибка "body json marshal"

Alexander
13.07.2017
14:11:26
У меня выводится довольно странная ошибка "body json marshal"
А график без алерта нормально рисуется?

Bogdan (SirEdvin)
13.07.2017
14:12:31
Ну, кое-как. Вроде нормально, но иногда странным образом сбоит другой график. Но вот удалось добиться вроде нормально результата.

Google
Bogdan (SirEdvin)
13.07.2017
14:12:42
Ага, ругается на + t=2017-07-13T14:11:23+0000 lvl=eror msg="body json marshal" logger=context userId=1 orgId=1 uname=siredvin error="json: error calling MarshalJSON for type null.Float: invalid character '+' looking for beginning of value"

Alexander
13.07.2017
14:14:32
Может на 0 поделили?

Там будет +Inf, кажется

Вот и ругается

Bogdan (SirEdvin)
13.07.2017
14:15:07
Ага, в самом деле, вполне может быть

Сейчас буду думать, как выкрутится, спасибо за совет)

Мда, теперь нужно придумать, как отфильтровать лишние метрики)

А, ну да. Понятно)

terry
13.07.2017
21:30:31
Ребята, ребятушечки, нид хелп. Я правильно понимаю, что нужно убрать веник с рейда и внести его + запустить синхронизацию ? Первый раз такую хрень вижу (( DegradedArray event on /dev/md/1:server.net This is an automatically generated mail message from mdadm running on server.net A DegradedArray event had been detected on md device /dev/md/1. Faithfully yours, etc. P.S. The /proc/mdstat file currently contains the following: Personalities : [raid1] [raid0] [linear] [multipath] [raid6] [raid5] [raid4] [raid10] md2 : active raid1 sda4[0] 208925568 blocks super 1.0 [2/1] [U_] bitmap: 2/2 pages [8KB], 65536KB chunk md1 : active raid1 sda3[0] 20479872 blocks super 1.0 [2/1] [U_] md0 : active raid1 sda1[0] 1023936 blocks super 1.0 [2/1] [U_] unused devices:

Edouard
13.07.2017
21:36:51
Примерно так навскидку: mdadm --detail /dev/mdn mdadm --manage /dev/mdn --fail /dev/sdXn mdadm --manage /dev/mdn --remove /dev/sdXn mdadm --manage /dev/mdn --add /dev/sdXn

Alexander
13.07.2017
21:36:56
смотри в dmesg

что там у тебя - сбойнул контроллер или диск накрылся

если первое, то рецепт уже привели

Andor
14.07.2017
05:18:49
"веник"

Roman
14.07.2017
07:09:20
Привет! На счет алертов в Графане. Я правильно понимаю, что они будут срабатывать даже если дашборд не будет открыт в браузере?

Roman
14.07.2017
07:34:16
А подскажите, плз, есть ли какой-то период времени, в течении которого должен срабатывать алерт чтобы перейти в режим FIRE?

Roman
14.07.2017
07:38:17
Вы имеете в виду "query(A, 5m, now)" - т.е. алерт по запросу перейдет в FIRE, если каждый раз при проверке в течении 5мин условие возвращало true?

Bogdan (SirEdvin)
14.07.2017
07:39:48
Вы имеете в виду "query(A, 5m, now)" - т.е. алерт по запросу перейдет в FIRE, если каждый раз при проверке в течении 5мин условие возвращало true?
Весь запрос выглядит как-то так: Когда функция() от запрос(Номер запроса, отступ от точки отчета, точка отчета)

Google
Bogdan (SirEdvin)
14.07.2017
07:40:31
Например, avg() of query(A, 5m, now) > 70 означает, что если среднее значение метрики за 5 минут больше 70, то алерт сработает

Если вам нужно, что бы именно значение метрики все пять минут было выше какого-то значения, то вроде совсем прямо такого сделать нельзя. Но я не уверен, что вам именно это нужно. Обычно avg() или median() весьма неплохо работают.

И если у вас метрики более-менее постоянны (что бывает довольно часто), то вроде и avg() будет делать то же самое, что вам нужно

Denys ??
14.07.2017
08:22:47
Ну, еще есть период проверки, по умолчанию 60 секунд

Bogdan (SirEdvin)
14.07.2017
08:25:10
min ?
И в самом деле( Спасибо за подсказку)

Anton
14.07.2017
10:30:42
котаны, а кто в докере пром крутит? как к алертменеджеру цеплятся, без модификации ентрипойнта?

Алексей
14.07.2017
10:31:03
у меня так

Anton
14.07.2017
10:34:00
ну тип, в ентрипойнт влез всё же)

-alertmanager.url=http://alertmanager:9093

я так воображаю, чтобы забубехать типа docker pull prometheus/prometheus для обновления, рестартнуть его беднягу и всё

Anton
14.07.2017
10:34:43
видимо придётся влезать ручонками в него :(

Алексей
14.07.2017
10:36:09
ну я просто pull делаю и голову не грею

у меня работает норм

Anton
14.07.2017
10:36:45
а это композовский файл, верно? или для чего?

Алексей
14.07.2017
10:36:51
да это он

я от туда повыкусывал

у меня там еще обвязки понакручено

типа traefik графана и вот это вот всё

Google
Anton
14.07.2017
10:37:39
а в системд пихаешь его? или как ты рулишь этим всем?

Admin
ERROR: S client not available

Oleg ?
14.07.2017
10:37:56
парни, кто юзал ? https://github.com/messagebird/sachet

Алексей
14.07.2017
10:37:58
docker-compose up -d

и всё

там рестарт же написан

Anton
14.07.2017
10:38:41
там рестарт же написан
я чет не оч понимаю, а кто вызовет запуск, после например ребута системы?

Алексей
14.07.2017
10:38:57
докер стартует - стартует зависимые контейнеры

Anton
14.07.2017
10:39:41
thats pretty goood

Andor
14.07.2017
12:10:18
https://prometheus.io/docs/operating/configuration/#<alertmanager_config>

Anton
14.07.2017
12:34:55
а кто мешает взять alertmanager_configs: в конфиг вписать?
какой-то факин меджик, я в своём конфиге этого не вижу

спасибо большое, решает мой кейс

Dorian
14.07.2017
14:09:21
Есть пользователи Bosun?

Там обычный алерт по полкам или что то более изощрённые ?

Vladimir
14.07.2017
14:25:56
что значит по полкам?

ptchol
14.07.2017
15:16:25
наверно имеется ввиду пороговое значение

Maxim
14.07.2017
19:18:37
https://github.com/prometheus/blackbox_exporter/releases/tag/v0.7.0

[FEATURE] Automatically determine timeout from Prometheus’s scrape_timeout [FEATURE] Expose http version as metric [FEATURE] Allow specifying with http versions classify as a success [FEATURE] Add metric for regex or query response failure [FEATURE] Expose configuration on /config [ENHANCEMENT] Improve logging of tcp module errors [BUGFIX] Set DNS lookup duration metric even if lookup fails

Andor
14.07.2017
19:45:33
надеюсь показ конфига отключаемый

Google
Vladimir
14.07.2017
20:43:37
/subscribe prometheus/blackbox_exporter all

или бота выгнали?

вот должен теперь оповещения о этой репе слать, если будут релизы

если будет работать надо вообще все полезное добавить будет

Алексей
14.07.2017
20:45:11
ок, давай посомтрим, главное что бы он на всех входящих не агрился приветствием

Алексей
14.07.2017
20:45:33
я прошлый раз его как раз за это пнул

Vladimir
14.07.2017
20:45:37
да?

хм, ща уберу

я прошлый раз его как раз за это пнул
а, нашел где бага, ща поправлю

Страница 207 из 681