@metrics_ru

Страница 377 из 681
ptchol
11.12.2017
08:31:03
и макросы запилили

причём помоему в офф доке макросы есть, а собранная версия которая у них на сайте лежит в них не умеет

я год шарахался по всем этим алертилкам и выводы какие то неутешительные

Sergey
11.12.2017
08:47:46
Google
Artem
11.12.2017
08:55:01
Работает все ещё

Alexander
11.12.2017
09:01:55
Вот кстати нагиос

исинга - живее всех живых

Vladimir
11.12.2017
09:02:17
Ivan
11.12.2017
09:16:04
короче походу прометей 2.0 сыроват пока...

поторопился я с переходом...

надо возвращаться на 1.5

Zhenia
11.12.2017
09:16:50
а что не так?

Ivan
11.12.2017
09:17:05
алерты не работают как надо

Zhenia
11.12.2017
09:17:37
подробнее?

Ivan
11.12.2017
09:17:48
точнее алерты работают, но там текст сообщения только дефолтный, типа: [FIRING:1] NodeMemoryUsage 10.1.29.23:9100 (prometheus node-exporter kubernetes-service-endpoints prometheus-node-exporter monitoring slack)

а чтобы указать, какое именно значение превышено и само это значение - не работает

Google
Единорожа
11.12.2017
09:18:34
Эм

Ivan
11.12.2017
09:18:45
если начинать указывать .Annotations.summary и .Annotations.description то прометей не поднимается

я поспрашал тут и на форумах - никто не объявился, у кого бы это взлетело

и в мануалах этого пока нет

Единорожа
11.12.2017
09:19:44
- alert: FreeRam95 expr: 100 - ((node_memory_MemAvailable * 100) / node_memory_MemTotal) > 95 for: 10s labels: severity: Critical annotations: description: on {{$labels.instance}} free ram in {{$labels.mountpoint}} is {{ $value }}%.

Ivan
11.12.2017
09:20:16
вот. да. именно так я и думал заюзать.

Единорожа
11.12.2017
09:20:28
И да из первого прома можно конвертнуть во второй

При помощи promtool

Evgeny
11.12.2017
09:20:55
Ivan
11.12.2017
09:21:33
- alert: FreeRam95 expr: 100 - ((node_memory_MemAvailable * 100) / node_memory_MemTotal) > 95 for: 10s labels: severity: Critical annotations: description: on {{$labels.instance}} free ram in {{$labels.mountpoint}} is {{ $value }}%.
это в alert.rules пишется. у меня примерно так же сделано. а далее, когда из default.tmpl пытаешься это использовать - болт

там по дефолту написано так: {{ define "slack.default.title" }}{{ template "__subject" . }}{{ end }} {{ define "slack.default.username" }}{{ template "__alertmanager" . }}{{ end }} {{ define "slack.default.fallback" }}{{ template "slack.default.title" . }} | {{ template "slack.default.titlelink" . }}{{ end }} {{ define "slack.default.pretext" }}{{ end }} {{ define "slack.default.titlelink" }}{{ template "__alertmanagerURL" . }}{{ end }} {{ define "slack.default.iconemoji" }}{{ end }} {{ define "slack.default.iconurl" }}{{ end }} {{ define "slack.default.text" }}{{ end }}

если начинать указывать .Annotations.summary и .Annotations.description то прометей не поднимается

причём поначалу он хоть ошибку писал... а сейчас даже признаваться не хочет, что его не устраивает... просто зависает. в логах: kubectl -n monitoring logs -f prometheus-54968887c9-nlbnb level=info ts=2017-12-11T08:45:17.090768698Z caller=main.go:215 msg="Starting Prometheus" version="(version=2.0.0, branch=HEAD, revision=0a74f98628a0463dddc90528220c94de5032d1a0)" level=info ts=2017-12-11T08:45:17.090826524Z caller=main.go:216 build_context="(go=go1.9.2, user=root@615b82cb36b6, date=20171108-07:11:59)" level=info ts=2017-12-11T08:45:17.090850279Z caller=main.go:217 host_details="(Linux 4.13.9-coreos #1 SMP Thu Oct 26 03:21:00 UTC 2017 x86_64 prometheus-54968887c9-nlbnb (none))" level=info ts=2017-12-11T08:45:17.151170756Z caller=web.go:380 component=web msg="Start listening for connections" address=0.0.0.0:9090 level=info ts=2017-12-11T08:45:17.151201426Z caller=main.go:314 msg="Starting TSDB" level=info ts=2017-12-11T08:45:17.151224788Z caller=targetmanager.go:71 component="target manager" msg="Starting target manager..." и при этом урл в браузере не открывается

ptchol
11.12.2017
09:26:52
нагиос всё ищё? :)
исинга как алертилка поверх графита. Кажется что лучшая из морд. И не нужно ничего выдумывать как с сенсой

Ivan
11.12.2017
09:27:42
хотя сам пишет - Start listening for connections" address=0.0.0.0:9090 а на самом деле нифига не listening...

Dorian
11.12.2017
09:28:56
Умеет писать в Akumuli :)
Босун чтец, а не писатель

А в пром 2.0 масштабирование человеческое из коробки есть ?

Ivan
11.12.2017
09:30:45
я хз... пока не разбирался. тут бы хоть запустился вообще, пока не до масштабирования)))

ptchol
11.12.2017
09:31:28
работет чеб не работать.

Google
ptchol
11.12.2017
09:31:40
везде трейдофы.

Alexander
11.12.2017
09:32:14
тут кто-то железную инфраструктуру мониторит?

san свичи например

Evgeny
11.12.2017
09:35:31
Босун чтец, а не писатель
Там есть агент для сбора метрик.

Ivan
11.12.2017
09:51:25
- alert: FreeRam95 expr: 100 - ((node_memory_MemAvailable * 100) / node_memory_MemTotal) > 95 for: 10s labels: severity: Critical annotations: description: on {{$labels.instance}} free ram in {{$labels.mountpoint}} is {{ $value }}%.
кстати, а ты не знаешь, что такое record? что оно делает? в мануале так выглядит: groups: - name: example.rules rules: - record: job:request_duration_seconds:histogram_quantile99 expr: histogram_quantile(0.99, sum(rate(request_duration_seconds_bucket[1m])) BY (le, job)) - alert: FrontendRequestLatency expr: job:request_duration_seconds:histogram_quantile99{job="frontend"} > 0.1 for: 5m annotations: summary: High frontend request latency

Roman
11.12.2017
10:57:03
тут инфлюкс принято хейтить)
А что с ним не так, кроме убого капазитора?

Matvey
11.12.2017
10:57:16
http://bit.ly/2AHQRa9

User ?
11.12.2017
11:01:35
http://bit.ly/2AHQRa9
Можно ещё про sensu написать, если его кто-то ещё использует. Что требует много-много допиливания и не поддерживает сторадж по умолчанию

Vladimir
11.12.2017
11:01:52
@freeseacher ты кстати в топик прям сделай

Matvey
11.12.2017
11:02:05
не я автор сего фака

Виталий
11.12.2017
11:33:34
Мне телеграф нравится все больше. Fielddrop, tagdrop и как следствие меньше данных в influx, т.е. шустрее работает ;) таблицы с кучей полей стараюсь больше не писать. output можно в разные базы делать с разными rp. Для небольших объемов мне хватает. У вас, разумеется, объемы другие и проблемы тоже.

Fedor
11.12.2017
11:39:24
телеграф что-то иногда выжирает всю память на серваке

Алексей
11.12.2017
11:44:02
со стабильностью у него не очень да

Vyacheslav
11.12.2017
11:46:48
Мужики, расскажите что вы с телеграфом делаете чтобы он жрал память/проц и работал нестабильно? ))

Алексей
11.12.2017
11:47:54
ничего. он так себе ведет в зависимости от погоды

я телеграф со стандартными настройками раздаю как часть самомониторинг самитемы

половина пользователей жалуется половина нет

Google
Виталий
11.12.2017
11:48:39
У меня только раз при перезапуске, т.к. мибы читает. Дальше стабильно.

Vyacheslav
11.12.2017
11:50:51
У меня просто 250 хостов с телеграфом на разных осях и стабильно хорошо все, есть чуток багов, но они их бодро фиксят.

66271
11.12.2017
12:07:11
http://bit.ly/2AHQRa9
у прометея вроде заявлено хранилище долговременное

Matvey
11.12.2017
12:07:19
найн

только в сторонние бд

Bogdan (SirEdvin)
11.12.2017
12:09:49
у прометея вроде заявлено хранилище долговременное
У него есть API для возможности ретеншена посерийно, как я понимаю. И ... все.

66271
11.12.2017
12:20:39
хорошо, хрен с ним с хранилищем но - "Нет возможность вешать Action на Alarm'ы" - есть же web hook на alert, пишешь своего демона который ждет обращение и вперед)

Admin
ERROR: S client not available

A
11.12.2017
12:22:04
так весь девопс сплошная костылизация

баши, скриптики, хуки, вейты

Alexandr
11.12.2017
12:22:59
ну как бэ да.

A
11.12.2017
12:23:15
пакетных менеджеров никто нормальных так и не написал

если я что-то установил, то не факт, что через пол года пакет с темже именем не изменит своего поведения

Alexandr
11.12.2017
12:23:45
Или кровавый ынтерпрайз, где все прибито гвоздями, а некоторые еще и под напряжением

A
11.12.2017
12:24:32
apt, yum

Alexandr
11.12.2017
12:24:43
ну норм

A
11.12.2017
12:24:44
любой пакет

Alexey
11.12.2017
12:25:03
версии надо пинить, однако

Google
Alexandr
11.12.2017
12:25:09
yum вроде уже все, нет? Там вроде dnf юзается

Алексей
11.12.2017
12:25:12
парни тут про метрики.

A
11.12.2017
12:25:19
да

Alexandr
11.12.2017
12:25:24
любой пакет
это норма

Алексей
11.12.2017
12:25:30
про потрепаться не тут

Alexandr
11.12.2017
12:25:50
Alexey
11.12.2017
12:26:18
версии сборщиков метрик тоже надо пинить. Я был несколько доволен node_exporter-ом 0.15, который взял и дописал по минусу ко всем параметрам

Vladimir
11.12.2017
12:26:25
Но правда, давайте в @devops_ru или лучше в @ru_devops

Bogdan (SirEdvin)
11.12.2017
12:41:42
что за минусы?
У них раньше было -option, а затем переделали в --option

Roman
11.12.2017
13:21:07
ничего. он так себе ведет в зависимости от погоды
Это из-за маппинга и рефлексии, данные неконсистентные наливаете в него в больших объемах. Точно так же, как и в ELK.

Собственно, не юзайте json, юзайте influx inline

плюс, не пишите в него на прямую, юзайте очередь

Alexander
11.12.2017
14:25:15
Про какти ни слова нет

это конечно динозавр но кое где используется - могу про него написать

Vladimir
11.12.2017
14:25:55
можно, я добавлю тогда в фак

Alexander
11.12.2017
14:46:03
можно, я добавлю тогда в фак
Куда кинуть про какти?

Страница 377 из 681