
ptchol
11.12.2017
08:31:03
и макросы запилили
причём помоему в офф доке макросы есть, а собранная версия которая у них на сайте лежит в них не умеет
я год шарахался по всем этим алертилкам и выводы какие то неутешительные

Sergey
11.12.2017
08:47:46

Google

Andrey
11.12.2017
08:54:21

Artem
11.12.2017
08:55:01
Работает все ещё

Alexander
11.12.2017
09:01:55
Вот кстати нагиос
исинга - живее всех живых

Vladimir
11.12.2017
09:02:17

Ivan
11.12.2017
09:16:04
короче походу прометей 2.0 сыроват пока...
поторопился я с переходом...
надо возвращаться на 1.5

Zhenia
11.12.2017
09:16:50
а что не так?

Ivan
11.12.2017
09:17:05
алерты не работают как надо

Zhenia
11.12.2017
09:17:37
подробнее?

Ivan
11.12.2017
09:17:48
точнее алерты работают, но там текст сообщения только дефолтный, типа:
[FIRING:1] NodeMemoryUsage 10.1.29.23:9100 (prometheus node-exporter kubernetes-service-endpoints prometheus-node-exporter monitoring slack)
а чтобы указать, какое именно значение превышено и само это значение - не работает

Google

Единорожа
11.12.2017
09:18:34
Эм

Ivan
11.12.2017
09:18:45
если начинать указывать .Annotations.summary и .Annotations.description то прометей не поднимается
я поспрашал тут и на форумах - никто не объявился, у кого бы это взлетело
и в мануалах этого пока нет

Единорожа
11.12.2017
09:19:44
- alert: FreeRam95
expr: 100 - ((node_memory_MemAvailable * 100) / node_memory_MemTotal) > 95
for: 10s
labels:
severity: Critical
annotations:
description: on {{$labels.instance}} free ram in {{$labels.mountpoint}} is {{ $value }}%.

Ivan
11.12.2017
09:20:16
вот. да. именно так я и думал заюзать.

Единорожа
11.12.2017
09:20:28
И да из первого прома можно конвертнуть во второй
При помощи promtool

Evgeny
11.12.2017
09:20:55


Ivan
11.12.2017
09:21:33
там по дефолту написано так:
{{ define "slack.default.title" }}{{ template "__subject" . }}{{ end }}
{{ define "slack.default.username" }}{{ template "__alertmanager" . }}{{ end }}
{{ define "slack.default.fallback" }}{{ template "slack.default.title" . }} | {{ template "slack.default.titlelink" . }}{{ end }}
{{ define "slack.default.pretext" }}{{ end }}
{{ define "slack.default.titlelink" }}{{ template "__alertmanagerURL" . }}{{ end }}
{{ define "slack.default.iconemoji" }}{{ end }}
{{ define "slack.default.iconurl" }}{{ end }}
{{ define "slack.default.text" }}{{ end }}
если начинать указывать .Annotations.summary и .Annotations.description то прометей не поднимается
причём поначалу он хоть ошибку писал...
а сейчас даже признаваться не хочет, что его не устраивает... просто зависает.
в логах:
kubectl -n monitoring logs -f prometheus-54968887c9-nlbnb
level=info ts=2017-12-11T08:45:17.090768698Z caller=main.go:215 msg="Starting Prometheus" version="(version=2.0.0, branch=HEAD, revision=0a74f98628a0463dddc90528220c94de5032d1a0)"
level=info ts=2017-12-11T08:45:17.090826524Z caller=main.go:216 build_context="(go=go1.9.2, user=root@615b82cb36b6, date=20171108-07:11:59)"
level=info ts=2017-12-11T08:45:17.090850279Z caller=main.go:217 host_details="(Linux 4.13.9-coreos #1 SMP Thu Oct 26 03:21:00 UTC 2017 x86_64 prometheus-54968887c9-nlbnb (none))"
level=info ts=2017-12-11T08:45:17.151170756Z caller=web.go:380 component=web msg="Start listening for connections" address=0.0.0.0:9090
level=info ts=2017-12-11T08:45:17.151201426Z caller=main.go:314 msg="Starting TSDB"
level=info ts=2017-12-11T08:45:17.151224788Z caller=targetmanager.go:71 component="target manager" msg="Starting target manager..."
и при этом урл в браузере не открывается


ptchol
11.12.2017
09:26:52
нагиос всё ищё? :)
исинга как алертилка поверх графита. Кажется что лучшая из морд. И не нужно ничего выдумывать как с сенсой

Ivan
11.12.2017
09:27:42
хотя сам пишет - Start listening for connections" address=0.0.0.0:9090
а на самом деле нифига не listening...

Dorian
11.12.2017
09:28:56
А в пром 2.0 масштабирование человеческое из коробки есть ?

Ivan
11.12.2017
09:30:45
я хз... пока не разбирался. тут бы хоть запустился вообще, пока не до масштабирования)))

Dorian
11.12.2017
09:30:55

ptchol
11.12.2017
09:31:28
работет чеб не работать.

Google

ptchol
11.12.2017
09:31:40
везде трейдофы.

Alexander
11.12.2017
09:32:14
тут кто-то железную инфраструктуру мониторит?
san свичи например

Evgeny
11.12.2017
09:35:31

Алексей
11.12.2017
09:37:35

Ivan
11.12.2017
09:51:25

Roman
11.12.2017
10:57:03

Matvey
11.12.2017
10:57:16
http://bit.ly/2AHQRa9

User ?
11.12.2017
11:01:35
http://bit.ly/2AHQRa9
Можно ещё про sensu написать, если его кто-то ещё использует. Что требует много-много допиливания и не поддерживает сторадж по умолчанию

Vladimir
11.12.2017
11:01:52
@freeseacher ты кстати в топик прям сделай

Matvey
11.12.2017
11:02:05
не я автор сего фака

Алексей
11.12.2017
11:02:42

User ?
11.12.2017
11:02:53

Виталий
11.12.2017
11:33:34
Мне телеграф нравится все больше. Fielddrop, tagdrop и как следствие меньше данных в influx, т.е. шустрее работает ;) таблицы с кучей полей стараюсь больше не писать. output можно в разные базы делать с разными rp. Для небольших объемов мне хватает. У вас, разумеется, объемы другие и проблемы тоже.

Fedor
11.12.2017
11:39:24
телеграф что-то иногда выжирает всю память на серваке

Алексей
11.12.2017
11:44:02
со стабильностью у него не очень да

Vyacheslav
11.12.2017
11:46:48
Мужики, расскажите что вы с телеграфом делаете чтобы он жрал память/проц и работал нестабильно? ))

Алексей
11.12.2017
11:47:54
ничего. он так себе ведет в зависимости от погоды
я телеграф со стандартными настройками раздаю как часть самомониторинг самитемы
половина пользователей жалуется половина нет

Google

Виталий
11.12.2017
11:48:39
У меня только раз при перезапуске, т.к. мибы читает. Дальше стабильно.

Vyacheslav
11.12.2017
11:50:51
У меня просто 250 хостов с телеграфом на разных осях и стабильно хорошо все, есть чуток багов, но они их бодро фиксят.

66271
11.12.2017
12:07:11

Matvey
11.12.2017
12:07:19
найн
только в сторонние бд

Bogdan (SirEdvin)
11.12.2017
12:09:49

66271
11.12.2017
12:20:39
хорошо, хрен с ним с хранилищем но - "Нет возможность вешать Action на Alarm'ы" - есть же web hook на alert, пишешь своего демона который ждет обращение и вперед)

Алексей
11.12.2017
12:21:44

Admin
ERROR: S client not available

A
11.12.2017
12:22:04
так весь девопс сплошная костылизация
баши, скриптики, хуки, вейты

Alexandr
11.12.2017
12:22:59
ну как бэ да.

A
11.12.2017
12:23:15
пакетных менеджеров никто нормальных так и не написал
если я что-то установил, то не факт, что через пол года пакет с темже именем не изменит своего поведения

Alexandr
11.12.2017
12:23:45
Или кровавый ынтерпрайз, где все прибито гвоздями, а некоторые еще и под напряжением

A
11.12.2017
12:24:32
apt, yum

Alexandr
11.12.2017
12:24:43
ну норм

A
11.12.2017
12:24:44
любой пакет

Alexey
11.12.2017
12:25:03
версии надо пинить, однако

Google

Alexandr
11.12.2017
12:25:09
yum вроде уже все, нет? Там вроде dnf юзается

Алексей
11.12.2017
12:25:12
парни тут про метрики.

A
11.12.2017
12:25:19
да

Alexandr
11.12.2017
12:25:24

Алексей
11.12.2017
12:25:30
про потрепаться не тут

Vladimir
11.12.2017
12:25:49

Alexandr
11.12.2017
12:25:50

Alexey
11.12.2017
12:26:18
версии сборщиков метрик тоже надо пинить. Я был несколько доволен node_exporter-ом 0.15, который взял и дописал по минусу ко всем параметрам

Vladimir
11.12.2017
12:26:25
Но правда, давайте в @devops_ru или лучше в @ru_devops

Maxim
11.12.2017
12:38:25

Bogdan (SirEdvin)
11.12.2017
12:41:42
что за минусы?
У них раньше было -option, а затем переделали в --option

Maxim
11.12.2017
12:44:09

Roman
11.12.2017
13:21:07
Собственно, не юзайте json, юзайте influx inline
плюс, не пишите в него на прямую, юзайте очередь

Vladimir
11.12.2017
13:43:07

Alexander
11.12.2017
14:25:15
Про какти ни слова нет
это конечно динозавр но кое где используется - могу про него написать

Vladimir
11.12.2017
14:25:55
можно, я добавлю тогда в фак

User ?
11.12.2017
14:32:01

Alexander
11.12.2017
14:46:03