
Andor
15.02.2018
15:57:39
Агрегации часто помогают

Alexander
15.02.2018
15:57:47
Ребя а давайте буферами помереемся

Andor
15.02.2018
15:57:49
Но это надо смотреть характер запросов
У нас были по 80гб вроде бы

Google

Shazo
15.02.2018
15:59:07
я пока интересуюсь какой-либо общей информацией.
Понимаю что агрегированные метрики облегчат жизнь, но не ужели весь вопрос в них и в системных ресурсах лишь?

Alexander
15.02.2018
15:59:16
Ну а кроме шуток для carbon-c-relay кто какой буфер (иммется в виду размер) использует?
о какой клевый набор стикеров

Alexey
15.02.2018
16:18:58

Evgeny
15.02.2018
16:34:34

Alexander
15.02.2018
16:39:14
хм
есть у меня график один не хороший
дропы на нем
и я вот думаю поможет ли вообще очередь, т.к. дропы видимо на входе а не на таргетах

Alexey
15.02.2018
16:41:14
-q 200000000
вероятно серверов в кластерах немного. Мы используем -q 3000000

Alexander
15.02.2018
16:42:58
а вообще альтернатив carbon-c-relay не особо много?

Alexey
15.02.2018
16:43:04
то есть если есть дропы, то надо смотреть почему принимающая сторона не справляется

Google

Alexander
15.02.2018
16:43:18
заню еще grafsy

Alexey
15.02.2018
16:44:02

Vladimir
15.02.2018
16:44:40
если хочешь юзать - читай внимательно readme
там есть пока пара серьезных недоделок

Alexey
15.02.2018
16:44:50
однако у нас один carbon-c-relay спокойно прокачивает через себя до 1 000 000 метрик в секунду

Vladimir
15.02.2018
16:44:51
но в целом оно метрики роутит

Alexander
15.02.2018
16:44:52
это тоже знаю

Vladimir
15.02.2018
16:44:53
и быстро

Alexey
15.02.2018
16:45:27
рабочая нагрузка 150К-300К
он не любит много метрик через один коннект. ни на вход ни на выход.
если это ваш кейс то можете попробовать https://github.com/chbuescher/carbon-c-relay

Алексей
15.02.2018
16:51:26
Кому релевантно @ru_gitlab

Alexander
15.02.2018
17:05:13

Alexey
15.02.2018
17:05:42

Alexander
15.02.2018
17:07:21
в секунду получается что около 200 разом прилетает

Alexey
15.02.2018
17:08:14
размер буфера не влияет в целом на производительность. Он позволяет придержать метрики в памяти если store или следующий релей лежит.
то есть при дропах на релее проблема как правило не в нем

Alexander
15.02.2018
17:09:50
вот и у меня такая догадка была :(

Alexey
15.02.2018
17:10:47
разве что правила аггрегации и изощренная логика с кучей regex могут к этому приводить

Alexander
15.02.2018
17:11:46
не аггрегации нету, немного изощренный роутинг

Alexey
15.02.2018
17:11:56
а куда с релея данные уходят? что там? go-carbon carbon-cache?

Google

Alexander
15.02.2018
17:12:44
carbon-clickhouse
но судя по его метрикам не он витноват
видно что на релее уходит меньше чем приходит и все ложиться в кликхаус

Alexey
15.02.2018
17:14:34
go-carbon у нас тянул до 1000000 точек в секунду(IN) на один сервер
в норме держим менее 300К

Alexander
15.02.2018
17:19:31
попробую форк - глядишь поможет

Vladimir
15.02.2018
17:21:17
но я не уверен
а, не форкнут

Roman
15.02.2018
17:28:05

Alexander
15.02.2018
18:13:58
мда, увеличение буфера нисколечко не помогло

Roman
15.02.2018
18:35:11
может у тебя просто какие-то данные невалидные и оно их не может распарсить?

Alexey
15.02.2018
18:37:30

Alexander
16.02.2018
03:24:07
странные у меня сомнения закрались - попробую подтвердить

Tkorochka
16.02.2018
05:31:16
А есть кто собирает с filebeat его метрики?

Favoretti
16.02.2018
08:35:15
metricbeat? ?

Tkorochka
16.02.2018
09:03:20
metricbeat? ?
не-не. это намек на ELK стек для мониторинга и статистики. для меня это не вариант

George
16.02.2018
09:16:29
Для логов и json'ов - да, он божественнен

Google

buttno
16.02.2018
09:47:13
Кек

George
16.02.2018
09:48:59
как

Shazo
16.02.2018
10:37:34
мм, а как дебажится prometheus? только по логам? Есть ощущение что не собираются метрики самого себя.

отделение
16.02.2018
10:39:09

Admin
ERROR: S client not available

Shazo
16.02.2018
10:40:18
Там нет самого сервера prometheus - речь о селф метриках.
Хотя в конфиге:
scrape_configs:
- job_name: 'prometheus'
scrape_interval: 5s
static_configs:
- targets: ['localhost:9090']

отделение
16.02.2018
10:41:15
> там нет самого сервера
а должен быть

Favoretti
16.02.2018
10:42:34

Shazo
16.02.2018
10:42:38
отсюда и вопрос

Favoretti
16.02.2018
10:42:53
metricbeat же под него же и заточен

Михаил
16.02.2018
11:44:54
дратути

Alexander
16.02.2018
11:45:17

Shazo
16.02.2018
11:46:28
Да, уже разобрался - не правильно понял структуру. Указывал несколько раз scrape_comfig, а не внутри job. Проверял с помощью promtool конфиг, но ему на это пофигу.

Andor
16.02.2018
11:46:51
это надо yaml изучать, а не прометей

Andrew
16.02.2018
11:47:50
Ну да.
Пром тупо игнорит кривые инструкции если они не фатальны для его работы.

Andor
16.02.2018
11:48:24
не игнорит он ничего

Shazo
16.02.2018
11:48:34
игнорирует в данном случае

Andor
16.02.2018
11:48:39
если левые данные в ямле будут, которые он не сможет распарсить - он не запустится

Andrew
16.02.2018
11:48:52
Дык это относится к фатальным ошибкам :)

Shazo
16.02.2018
11:48:54
туту я могу поспорить

Google

Andor
16.02.2018
11:49:15
если у тебя два раза один и тот же ключ в хеше в ямле будет вписан - последнее (по порядку строк) и будет использовано, и это не особенность прометея, это ямль
зачем вообще руками генерировать ямль файлы

Shazo
16.02.2018
11:49:54
с таким же вопросом. можно спросить - зачем вообще его использовать
вопрос из разряда - я дартаньян

Andor
16.02.2018
11:50:06
нет, это странный вопрос
зачем вообще конфиги руками делать?
разве что от большой скуки

Shazo
16.02.2018
11:50:35
когда, ты часто меняешь и запускаешь в тестах?

Andor
16.02.2018
11:51:08
если под тестами ты подразумеваешь эксперименты, то пожалуй это единственный вариант, но и там можно это делать не руками

Shazo
16.02.2018
11:51:12
для того чтобы не забивать микроскопом гвозди

Andor
16.02.2018
11:51:39
wat

Alexander
16.02.2018
11:59:27
Кто-нибудь мониторит vsphere, hp ilo? Через telegraf? Или лучше даже не пытаться, нашел только powershell скрипты, которые пишут напрямую в бд.

Andor
16.02.2018
12:01:02
ilo можно через ipmi частично мониторить

Alexander
16.02.2018
12:12:44

Andor
16.02.2018
12:13:49
ну там надо смотреть что доступно именно в твоей платформе