
Dno
06.02.2018
14:37:27
Чят, а скажи, как бы ты решал проблему хранения и обработки десятков тысяч метрик в минуту? Вот, условно у тебя в эксплуатации есть сервис, который крутится на почти сотне серверов. Сервис экспортирует очень детальные метрики с большим количеством измерений (dementions) по каждому компоненту сервиса и типу обрабатываемого события. Каждая размерность важна для определенного круга людей (для программистов, условно, скорость прохождения того или иного типа событий через каждый компонент сервиса, бизнесу интересны алерты по суммарным характеристикам, аналитикам вообще — чем больше размерностей, тем лучше).
Сейчас стоит прометей и он задыхается.

Алексей
06.02.2018
14:39:34
нужно больше прометеев
у меня уже 4

Google

Алексей
06.02.2018
14:39:53
правда из за retention-а

отделение
06.02.2018
14:40:55
> десятков тысяч метрик в минуту
метрик или точек?

Andor
06.02.2018
14:41:46
у нас было по 1млн+ и 100к+/секунду на хост и было норм
но это было на старом прометее, в 2.0 всё лучше должно быть

evix
06.02.2018
14:42:13
и серваки по 16 ядер на ссд?

Andor
06.02.2018
14:42:19
40

evix
06.02.2018
14:42:33
более лучше даже

Andor
06.02.2018
14:42:34
1млн это на самом ненагруженном было :)

Алексей
06.02.2018
14:43:34
а вообще пром да из коробки заявляют что архтетурно держит мульт

Andor
06.02.2018
14:43:49
щас они больше держат, я думаю
мы разгоняли до 2кк/сек, но это без агрегаций и без запросов (но и прометей тогда был версии 1.4)
сферически в вакууме получалось 2кк/сек

Google

отделение
06.02.2018
14:44:45
10% совсем в прыжке

Andor
06.02.2018
14:45:02
а сколько метрик в секунду?
и сколько в него падает запросов в секунду?

отделение
06.02.2018
14:45:19
rate(prometheus_tsdb_head_samples_appended_total [1m]) говорит 90к
а про запросы поискать ещё надо в этих переименованных промовских метриках имени себя

Andor
06.02.2018
14:46:27
я это нжинксом делал :)

отделение
06.02.2018
14:46:28
но там кроме шизанутых алерт-запросов особых потребителей нет

evix
06.02.2018
14:46:52
нормально. надо показать нашему заббиксу. может работать начнет.

отделение
06.02.2018
14:47:00
вот 1.8 да, любил с похожим паттерном потребления жрать cpu порой

Andor
06.02.2018
14:47:14
у нас прост было дохера (штук под 1000 наверное) агрегаций и запросы в него падали примерно 10 рпс на каждом инстансе
ну и не 2.х был

Andrew
06.02.2018
15:00:14
А кто-то сталкивался с такой ошибкой скрэйпа в ПРоме:
Get: target-url: EOF
?
Чего ему не нравится непонятно.

Andor
06.02.2018
15:00:56
синтаксис метрик
курлом дёрни и сам посмотри, может что-то очевидное будет

Andrew
06.02.2018
15:02:14
Бля, да, очевидное, но это значит бага в Проме.
Этот хост от других отличается только наличием докера. И вот видимо на его метриках он и отваливается

Andor
06.02.2018
15:02:35
вообще вряд ли

Andrew
06.02.2018
15:02:39
Вот такая ебала:
netdata_disk_iotime_milliseconds_persec_average{chart="disk_iotime.docker_9_127_655431_ef152281ae9f983d8eaf8679d6ba03b406feabcfaabd1949471747d0cf63dd6e",family="docker-9_127-655431-ef152281ae9f983d8eaf8679d6ba03
b406feabcfaabd1949471747d0cf63dd6e",dimension="reads"} 0.0000000 1517929278000

Andor
06.02.2018
15:02:42
обычно это означает что бага не в проме, а в экспортере

Google

Andrew
06.02.2018
15:02:55
Хм, кстати тоже вариант.

Andor
06.02.2018
15:03:11
уверен, что на этом ломается?

Andrew
06.02.2018
15:03:40
На 90%.
Т.к. везде одинаковый конфиг для экспоуза, а отваливается только на этом хосте
И докеров больше нет нигде, т.е. тут как бы 2+2, ну и совпадение такое..

buttno
06.02.2018
15:12:17
https://github.com/fhemberger/chrome-prometheus-formatter

Andor
06.02.2018
15:14:52
неплохо

Dno
06.02.2018
15:17:34
10% совсем в прыжке
У меня либо потребителей много, либо я чего-то не пони, но мой прометей 1.5 упирается либо в диск, либо в cpu.

Andor
06.02.2018
15:19:46
обнови до 2.1 сначала

Paul
06.02.2018
15:19:58

Andor
06.02.2018
15:20:08
1.5 совсем уж древний
хотя.. ему вроде год всего?

Dno
06.02.2018
15:21:13
Следующий вопрос. В документации написано, что сторадж прометея не предназначен для длительного хранения данных. Что сейчас модно/кошеrно использовать для хранения исторических данных?

Paul
06.02.2018
15:21:59

Sergey
06.02.2018
15:22:09
+1

Dno
06.02.2018
15:22:18

Andor
06.02.2018
15:22:32
устанешь

отделение
06.02.2018
15:22:50
а их уже научились брать и переносить?

Andor
06.02.2018
15:23:02
неа

Google

Dno
06.02.2018
15:23:17

Andor
06.02.2018
15:23:40
это у тебя за какое время полтора терабайта?
у нас за месяц при 100+к/сек было меньше 500гб

Dno
06.02.2018
15:24:04
кликхауз
А кликхауз уже нормально цепляется к прометею и графане?

Andor
06.02.2018
15:24:52
Ты год хранишь данные в прометее?

Admin
ERROR: S client not available

Sergey
06.02.2018
15:24:59
мухаха

Andor
06.02.2018
15:25:11
Мигрировать на 2.х будешь тоже год
А хотя бы на 1.8 обновиться стоит

Dno
06.02.2018
15:26:28

Andor
06.02.2018
15:27:12
С 1.5 до 1.8 мы обновляли ваще без проблем
Но бэкап на всякий случай не помешает

Dno
06.02.2018
15:27:24

Andrew
06.02.2018
15:27:36
Год это сурово
Хуй, не докер метрики причина... Что ж за.

Andor
06.02.2018
15:28:12
А ты можешь сдампить с двух хостов и сравнить?

Andrew
06.02.2018
15:28:28
Ага, щас видимо придется.
А точка в имени лейблы допустима?
вернее в её value

Google

отделение
06.02.2018
15:30:25
допустимо хоть 1.23e45 в значении указывать
или я не понял твой вопрос

Dno
06.02.2018
15:30:38
Про кликхаус. Как в него переливать историю и читать графаной? Сложное колдунство или пара строк конфигов?

Andrey
06.02.2018
15:31:14
именно от данных эта скотина и зависит от всех этих вот подписей к графикам и прочего, там вроде поговаривали что в свежей 5-ке они отрисовку поправили, может перестанет и скакать :)

Сергей
06.02.2018
15:31:19
читать графаной - это на гитхаб за плагином от вертамедии

Bogdan (SirEdvin)
06.02.2018
15:31:56
Адаптерами разве что. Но я не видел еще адаптер prom -> clickhouse, который бы был обозначен как production ready. Или такие уже есть ?

Andrew
06.02.2018
15:32:28
Я тоже не видел, к сожалению

Sergey
06.02.2018
15:32:37
они прячутся
как суслики

Bogdan (SirEdvin)
06.02.2018
15:32:56
А так есть список: https://prometheus.io/docs/operating/integrations/#remote-endpoints-and-storage
Если выбрать адаптер, который умеет в read и write, то можно вообще через пром работать. Правда они там все как минимум странные)
В теории еще можно самому чистить данные, оставляя только важные, но это только для prom >=2.0.
И таких штук я тоже пока не видел(

Sergey
06.02.2018
15:37:05
Things considered unstable for 2.x:
Any feature listed as experimental or subject to change, including:
Remote read, remote write and the remote read endpoint

Andor
06.02.2018
15:37:50
ну то есть не в имени, а в значении