@metrics_ru

Страница 442 из 681

Dno

06.02.2018
14:37:27

Чят, а скажи, как бы ты решал проблему хранения и обработки десятков тысяч метрик в минуту? Вот, условно у тебя в эксплуатации есть сервис, который крутится на почти сотне серверов. Сервис экспортирует очень детальные метрики с большим количеством измерений (dementions) по каждому компоненту сервиса и типу обрабатываемого события. Каждая размерность важна для определенного круга людей (для программистов, условно, скорость прохождения того или иного типа событий через каждый компонент сервиса, бизнесу интересны алерты по суммарным характеристикам, аналитикам вообще — чем больше размерностей, тем лучше).

Сейчас стоит прометей и он задыхается.

Алексей

06.02.2018
14:39:34

нужно больше прометеев

у меня уже 4

Google

Алексей

06.02.2018
14:39:53

правда из за retention-а

отделение

06.02.2018
14:40:55

> десятков тысяч метрик в минуту метрик или точек?

Andor

06.02.2018
14:41:46

у нас было по 1млн+ и 100к+/секунду на хост и было норм

но это было на старом прометее, в 2.0 всё лучше должно быть

evix

06.02.2018
14:42:13

и серваки по 16 ядер на ссд?

Andor

06.02.2018
14:42:19

40

evix

06.02.2018
14:42:33

более лучше даже

Andor

06.02.2018
14:42:34

1млн это на самом ненагруженном было :)

Чят, а скажи, как бы ты решал проблему хранения и обработки десятков тысяч метрик в минуту? Вот, условно у тебя в эксплуатации есть сервис, который крутится на почти сотне серверов. Сервис экспортирует очень детальные метрики с большим количеством измерений (dementions) по каждому компоненту сервиса и типу обрабатываемого события. Каждая размерность важна для определенного круга людей (для программистов, условно, скорость прохождения того или иного типа событий через каждый компонент сервиса, бизнесу интересны алерты по суммарным характеристикам, аналитикам вообще — чем больше размерностей, тем лучше).

"большим" undefined

Алексей

06.02.2018
14:43:34

а вообще пром да из коробки заявляют что архтетурно держит мульт

Andor

06.02.2018
14:43:49

щас они больше держат, я думаю

мы разгоняли до 2кк/сек, но это без агрегаций и без запросов (но и прометей тогда был версии 1.4)

сферически в вакууме получалось 2кк/сек

Google

отделение

06.02.2018
14:44:45

и серваки по 16 ядер на ссд?

/me посмотрел на cpu usage 24-ядерной машины со вторым порнометеусом

10% совсем в прыжке

Andor

06.02.2018
14:45:02

а сколько метрик в секунду?

и сколько в него падает запросов в секунду?

отделение

06.02.2018
14:45:19

rate(prometheus_tsdb_head_samples_appended_total [1m]) говорит 90к

а про запросы поискать ещё надо в этих переименованных промовских метриках имени себя

Andor

06.02.2018
14:46:27

я это нжинксом делал :)

отделение

06.02.2018
14:46:28

но там кроме шизанутых алерт-запросов особых потребителей нет

evix

06.02.2018
14:46:52

нормально. надо показать нашему заббиксу. может работать начнет.

отделение

06.02.2018
14:47:00

вот 1.8 да, любил с похожим паттерном потребления жрать cpu порой

Andor

06.02.2018
14:47:14

у нас прост было дохера (штук под 1000 наверное) агрегаций и запросы в него падали примерно 10 рпс на каждом инстансе

ну и не 2.х был

Andrew

06.02.2018
15:00:14

А кто-то сталкивался с такой ошибкой скрэйпа в ПРоме: Get: target-url: EOF ?

Чего ему не нравится непонятно.

Andor

06.02.2018
15:00:56

синтаксис метрик

курлом дёрни и сам посмотри, может что-то очевидное будет

Andrew

06.02.2018
15:02:14

Бля, да, очевидное, но это значит бага в Проме. Этот хост от других отличается только наличием докера. И вот видимо на его метриках он и отваливается

Andor

06.02.2018
15:02:35

вообще вряд ли

Andrew

06.02.2018
15:02:39

Вот такая ебала: netdata_disk_iotime_milliseconds_persec_average{chart="disk_iotime.docker_9_127_655431_ef152281ae9f983d8eaf8679d6ba03b406feabcfaabd1949471747d0cf63dd6e",family="docker-9_127-655431-ef152281ae9f983d8eaf8679d6ba03 b406feabcfaabd1949471747d0cf63dd6e",dimension="reads"} 0.0000000 1517929278000

Andor

06.02.2018
15:02:42

обычно это означает что бага не в проме, а в экспортере

Google

Andrew

06.02.2018
15:02:55

Хм, кстати тоже вариант.

Andor

06.02.2018
15:03:11

уверен, что на этом ломается?

Andrew

06.02.2018
15:03:40

На 90%. Т.к. везде одинаковый конфиг для экспоуза, а отваливается только на этом хосте

И докеров больше нет нигде, т.е. тут как бы 2+2, ну и совпадение такое..

buttno

06.02.2018
15:12:17

https://github.com/fhemberger/chrome-prometheus-formatter

Andor

06.02.2018
15:14:52

неплохо

Dno

06.02.2018
15:17:34

> десятков тысяч метрик в минуту метрик или точек?

Метрик.

10% совсем в прыжке

У меня либо потребителей много, либо я чего-то не пони, но мой прометей 1.5 упирается либо в диск, либо в cpu.

Andor

06.02.2018
15:19:46

обнови до 2.1 сначала

Paul

06.02.2018
15:19:58

У меня либо потребителей много, либо я чего-то не пони, но мой прометей 1.5 упирается либо в диск, либо в cpu.

SSD надеюсь?

Andor

06.02.2018
15:20:08

1.5 совсем уж древний

хотя.. ему вроде год всего?

Dno

06.02.2018
15:21:13

Следующий вопрос. В документации написано, что сторадж прометея не предназначен для длительного хранения данных. Что сейчас модно/кошеrно использовать для хранения исторических данных?

SSD надеюсь?

Да.

Paul

06.02.2018
15:21:59

Следующий вопрос. В документации написано, что сторадж прометея не предназначен для длительного хранения данных. Что сейчас модно/кошеrно использовать для хранения исторических данных?

кликхауз

Sergey

06.02.2018
15:22:09

+1

Dno

06.02.2018
15:22:18

обнови до 2.1 сначала

Там полтора терабайта данных. Я мигрировайт не устану?

Andor

06.02.2018
15:22:32

устанешь

отделение

06.02.2018
15:22:50

а их уже научились брать и переносить?

Andor

06.02.2018
15:23:02

неа

Google

Dno

06.02.2018
15:23:17

устанешь

Хнык

Andor

06.02.2018
15:23:40

это у тебя за какое время полтора терабайта?

у нас за месяц при 100+к/сек было меньше 500гб

Dno

06.02.2018
15:24:04

кликхауз

А кликхауз уже нормально цепляется к прометею и графане?

это у тебя за какое время полтора терабайта?

Вот за примерно тот же год.

Andor

06.02.2018
15:24:52

Ты год хранишь данные в прометее?

Admin

ERROR: S client not available

Sergey

06.02.2018
15:24:59

мухаха

Andor

06.02.2018
15:25:11

Мигрировать на 2.х будешь тоже год

А хотя бы на 1.8 обновиться стоит

Dno

06.02.2018
15:26:28

А хотя бы на 1.8 обновиться стоит

Это без крови будет или снапшоты — наше всо?

Andor

06.02.2018
15:27:12

С 1.5 до 1.8 мы обновляли ваще без проблем

Но бэкап на всякий случай не помешает

Dno

06.02.2018
15:27:24

Мигрировать на 2.х будешь тоже год

У меня одно оправдание — это было собрано до меня и как-то работало даже без вмешательства человеков.

Andrew

06.02.2018
15:27:36

Год это сурово

Хуй, не докер метрики причина... Что ж за.

Andor

06.02.2018
15:28:12

А ты можешь сдампить с двух хостов и сравнить?

Andrew

06.02.2018
15:28:28

Ага, щас видимо придется.

А точка в имени лейблы допустима?

вернее в её value

Google

отделение

06.02.2018
15:30:25

допустимо хоть 1.23e45 в значении указывать

или я не понял твой вопрос

Dno

06.02.2018
15:30:38

Про кликхаус. Как в него переливать историю и читать графаной? Сложное колдунство или пара строк конфигов?

Andrey

06.02.2018
15:31:14

именно от данных эта скотина и зависит от всех этих вот подписей к графикам и прочего, там вроде поговаривали что в свежей 5-ке они отрисовку поправили, может перестанет и скакать :)

Сергей

06.02.2018
15:31:19

читать графаной - это на гитхаб за плагином от вертамедии

Bogdan (SirEdvin)

06.02.2018
15:31:56

Адаптерами разве что. Но я не видел еще адаптер prom -> clickhouse, который бы был обозначен как production ready. Или такие уже есть ?

Andrew

06.02.2018
15:32:28

Я тоже не видел, к сожалению

Sergey

06.02.2018
15:32:37

они прячутся

как суслики

Bogdan (SirEdvin)

06.02.2018
15:32:56

А так есть список: https://prometheus.io/docs/operating/integrations/#remote-endpoints-and-storage

Если выбрать адаптер, который умеет в read и write, то можно вообще через пром работать. Правда они там все как минимум странные)

В теории еще можно самому чистить данные, оставляя только важные, но это только для prom >=2.0.

И таких штук я тоже пока не видел(

Sergey

06.02.2018
15:37:05

Things considered unstable for 2.x: Any feature listed as experimental or subject to change, including: Remote read, remote write and the remote read endpoint

Andor

06.02.2018
15:37:50

А точка в имени лейблы допустима?

там допустим любой utf8 символ, который сможет распознать гошка

Открыть в Telegram