@clickhouse_ru

Страница 206 из 723
Maxim
18.07.2017
13:24:32
Какой у вас рейт запросов?

Oleg Bazdyrev
18.07.2017
13:43:20
более того, такие зависания блокируют остановку сервиса, только kill -9 и помогает

Alexander
18.07.2017
14:37:04
Grafana уже напрямую в CH ходить может? А то тут описывалось через графен.

Андрей
18.07.2017
14:40:52
Коллеги, привет. Кому удалось реализовать bulk заливку данных в КликХаус с помощью Pentaho Data Integration? Обычные Table Output и Execute SQL Script льют по одной записи и крайне медленно. Данные беру из PostgreSQL.

Google
Dmitry
18.07.2017
14:41:56
не-не, продолжайте про графану и КХ.

Igor
18.07.2017
14:43:43
https://github.com/Vertamedia/clickhouse-grafana

Alexander
18.07.2017
14:57:22
https://github.com/Vertamedia/clickhouse-grafana
Т.е. напрямую прикручивается? Это видел.

Roman
18.07.2017
14:58:25
Т.е. напрямую прикручивается? Это видел.
А что именно Вас интересует?

Edouard
18.07.2017
15:09:41
Извиняюсь за hijacking вопроса, но..



Возможно составлять query с учетом сортировки по avg \ current ?

Vitaly
18.07.2017
15:13:53
Там можно кликнуть на заголовок колонки и оно остортируется в нужном порядке

Edouard
18.07.2017
15:16:49
Там можно кликнуть на заголовок колонки и оно остортируется в нужном порядке
Да, благодарю вас. Видится, тем не менее, примерно следующее кратко: $columns( request, count(*) c) FROM $table ORDER BY current DESC с тем, чтобы без 'show legend' сразу было отображение с сортировкой

Мне видится это малореальным, конечно..

Roman
18.07.2017
15:31:43
Мне видится это малореальным, конечно..
если Вы посмотрите на генерируемый макросом $columns запрос, то увидите, что сортировка идет по времени. И это обязательно, т.к. Вы отображаете временной график. Вы можете не использовать этот макрос и написать кастомный запрос, который отобразит так, как Вам нужно. Но выше правильно заметили, что наиболее оптимальный способ - сортировать легенду на стороне графаны

Aliaksandr
18.07.2017
16:16:50
судя по графику, нужно использовать $rateColumns вместо $columns

Google
Aliaksandr
18.07.2017
16:18:10
тогда на графике получите requests per second

Alexandr
18.07.2017
17:02:46
Добрый день, коллеги. Подскажите, пожалуйста, насколько реально конвертировать postgres-hll формат HLL в Clickhouse формат uniqHLL12x или uniq? Посмотрев код, я так понимаю они не совместимы, но возможно есть способ конвертации. Спецификация HLL, которую использует postgres-hll - https://github.com/aggregateknowledge/hll-storage-spec/blob/master/STORAGE.md Необходимо мигрировать порядка 100ТБ данных, с сохранением уникальных элементов.

Vladimir
18.07.2017
17:44:47
Всем привет, проапгрейдили кластер, и унас не исчезают внутренние запросы, кластер не может стабилизироваться. Обновили все ноды до 1.1.54245. Что можно с этим сделать?

Andrey
18.07.2017
18:21:36
а что такое uniqHLL12x?

Alexandr
18.07.2017
18:23:12
аггрегирующая функция для хранения уникальных значений в HyperLogLog структуре

https://clickhouse.yandex/docs/en/agg_functions/index.html

Andrey
18.07.2017
18:30:59
постгресовый HLL вроде как довольно понятный, он может хранить состояние подсчета. в CH uniqHLL12(x) - это агрегатная функция, её состояние существует только во время выполнения запроса. Если я все правильно понял

она не для хранения ведь?

оно применит HLL пробегая по значениям

Alex
18.07.2017
18:32:49
В ClickHouse можно сохранять состояние любой агрегатной функции :)

Alexandr
18.07.2017
18:32:55
если используется Materilized Views, то насколько я понял - нет, будет именно хранить эти значения. Но я могу ошибаться.

т.е. мы хотим импортировать старые данные напрямую в Materialized View, а новые будут считаться с "сырых" данных в Clickhouse

Andrey
18.07.2017
18:35:03
постгресовый hll можно выгрузить как сейчас - в виде бинарного массива, можно раскидать по составляющим - флаги и контент, но куда его вштукать - не ясно

Alexandr
18.07.2017
18:36:03
да, верно, пока что к такому же выводу пришёл. А вот как конвертировать и возможно ли это вообще - неясно.

Andrey
18.07.2017
18:36:08
ну типа загрузить данные в CH и посчитать агрегат заново.

если уж вы данные собираетесь загрузить - то посчитать по ним hll - не проблема

Alex
18.07.2017
18:37:04
Промежуточное состояние: https://clickhouse.yandex/docs/ru/agg_functions/index.html#state

Andrey
18.07.2017
18:37:10
mat view - оно ведь view чего-то

Google
Alexandr
18.07.2017
18:45:06
ну типа загрузить данные в CH и посчитать агрегат заново.
к сожалению у нас нет сырых исходных данных, только агрегаты и надо как-то импортировать их в Clickhouse, включая уникальные значения

Alexandr
18.07.2017
18:47:56
в основном это суммы значений, но есть и десяток hstore, т.е. map ключ-значение

да, в дальнейшем все новые данные считаться через mat view

Andrey
18.07.2017
18:49:07
да, в дальнейшем все новые данные считаться через mat view
Тогда просто можно залить текущие агрегированные данные в таблицу сырых данных. Они будут начальными значениями для view

Andrey
18.07.2017
18:49:14
в доке CH написано "Используется 212 5-битовых ячеек. Размер состояния чуть больше 2.5 КБ"? в постгресовом HLL может оказаться любое количество регистров с любой битовой размерностью

Alexandr
18.07.2017
18:50:10
Тогда просто можно залить текущие агрегированные данные в таблицу сырых данных. Они будут начальными значениями для view
да, примерно так и хотим сделать, вот только с уникальными значениями так не сработает

Alexandr
18.07.2017
18:51:52
что значит с уникальными значениями?
есть тип данных в postgres - hll, мы храним уникальные IP используя этот тип данных в агрегации

Tima
18.07.2017
18:56:05
есть тип данных в postgres - hll, мы храним уникальные IP используя этот тип данных в агрегации
Юзер кейс для ClickHouse - не хранить агрегаты, а считать реалтайм каждый раз при запросе

Alexandr
18.07.2017
18:57:39
увы, при достаточно большом объеме данных, нет возможности хранить "окно" данных больше чем 2-3 месяца но агрегаты должны быть доступны за 1 год+

7M records/s

Tima
18.07.2017
19:00:36
увы, при достаточно большом объеме данных, нет возможности хранить "окно" данных больше чем 2-3 месяца но агрегаты должны быть доступны за 1 год+
В Яндекс Метрике хранят и считают https://clickhouse.yandex/docs/ru/introduction/ya_metrika_task.html. Возможно что-то делаете не так. Посмотрите в сторону https://clickhouse.yandex/docs/ru/table_engines/aggregatingmergetree.html

Andrey
18.07.2017
19:04:21
верно, в постгресовом в том числе SPARSED формат может быть, но дефолтное hll(log2m=11, regwidth=5, expthresh=-1, sparseon=1)
Вывод hll12()-State ведь текстовый? Можно просто посмотреть что оно там хранит?

Alexandr
18.07.2017
19:04:32
В Яндексе метрике всего 20,3 триллионов строк. При скорости 7M/s этот объем заполняется за 33 дня. Увы нам надо больше чем 33 дня. О различных структурах в Clickhouse читал, разбирался.

Andrey
18.07.2017
19:04:50
11 у постгреса подозрительно похоже на 12 :)

Alexandr
18.07.2017
19:06:57
при увеличении количества элементов postgres меняет формат хранения, видно по первым байтам

Google
Andrey
18.07.2017
19:08:13
Не, с пг то мне понятно

А что возвращает CH?

В виде промежуточного агрегата -State

Alexandr
18.07.2017
19:09:49
─hex(toString(uniquesIPv4))─┬─runningAccumulate(uniquesIPv4)─┐ │ 00019799D8DE │ 1 │ └────────────────────────────┴────────────────────────────────┘

Admin
ERROR: S client not available

Alexandr
18.07.2017
19:09:59
что-то такое CH возвращает

Andrey
18.07.2017
19:11:33
Понятно, какая-то внутренняя бинарная фигня...

Судя по доке там на 2,5кб должно быть

Edouard
18.07.2017
19:12:13
У вас интересный кейс, 7M/s инсертов.

Andrey
18.07.2017
19:12:18
А тут 6 байт

Alexander
18.07.2017
19:13:04
У вас интересный кейс, 7M/s инсертов.
Это не только у него. + данные за 3 года.

Andrey
18.07.2017
19:13:49
Три года в секунду?

Alexander
18.07.2017
19:14:41
7м записей в секунду, данные за 3 года.

Alexandr
18.07.2017
19:15:03
Сжатые в gzip tsv минутные агрегаты занимают всего 25ТБ, а вот хранить сырые данные при скорости 7М/s можем пока позволить хранить только 3 месяца. Дальше планируется увеличить этот срок.

даже при такой хорошем сжатии, что предоставляет Clickhouse

Alexandr
18.07.2017
20:03:45
Да, каждая минута пакуется, дальше пакуется в часы, часы в дни, дни в месяца. По крайней мере в текущей системе. С Clickhouse хотим хранить сырые данные за 3 месяца, а агрегированные минутные - бесконечно.

Vladimir
19.07.2017
07:17:59
@the_real_jkee @milovidov_an стоит сюда привести бота, который будет в момент когда вы тэгаете релизы (тестинг-стейбл) сюда ссылку на тэг присылать?

Виктор
19.07.2017
07:18:09
Конечно.

Если такой есть

Google
Александр
19.07.2017
07:24:44
И было бы не плохо все таки changelog какой то видеть и release notes :)

В прошлый раз очень даже годно получилось, но информация только тут есть и надо по хистори искать

Vladimir
19.07.2017
07:45:10
/subscribe yandex/ClickHouse all

GithubReleases
19.07.2017
07:45:10
Vladimir
19.07.2017
07:45:19
@the_real_jkee должен теперь оповещать )

Виктор
19.07.2017
07:45:33
Срочно релиз делаем

Vladimir
19.07.2017
07:46:17
если будут релиз нотсы это меня простимулирует бота допилить чтоб он их тоже выписывал )

а, ну еще так как он делает poll, то оповещения с задержкой до 30 минут будут )

GithubReleases
19.07.2017
07:47:19
/subscribe requires exactly 2 arguments

Виктор
19.07.2017
07:47:43
Ярик, не трогай бота :)

Vladimir
19.07.2017
07:47:45
@nilfalse там много реп, надо по хорошему ограничить чтоб он не воспринимал команды не от админов чата

но пока в todo :)

Yaroslav @nilfalse
19.07.2017
07:48:10
само получилось, по ссылке проманулся ?

Alex
19.07.2017
07:55:33
/subscribe yandex/ClickHouse all

GithubReleases
19.07.2017
07:55:33

Страница 206 из 723