@clickhouse_ru

Страница 619 из 723

Tima

11.08.2018
16:44:34

про фразу "кх eventual consistent и время выполнения запросов непредсказуемо и слишком медленно для маленьких выборок." - правильно, я понимаю, что это by design, то есть он не держит большое количество SELECT в принципе (условно говоря 1-3 в секунду - ок), но так как данные после INSERT доступны сразу для SELECT (как написали выше), то с этой точки зрения он консистентен?

Да, так

Alexey

11.08.2018
16:45:15

спасибо

Denis

11.08.2018
16:53:13

КХ невероятно быстро умеет перемолоть 50 млрд. записей на 10 нодах обработав данные за 2 года. КХ не заточен выбирать 10 записей.

Victor

11.08.2018
16:55:46

https://felixit.blog/2017/07/04/clickhouse-zachem/ Очень хорошие слова Самое важное, что следует запомнить и понять — эта база данных делалась не для вас и не для ваших задач. Нужно особенности кликхауса превращать в плюсы для своего приложения

Google

Alexey

11.08.2018
16:56:08

да, спасибо, я

это все прочитал

буду тестировать и думать смогу я его особенности превратить в плюсы или нет

Victor

11.08.2018
16:58:01

тут самое сложное, это бить себя по рукам, чтобы не получалось негативного переноса навыков

Alexey

11.08.2018
16:58:12

у меня есть две разные задачи - аналитика, под нее он подходит хорошо

показывать небольшие списки - под нее он подходит плохо

Dmitry

11.08.2018
17:04:21

@count0ru я нашел случайно на гитхабе твою репу с КХ под кубер, хотел поинтересоваться, взлетело?

Почти да )

Но это было давно - я бы поискал Хельм чарт

Robert

11.08.2018
19:31:05

Робяты, кто нить на Go использует эту библиотеку? "github.com/kshvakov/clickhouse". Никак не могу побороть сохранение в таблице поля, который является массивов UInt64. Может кто подскажет как?

Константин

11.08.2018
19:46:50

Ребята, кто может подсказать по когортному анализу в Google Sheets, с помощью плагин Analytics Addon?

?

11.08.2018
19:53:25

Робяты, кто нить на Go использует эту библиотеку? "github.com/kshvakov/clickhouse". Никак не могу побороть сохранение в таблице поля, который является массивов UInt64. Может кто подскажет как?

@kshvakov скорее всего подскажет )

Kirill

12.08.2018
04:25:52

Робяты, кто нить на Go использует эту библиотеку? "github.com/kshvakov/clickhouse". Никак не могу побороть сохранение в таблице поля, который является массивов UInt64. Может кто подскажет как?

Должно работать как и для любого другого значения INSERT INTO T (ColumnAUInt64) VALUES(?), в Exec передаете массив.

https://github.com/kshvakov/clickhouse/blob/master/clickhouse_test.go#L507

Google

Robert

12.08.2018
07:22:50

@kshvakov, спасибо!

Алексей

12.08.2018
08:18:45

Коллеги, а как так может получится что кх не переделывает -preprocessed файлы ?

-rwxrwxr-x. 1 clickhouse clickhouse 1583 авг 11 06:46 administrativedomain-preprocessed.xml -rw-r--r-- 1 root root 1326 авг 12 11:15 administrativedomain.xml

Alexey

12.08.2018
08:26:04

Ошибка видимо в конфиге

Alexey

12.08.2018
18:37:01

Скажите, а КХ нормально относится к запросам когда надо вернуть десяток млн записей по PK раз час условно? В capn'proto например, список UInt32

Аггрегацию по ним он считает полсекунды на моем датасете

Фактически ему надо вычитать 40 МБ с диска и запихать в сеть

Evgeny

12.08.2018
18:40:43

Скажите, а КХ нормально относится к запросам когда надо вернуть десяток млн записей по PK раз час условно? В capn'proto например, список UInt32

Почему бы и нет, но профит от кх в таких запросах сомнительный. Мы выгружаем несколько сот тысяч ежесуточно, пока ничего не сломалось :)

Alexey

12.08.2018
18:41:41

Быстро отрабатывает несколько сот тыс? По PK?

Evgeny

12.08.2018
18:49:44

Выборка не полностью по pk. Отрабатывает достаточно быстро. Основное время - сеть и запись в dest выгрузки

Alexey

12.08.2018
18:57:13

Выборка не полностью по pk. Отрабатывает достаточно быстро. Основное время - сеть и запись в dest выгрузки

Спасибо, буду тестить тоже

Артемий

13.08.2018
06:43:38

Доброе утро! Есть запрос с JOIN. В результате получаем выборку и группируем ее. В процессе этой группировки необходимо работать с количество строк в этом JOIN. Как получить это количество в том же запросе? Например: >SELECT A.name, sum(B.val) / count(B.date) FROM A JOIN B GROUP BY B.date - count(B.date) в данном случае вернет конечно же количество строк в группировке, есть способ получить число строк в JOIN?

Alexander

13.08.2018
06:47:56

Кто нить пользуется kafka table engine https://clickhouse.yandex/docs/en/operations/table_engines/kafka/? Для кого рода задач?

/stat@combot

Combot

13.08.2018
06:49:46

combot.org/c/-1001080295593

Vasilij

13.08.2018
06:54:40

Доброе утро! Есть запрос с JOIN. В результате получаем выборку и группируем ее. В процессе этой группировки необходимо работать с количество строк в этом JOIN. Как получить это количество в том же запросе? Например: >SELECT A.name, sum(B.val) / count(B.date) FROM A JOIN B GROUP BY B.date - count(B.date) в данном случае вернет конечно же количество строк в группировке, есть способ получить число строк в JOIN?

Собрать всё нужное во вложенном запросе, и уже в окончательном посчитать?

Артемий

13.08.2018
06:57:26

Собрать всё нужное во вложенном запросе, и уже в окончательном посчитать?

>JOIN (SELECT B.date, count()) - так нельзя сделать Нужны отдельно каждая строка и количество этих строк Можно было бы сделать как-то так, но это дополнительный ненужный запрос >JOIN (SELECT B.date FROM B) >JOIN (SELECT count() as count FROM B) В процессе агрегирования (группировке) нужен доступ к оригиналу таблицы без учета агрегации

Alexey

13.08.2018
07:34:36

Всем привет! Пока не разобрался с этим, поэтому повторю вопрос: Подскажите, пожалуйста, как настроить проверку переполнения при insert. В конфигурации Кликхауса по умолчанию такая вставка проходит без ошибок: CREATE TABLE default.test ( i32 UInt32 ) ENGINE = Memory; INSERT INTO default.test (i32) VALUES (123456789012345); (проверял также для MergeTree - поведение такое же)

Tima

13.08.2018
07:40:36

Всем привет! Пока не разобрался с этим, поэтому повторю вопрос: Подскажите, пожалуйста, как настроить проверку переполнения при insert. В конфигурации Кликхауса по умолчанию такая вставка проходит без ошибок: CREATE TABLE default.test ( i32 UInt32 ) ENGINE = Memory; INSERT INTO default.test (i32) VALUES (123456789012345); (проверял также для MergeTree - поведение такое же)

Никак, проверяйте на клиенте, перед отправкой

>JOIN (SELECT B.date, count()) - так нельзя сделать Нужны отдельно каждая строка и количество этих строк Можно было бы сделать как-то так, но это дополнительный ненужный запрос >JOIN (SELECT B.date FROM B) >JOIN (SELECT count() as count FROM B) В процессе агрегирования (группировке) нужен доступ к оригиналу таблицы без учета агрегации

Приведите пример полного запроса, что именно вам нужно

Google

Артемий

13.08.2018
08:51:42

Приведите пример полного запроса, что именно вам нужно

TABLE A: id, colA TABLE B: id, colB SELECT colA/(количество строк в табилце "В"), sum(colB) FROM A ANY INNER JOIN (SELECT id, colB FROM B) USING id GROUP BY colA Возможно ли в процессе агрегации обращаться к неагрегированным данным таблицы?

Tima

13.08.2018
09:11:04

TABLE A: id, colA TABLE B: id, colB SELECT colA/(количество строк в табилце "В"), sum(colB) FROM A ANY INNER JOIN (SELECT id, colB FROM B) USING id GROUP BY colA Возможно ли в процессе агрегации обращаться к неагрегированным данным таблицы?

Может как-то так SELECT colA / sum(bCount), sum(colB) FROM A ANY INNER JOIN ( SELECT id, colB, 1 AS bCount FROM B ) USING id GROUP BY colA Но проще сделать отдельный запрос и явно подставить count() от B в запрос

Артемий

13.08.2018
09:28:09

Может как-то так SELECT colA / sum(bCount), sum(colB) FROM A ANY INNER JOIN ( SELECT id, colB, 1 AS bCount FROM B ) USING id GROUP BY colA Но проще сделать отдельный запрос и явно подставить count() от B в запрос

Предположу, что так он подсчитает число sum(bCount) для каждого colA, а не для всех, т.е. это так же с учетом агрегации

Знаю, что в CH есть есть комбинатор -State, подумал, может быть есть и такой, который будет обрабатывать данные на уровне "за группировкой"

Mega

13.08.2018
10:12:00

Привет всем! пытаюсь подключитсья к CH через докер, не выходит. docker run -it yandex/clickhouse-client:latest -h IP --port PORT -u USER --password PASS --database DBNAME Code: 32. DB::Exception: Attempt to read after eof В чем может быть проблема?

Tima

13.08.2018
10:14:22

Привет всем! пытаюсь подключитсья к CH через докер, не выходит. docker run -it yandex/clickhouse-client:latest -h IP --port PORT -u USER --password PASS --database DBNAME Code: 32. DB::Exception: Attempt to read after eof В чем может быть проблема?

А как докер сервера как запускали? PORT торчит наружу?

Mega

13.08.2018
10:17:07

А как докер сервера как запускали? PORT торчит наружу?

Я до этого только с идешки подключался, порт наружу

С табикса и идешки норм получается, в терминале через докер не получается

А как докер сервера как запускали? PORT торчит наружу?

есть идеи в чем может быть проблема?

Tima

13.08.2018
10:36:51

Скорее всего проблема в том, что вы из докера, через слиент КХ, пытаетесь обратиться к порту, доступному из хоста (там, где докеры запущены). И вам нужно как-то прокинуть порт для докера (я не сильно разбираюсь), как-то так https://forums.docker.com/t/accessing-host-machine-from-within-docker-container/14248/4

Но это не факт

Mega

13.08.2018
10:37:30

Скорее всего проблема в том, что вы из докера, через слиент КХ, пытаетесь обратиться к порту, доступному из хоста (там, где докеры запущены). И вам нужно как-то прокинуть порт для докера (я не сильно разбираюсь), как-то так https://forums.docker.com/t/accessing-host-machine-from-within-docker-container/14248/4

убрал порт вообще, зашел, спасибо)

Yuriy

13.08.2018
10:55:02

Здравствуйте. Подскажите по первичному ключу в MergeTree пожалуйста. ПК - это то, как кликхаус будет сортировать записи при вставке. И описывать ПК слишком детально, наверное, не стоит - скорость вставки может сиильно понизиться, верно? Вставлять первым элементом в кортеж поле типа DateTime не очень хороошая идея? А если это DateTime всегда округлено до пяти минут (00:00:00, 00:00:05 etc т.к. метрики ко мне прилетают четко раз в пять миинут)?

Kirill

13.08.2018
10:57:23

Здравствуйте. Подскажите по первичному ключу в MergeTree пожалуйста. ПК - это то, как кликхаус будет сортировать записи при вставке. И описывать ПК слишком детально, наверное, не стоит - скорость вставки может сиильно понизиться, верно? Вставлять первым элементом в кортеж поле типа DateTime не очень хороошая идея? А если это DateTime всегда округлено до пяти минут (00:00:00, 00:00:05 etc т.к. метрики ко мне прилетают четко раз в пять миинут)?

Для метрик DateTime в индексе отличный выбор ;)

Denis

13.08.2018
10:58:43

DateTime или Date?

Yuriy

13.08.2018
10:58:54

DateTime

ну типа да. Просто зачем я вдруг подумал про DateTime в ПК: я внезапно захотел заюзать SummingMergeTree, чтобы оно мне метрики за одно и то же время по одним и тем же, скажем, связям суммировал.

У меня есть сценарий, когда по одному набору "измерений" прилетают счетчики по очереди: сначала counter1, потом counter2.

думал, устанавливать отсутствующие счетчики в 0 и позволять SUmmingMergeTree сразу же аггрегировать подобные записи. Вот такой пример у меня моей схемы: https://gist.github.com/azzz/c9e2d1cb4ec99184a4c790e820db504e

Denis

13.08.2018
11:00:54

это я у Кирилла спрашивал. обычно просто рекомендуют в индекс выносить Date

Google

Yuriy

13.08.2018
11:01:10

я думаю, Кирилл сарказмировал

Denis

13.08.2018
11:01:37

похоже, да

Kirill

13.08.2018
11:01:41

Нет, у вас все норм, только старайтесь вместо строк числовые идентификаторы использовать

Yuriy

13.08.2018
11:01:43

соответственно, три пути: - пусть программа группрует такие записи - пусть группирует КХ - он умный. - вообще не группировать прии вставке и не париться.

@kshvakov ну, я эти строки в Dictionary вынесу. Тем более, что те строки - это вообще полная печалька, там... UUIDы.

Kirill

13.08.2018
11:03:06

Для метрик SummingMergeTree отличный выбор, мы так туда из кафки сырые даные скидываем, а он в фоне суммирует

@kshvakov ну, я эти строки в Dictionary вынесу. Тем более, что те строки - это вообще полная печалька, там... UUIDы.

Тогда FixedString(16) и все будет хорошо

Yuriy

13.08.2018
11:04:32

в документации пишут, что с FixedString умеют работать не все функции и лучше его избегать. Но в принциипе, я не собираюсь проводиить манипуляции с ними.

Окей, но SummingMergeTree мержит записи не при каждом инсерте, а когда сам посчитает нужным. Т.е. вполне вероятен сценарий, когда я сделаю select и вместо одной записи получу 4 - т.к. еще не смержил, не успел. Выходит, что group by прийдется делать всегда при селекте?

таким образом, SummingMergeTree не то, чтобы сильно оптимизириует время получения данных, но зато оптимизирует процесс хранения, ага?

Kirill

13.08.2018
11:06:55

Окей, но SummingMergeTree мержит записи не при каждом инсерте, а когда сам посчитает нужным. Т.е. вполне вероятен сценарий, когда я сделаю select и вместо одной записи получу 4 - т.к. еще не смержил, не успел. Выходит, что group by прийдется делать всегда при селекте?

да, всегда нужно делать "доагрегированние"

таким образом, SummingMergeTree не то, чтобы сильно оптимизириует время получения данных, но зато оптимизирует процесс хранения, ага?

Он сильно можнт оттимизировать все схлопнув 1кк метрик в 500

Yuriy

13.08.2018
11:08:23

ну так-то да.

спасибо.

Alex