@clickhouse_ru

Страница 715 из 723
Yuran
23.10.2018
10:22:00


Wolf
23.10.2018
10:22:35
В доке тишина
ну там есть поиск и там все есть насколько помню

Anton
23.10.2018
10:22:49
Нету

Хотя они говорили что не часто ее обновляют

Google
Wolf
23.10.2018
10:24:02
Хотя они говорили что не часто ее обновляют
https://clickhouse.yandex/docs/en/query_language/alter/

я брал оттуда инфу когда прикручивал себе делете

просто если вы будете использовать апдейт или делете как обычно раньше делали у вас будет все очень плохо

Anton
23.10.2018
10:25:58
Пока все нормально, там история поиска и заказов на лярд записей всего. Регенерация периодов раз в неделю, с учетом скорости инсерта из файла в КХ это занимает 10 минут в неделю

Wolf
23.10.2018
10:27:11
ну вы понимаете что у вас будут не консистентные данные пока идет апдейт ?

то есть в одном парте уже будут новые, а в другом старые

Anton
23.10.2018
10:27:58
Не боюсь совсем. В 2 часа ночи с вск на пн там никого нет

Peter
23.10.2018
10:31:28
привет

Wolf
23.10.2018
10:31:36
а и самое главное надо иметь места свободного в два раза больше чем самый большой парт в котором будет изменение данных , иначе мутация не пройдет на парте

именно это ограничение все сломало у меня когда начал использовать эти функции

Alexey
23.10.2018
11:10:50
а есть в планах снятие с pointInPolygon ограничения на константность многоугольника?
Нет, но возможно, мы добавим поддержку словарей полигонов. То есть, использование множества заранее заданных полигонов.

в кажом файле 1 запрос на вставку, с кучей values
Придётся обработать этот файл sed-ом, чтобы был один запрос insert с пачкой данных.

Google
Константин
23.10.2018
11:13:24
Alexey
23.10.2018
11:13:39
источником для это же сможет выступать какая либо субд?)
Да (полигоны можно будет передавать в виде строки какого-то известного формата для гео-данных). Но это пока в проекте.

Eugene
23.10.2018
11:19:19
ребятки, при импорте csv без заголовка, как можно скипнуть какой-нибудь столбец? или хотя бы обрезать значение? там просто blob, хочется от него избавиться... есть какие-то рычаги?

Eugene
23.10.2018
11:26:52
фак

сложно

Denis
23.10.2018
11:29:51
пять букв надо написать для cut

Vladislav
23.10.2018
12:02:48
День добрый! О чем-то говорит постоянное появление в логах "Found N old parts to remove" "Removing part from filesystem" ?



У меня MV собирает данные из kafka кладет в distributed таблицу, она раскладывает по нодам, такое проделано 3 раза для 3 разных типов источников данных, но почему-то только для 1 появляются такие сообщения

Vladislav
23.10.2018
12:13:52
Это часть нормальной работы сервера.
Понял, спасибо. Просто немножко смущает, что я не вижу подобных сообщений для 2 остальных источников, скорость вставки там выше. А здесь появляется каждую секунду на каждой ноде. Т.е. это совсем нормально и например с неоптимальностью ключей шардинга, партиций, сэмплинга никак не связано?

Alex
23.10.2018
12:19:14
Это значит, что в таблицу идёт вставка - потом вставленные куски мержатся в большие куски и становятся ненужными и через некоторое время удаляются. Если для других таблиц такие сообщения не наблюдаются, возможно в них никто не вставляет.

Eugene
23.10.2018
12:52:16
пять букв надо написать для cut
echo '"a",0,"1,2,3,4","end"' | cut -d, -f3 как удалить "1,2,3,4" ?

Denis
23.10.2018
12:59:54
echo '"a",0,"1,2,3,4","end"' | cut -d, -f3 как удалить "1,2,3,4" ?
а у вас csv, ну тогда грузить в engine log и insert select или ssconvert-м заменить формат/сепаратор

хотя пишут что awk может echo '"a",0,"1,2,3,4","end"' | awk -vFPAT='([^,]*)|("[^"]+")' -vOFS=, '{print $1,$2,$4}'

"a",0,"end"

Aleksandr
23.10.2018
13:04:48
Привет всем. Столкнулся с странной ошибкой, делаю селект с КХ кластера и получаю ошибку: Block structure mismatch in UNION stream: different names of columns: Версия: Connected to ClickHouse server version 18.12.17 revision 54407. ошибка в случае если делать с условием по не скольким полям, если делать условие по каждому из полей отдельно все ок

в чем может быть ошибка?

Google
Aleksandr
23.10.2018
13:06:50
заметил если в запросе указать *

то ошибка

Denis
23.10.2018
13:09:38
в чем может быть ошибка?
а если в clickhouse-client перед запросом выполнить set enable_optimize_predicate_expression = 0

Aleksandr
23.10.2018
13:10:13
все равно ошибка

еще проверил ошибку выдает только Distributed таблица

если делать запрос к sharded то все ок

Alexey
23.10.2018
13:11:07
да, есть такая тема

какие-то колонки глючат

Wolf
23.10.2018
13:11:30
в гите есть ишью про это вроде

Aleksandr
23.10.2018
13:11:38
https://github.com/yandex/ClickHouse/issues/2156

вот такое нашел

>But removing the limit section make it works. у меня то же работает если удалить limit

Alexey
23.10.2018
13:13:59
у вас в селекте есть order by или limit? когда воспроизводится ошибка

Wolf
23.10.2018
13:14:04
да это оно

Alexey
23.10.2018
13:14:06
ага, во

Wolf
23.10.2018
13:14:30
ошибка подтверждена @milovidov_an сказал будут чинить

Alexey
23.10.2018
13:14:42
select * from (select * from distributed без лимита) limit

Aleksandr
23.10.2018
13:14:52
да, вот так у меня заработало ?

значит все таки баг, хух, думал я чего сломал при переезде на кластер ?

Vladimir
23.10.2018
13:31:04
Всем привет! У кого-то было в FB Ads : собираешь аудиторию в 120-150k, и всё ок а потом через 1-2 она становится менее 1000?

Google
Vladimir
23.10.2018
13:32:46
какая версия CH ? :)
Версия 69.0.3497.100

Denis
23.10.2018
13:33:54
Версия 69.0.3497.100
это хром, причем тут clickhouse ?

Tatiana
23.10.2018
13:46:45
В changelog для 18.14.9 написано “Настройка enable_optimize_predicate_expression выключена по-умолчанию” Но у меня она все равно = 1

Alex
23.10.2018
13:50:34
Да, это ошибка в changelog. Соответствующий коммит пока только в мастере.

Vladislav
23.10.2018
14:50:30
Всем привет. А если сделали огромной табличке optimize final, но спустя 13 часов поняли, что это боль. Можно сделать kill query?

Данные не побьются ?

Kos
23.10.2018
15:00:58
Добрый вечер, как повлияет на скорость записи партицирование одной большой таблицы на ~50 таблиц различных размеров. Идея в том что мы знаем какая именно таблица нужна при запросе, если она небольшая - это значительно ускорит чтение. Писать собираемся через кафку.

Wolf
23.10.2018
15:11:01
ну а смысл в этом если у вас в условиях есть дата и время то и так запросы будут быстрыми

Alexey
23.10.2018
15:11:52
если я добавил MATERIALIZED колонку, optimize table partition final заполнит ее данными для указанной партиции? что-то видел краем глаза вроде

Alexey
23.10.2018
15:19:07
Да.
спасибо

Алексей
23.10.2018
15:21:31
Всем, привет. Подскажите кто-нибудь сталкивался с ошибкой 2018.10.23 18:00:02.165703 [ 1 ] <Error> Application: DB::Exception: Cannot lock file /opt/data/clickhouse/status. Another server instance in same directory is already running. Проблема появилась после рестарта сервера, запущен один процесс clickhouse-server

и каждые 10 минут такая ошибка в логе пишется

Oleh
23.10.2018
15:23:10
lock файл остался видимо, попробуй удалить его

Алексей
23.10.2018
15:27:43
файл то есть, и там все верно заполнено, может быть глупый вопрос задам: он потом дожен будет пересоздаться?

Michal
23.10.2018
15:42:50
$ df -i Filesystem Inodes IUsed IFree IUse% Mounted on /dev/xvda1 6815232 43164 6772068 1% / devtmpfs 7833481 314 7833167 1% /dev tmpfs 7838925 1 7838924 1% /dev/shm tmpfs 7838925 435 7838490 1% /run tmpfs 7838925 16 7838909 1% /sys/fs/cgroup /dev/xvdb 10485760 434261 10051499 5% /var/lib/clickhouse/data tmpfs 7838925 1 7838924 1% /run/user/1002 tmpfs 7838925 1 7838924 1% /run/user/1001
Думаю проблема может быть связана с тем что вы сремаповали только папку data из /var/lib/clickhouse. А там ещё всякие разные папочки присутствуют. Например tmp. Возможно он пытается создать временный файл который создаётся не там где вы ожидаете.

Добрый вечер, как повлияет на скорость записи партицирование одной большой таблицы на ~50 таблиц различных размеров. Идея в том что мы знаем какая именно таблица нужна при запросе, если она небольшая - это значительно ускорит чтение. Писать собираемся через кафку.
А почему бы тот ключ определяющий "нужную" таблицу не поставить в начале первичного ключа КХ? Тогда всегда будет читаться ровно столько сколько нужно (пара лишних Кб не в счет).

Google
Michal
23.10.2018
15:48:22
А можете попробовать вашими "неправильными" запросами поднять использование памяти на "пустом" сервере? Можете как-то воспроизвести проблему?

Yuran
23.10.2018
15:49:12
А можете попробовать вашими "неправильными" запросами поднять использование памяти на "пустом" сервере? Можете как-то воспроизвести проблему?
Запросы содержат обращение к несуществующей функции :). К сожалению, в данный момент попробовать не можем, потому что откатили версию назад ?

Evgeny
23.10.2018
15:54:11
Запросы содержат обращение к несуществующей функции :). К сожалению, в данный момент попробовать не можем, потому что откатили версию назад ?
А можно структуру данных и запрос? Попробую у себя воспроизвести. Очень неприятно будет если аналитики невзначай наступят на подобное

Yuran
23.10.2018
15:57:18
Таблица распределенная, выглядит примерно так: CREATE TABLE default.table_dist ( date Date DEFAULT toDate(time), time DateTime, id Int32, key1 Int32, key2 Int32, count AggregateFunction(sum, Int64), min AggregateFunction(min, Int64), max AggregateFunction(max, Int64) ) ENGINE = Distributed(default, default, table_local) Запросы вида SELECT sumMerge(count), HLL_MAX(uniq_col) FROM table_dist WHERE id = 123

функции HLL_MAX в ClickHouse нет (как и колонки uniq_col в данном случае)

Почему мы такие запросы шлем — это другой вопрос :).

Yuran
23.10.2018
15:58:53
Я не могу сказать точно, но несколько запросов в секунду примерно.

За сутки, условно, пусть будет 500к запросов ?

записей в таблице по индексу находится ~100k — 1kk

Konstantin
23.10.2018
16:07:35
подскажите, можно ли через SELECT FROM mysql() получить geometry ?

Страница 715 из 723