@clickhouse_ru

Страница 715 из 723
Yuran
23.10.2018
10:22:00


Wolf
23.10.2018
10:22:35
В доке тишина
ну там есть поиск и там все есть насколько помню

Anton
23.10.2018
10:22:49
Нету

Хотя они говорили что не часто ее обновляют

Google
Wolf
23.10.2018
10:24:02
Хотя они говорили что не часто ее обновляют
https://clickhouse.yandex/docs/en/query_language/alter/

я брал оттуда инфу когда прикручивал себе делете

просто если вы будете использовать апдейт или делете как обычно раньше делали у вас будет все очень плохо

Anton
23.10.2018
10:25:58
Пока все нормально, там история поиска и заказов на лярд записей всего. Регенерация периодов раз в неделю, с учетом скорости инсерта из файла в КХ это занимает 10 минут в неделю

Wolf
23.10.2018
10:27:11
ну вы понимаете что у вас будут не консистентные данные пока идет апдейт ?

то есть в одном парте уже будут новые, а в другом старые

Anton
23.10.2018
10:27:58
Не боюсь совсем. В 2 часа ночи с вск на пн там никого нет

Peter
23.10.2018
10:31:28
привет

Wolf
23.10.2018
10:31:36
а и самое главное надо иметь места свободного в два раза больше чем самый большой парт в котором будет изменение данных , иначе мутация не пройдет на парте

именно это ограничение все сломало у меня когда начал использовать эти функции

Alexey
23.10.2018
11:10:50
а есть в планах снятие с pointInPolygon ограничения на константность многоугольника?
Нет, но возможно, мы добавим поддержку словарей полигонов. То есть, использование множества заранее заданных полигонов.

в кажом файле 1 запрос на вставку, с кучей values
Придётся обработать этот файл sed-ом, чтобы был один запрос insert с пачкой данных.

Google
Константин
23.10.2018
11:13:24
Alexey
23.10.2018
11:13:39
источником для это же сможет выступать какая либо субд?)
Да (полигоны можно будет передавать в виде строки какого-то известного формата для гео-данных). Но это пока в проекте.

Eugene
23.10.2018
11:19:19
ребятки, при импорте csv без заголовка, как можно скипнуть какой-нибудь столбец? или хотя бы обрезать значение? там просто blob, хочется от него избавиться... есть какие-то рычаги?

Eugene
23.10.2018
11:26:52
фак

сложно

Denis
23.10.2018
11:29:51
пять букв надо написать для cut

Vladislav
23.10.2018
12:02:48
День добрый! О чем-то говорит постоянное появление в логах "Found N old parts to remove" "Removing part from filesystem" ?



У меня MV собирает данные из kafka кладет в distributed таблицу, она раскладывает по нодам, такое проделано 3 раза для 3 разных типов источников данных, но почему-то только для 1 появляются такие сообщения

Vladislav
23.10.2018
12:13:52
Это часть нормальной работы сервера.
Понял, спасибо. Просто немножко смущает, что я не вижу подобных сообщений для 2 остальных источников, скорость вставки там выше. А здесь появляется каждую секунду на каждой ноде. Т.е. это совсем нормально и например с неоптимальностью ключей шардинга, партиций, сэмплинга никак не связано?

Alex
23.10.2018
12:19:14
Это значит, что в таблицу идёт вставка - потом вставленные куски мержатся в большие куски и становятся ненужными и через некоторое время удаляются. Если для других таблиц такие сообщения не наблюдаются, возможно в них никто не вставляет.

Eugene
23.10.2018
12:52:16
пять букв надо написать для cut
echo '"a",0,"1,2,3,4","end"' | cut -d, -f3 как удалить "1,2,3,4" ?

Denis
23.10.2018
12:59:54
echo '"a",0,"1,2,3,4","end"' | cut -d, -f3 как удалить "1,2,3,4" ?
а у вас csv, ну тогда грузить в engine log и insert select или ssconvert-м заменить формат/сепаратор

хотя пишут что awk может echo '"a",0,"1,2,3,4","end"' | awk -vFPAT='([^,]*)|("[^"]+")' -vOFS=, '{print $1,$2,$4}'

"a",0,"end"

Aleksandr
23.10.2018
13:04:48
Привет всем. Столкнулся с странной ошибкой, делаю селект с КХ кластера и получаю ошибку: Block structure mismatch in UNION stream: different names of columns: Версия: Connected to ClickHouse server version 18.12.17 revision 54407. ошибка в случае если делать с условием по не скольким полям, если делать условие по каждому из полей отдельно все ок

в чем может быть ошибка?

Google
Aleksandr
23.10.2018
13:06:50
заметил если в запросе указать *

то ошибка

Denis
23.10.2018
13:09:38
в чем может быть ошибка?
а если в clickhouse-client перед запросом выполнить set enable_optimize_predicate_expression = 0

Aleksandr
23.10.2018
13:10:13
все равно ошибка

еще проверил ошибку выдает только Distributed таблица

если делать запрос к sharded то все ок

Alexey
23.10.2018
13:11:07
да, есть такая тема

какие-то колонки глючат

Wolf
23.10.2018
13:11:30
в гите есть ишью про это вроде

Aleksandr
23.10.2018
13:11:38
https://github.com/yandex/ClickHouse/issues/2156

вот такое нашел

>But removing the limit section make it works. у меня то же работает если удалить limit

Alexey
23.10.2018
13:13:59
у вас в селекте есть order by или limit? когда воспроизводится ошибка

Wolf
23.10.2018
13:14:04
да это оно

Alexey
23.10.2018
13:14:06
ага, во

Wolf
23.10.2018
13:14:30
ошибка подтверждена @milovidov_an сказал будут чинить

Alexey
23.10.2018
13:14:42
select * from (select * from distributed без лимита) limit

Aleksandr
23.10.2018
13:14:52
да, вот так у меня заработало ?

значит все таки баг, хух, думал я чего сломал при переезде на кластер ?

Vladimir
23.10.2018
13:31:04
Всем привет! У кого-то было в FB Ads : собираешь аудиторию в 120-150k, и всё ок а потом через 1-2 она становится менее 1000?

Google
Vladimir
23.10.2018
13:32:46
какая версия CH ? :)
Версия 69.0.3497.100

Admin
ERROR: S client not available

Denis
23.10.2018
13:33:54
Версия 69.0.3497.100
это хром, причем тут clickhouse ?

Tatiana
23.10.2018
13:46:45
В changelog для 18.14.9 написано “Настройка enable_optimize_predicate_expression выключена по-умолчанию” Но у меня она все равно = 1

Alex
23.10.2018
13:50:34
Да, это ошибка в changelog. Соответствующий коммит пока только в мастере.

Vladislav
23.10.2018
14:50:30
Всем привет. А если сделали огромной табличке optimize final, но спустя 13 часов поняли, что это боль. Можно сделать kill query?

Данные не побьются ?

Kos
23.10.2018
15:00:58
Добрый вечер, как повлияет на скорость записи партицирование одной большой таблицы на ~50 таблиц различных размеров. Идея в том что мы знаем какая именно таблица нужна при запросе, если она небольшая - это значительно ускорит чтение. Писать собираемся через кафку.

Wolf
23.10.2018
15:11:01
ну а смысл в этом если у вас в условиях есть дата и время то и так запросы будут быстрыми

Alexey
23.10.2018
15:11:52
если я добавил MATERIALIZED колонку, optimize table partition final заполнит ее данными для указанной партиции? что-то видел краем глаза вроде

Alexey
23.10.2018
15:19:07
Да.
спасибо

Алексей
23.10.2018
15:21:31
Всем, привет. Подскажите кто-нибудь сталкивался с ошибкой 2018.10.23 18:00:02.165703 [ 1 ] <Error> Application: DB::Exception: Cannot lock file /opt/data/clickhouse/status. Another server instance in same directory is already running. Проблема появилась после рестарта сервера, запущен один процесс clickhouse-server

и каждые 10 минут такая ошибка в логе пишется

Oleh
23.10.2018
15:23:10
lock файл остался видимо, попробуй удалить его

Алексей
23.10.2018
15:27:43
файл то есть, и там все верно заполнено, может быть глупый вопрос задам: он потом дожен будет пересоздаться?

Michal
23.10.2018
15:42:50
$ df -i Filesystem Inodes IUsed IFree IUse% Mounted on /dev/xvda1 6815232 43164 6772068 1% / devtmpfs 7833481 314 7833167 1% /dev tmpfs 7838925 1 7838924 1% /dev/shm tmpfs 7838925 435 7838490 1% /run tmpfs 7838925 16 7838909 1% /sys/fs/cgroup /dev/xvdb 10485760 434261 10051499 5% /var/lib/clickhouse/data tmpfs 7838925 1 7838924 1% /run/user/1002 tmpfs 7838925 1 7838924 1% /run/user/1001
Думаю проблема может быть связана с тем что вы сремаповали только папку data из /var/lib/clickhouse. А там ещё всякие разные папочки присутствуют. Например tmp. Возможно он пытается создать временный файл который создаётся не там где вы ожидаете.

Google
Michal
23.10.2018
15:46:28
Добрый вечер, как повлияет на скорость записи партицирование одной большой таблицы на ~50 таблиц различных размеров. Идея в том что мы знаем какая именно таблица нужна при запросе, если она небольшая - это значительно ускорит чтение. Писать собираемся через кафку.
А почему бы тот ключ определяющий "нужную" таблицу не поставить в начале первичного ключа КХ? Тогда всегда будет читаться ровно столько сколько нужно (пара лишних Кб не в счет).

А можете попробовать вашими "неправильными" запросами поднять использование памяти на "пустом" сервере? Можете как-то воспроизвести проблему?

Yuran
23.10.2018
15:49:12
А можете попробовать вашими "неправильными" запросами поднять использование памяти на "пустом" сервере? Можете как-то воспроизвести проблему?
Запросы содержат обращение к несуществующей функции :). К сожалению, в данный момент попробовать не можем, потому что откатили версию назад ?

Evgeny
23.10.2018
15:54:11
Запросы содержат обращение к несуществующей функции :). К сожалению, в данный момент попробовать не можем, потому что откатили версию назад ?
А можно структуру данных и запрос? Попробую у себя воспроизвести. Очень неприятно будет если аналитики невзначай наступят на подобное

Yuran
23.10.2018
15:57:18
Таблица распределенная, выглядит примерно так: CREATE TABLE default.table_dist ( date Date DEFAULT toDate(time), time DateTime, id Int32, key1 Int32, key2 Int32, count AggregateFunction(sum, Int64), min AggregateFunction(min, Int64), max AggregateFunction(max, Int64) ) ENGINE = Distributed(default, default, table_local) Запросы вида SELECT sumMerge(count), HLL_MAX(uniq_col) FROM table_dist WHERE id = 123

функции HLL_MAX в ClickHouse нет (как и колонки uniq_col в данном случае)

Почему мы такие запросы шлем — это другой вопрос :).

Yuran
23.10.2018
15:58:53
Я не могу сказать точно, но несколько запросов в секунду примерно.

За сутки, условно, пусть будет 500к запросов ?

записей в таблице по индексу находится ~100k — 1kk

Konstantin
23.10.2018
16:07:35
подскажите, можно ли через SELECT FROM mysql() получить geometry ?

Страница 715 из 723