@clickhouse_ru

Страница 417 из 723
Vsevolod
09.02.2018
23:38:33
Иногда полезно less -n, чтобы не тупило на огромных файлах

strange
09.02.2018
23:48:07
хм. ./release .... Compiling the C compiler identification source file "CMakeCCompilerId.c" failed. Compiler: /usr/bin/gcc-7

на свежем

а вот cmake .. / make поехал

Google
strange
10.02.2018
01:38:16
ага, я ссзб ./release вместо ./release --pbuilder :3

Теперь еще надо разобраться, шо там pbuilder внутри делает, top только xz показывал полчаса

Alex
10.02.2018
10:03:39
/release

Rudenko
10.02.2018
10:30:41
/release

command:///release это развод

Александр
10.02.2018
10:51:28
Похоже на забастовку и требование релиза )

Taras
10.02.2018
10:51:59
так недавно вроде был релиз О_О

Релиз ClickHouse 1.1.54343, 2018-02-05

prll
10.02.2018
11:38:01
Теперь еще надо разобраться, шо там pbuilder внутри делает, top только xz показывал полчаса
он пакует всю текущую директорию и если там были остатки прошлого билда - будет очень долго. можно сказать git clean -fdx . и все лишние файлы удалятся включая случайно забытые конфиги

strange
10.02.2018
11:41:52
О, спасибо.

Roman
10.02.2018
13:24:54
Ребята, привет. Подскажите, пожалуйста, как выгрузить данные в csv через docker? ввожу —query=" SELECT v FROM m WHERE localEventDate = '2017-11-01' GROUP BY video ORDER BY video FORMAT CSVWithNames " > video.csv выдаёт empty query

strange
10.02.2018
13:26:40
Через докер? Полная команда как выглядит?

Roman
10.02.2018
13:28:38
Через докер? Полная команда как выглядит?
Я подключился к БД. Далее ввожу запрос, что выше. Должен был произойти импорт данных, но что-то пошло не так) полная команда так и выглядит.

Google
?
10.02.2018
13:29:15
а если не в csv а из клиента – выдает данные?

Roman
10.02.2018
13:29:35
а если не в csv а из клиента – выдает данные?
из клиента выдает данные, да, нужно их импортнуть)

?
10.02.2018
13:29:52
тогда надо поискать video.csv где-то

Kirill
10.02.2018
13:34:25
Ту команду нужно не в кликхаусе выполнять, а просто в командной строке

Roman
10.02.2018
13:39:54
Ту команду нужно не в кликхаусе выполнять, а просто в командной строке
Хм, я думал, что можно сначала подключиться и потом только уже импорт делать :) оказывается нужно всё прописывать в рамках одного запроса.

а, всё, нашел ошибку) понял) спасибо всем за помощь!)

LeiDruid
10.02.2018
16:25:38
добрый вечер! Подскажите, клику действительно нужно так много подкаталогов в каталоге БД ?

Там сейчас, такое ощущение, что миллионы их

почти все они - в 10-минутном интервале

Но клик так адски призадумывается, что совсем печаль

нет, я ошибся, всего 40000 - но все равно - это нормально ?

запросов довольно много, но почти все они из сегодняшнего дня

Артемий
10.02.2018
17:18:43
> SELECT cutQueryStringAndFragment('site.ru/#data?id=1#h1') -- site.ru/#data - это можно считать верным поведением функции?

При этом (вырезается все верно): SELECT cutFragment('site.ru/#data?id=1#h1') -- site.ru/ Вместе с тем (не врезалось #data): SELECT cutQueryStringAndFragment('site.ru/#data?id=1#h1') -- site.ru/#data В общем, если в # (fragment identifier) есть символ вопроса, подобные функции могут не корректно вытаскивать данные Get параметров

добрый вечер! Подскажите, клику действительно нужно так много подкаталогов в каталоге БД ?
У каждой БД есть таблицы, у каждой таблицы есть партиции. Каждая партиция делится по ключу (обычно месяц) и делится в свою очередь на куски в нужном для работы сервера порядке. Таким образом одна новая таблица с делением по месяцу при вставке в нее данных может состоять из нескольких папок. У меня при вставке млн. записей в течение минуты создается около 40 папок. Их количество не увеличивается. Стоит проверить по какому ключу у вас идет партиционирование

LeiDruid
10.02.2018
17:49:53
У меня за 10 минут около 30 000 папок, партиционирование по месяцу (по умолчанию)

Артемий
10.02.2018
17:50:17
А как выглядят имена этих папок?

Например у меня так: 20170331_20170331_532_532_0

20170331_20170331 - это часть точно определяет тот самый ключ по дате. У вас значит должно быть 30 000 папок с одной датой.

Google
Артемий
10.02.2018
17:54:07
Так же следует попробовать сделать OPTIMIZE TABLE и посмотреть, сократится ли число папок.

Dmitry
10.02.2018
18:37:02
привет всем не могу найти нигде примеры работы кликхауса с катбустом. Может кто-то поделиться ссылками?

f1yegor
10.02.2018
18:37:33
сейчас

https://github.com/yandex/clickhouse-presentations/blob/master/tutorials/catboost_with_clickhouse_ru.md

Dmitry
10.02.2018
18:39:36
спасибо, а я правильно понимаю, что обучать модель надо где-то на стороне, а потом уже грузить ее в кликхаус?

f1yegor
10.02.2018
18:39:50
вроде как да

но я тут мимо проходил

Dmitry
10.02.2018
18:41:14
жаль нет команды "яндекс, обучись сам" ?

f1yegor
10.02.2018
19:03:12
зато есть "ок, гугл"

LeiDruid
10.02.2018
21:24:49
Да, небольшими

strange
10.02.2018
22:06:37
правило кликхауза - вы данные не мажьте, не мажьте, вы кусками кладите

Артемий
10.02.2018
22:50:18
Имею запрос (движок ReplacingMergeTree): >SELECT count() - uniq(`url`) FROM tableTest Имею результат: -108401 Вопрос: как такое возможно? Число уникальных записей БОЛЬШЕ чем общее число записей.

antuan
10.02.2018
23:30:02
а если не uniq, а uniqExact?

Артемий
10.02.2018
23:32:26
а если не uniq, а uniqExact?
Да, видимо это из-за приближения. URL - длинные строки

У меня uniqExact(`url`) выполнить не удается, сервер падает, видимо не хватает чего-то. Думаю в этом нет необходимости, скорее нужно настроить ограничение, для запрета случайного выполнения такого запроса.

Yura
11.02.2018
13:05:28
У меня uniqExact(`url`) выполнить не удается, сервер падает, видимо не хватает чего-то. Думаю в этом нет необходимости, скорее нужно настроить ограничение, для запрета случайного выполнения такого запроса.
Дурацкое предложение: что если сделать: uniq(random()) - uniq(url)` ? Правда, смысл оно приобретет только когда разница превысит несколько процентов от count()

strange
11.02.2018
13:25:38
llvm-5 теперь не опциональная зависимость если собирать без pbuilder (так, для себя заметка)

Google
papa
11.02.2018
14:50:58
если эти отрицательные числа пугают пользователей можно брать минимум из count и uniq.

Артемий
12.02.2018
07:27:53
если эти отрицательные числа пугают пользователей можно брать минимум из count и uniq.
Это выдуманный эксперементальный пример. Результат приближенный, но странно, что он больше (а не меньше) count().

Alexander
12.02.2018
07:31:25
Доброго времени суток всем! Подскажите, где почитать о подборе аппаратной конфигурации для разворачивания ClickHouse? Точнее как выбрать нужное количество серверов? Если это зависит только от предполагаемых объёмов данных, то сколько данных хранить на каждом из серверов кластера в Тб или процентах от общего количества?

Danil
12.02.2018
07:39:19
От объёма данных, а также необходимой скорости чтения. У меня получается примерно 2гб/сек разжатых данных с сервера, raid10 hdd. Думаю вам стоит провести эксперимент над своей табличкой на одном сервере, от этого исходить.

Vasilij
12.02.2018
07:39:48
Привет! Создаю ReplicatedMergeTree (ENGINE = ReplicatedMergeTree('/clickhouse/tables/1/Turnovers','Turnovers1',RecordDate, (RecordDate,UserID), 8192)) на трех репликах, однако они не видят друг друга. Где бы посмотреть? Идеи кончились :( В логах на всех репликах такое (ошибок нет): 2018.02.12 07:06:08.240381 [ 4 ] <Debug> funprodwh.Turnovers (StorageReplicatedMergeTree): Creating table /clickhouse/tables/1/Turnovers ... 2018.02.12 07:06:08.246985 [ 4 ] <Information> funprodwh.Turnovers (StorageReplicatedMergeTree): This is the first replica ... 2018.02.12 07:06:08.254078 [ 24 ] <Information> funprodwh.Turnovers (StorageReplicatedMergeTree): Became leader В system.replicas везде total_replicas = 1.

Kirill
12.02.2018
07:41:41
Доброго утра всем, вопрос такой, был ли у кого тут опыт с CH odbc + tableau? насколько хорошо работает и какие проблемы всплывали?

Vasilij
12.02.2018
07:43:51
Забыли. Как раз думаю, а может это обязательно? :)

Danil
12.02.2018
07:44:01
Ага :)

Vasilij
12.02.2018
07:44:07
Спасибо :)

Артемий
12.02.2018
07:49:11
Подскажите, пожалуйста. Какможно перечислить несолько ip в config.xml в <listen_host>?

Stanislav
12.02.2018
07:50:05
<listen_host>10.60.11.241</listen_host> <listen_host>192.168.110.241</listen_host> <listen_host>::1</listen_host>

strange
12.02.2018
09:20:51
Не мог вчера понять чего ж стэйбл не собирается там где собирался, оказалось use_embedded_compiler=1 стоит

Anton
12.02.2018
09:58:52
День добрый, коллеги. Не могу понять как работает сжатие в CH. min_part_size и min_part_size_ratio проверяются с условием AND или OR? Перелили 700 ГБ сырых данных из Vertica с кастомным партицированием по неделям. сжалось только на 10%. В вертике сжимает В три(3) раза ? наши параметры: <clickhouse_compression> <case> <min_part_size>100000000</min_part_size> <min_part_size_ratio>0.01</min_part_size_ratio> <method>lz4</method> </case> </clickhouse_compression>

Tima
12.02.2018
10:04:12
Это дефолтные параметры? Если нет, как сжимает с дефолтными?

Stanislav
12.02.2018
10:06:48
по-моему, compression тут - для общения с клиентом, понимающим сжатие

То есть, у меня его в конфиге нет, но данные на диске - сжаты.

Anton
12.02.2018
10:08:17
Google
Дмитрий
12.02.2018
10:09:38
Для клиента там network_compression_method указывает на алгоритм сжатия. По дефолту lz4 должен быть.

Tima
12.02.2018
10:10:06
с дефолтными вообще не жмёт
Как измеряте данные? И уточните, как заливали данные? Если мелкими пачками, нужно время на фоновые слияние кусков (и удаление ненужных кусков), тогда размер данных на диске уменьшится

Anton
12.02.2018
10:10:29
оптимайз руками не запускали

но кусков много на выходе. Вертика отдаёт данные так как они лежат на диске

а там может быть та ещё каша

Andrey
12.02.2018
10:11:19
оптимайз руками не запускали
Посмотрите на мержи скорее всего они все еще идут. И когда он все помержит, будет видно реальные результаты сжатия

Страница 417 из 723