
Vladislav
31.05.2017
17:54:59
Tabix всё же требует писать SQL. Хотелось чего-то более простого, типа metabase

Беслан
31.05.2017
17:57:49
проще табикса ничего нет
ну, или я не встречал

Vitaliy
31.05.2017
18:07:05
@TanVD есть, но запрос все равно хотя бы раз написать надо будет )

Google

Vitaliy
31.05.2017
18:12:34
seektable.com буквально на днях додебажили CH коннектор. Вроде бы работает, главное чтобы GROUP BY запрос отдавался в приемлимое время.

Andrey
31.05.2017
18:55:29
Ребят, а есть ли какой-то способ в range_hashed словаре использовать не числовой ID?

Pavel
31.05.2017
22:12:04
нескромный вопрос, а есть лимит на размер батча при вставке?

Alex
31.05.2017
22:20:15
есть настройка max_insert_block_size (по умолчанию 1048576) - при вставке большего количества строк они будут вставляться батчами такого размера

George
01.06.2017
08:47:49
Привет, а есть возможность соеденить два массива в select запросе?

Andrey
01.06.2017
08:55:22
У кого нибудь была задача посчитать номер недели с начала года? Как решали?

Mariya
01.06.2017
08:56:36

Andrey
01.06.2017
08:57:37
relativeweeknum возвращает относительно некоторого момента в прошлом. А хотелось бы номер недели с начала определенного года. т.е. я передаю год и число, а получаю номер недели

Mariya
01.06.2017
08:58:38
Хочется с начала того же года. что и дата, или какого-то определенного года в прошлом?

Andrey
01.06.2017
09:00:01

Mariya
01.06.2017
09:12:00
Кажется, должна помочь комбинация toStartOfYear и toMonday. Что-то типа такого
SELECT (toMonday(now()) - toMonday(toStartOfYear(now()))) / 7

Roman
01.06.2017
09:29:48
Вопрос: если инициировать выборку из дистрибьютед таблицы под пользователем с ограниченными правами, то запросы в остальные шарды пойдут от имени какого пользователя? Указанного в конфигурации кластера <remote_servers> ?

Dmitry
01.06.2017
09:30:17
Да, от указанного в <remote_servers>

Google

Roman
01.06.2017
10:03:32
Просите за нубский вопрос, но в ClickHouse возможно использование алиасов для неагреггированных полей?
select t.field as SomeField from t
Возможно.

Maxim
01.06.2017
10:06:33
select field as SomeField from t будет работать

Andrey
01.06.2017
10:07:15

Roman
01.06.2017
10:33:22

Alex
01.06.2017
10:37:25
Коллеги, кто-то в курсе проектов использования кх как централизованного хранилища логов приложения? Каждая запись кроме стандартных атрибутов содержит еще json размером до 10-20кб. Известны ли подводные камни ?

Pavel
01.06.2017
10:41:24
зависит от объема "стандартных аттрибутов"
если их пять штук и 20 килобайт блоба - кликхаусу тут делать нечего
он не предназначен для логов в "свободном формате"

Roman
01.06.2017
10:56:05
Да, от указанного в <remote_servers>
Тогда возникает вопрос использования лимитов и квот. Если запрос приходит от условного юзера web с лимитами на память и время, то на другие шарды он уходит от уже другого пользователя без этих лимитов

Dmitry
01.06.2017
11:01:09
Параметры попадаются на реплики

papa
01.06.2017
11:04:52
а что вы хотите сделать, допустим у вас есть логи (user_id, visit_date) и (user_id, purchase_date), и вам нужно по ним посчитать что?

Kirill
01.06.2017
11:21:46
Всем привет, подскажите, вот в ReplicatedMergeTree работает дедупликация, если в батче <100 строк, верно? Есть возможность обойти ее? Использовать Buffer перед RMT? Или может настройка use_uncompressed_cache влияет?

Oleg
01.06.2017
11:23:55
> Запрос INSERT разбивается на блоки данных размером до max_insert_block_size = 1048576 строк.
>Блоки данных дедуплицируются.
зачем обходить?

Roman
01.06.2017
11:26:05
Параметры попадаются на реплики
т.е. можно быть увереным, что лимиты установленные на пользователе-инициаторе запроса к дистрибьютед таблице будут распространятся на все ноды кластера?

Kirill
01.06.2017
11:28:26
зачем обходить?
у меня возможны дубли сингл инсертами, которые нельзя терять.

Oleg
01.06.2017
11:29:18
а, ну сингл инсерты не рекомендуют, если батчи копить, то дублей не будет. Buffer да, решение. Но может что-то получше подскажут

Alex
01.06.2017
11:31:27
День защиты детей 2017 #GoogleDoodle
https://g.co/doodle/u9cqwz

Google

Kirill
01.06.2017
11:31:58
Оке, а вот еще момент, который мне непонятен, если батчем, но в батче менее 100 строк? или там априори не работает дедупликация?

Oleg
01.06.2017
11:33:01
работает. В доке речь про последние 100 блоков. Про 100 строк ничего не написано.

Kirill
01.06.2017
11:34:47
Да верно.. Спасибо

Mikhail
01.06.2017
11:35:07

Alex
01.06.2017
11:38:13

Pavel
01.06.2017
11:39:24
Это значит, что Кликхаус не проектировался для подобного и не даст никаких преимуществ против варианта "положить все в мускул"
тормозить не будет, падать не будет

Alex
01.06.2017
11:39:57
Это обоснованное утверждение или просто мнение ?

Pavel
01.06.2017
11:40:51
это мнение основанное на базовом понимании дизайна column ориентированных БД и небольшом опыте эксплутации CH в случае когда данные в формате, который CH обрабатывает хорошо

Yury
01.06.2017
11:41:33

Alex
01.06.2017
11:41:56

Pavel
01.06.2017
11:42:07
именно так, ELK просто создана для такого

Yury
01.06.2017
11:42:16
оно создавалась для этого

Pavel
01.06.2017
11:42:26
а кликхаус не создавался))))

Alex
01.06.2017
11:42:52
Оракл например для всего создавался, но тормозить везде ему это не мешает.

Pavel
01.06.2017
11:43:11
это офтоп, CH - это не "обычная субд"
это узко-специализированная СУБД

Alex
01.06.2017
11:43:41
Да, отлично она заточена под то, что данные только вставляются.

Pavel
01.06.2017
11:43:56
нет, опять нет.
это не причина, это следствие

Google

Alex
01.06.2017
11:44:31
Павел, давайте начнем с простого. Вы разработчик кх ?

Pavel
01.06.2017
11:44:43
нет, я его пользователь

Alex
01.06.2017
11:44:52
Вы изучали его код ?

Pavel
01.06.2017
11:44:56
который внимательно прочитал документацию и имеет пару баз в продакшене

Alex
01.06.2017
11:45:12
Понятно. Значит просто мнение.

Pavel
01.06.2017
11:45:19
я это изначально сказал, выше

Alex
01.06.2017
11:46:13
Спасибо за него. Но я бы хотел услышать обоснованное мнение по моему вопросу. Которое базируется на фактах а не на базовом понимании колоночных субд.

Pavel
01.06.2017
11:49:30
https://habrahabr.ru/company/yandex/blog/303282/
Если вам нужно просто хранить логи, у вас есть много вариантов. Вы можете загружать логи в Hadoop, анализировать их с помощью Hive, Spark или Impala. В этом случае вовсе не обязательно использовать ClickHouse. Всё становится сложнее, если вам нужно выполнять запросы в интерактивном режиме по неагрегированным данным, поступающим в систему в реальном времени. Для решения этой задачи, открытых технологий подходящего качества до сих пор не существовало.
этого достаточно, как ответ разработчиков?

Vlad
01.06.2017
11:50:07
Вопрос в количестве записей логов. Профит вы будете получать в случае множества записей. Например если льете логи доступа и разбиваете на нужные колонки для хранения в КХ миллион событий в день. Тогда дальнейший анализ или аналитика будет выполняться Очень Быстро.
Если логов мало, то смысл КХ теряется

Alex
01.06.2017
11:50:08
У меня ведь другой вопрос был.
Меня больше интересует сколько рпс можно ожидать ( при заданном сайзинге серверов) на вставку данных. Анализ логов будет ограничен только выборкой по нескольким полям. Никаких группировок и тп не требуется. Время на выполнение запросов на чтение достаточно "разумное для ожидания" может составлять и минуты.

Kirill
01.06.2017
11:53:34

Alex
01.06.2017
11:54:13
Это для какого сервера ? Откуда взята такая оценка ?

Kirill
01.06.2017
11:55:34
Потому, что в CH запиь не меряется в рпс
нужно вставлять редко, но много

Pavel
01.06.2017
11:55:57
а скорее в размере батча, который, желательно в тащах штук строк измеряется

Alex
01.06.2017
11:56:16
Ок, уже лучше

Kirill
01.06.2017
11:56:59
батчи в несколько десятков/сотен тысяч строк в секунду - это норм

Google

Vladimir
01.06.2017
11:57:38

Alex
01.06.2017
11:57:54
Что значит сложность вставки ?

Vladimir
01.06.2017
11:58:34

Kirill
01.06.2017
11:58:34

Roman
01.06.2017
11:58:52
У меня есть опыт записи логов с приложений в кх. Стр-ра примерно следующая: Date, Time, appName, Type, Message, где Message json в несколько kb. Логи собираются в батчере и пушаться по достижению лимита или таймаута. Вставка примерно 20к/с на 16core, 32gb ram. Существенной нагрузки сервер не испытывает. Но были проблемы с выводом последних сообщений из таблицы в графане, т.к. колонка Message имеет огромный размер. имхо

Vladimir
01.06.2017
11:59:19
Таких строк я впихивал 2.5млн в секунду, батчами по примерно 250 тысяч.

Alex
01.06.2017
11:59:28

Vladimir
01.06.2017
11:59:37
Но на 16 ядерном цпу, 128гб рам

Alex
01.06.2017
11:59:38
В смысле задача аналогичная
20к/с это чего ?
Строк или запросов с батчами ?

Vladimir
01.06.2017
12:00:29
Кх по структуре оптимизирован под обработку хорошо структурированных данных с разумно маленькими полями
10 полей по 1кб ему лучше чем 1 поле на 10кб

Roman
01.06.2017
12:02:06
Строк или запросов с батчами ?
20 тыс строк в секунду. Соглашусь с отсальными, что этот кейс не самым лучшим образом подходит для кх. Нужно как-можно лучше структурировать логи

Alex
01.06.2017
12:02:59
Роман батчер самописное что то?

Pavel
01.06.2017
12:03:51
было дело, такое еще умела RethinkDB, которая как монга, но сильно легче
вот там можно было без индексаци и прочего трамбовать довольно много данных, но я до продакшена ее не дотаищил, а потом они и сами свернули лавочку