
Yury
27.04.2017
19:49:29
Ну вы же платите за Talend
Или платную версию используете?

Mike
27.04.2017
19:50:57
Пока достаточно Open Studio

Yury
27.04.2017
19:50:59
Я скорее про Informatica, SAS и всякие другие

Google

Mike
27.04.2017
19:51:14
Это не к нам :)

Yury
27.04.2017
19:51:44
:)

Рулон
27.04.2017
20:09:34
Пока делиты не сделают и нормальные джоины хранилище в прод не пойдет )
Однако здравствуйте )

Yury
27.04.2017
20:16:14
Join сделают, в roadmap было. А пока и словари отлично работают в кх

Рулон
27.04.2017
20:17:53
а что то кардинально поменялось? ошибочных транзакций нет? данные чистые? )

Vladislav
27.04.2017
20:22:54

Yury
27.04.2017
20:26:55
Коородинально - технологии пожалуй и объемы данных. Ошибочных транзакций - есть. Модель данных под КХ можно же построить так что дилиты будут.

Vasiliy
27.04.2017
20:27:14
Я что-то тоже не понял, все же наоборот хотят live
Все хотят, да. Но там два типа live - через синтегрированные штуки (https://onlinehelp.tableau.com/current/online/en-us/to_connect_live_sql.html - здесь список поддерживаемых). С ними live нормально работает. А поверх odbc он не полноценный.
А у табло прямой поддержки кликхауса даже в роадмапе нет.

Alexander
27.04.2017
21:09:43
Народ, извиняюсь, простой вопрос, но не пойму, читаю доку: Merge(hits, '^WatchLog') - написано что hits - database , где данные (какие - имена таблиц?) Соответствуют regex. А чуть ниже в Distributed, hits - это уже таблица.

Google

Igor
27.04.2017
21:13:17
Наверное опечатка

Alexander
27.04.2017
21:17:22
Т.е. это таблица?

Igor
27.04.2017
21:17:26
Хотя не, в документации все корректно написано,
Merge:
- данные будут читаться из таблиц в базе hits, имена которых соответствуют регулярному выражению '^WatchLog'.
Distributed:
- данные будут читаться со всех серверов кластера logs, из таблицы default.hits,

Alexander
27.04.2017
21:17:55
Понял, спасибо, а то было не очень ясно что такое "данные"

Igor
27.04.2017
21:17:56
но согласен, выглядит запутанно, мб имеет смысл поменять на default какой-нибудь

Alexander
27.04.2017
22:29:25
А можно destributed использовать для объединения mergetree и memory ? т.е. один текущий день в памяти для скорости, а остальное - в mergetree по датам.

Dmitry
27.04.2017
22:30:19
Это не destributed, это Merge таблица

Alexander
27.04.2017
22:34:50
Просто выше мне для этого предлагали прикрутить тарантул для in-mem

Dmitry
27.04.2017
22:36:12
А реально столько данных, что нужно in-memory хранить?
Кеши фс вполне неплохо работают

Alexander
27.04.2017
22:39:31
Кешов не хватит + нужна очень быстрая обработка именно по текущему дню.
Около 100гб в памяти.

Slach
28.04.2017
06:36:34
Народ, кто как словари из CSV по нодам в KH раскладывает??? Все ручками и через конфиг менеджмент?

Andrey
28.04.2017
06:46:06
Можно шару подцепить.

Vladislav
28.04.2017
06:50:01

Alexey
28.04.2017
08:11:03
а никто еще не намутил какой-то тул типа db megration через ansible для CH?
чтоб создание таблиц и прочих объектов раскатывать сразу на кластер и прочее

Dima
28.04.2017
10:01:56
привет! а CH умеет SSL ?

Igor
28.04.2017
10:05:21
умеет, пример есть в конфиге
https://github.com/yandex/ClickHouse/blob/2967fd7b41d06c4b068520d4028cdb1d28a61319/dbms/src/Server/config.xml#L17

Google

Roman
28.04.2017
10:29:20
Есть ли кто-нибудь, кто эксплуатирует CH на CentOS 7 под серьезной нагрузкой?
Знаю, что собирают здесь, https://github.com/redsoftbiz/clickhouse-rpm/
Интересно, были ли у кого-нибудь какие-то проблемы на неподдерживаемой официально платформе

Roman
28.04.2017
11:00:30

Vladimir
28.04.2017
11:26:51

Дмитрий
28.04.2017
11:29:13
Мы сейчас тестируем на виртуалках с centos7 и в контейнерах. Собираем из официального гита и используем официальный контейнер. Нагрузка не большая но вроде все нормально работает
Скорость и хранение просто умопомрачительные........

Pavel
28.04.2017
11:35:10
ага)

Дмитрий
28.04.2017
11:42:16
Особенно доставило когда убогий тонкий клиент с 4 гб памяти нагнул в несколько раз сервер тонной ядер и памятью по времени выполнения запросов

Andrey
28.04.2017
11:52:37
Даааа, я когда своим показывал, сравнение делал PG на 128RAM/32CPU/SSD и ClickHouse на вирте 8 CPU/40RAM и разница была до 100 раз

f1yegor
28.04.2017
12:08:38

Vitaliy
28.04.2017
12:13:39
@f1yegor http://life-warrior.org/programs/gui-deb/manual/rpmfromdeb.html

Roman
28.04.2017
12:15:29

f1yegor
28.04.2017
12:15:45
круто. теперь перепакую еще другие)

aspirin
28.04.2017
12:17:23
схороню

Kirill
28.04.2017
12:52:07
Подскажите, почему если в Distributed table типа date MATERIALIZED, то не происходит вставка данных? При вставке на реплики все ок при этом..

Alexander
28.04.2017
13:05:12
А как удалять словари без перезагрузки сервера?

Vladimir
28.04.2017
13:07:11

Andrew
28.04.2017
13:28:32
подскажите, пожалуйста, по запросу. есть запрос вида
SELECT sum(clicks) from MY_TABLE GROUP BY period, user_type;
каким образом можно посчитать не просто сумму кликов, а их прирост в каждом периоде?

Igor
28.04.2017
13:31:39
runningDifference вроде

Andrew
28.04.2017
13:34:04
SELECT sum(clicks) as sum_clicks, runningDifference(sum_clicks) from MY_TABLE GROUP BY period, user_type;

Google

Andrew
28.04.2017
13:34:08
в таком ключе?

Igor
28.04.2017
13:34:10
SELECT date, count() clicks, runningDifference(clicks) delta FROM click GROUP BY date ORDER BY date;
┌───────date─┬─clicks─┬──delta─┐
│ 2017-04-15 │ 3 │ 0 │
│ 2017-04-16 │ 5 │ 2 │
│ 2017-04-17 │ 9 │ 4 │
│ 2017-04-18 │ 1 │ -8 │
да

Andrew
28.04.2017
13:34:23
спасибо большое!

Igor
28.04.2017
13:34:25
только нужно еще order by period обязательно
и, по-моему, надо в подзапрос запихнуть без runningDifference, и снаружи уже эту функцию вызывать
https://clickhouse.yandex/reference_ru.html#runningDifference(x)

Andrew
28.04.2017
13:36:54
да вроде и так отработало

Andrey
28.04.2017
13:36:55

Alexander
28.04.2017
13:37:47
Но удалив конфиг, коннекты всеравно продолжаются к mysql
В доке говорится, что данные хранятся в памяти, закэшированные

Andrew
28.04.2017
13:37:53

Дмитрий
28.04.2017
13:41:37

Andrey
28.04.2017
13:45:03

Igor
28.04.2017
13:45:39

Andrew
28.04.2017
13:46:26
действительно так, уже проверил, что без подзапроса первая дельта - не нулевая. спасибо!)

Alexander
28.04.2017
13:46:27

Andrey
28.04.2017
13:47:20
Возможно их из памяти удалить?
Я предполагаю что они могут удалиться, если удалить конфиг словаря. Тогда CH обнаружит изменение конфига и перечитает его. Но не факт.

f1yegor
28.04.2017
13:49:12
насколько я вижу нет простой возможности переименовать колонку в таблице?

Igor
28.04.2017
13:49:40
неа(

Alexander
28.04.2017
14:11:59
как-то так ALTER TABLE table_name ADD COLUMN new_name UInt32 DEFAULT old_name
но старый стобец при этом останется

Google

Alexander
28.04.2017
14:30:42
Или как удалить словари с ошибками?
У них постоянное обращение к мускулю

Vladimir
28.04.2017
14:46:45
там есть еще одна бага со словарями. Если есть несколько словарей в 1 xml, то в system.dictionaries не будет писаться ошибка по словарю если предыдущие в норме. И главное - не поймешь - подхватился конфиг или нет.

Иван
28.04.2017
21:43:30

Kirill
29.04.2017
05:21:13

Alexey
29.04.2017
05:47:42
в связи с темой BI и прочим, возник такой вопрос: никто еще не видел (не начал) разработку PostgreSQL Foreign Data Wrapper (https://wiki.postgresql.org/wiki/Foreign_data_wrappers) для ClickHouse?
вариант выглядит заманчиво

Vladislav
29.04.2017
07:46:02
Не понимаю, зачем?

Igor
29.04.2017
08:15:53
может, для того, чтобы подключить BI к постгре (ибо для нее точно драйвера есть), а постгря чтобы ходила в КХ и забирала по-быстрому оттуда нужные данные

Vladislav
29.04.2017
08:19:51
"ибо для нее точно есть драйвера" и вопрос про разработку драйвера...

Igor
29.04.2017
08:31:50
про разработку драйвера для подержки КХ в постгре
а я про то, что BI должны уметь ходить в постгрю

Vladislav
29.04.2017
08:50:17
Если bi не умеет в кх и при этом нет драйвера из постгре в кх, не проще ли сразу выкинуть промежуточное звено ввиде постгре?

Igor
29.04.2017
08:53:07
не знаю, я лишь предположил )

Dig
29.04.2017
11:00:32
Добрый день. Был вопрос по runningDifference. А как можно подсчитать разницу для нескольких категорий. Скажем есть товары и количество их покупок за каждый день. Можно ли одним запросом вывести тренд по дням для всех товаров, например:
name date count delta
tovar_1 2017-04-20 20 0
tovar_1 2017-04-21 22 2
tovar_1 2017-04-22 18 -4
tovar_2 2017-04-20 10 0
tovar_2 2017-04-21 12 2
tovar_2 2017-04-22 5 -7