
Andrey
27.04.2017
11:38:49
Добрый день!
Есть ли в CH агрегация с перцентилем?
Может кто реализовывал?

Дмитрий
27.04.2017
11:38:50
+1

Pavel
27.04.2017
11:38:50
логи структурированные или просто текст?

Ilya
27.04.2017
11:40:11

Google

Pavel
27.04.2017
11:41:11
с текстом просто - его просто не стоит в CH:)

Ilya
27.04.2017
11:44:32
Ну это понятно, что нужен парсер, но вопрос доставки важнее, логировать правильно — не проблема, а вот собрать со всех машин, не по два раза и т. д. является вопросом, который решается в graylog например

Alexander
27.04.2017
13:27:20
при выборке получается что данные вытаскиваются либо из одной, либо из другой таблице на серверах
Всем привет :)

Vasiliy
27.04.2017
13:40:14
Конфиг зукиперов бы еще - в смысле секции в кликхаус конфиге. И internal_replication true выставить - чтобы таблицы сами занимались синхронизацией, а не движок distributed

Alexander
27.04.2017
13:45:43
не помогло, изменил конфиги internal_replication на true, перезагрузил сервер - репликация автоматически не происходит, выборка всегда разная

Vitaliy
27.04.2017
13:53:25
вот тоже пол дня с такой проблемой борюсь
такое стойкое ощющения что данные до зукипера не считываются

Alexander
27.04.2017
14:01:41
а зукипер как балансировщик не может работать? Может проблема в этом?

Vasiliy
27.04.2017
14:05:01
Стандартный вопрос - что в логах?)

Google

Vasiliy
27.04.2017
14:05:39
Помню issue был на http host перемнную - там то ли имя надо было то ли айпи

Alexander
27.04.2017
14:06:28

Yury
27.04.2017
14:06:38
Привет!
Это так и должно быть, или как-то можно обойти, или это баг?
SELECT *
FROM test.stg_tmp
Ok.
0 rows in set. Elapsed: 0.002 sec.
SELECT count()
FROM test.stg_tmp
Ok.
0 rows in set. Elapsed: 0.003 sec.
Почему count() возвращает пусто на пустой таблице, а не 0 ?

Dmitry
27.04.2017
14:07:40

papa
27.04.2017
14:07:49
так более оптимально.jpg

Alexander
27.04.2017
14:09:45
Логи при вставке в таблицу a на сервере мастера

Aleksey
27.04.2017
14:16:24
Привет!
А можно заставить ARRAY JOIN выводить данные даже из тех строк, в которых соответствующее поле-массив - пустое? Т.е. чтобы он работал не как INNER, а как LEFT JOIN? Может, какая-нибудь опция для этого есть?

Alexander
27.04.2017
14:17:56

Aleksey
27.04.2017
14:22:11
Не понял про вложенный запрос, можно чуть подробнее? Я про вот этот ARRAY JOIN, если что:
https://clickhouse.yandex/reference_ru.html#Секция ARRAY JOIN

Alexander
27.04.2017
14:25:06
SELECT t.s, arr FROM arrays_test t LEFT OUTER JOIN ( SELECT s, arr
FROM arrays_test
ARRAY JOIN arr )
типа того
только вряд ли мой запрос заработает сходу
:)

papa
27.04.2017
14:32:10

Aleksey
27.04.2017
14:32:31
только вряд ли мой запрос заработает сходу
Да, врядли. И джойнить большую таблицу саму с собой, да ещё и с размноженной ARRAY JOIN-ом, думаю, не лучший ход. Но спасибо)
Я надеялся на наличие недокументированных опций/вариаций у самого ARRAY JOIN

papa
27.04.2017
14:34:15
SELECT
*,
b
FROM system.one
LEFT ARRAY JOIN emptyArrayInt8() AS b

Aleksey
27.04.2017
14:37:33
Ух ты, спасибо!
Я пробовал наобум ARRAY LEFT JOIN, а в таком варианте не додумался)

Alexey
27.04.2017
15:17:54
а у кого был положительный опыт CH+BI

Google

Alexey
27.04.2017
15:18:02
только BI интересует из опенсурсных
подсознательно верю, что через JDBC должны +/- всякие BIRT, Jasper подцепиться

Mike
27.04.2017
15:32:41
BIRT работает
Еще проверял Pentaho, не работает по тем же причинам
Еще проверял Spago, не работает по тем же причинам
И вообще пришли к выводу, что Clickhouse должен быть Data Lake'ом, из него ETL-ить аналитические БД на оракле/мускуле со звёздочными схемами, и уже на них гонять BI-тулзы. А кликхаус чисто Tabix'ом, Redash'ем и iPython'ом трогать.

Alexey
27.04.2017
15:53:28
т.е. сначала из источников в CH, а потом что? предагрегированные данные в RDBMS?
или я не понял

Mike
27.04.2017
15:53:51
Дада, всё верно

Alexey
27.04.2017
15:54:49
т.е. CH для построения ветрин, а ветрины сами уже RDBMS (если я тут не попута с терминологией)
ну вариант...

Mike
27.04.2017
15:54:55
Источники — КХ (слабо-структурированный) — аналитические БД (звёздные схемы) для разных нужд

Alexey
27.04.2017
15:56:10
ну CH вовсе не слабоструктурированная
или вы что-о другое вкладываете в этот термин...
ааа
ну кажется понял
CH - это как бы таблица фактов

Mike
27.04.2017
15:56:59
Да, я имею в виду сильно-денормализованную схему

Google

Alexey
27.04.2017
15:57:23
ладно в общем будем думать/колдовать/изобретать

Mike
27.04.2017
15:57:26
Да, в КХ и факты и измерения, и весь мир — в одной гигантской таблице.
А типичный self-service BI не умеет так, от селф-сервиса ничего не остаётся, проще уже в табиксе работать становится.

Alexey
27.04.2017
16:00:22
ну табикс бизнесу не отдашь

Mike
27.04.2017
16:03:30
Не отдашь, поэтому см. выше :)
Talend ETL c КХ отлично работает, можно адовые штуки делать как внурь, так и наружу, только нужно потратить время на обучение, но оно того стоит.
(бесплатный продукт)

Alexey
27.04.2017
16:09:56
да про Talend слышал
но раньше доводилось только с Pentaho ETL дело иметь
надеюсь этот опыт пригодится и с Talend
а Talend с CH через jdbc?

Mike
27.04.2017
16:11:56
Да может это одно и то же. Мы хотели попробовать Talend, Pentaho и что-то еще, начали с Talend и он сразу заработал, не стали продолжать :)

Alexey
27.04.2017
16:12:08
там можно напрямую SQL писать?

Mike
27.04.2017
16:15:36
Еще лучше, там всё через гуй :) Он делает правильные инсерты.

Alexey
27.04.2017
16:16:21
ды вот ГУЙ тут зачастую пугает

Mike
27.04.2017
16:17:01
Зато всё понятно визуально :)
Это POC-проект, который берёт из CSV данные, мэпит в два разных типа, по дороге обогащет второй из другого источника данных, и фигачит в КХ. По моему, ни строчки кода.
Чтобы сделать боевой — нужно только компоненты CSV поменять на боевые источники данных, остальное всё остаётся.

Alexey
27.04.2017
16:24:09
да я знаю, я имел обширный опыт

Google

Alexey
27.04.2017
16:24:33
и вот когда нужно чуть более сложную логику с ветвлениями, условиями и т.п., вот тогда начинается головняк
в Пентахо все равно приходилось на JS писать обертки - а это не так уж и оптимально

Mike
27.04.2017
16:26:13
Ну да, тут тоже можно на джаве куски писать, и наверное придётся :)

f1yegor
27.04.2017
17:51:46
offtop: насколько я вижу tableau на linux нет?

Vladislav
27.04.2017
18:33:07
Нет, состоит из постгресса, редиса, апача и еще чего-то кросс-платформенного
А вот основное ядро под винду
И цена кусается

Roman
27.04.2017
19:00:37

Vladislav
27.04.2017
19:01:37
Да, а вопрос был про desktop/public?

Shine
27.04.2017
19:01:46

Roman
27.04.2017
19:01:53

Vasiliy
27.04.2017
19:03:46
А табло не заработает с Clickhouse нормально даже с odbc драйвером - общались с их разработчиками. Через ODBC у них работает базовый функционал в режиме live - то есть на лету запросы идут. Если хотите весь функционал, то tableau через odbc начнет всасывать все данные. А табло сервер держит порядка миллиарда записей, дальше не сильно работает - опять же по словам разработчиков. Хотя они сейчас планируют выпустить новый движок (до осени, вроде), который будет тянуть до 10 млрд строк.

Roman
27.04.2017
19:05:33
Какие ограничения для 'live'?
А вообще, пора бы разработчикам Tableau кардинально решить проблему производительности -- встроить КХ в само Tableau. Благо, лицензия КХ позволяет :)

Andrey
27.04.2017
19:30:40
Мне кажется с введением ходя бы delete круг применимости сильно расширится.

Yury
27.04.2017
19:31:17
Вброшу. А кто-то видил связку коммерческого etl с кх?

Roman
27.04.2017
19:37:45