@clickhouse_ru

Страница 132 из 723
Andrey
27.04.2017
11:38:49
Добрый день! Есть ли в CH агрегация с перцентилем? Может кто реализовывал?

Дмитрий
27.04.2017
11:38:50
+1

Pavel
27.04.2017
11:38:50
логи структурированные или просто текст?

Ilya
27.04.2017
11:40:11
логи структурированные или просто текст?
Пока нет, тупо ssv. Но рассмотрю все варианты=)

Google
Pavel
27.04.2017
11:41:11
с текстом просто - его просто не стоит в CH:)

Ilya
27.04.2017
11:44:32
Ну это понятно, что нужен парсер, но вопрос доставки важнее, логировать правильно — не проблема, а вот собрать со всех машин, не по два раза и т. д. является вопросом, который решается в graylog например

Alexander
27.04.2017
13:27:20


при выборке получается что данные вытаскиваются либо из одной, либо из другой таблице на серверах

Всем привет :)

Vasiliy
27.04.2017
13:40:14
Конфиг зукиперов бы еще - в смысле секции в кликхаус конфиге. И internal_replication true выставить - чтобы таблицы сами занимались синхронизацией, а не движок distributed

Alexander
27.04.2017
13:45:43


не помогло, изменил конфиги internal_replication на true, перезагрузил сервер - репликация автоматически не происходит, выборка всегда разная



Vitaliy
27.04.2017
13:53:25
вот тоже пол дня с такой проблемой борюсь

такое стойкое ощющения что данные до зукипера не считываются

Alexander
27.04.2017
14:01:41
а зукипер как балансировщик не может работать? Может проблема в этом?

Vasiliy
27.04.2017
14:05:01
Стандартный вопрос - что в логах?)

Google
Vasiliy
27.04.2017
14:05:39
Помню issue был на http host перемнную - там то ли имя надо было то ли айпи

Alexander
27.04.2017
14:06:28
Помню issue был на http host перемнную - там то ли имя надо было то ли айпи
до этого я в конфигах указывал ip, потом переписал в хостах и проставил алиасы

Yury
27.04.2017
14:06:38
Привет! Это так и должно быть, или как-то можно обойти, или это баг? SELECT * FROM test.stg_tmp Ok. 0 rows in set. Elapsed: 0.002 sec. SELECT count() FROM test.stg_tmp Ok. 0 rows in set. Elapsed: 0.003 sec. Почему count() возвращает пусто на пустой таблице, а не 0 ?

papa
27.04.2017
14:07:49
так более оптимально.jpg

Alexander
27.04.2017
14:09:45
Логи при вставке в таблицу a на сервере мастера



Aleksey
27.04.2017
14:16:24
Привет! А можно заставить ARRAY JOIN выводить данные даже из тех строк, в которых соответствующее поле-массив - пустое? Т.е. чтобы он работал не как INNER, а как LEFT JOIN? Может, какая-нибудь опция для этого есть?

Aleksey
27.04.2017
14:22:11
Не понял про вложенный запрос, можно чуть подробнее? Я про вот этот ARRAY JOIN, если что: https://clickhouse.yandex/reference_ru.html#Секция ARRAY JOIN

Alexander
27.04.2017
14:25:06
SELECT t.s, arr FROM arrays_test t LEFT OUTER JOIN ( SELECT s, arr FROM arrays_test ARRAY JOIN arr )

типа того

только вряд ли мой запрос заработает сходу

:)

Aleksey
27.04.2017
14:32:31
только вряд ли мой запрос заработает сходу
Да, врядли. И джойнить большую таблицу саму с собой, да ещё и с размноженной ARRAY JOIN-ом, думаю, не лучший ход. Но спасибо) Я надеялся на наличие недокументированных опций/вариаций у самого ARRAY JOIN

left array join?
Такая опция есть? Или вы предполагаете?

papa
27.04.2017
14:34:15
SELECT *, b FROM system.one LEFT ARRAY JOIN emptyArrayInt8() AS b

Aleksey
27.04.2017
14:37:33
Ух ты, спасибо! Я пробовал наобум ARRAY LEFT JOIN, а в таком варианте не додумался)

Alexey
27.04.2017
15:17:54
а у кого был положительный опыт CH+BI

Google
Alexey
27.04.2017
15:18:02
только BI интересует из опенсурсных

подсознательно верю, что через JDBC должны +/- всякие BIRT, Jasper подцепиться

Mike
27.04.2017
15:32:41
BIRT работает

Еще проверял Pentaho, не работает по тем же причинам

Еще проверял Spago, не работает по тем же причинам

И вообще пришли к выводу, что Clickhouse должен быть Data Lake'ом, из него ETL-ить аналитические БД на оракле/мускуле со звёздочными схемами, и уже на них гонять BI-тулзы. А кликхаус чисто Tabix'ом, Redash'ем и iPython'ом трогать.

Alexey
27.04.2017
15:53:28
т.е. сначала из источников в CH, а потом что? предагрегированные данные в RDBMS?

или я не понял

Mike
27.04.2017
15:53:51
Дада, всё верно

Alexey
27.04.2017
15:54:49
т.е. CH для построения ветрин, а ветрины сами уже RDBMS (если я тут не попута с терминологией)

ну вариант...

Mike
27.04.2017
15:54:55


Источники — КХ (слабо-структурированный) — аналитические БД (звёздные схемы) для разных нужд

Alexey
27.04.2017
15:56:10
ну CH вовсе не слабоструктурированная

или вы что-о другое вкладываете в этот термин...

ааа

ну кажется понял

CH - это как бы таблица фактов

Mike
27.04.2017
15:56:59
Да, я имею в виду сильно-денормализованную схему

Google
Alexey
27.04.2017
15:57:23
ладно в общем будем думать/колдовать/изобретать

Mike
27.04.2017
15:57:26
Да, в КХ и факты и измерения, и весь мир — в одной гигантской таблице.

А типичный self-service BI не умеет так, от селф-сервиса ничего не остаётся, проще уже в табиксе работать становится.

Alexey
27.04.2017
16:00:22
ну табикс бизнесу не отдашь

Mike
27.04.2017
16:03:30
Не отдашь, поэтому см. выше :)

Talend ETL c КХ отлично работает, можно адовые штуки делать как внурь, так и наружу, только нужно потратить время на обучение, но оно того стоит.

(бесплатный продукт)

Alexey
27.04.2017
16:09:56
да про Talend слышал

но раньше доводилось только с Pentaho ETL дело иметь

надеюсь этот опыт пригодится и с Talend

а Talend с CH через jdbc?

Mike
27.04.2017
16:11:56
Да может это одно и то же. Мы хотели попробовать Talend, Pentaho и что-то еще, начали с Talend и он сразу заработал, не стали продолжать :)

Alexey
27.04.2017
16:12:08
там можно напрямую SQL писать?

Mike
27.04.2017
16:15:36
Еще лучше, там всё через гуй :) Он делает правильные инсерты.

Alexey
27.04.2017
16:16:21
ды вот ГУЙ тут зачастую пугает

Mike
27.04.2017
16:17:01


Зато всё понятно визуально :)

Это POC-проект, который берёт из CSV данные, мэпит в два разных типа, по дороге обогащет второй из другого источника данных, и фигачит в КХ. По моему, ни строчки кода.

Чтобы сделать боевой — нужно только компоненты CSV поменять на боевые источники данных, остальное всё остаётся.

Alexey
27.04.2017
16:24:09
да я знаю, я имел обширный опыт

Google
Alexey
27.04.2017
16:24:33
и вот когда нужно чуть более сложную логику с ветвлениями, условиями и т.п., вот тогда начинается головняк

в Пентахо все равно приходилось на JS писать обертки - а это не так уж и оптимально

Mike
27.04.2017
16:26:13
Ну да, тут тоже можно на джаве куски писать, и наверное придётся :)

Vladislav
27.04.2017
18:33:07
Нет, состоит из постгресса, редиса, апача и еще чего-то кросс-платформенного

А вот основное ядро под винду

И цена кусается

Roman
27.04.2017
19:00:37
Нет, состоит из постгресса, редиса, апача и еще чего-то кросс-платформенного
Еще из ZooKeeper :) Весь этот зоопарк есть в Tableau Server. Tableau Desktop/Reader/Public это монолитное приложение.

Vladislav
27.04.2017
19:01:37
Да, а вопрос был про desktop/public?

Shine
27.04.2017
19:01:46
offtop: насколько я вижу tableau на linux нет?
под линукс вроде не видел, под мак точно есть

Roman
27.04.2017
19:01:53
А вот основное ядро под винду
Tableau Desktop есть под Win и Mac.

Vasiliy
27.04.2017
19:03:46
А табло не заработает с Clickhouse нормально даже с odbc драйвером - общались с их разработчиками. Через ODBC у них работает базовый функционал в режиме live - то есть на лету запросы идут. Если хотите весь функционал, то tableau через odbc начнет всасывать все данные. А табло сервер держит порядка миллиарда записей, дальше не сильно работает - опять же по словам разработчиков. Хотя они сейчас планируют выпустить новый движок (до осени, вроде), который будет тянуть до 10 млрд строк.

Andrey
27.04.2017
19:30:40
Мне кажется с введением ходя бы delete круг применимости сильно расширится.

Yury
27.04.2017
19:31:17
Вброшу. А кто-то видил связку коммерческого etl с кх?

Roman
27.04.2017
19:37:45
Вброшу. А кто-то видил связку коммерческого etl с кх?
Выше про Talend писали. JDBC + квадратики со стрелочками без программирования

Страница 132 из 723