@clickhouse_ru

Страница 136 из 723

Let Eat

03.05.2017
16:08:29

Scylladb хвастаются своим решением на задаче которая (кажется) хорошо ложится на кликхаус. Может получится пост для топа hacker news если сравнить два решения по скорости/цене/простоте. http://www.scylladb.com/2017/05/02/analyzing-flight-delays-scylla-spark/

Pavel

03.05.2017
16:09:18

сцилла это а-ля кассандра

Let Eat

03.05.2017
16:10:11

Да, но задача вроде sql ем решается тоже, если есть поддержка group by :)

Fike

03.05.2017
16:15:42

там, думаю, все-таки на порядок ниже производительность будет. все это дело должно выгрузиться целиком из сциллы, пройти через внешний обработчик, который вероятнее всего обрабатывает записи построчно, и там сгруппироваться. насколько помню, КХ очень агрессивно юзает обработку массивами (и, скорее всего, оттуда и все использования SSE), и здесь будет сложно добиться каких-то аналогичных результатов с выгрузкой по сетке и обработкой каждой записи отдельно.

Google

nikoinlove

03.05.2017
16:17:47

видимо речь шла сначала сконвертировать данные в кх а потом уже посчитать его средствами

они там еще и в докере все сделали. хипстеры какие-то

Fike

03.05.2017
16:20:34

там через спарк гонят

сцилла при этом сама рекомендует использовать себя только на XFS, как там union fs с этим - хз

Let Eat

03.05.2017
16:27:17

видимо речь шла сначала сконвертировать данные в кх а потом уже посчитать его средствами

Именно, сравнить решения одной задачи: Посчитать средние задержки рейсовом имея на руках исходный csv

Fike

03.05.2017
16:28:10

ну я и говорю что кх по прикидкам должен солидно выиграть только за счет самой модели, не говоря про более мелкие нюансы )

Let Eat

03.05.2017
16:35:36

ну я и говорю что кх по прикидкам должен солидно выиграть только за счет самой модели, не говоря про более мелкие нюансы )

Вот вот, можно смело писать clickbait заголовок и лететь в топ :)

Дмитрий

03.05.2017
17:59:37

тоже хейтите яву?)

Нет, никакого раздражения не вызывает

Dmitry

04.05.2017
08:48:38

Добрый день. Сlickhouse не собирается на FreeBSD 11-STABLE

Igor

04.05.2017
08:52:23

Что пишет? 26 и 25-26 строки в build_freebsd.sh закомменчены, пробовали с ними? Как вариант проще - докер?..

Dmitry

04.05.2017
08:57:55

/tmp/usr/ports/databases/clickhouse/work/ClickHouse-1.1.54214-testing/dbms/src/AggregateFunctions/AggregateFunctionSequenceMatch.h:306:32: error: no matching member function for call to 'ignore' if (special_open_p.ignore(pos, end)) ~~~~~~~~~~~~~~~^~~~~~ /tmp/usr/ports/databases/clickhouse/work/ClickHouse-1.1.54214-testing/dbms/src/Parsers/IParser.h:43:10: note: candidate function not viable: no known conversion from 'char *' to 'Pos &' (aka 'const char *&') for 1st argument bool ignore(Pos & pos, Pos end) ^

nikoinlove

04.05.2017
09:01:46

Порты в tmp это солидно

prll

04.05.2017
09:03:48

ошибка известна, полный лог такой http://beefy12.nyi.freebsd.org/data/head-amd64-default/p439918_s317660/logs/clickhouse-1.1.54214.log

Google

prll

04.05.2017
09:17:17

и на 11.0-RELEASE с clang3.8 не воспроизводится

Veniamin

04.05.2017
09:25:35

ошибка известна, полный лог такой http://beefy12.nyi.freebsd.org/data/head-amd64-default/p439918_s317660/logs/clickhouse-1.1.54214.log

Не открывается

Dmitry

04.05.2017
10:22:18

вот еще информация об этом: https://bugs.freebsd.org/bugzilla/buglist.cgi?order=Importance&query_format=advanced&short_desc=clickhouse&short_desc_type=allwordssubstr

Denys

04.05.2017
11:24:18

Всем привет!)

У кого-нибудь есть свежий clickhouse-jdbc?

Или как его собрать со всеми зависимостями под виндовс?

papa

04.05.2017
11:26:55

свежее чем http://central.maven.org/maven2/ru/yandex/clickhouse/clickhouse-jdbc/0.1.20/ ?

Denys

04.05.2017
11:27:15

Спасибо

Vitaliy

04.05.2017
11:28:19

Всем доброго дня! А кто-то настраивал чере jdbc-драйвер, отображение, скажем, в DataGrip?

Denys

04.05.2017
11:29:04

В DBeaver все прекрасно работает)

Vladislav

04.05.2017
11:29:52

Пока только в Idea. Если не считать пару небольших косяков, работает нормально

В DG скорее всего аналогичная настройка

Vitaliy

04.05.2017
11:30:10

Ага, то есть возможно! Спасибо, буду пробовать

Vladislav

04.05.2017
11:30:48

Да, создается новый источник с jdbc драйвером и дальше как обычно

Andrey

04.05.2017
11:31:12

У меня коллега удачно настроил. Даже список полей в таблицах виден с типами

Denys

04.05.2017
11:31:27

свежее чем http://central.maven.org/maven2/ru/yandex/clickhouse/clickhouse-jdbc/0.1.20/ ?

А где взять версию скомпилированную со всеми зависимостями?

Vladislav

04.05.2017
11:31:51

Только собрать самому ((

Предложение складывать ее тоже в централ пока не поддержали =(

Vasiliy

04.05.2017
11:32:35

Там же мавен все сам установит

Vladislav

04.05.2017
11:33:16

Если ты подключаешь его как источник через файл драйвера к приложению то не установит

Google

Denys

04.05.2017
11:34:23

собирать через maven или maven2?

Vladislav

04.05.2017
11:36:01

Я так думаю не принципиально. Там тривиальная сборка

Я собирал через встроенный в Idea

Vladimir

04.05.2017
11:38:00

? ребят я не прогер - но там сборка проста как дважды два. Единственное - указать либо с зависимостями либо без. Ну и скип тест. В принципе в гитхабе все написано

если нужен кому то - в личку пишите - соберу.

Andrey

04.05.2017
11:40:55

Ребят, а кто-нибудь завел Pentaho, Tableau или что-то подобное с ClickHouse?

Vitaliy

04.05.2017
11:44:03

При попытке добавления в datagrip падает с ошибкой: java.lang.RuntimeException: ru.yandex.clickhouse.except.ClickHouseException: ClickHouse exception, code: 46, host: 127.0.0.1, port: 8123; Code: 46, e.displayText() = DB::Exception: Unknown function timezone, e.what() = DB::Exception

никто не сталкивался с такой проблемой?

papa

04.05.2017
11:46:23

в какой-то из версий драйвера при старте он делает запрос в сервер за таймзоной, эта функция есть не во всех версиях сервера. в следующей версии драйвера это поведение по умолчанию выключено.

т.е. должно лечиться либо апгрейдом сервера либо драйвера.

Vitaliy

04.05.2017
11:46:59

я взял последний код из гитхаба

Andrew

04.05.2017
11:47:46

а не подскажете, как в той же Datagrip заэкранировать ? в тернарном операторе, чтобы IDE не просила туда значение параметра подставить?

papa

04.05.2017
11:48:55

if(a,b,c)

Andrew

04.05.2017
11:49:55

логично, спасибо

Dmitry

04.05.2017
11:52:23

А в чатике есть успешно собравшие свежий мастер под macos?

Vladislav

04.05.2017
11:53:57

я взял последний код из гитхаба

Посмотрел код. Такое поведение возникает если в подключении указана настройка use_server_time_zone

Vitaliy

04.05.2017
11:54:23

Посмотрел код. Такое поведение возникает если в подключении указана настройка use_server_time_zone

спасибо, гляну

papa

04.05.2017
11:55:00

да, там нужно выставить его в false, и видимо установить use_time_zone в что-то вроде europe/moscow

Vitaliy

04.05.2017
12:04:26

Ребят, а кто-нибудь завел Pentaho, Tableau или что-то подобное с ClickHouse?

а что конкретно надо? есть штукенция нечто web pivot builder, недавно добавили коннектор к CH и даже вроде как все работает. Кто желает поэкспериментировать велкам в личку.

Andrey

04.05.2017
12:06:52

а что конкретно надо? есть штукенция нечто web pivot builder, недавно добавили коннектор к CH и даже вроде как все работает. Кто желает поэкспериментировать велкам в личку.

да по сути и нужен pivot с drag & drop и прочими плюшками. Менеджерам что угодно, лишь бы SQL не учить)

Google

Vitaliy

04.05.2017
12:08:16

да, там нужно выставить его в false, и видимо установить use_time_zone в что-то вроде europe/moscow

Да, помогло, спасибо! Подключиться получилось, список таблиц виден, но при попытке просмотреть какую-либо из них получаю ошибку: [62] ClickHouse exception, code: 62, host: 127.0.0.1, port: 8123; Code: 62, e.displayText() = DB::Exception: Syntax error: failed at position 17: "default".ib_log t FORMAT TabSeparatedWithNamesAndTypes;, expected identifier, e.what() = DB::Exception java.lang.Throwable: Code: 62, e.displayText() = DB::Exception: Syntax error: failed at position 17: "default".ib_log t FORMAT TabSeparatedWithNamesAndTypes;, expected identifier, e.what() = DB::Exception

papa

04.05.2017
12:08:49

а откуда берется это имя в кавычках?

Vitaliy

04.05.2017
12:09:15

это jdbc драйвер так поставляет

papa

04.05.2017
12:09:57

кликхаус имена понимает либо просто default либо в обратных кавычках default, которые телеграм не рисует.

Андрей

04.05.2017
12:11:00

`default`

Надо просто две кавычки поставить

Vitaliy

04.05.2017
12:11:27

ок, буду смотреть в настройках

Vladislav

04.05.2017
12:31:00

ок, буду смотреть в настройках

Дело не в настройках https://github.com/yandex/clickhouse-jdbc/issues/91

Поэтому просто перепиши запрос к таблице руками =)

Vitaliy

04.05.2017
12:32:38

да, с запросом руками все ОК :)

Igor

04.05.2017
13:23:22

Подскажите, что я делаю не так с Enum CREATE TABLE model.x11 ( site_id Int32, type Enum8('normal' = 1, 'bad' = 2) ) ENGINE = Log; INSERT INTO model.x11 SELECT toInt32(123) as site_id,'normal' as type >> DB::Exception: Type mismatch for column type. Column has type Enum8('normal' = 1, 'bad' = 2), got type String

Igor

04.05.2017
13:25:25

https://github.com/yandex/ClickHouse/issues/215 там какая-то движуха вон недавно была, может в новых версиях исправлено

Aleksey

04.05.2017
13:25:55

Добрый день Проектирую систему аналитики, похожую на метрику Т.е. фиксируются все клики и собираются около 70 параметров по ним. Часть кликов будет помечена как конверсионные Задача - строить различные отчеты по группе параметров и дате. Как в метрике. Планируется 1 млрд кликов в год и пиковая нагрузка 1000rps на запись в эту таблицу. Вопросы: 1. Все 70 параметров помещать в одну таблицу или разбивать на важные и не важные 2. Стоит ли разбивать таблицу по проектно,по счетчикам если брать за пример метрику 3. Какие параметры сервера нужны под такие требования?

Igor

04.05.2017
13:27:04

https://github.com/yandex/ClickHouse/issues/215 там какая-то движуха вон недавно была, может в новых версиях исправлено

Спасибо)

Combot

04.05.2017
13:27:30

combot.org/chat/-1001080295593

papa

04.05.2017
13:28:11

Добрый день Проектирую систему аналитики, похожую на метрику Т.е. фиксируются все клики и собираются около 70 параметров по ним. Часть кликов будет помечена как конверсионные Задача - строить различные отчеты по группе параметров и дате. Как в метрике. Планируется 1 млрд кликов в год и пиковая нагрузка 1000rps на запись в эту таблицу. Вопросы: 1. Все 70 параметров помещать в одну таблицу или разбивать на важные и не важные 2. Стоит ли разбивать таблицу по проектно,по счетчикам если брать за пример метрику 3. Какие параметры сервера нужны под такие требования?

заливайте данные в метрику, деньги поделим.

Igor

04.05.2017
13:28:24

3. Какие параметры сервера нужны под такие требования? https://github.com/yandex/ClickHouse/blob/master/doc/administration/tips.txt Больше RAM - лучше

Aleksey

04.05.2017
13:33:16

понятно, а по первым двум вопросам что можете посоветовать?

Igor

04.05.2017
13:33:27

1. Все 70 параметров помещать в одну таблицу или разбивать на важные и не важные 2. Стоит ли разбивать таблицу по проектно,по счетчикам если брать за пример метрику - Пишите в одну таблицу в кластер ReplicatedMergeTree - Жмите если возможно поля через cityHash64(user_id_hash) для экономии места - 70 параметров и млрд кликов в год - не много -> не стоит дробить

Aleksey

04.05.2017
13:35:22

а под такой объем данных можете назвать необходимый RAM и проц и место на диске? Понятно что чем больше тем лучше, но хотелось оптимальный вариант

Google

Aleksey

04.05.2017
13:35:41

чтобы от чегото отталкиваться

Igor

04.05.2017
13:36:17

все зависит от того, запросы за какой период, каких данных и какой сложности будете выполнять

Vitaliy

04.05.2017
13:36:20

» 70 параметров и млрд кликов в год - не много -> не стоит дробить О, а тут имеется ввиду сделать какое-то поле fake_date MATERIALIZED toDate(0), и делать MergeTree(fake_date, ...) ?

Aleksey

04.05.2017
13:39:26

ок, спасибо

papa

04.05.2017
13:44:39

Добрый день Проектирую систему аналитики, похожую на метрику Т.е. фиксируются все клики и собираются около 70 параметров по ним. Часть кликов будет помечена как конверсионные Задача - строить различные отчеты по группе параметров и дате. Как в метрике. Планируется 1 млрд кликов в год и пиковая нагрузка 1000rps на запись в эту таблицу. Вопросы: 1. Все 70 параметров помещать в одну таблицу или разбивать на важные и не важные 2. Стоит ли разбивать таблицу по проектно,по счетчикам если брать за пример метрику 3. Какие параметры сервера нужны под такие требования?

если чуть более серьезно, то - с точки зрения использования одна таблица с 70 параметрами работает нормально, если они фиксированной или ограниченной не очень большой длины, - со стороны чтения удобно ходить в одну distributed таблицу, которая до некоторой степени абстрагирует логику шардирования. - если соберетесь шардировать, у вас будет несколько вариантов со своими плюсами и минусами, по времени, по клиентам, по кликам.. - в простом случае ключ, судя по всему, у вас начинается с даты и клиента, это хорошо. - 1 ярд событий, если они даже по килобайту это 1Тб в год, т.е. по диску вам больше одной машины не надо, из тех же соображений, вставка 1Мб/с не ограничена производительностью этой машины. при желании вы эти данные вообще можете в памяти держать. реплицировать, конечно же, нужно. - если вы будете апдейтить клики, то ваша работа станет чуть менее удобной, хотя и более гибкой. - по железу отталкивайтесь от чего угодно, поднимите виртуалку например, сгенерите случайные данные, посмотрите получаемую скорость, возможно вам уже будет достаточно. у нас тут люди запускаются на машинах от 200Гб до кофеварок с 1-2Гб. подходящая конфигурация может зависеть от количества одновременных запросов, от типового размера данных, от желаемого времени ответа итд.

Aleksey

04.05.2017
13:46:49

понятно, радует что все одной таблице

Dima

04.05.2017
14:10:29

/stat@combot

Combot

04.05.2017
14:10:29

combot.org/chat/-1001080295593

Andrey

04.05.2017
14:11:12

А есть ли в ClickHouse возможность джойнить по date between start_date and end_date?

Igor

04.05.2017
14:11:36

можно джойнить по кортежам или мб даже массивам

хз правда что из этого выйдет, если одно поле

« Назад

Страница 136 из 723

Далее »

Открыть в Telegram