@clickhouse_ru

Страница 86 из 723
Fike
10.03.2017
22:25:48
вброшу голос за организацию документации на основе jekyll

там же сразу и github pages, а с основного сайта можно просто проксировать запросы или установить cname

мы свою публичную базу знаний так и ведем

Алексей
10.03.2017
22:28:31
сильно приходится в руби врубаться при использовании его ?

Google
Fike
10.03.2017
22:28:48
нет, вообще не приходится

там просто пишешь --- title: мой тайтл страницы --- и дальше содержимое

Рулон
10.03.2017
22:29:17
Написано что он платный и не поддерживает БД,

Igor
10.03.2017
22:29:24
pelican тоже нетребовательный, это просто консольные утилитки для генерации статик сайтов

Fike
10.03.2017
22:29:44
пока приходилось только по мелочи css править и с relative url немного бодаться, но если все будет только на gh, особых проблем быть не должно

Igor
10.03.2017
22:29:53
Написано что он платный и не поддерживает БД,
а зачем там БД и про платность бред https://github.com/jekyll/jekyll

Fike
10.03.2017
22:30:09
Написано что он платный и не поддерживает БД,
джекилл полностью бесплатный и генерирует статический сайт, это прямо-таки отображение гит-репы в хтмл

Igor
10.03.2017
22:31:25
Имхо - лучше пулл реквесы прямо в доку CH

Fike
10.03.2017
22:32:57
если честно, мне сложно смотреть на этот гигантский документ, и я, стыдно сказать, по этой причине его и не осилил

Рулон
10.03.2017
22:33:04
Мне кажется мешать документацию и faq не самая хорошая идея

Alexey
10.03.2017
22:34:46
Фак можно и отдельной страницей сделать

На официальном сайте

Рулон
10.03.2017
22:37:19
А обновлять как?

Google
Алексей
10.03.2017
22:39:44
Рулон ну вот ты начал фак. хорошее дело. просто не надо укоза и вот этого вот всего. лучше gh просто readme.md и все

Рулон
10.03.2017
22:56:33
А мой форк надо комитить в мастер?

Alexey
10.03.2017
23:41:03
Я начал создавать Faq ) Надеюсь взлетит ) http://clickhouse.my1.ru/
Хорошо! Это уже лучше, чем ничего. Переконвертировать в другой формат, если что, всегда успеем.

вброшу голос за организацию документации на основе jekyll
Мы сейчас выбираем платформу для документации - обсуждаем с коллегами, которые занимаются переводами; ещё один человек писал в личку. Есть вариант - readthedocs.

Andrey
11.03.2017
07:51:48
http://clickhouse-docs.readthedocs.io/ru/latest/ Пока перенёс не все. Процентов 45%. Формат RST, при желании конвертируется во что угодно.

Roman
11.03.2017
07:58:57
По-моему очень удобно

А там поддержка нескольких языков возможна? Чтобы для одного и того же раздела документации можно было бы язык переключать?

Andrey
11.03.2017
08:00:31
Да

Снизу слева, там где latest, можно будет сделать выбор языка.

Roman
11.03.2017
08:01:34
Снизу слева, там где latest, можно будет сделать выбор языка.
Ооо. Там же можно будет и между документацией для различных версий переключаться? если это вдруг понадобится

Andrey
11.03.2017
08:01:40
Да

Vladimir
11.03.2017
08:04:43
Ребята, ну ок. А там где секция EXAMPLES с FAQ? Просто у вас много FAQ в тех же гугл-доках. Да и сообщество экзамплов насыпет. Например отсутствует секция про визуализацию метрик.

Andrey
11.03.2017
08:30:08
Как вариант пушить в текущую доку. Либо подождать до понедельника, я думаю успею отправить PR доков в формате rst. Тогда можно будет уже в универсальном формате делать в центральной репе.

А в остальном секцию FAQ или "готовые решения" поддерживаю руками и ногами.

Vladimir
11.03.2017
08:35:34
вот про это хотелось бы отдельно сказать/спросить - например хотелось бы как то примерно увидеть потребление ресурсов на примере. Например - есть такая то таблица, вот ее структура, вот такой запрос. При одновременном коннекте 1, 10 и т.д пользователей съедается столько то памяти... Просто я понимаю что все зависит от реализации и аппаратной и софтовой и от каждого конкретного случая, но все таки на данном примере(ах) можно оценить требования.

может это глупо звучит, но...

Andrey
11.03.2017
08:37:12
Хоть и далеко до объективности такому тесту, но думаю да, что-то похожее можно сделать.

Т.к. Clickhouse True многопоточный, он будет брать все доступное. Т.е. загрузка при 1 запросе может быть 100%, и при 10 таких же запросах 100%, просто медленнее )) это я так, сильно сильно утрировал

Тут нельзя забывать ещё и про настройки. В особенности внешние group by/сортировки и тп. Они могут сильно поменять профиль нагрузки.

Google
Roman
11.03.2017
08:41:27
А мб уже true пример данных для КХ? Чтобы за несколько простых действий можно было поднять адекватного размера базу, чтобы на ней поучиться? На ней можно было бы проверять эффективность различных запросов, делясь с community результатами — за счет того, что тестовый набор данных был бы у всех одинаковый, это упростило бы обсуждение различных кейсов.

Речь о чем-то подобном https://docs.oracle.com/database/121/COMSC/toc.htm

Andrey
11.03.2017
08:42:11
Так есть же тестовый набор данных

Чёт там с самолётами связанный.

В туториале

Roman
11.03.2017
08:42:36
Andrey
11.03.2017
08:45:29
Кстати интересная идея. В туториале на сколько помню только одна таблица. А вот общую схему придумать было бы интереснее. Ну чтоб с джоинами, словарями и прочими радостями жизни.

Vladimir
11.03.2017
08:45:45
да это все ясно. Есть тестовый набор. и прочее прочее. ВОт! ия про это же.

Андрей, вы правы!

Roman
11.03.2017
08:49:44
Кстати интересная идея. В туториале на сколько помню только одна таблица. А вот общую схему придумать было бы интереснее. Ну чтоб с джоинами, словарями и прочими радостями жизни.
У меня основное желание про "поднять в несколько кликов". Прямо сразу делать универсальную базу для всего не обязательно. Для начала можно что-то простое, но чтоб не сложнее чем yum install clickhouse-samples ставилось. Для чайников для иллюстрации чайниковских запросов.

Andrey
11.03.2017
08:50:52
Ну я отталкиваюсь от того что сам по себе туториал сейчас не сильно сложный(вроде)

Если делать несколько таблиц, то разница будет только в количестве заливаемых файлов

Roman
11.03.2017
08:51:27
Не возражаю :)

f1yegor
11.03.2017
09:32:45
о, новая сборка появилась 1.1.54181

Bob
11.03.2017
09:36:51
Коллеги, подскажите, какая то странная вещь. Начали биться данные. Debain, CH 1.1.54164. Заметили что побился файл column.mrk. Ругался: DB::Exception: bad size of marks file …./20141201_20141231_3580_9020_7/total.mrk':146912, must be: 146944. пробовал делать optimize table * partition * final, не помогает. То же сообщение. Обновил версию до 1.1.54180. После optimize изменился размер mrk файла, но целевого так и не достиг) DB::Exception: bad size of marks file …/20141201_20141231_3580_9020_8/total.mrk':146896, must be: 146944. Можно как то обойти эту проблему? И как правильно лечить.

Andrey
11.03.2017
09:45:19
Сервер ребутали неожиданными для него способами?

Bob
11.03.2017
09:49:18
Нет, кроме обновлений ничего не было.

Andrey
11.03.2017
09:52:41
А с диском у сервера все ок?

Bob
11.03.2017
09:58:47
Да, схд hi-end класса.

f1yegor
11.03.2017
10:00:23
из нового select * from system.columns limit 4; SELECT * FROM system.columns LIMIT 4 ┌─database─┬─table─────────┬─name─────────┬─type───┬─default_type─┬─default_expression─┬─data_compressed_bytes─┬─data_uncompressed_bytes─┬─marks_bytes─┐ появились data_compressed_bytes, data_uncompressed_bytes, поэтому теперь можно прикинуть коэффициент сжатия для таблиц

Google
f1yegor
11.03.2017
16:20:14
извините за лень, а где запись 3го митапа?

https://www.youtube.com/watch?v=CVrwp4Zoex4&feature=em-lss

сам спросил - сам ответил

+ за расширение метрик

Рулон
11.03.2017
17:18:25
добавил еще инфы http://clickhouse.my1.ru/

f1yegor
11.03.2017
17:41:18
с Маши письменную версию про 10 вещей про КХ

Slach
11.03.2017
17:41:59
=) дак там же вроде слайды есть? рядом с видео?

f1yegor
11.03.2017
17:42:44
ссылка?

Slach
11.03.2017
17:57:05
https://events.yandex.ru/events/meetings/28-february-2017/

а блин там без слайдов

f1yegor
11.03.2017
18:02:24
ну и как-то по простому - запостили в твиттер, расшарили слайды. и народ потянется)

+ за 9. argMin, argMax

Bob
11.03.2017
20:10:03
mrk

Vladimir
11.03.2017
20:25:33
ошибся. Сори

Alexey
11.03.2017
21:29:23
Коллеги, подскажите, какая то странная вещь. Начали биться данные. Debain, CH 1.1.54164. Заметили что побился файл column.mrk. Ругался: DB::Exception: bad size of marks file …./20141201_20141231_3580_9020_7/total.mrk':146912, must be: 146944. пробовал делать optimize table * partition * final, не помогает. То же сообщение. Обновил версию до 1.1.54180. После optimize изменился размер mrk файла, но целевого так и не достиг) DB::Exception: bad size of marks file …/20141201_20141231_3580_9020_8/total.mrk':146896, must be: 146944. Можно как то обойти эту проблему? И как правильно лечить.
Мы не сталкивались с такой проблемой. У вас просто MergeTree или ReplicatedMergeTree? Если Replicated, то сервер при старте восстановит part с реплики. В любом случае посмотрите в логе всё что связано с именем этого куска 20141201_20141231_3580_9020_7. Также посмотрите на всякий случай на все времена запуска и остановки сервера и на времена модификации файлов внутри куска. Осуществлялись ли ALTER-ы в это время? Есть ли ещё что-то необычное. Если сервер корректно говорит о том, что .mrk файл неправильный, и неправильный только он, то данные в порядке, и конкретный случай проблемы можно полностью исправить.

Bob
11.03.2017
21:37:03
Мы не сталкивались с такой проблемой. У вас просто MergeTree или ReplicatedMergeTree? Если Replicated, то сервер при старте восстановит part с реплики. В любом случае посмотрите в логе всё что связано с именем этого куска 20141201_20141231_3580_9020_7. Также посмотрите на всякий случай на все времена запуска и остановки сервера и на времена модификации файлов внутри куска. Осуществлялись ли ALTER-ы в это время? Есть ли ещё что-то необычное. Если сервер корректно говорит о том, что .mrk файл неправильный, и неправильный только он, то данные в порядке, и конкретный случай проблемы можно полностью исправить.
Таблицы MergeTree, без реплик. Данные вставлялись через distributed таблицу( у нас два сервера). На одном сервере побились месяца 2014-10, 2014-11, 2014-12 а на другом эти же + 2017-02. Везде ругается на mrk файлы. Если выбирать колонки из pk - запрос проходит нормально. Два раза расширялся(добавление новых элементов в конец) enum8 для вложенной таблицы alter table * MODIFY COLUMN Payments.pay_system Array(Enum8('' = 0, 'Visa' = 1, 'VISA electron' = 2, 'MIR Credit' = 3, 'MIR Debit' = 4, 'EuroCard' = 5, 'Maestro' = 6, 'Jcb' = 7, 'AmericanExpress' = 8))

Таблицы MergeTree, без реплик. Данные вставлялись через distributed таблицу( у нас два сервера). На одном сервере побились месяца 2014-10, 2014-11, 2014-12 а на другом эти же + 2017-02. Везде ругается на mrk файлы. Если выбирать колонки из pk - запрос проходит нормально. Два раза расширялся(добавление новых элементов в конец) enum8 для вложенной таблицы alter table * MODIFY COLUMN Payments.pay_system Array(Enum8('' = 0, 'Visa' = 1, 'VISA electron' = 2, 'MIR Credit' = 3, 'MIR Debit' = 4, 'EuroCard' = 5, 'Maestro' = 6, 'Jcb' = 7, 'AmericanExpress' = 8))
В логах ничего не нашл. Сервер 1. 20141201_20141231_3580_9020_8/ mtime для всех колонок - 3 марта, для контрольных сумм - 8 марта ls -ltr … -rw-rw-rw- 1 clickhouse clickhouse 136000 Mar 3 11:37 date_t.mrk -rw-rw-rw- 1 clickhouse clickhouse 622721 Mar 3 11:37 date_t.bin -rw-rw-rw- 1 clickhouse clickhouse 1274 Mar 8 01:40 columns.txt -rw-rw-rw- 1 clickhouse clickhouse 2842 Mar 8 01:40 checksums.txt Сервер 2, после optimize table * partition 201412 final: -rw-rw-rw- 1 clickhouse clickhouse 146944 Mar 11 12:28 date_t.mrk -rw-rw-rw- 1 clickhouse clickhouse 672812 Mar 11 12:28 date_t.bin -rw-rw-rw- 1 clickhouse clickhouse 1274 Mar 11 12:28 columns.txt -rw-rw-rw- 1 clickhouse clickhouse 2789 Mar 11 12:28 checksums.txt ``` В обоих случаях ругается на несовпадение размера mrk файлов.

В логах вот так: 2017.03.02 16:34:10.746123 [ 442 ] <Debug> ххх.ххх (Data): Removing part 20141201_20141231_6090_6752_4 2017.03.03 11:43:32.087476 [ 5 ] <Debug> executeQuery: (from [::1]:52908) optimize table ххх.ххх partition 201412 final 2017.03.03 11:43:32.087648 [ 5 ] <Debug> checks.ch2016 (Merger): Selected 1 parts from 20141201_20141231_3580_9020_5 to 20141201_20141231_3580_9020_5 2017.03.03 11:43:32.087680 [ 5 ] <Debug> checks.ch2016 (Merger): Merging 1 parts: from 20141201_20141231_3580_9020_5 to 20141201_20141231_3580_9020_5 into 20141201_20141231_3580_9020_6 2017.03.03 11:43:32.093235 [ 5 ] <Trace> MergeTreeBlockInputStream: Reading 1 ranges from part 20141201_20141231_3580_9020_5, approx. 75235328 rows starting from 0 2017.03.03 11:46:04.485705 [ 5 ] <Trace> ххх.ххх (Data): Renaming tmp_20141201_20141231_3580_9020_6. 2017.03.03 11:46:04.485889 [ 5 ] <Trace> ххх.ххх (Merger): Merged 1 parts: from 20141201_20141231_3580_9020_5 to 20141201_20141231_3580_9020_5 2017.03.03 11:54:07.818596 [ 356 ] <Debug> ххх.ххх (Data): Removing part 20141201_20141231_3580_9020_5 2017.03.11 11:59:20.382123 [ 4 ] <Error> executeQuery: Code: 246, e.displayText() = DB::Exception: bad size of marks file…

Alexey
11.03.2017
22:46:25
Есть гипотезы, почему изменение "для контрольных сумм - 8 марта"?

Bob
11.03.2017
22:57:20
Был alter 2017.03.08 01:41:01.116035 [ 436 ] <Debug> executeQuery: (from [::1]:59540) alter table хххх MODIFY COLUMN Payments.pay_system Array(Enum8('' = 0, 'Visa' = 1, 'VISA electron' = 2, 'MIR Credit' = 3, 'MIR Debit' = 4, 'EuroCard' = 5, 'Maestro' = 6, 'Jcb' = 7, 'AmericanExpress' = 8))

Google
Alexey
11.03.2017
22:59:03
Спасибо. Это похоже на одну из проблем, которую мы исправляли давно - там тоже было расширение Enum внутри Nested. Попробую исследовать и дам способ устранить последствия.

Bob
11.03.2017
23:08:27
Спасибо! Буду ждать. Из особенностей, в партициях 2014 года в колонках Payments.pay_system совсем не было данных. Ну и не все партиции пострадали.

f1yegor
12.03.2017
01:54:29
кто-нибудь компилировал КХ под fedora?

prll
12.03.2017
08:34:18
да (кто-то в issues в комментах писал), а в чем проблема?

Gennadiy
12.03.2017
13:56:02
Добрый день!

Дмитрий
12.03.2017
13:57:09
Согласен, добрый.

Gennadiy
12.03.2017
13:57:25
Наверняка этот вопрос уже поднимался, но в гугле и в этом чате не нашёл ответа на свой вопрос. Как связать Kafka+ClickHouse?

Andrey
12.03.2017
14:32:24
У меня в беклоге стоит этот вопрос, тоже интересует на будущее. Но если честно, не совсем понимаю чего вы ожидаете? Чего то вроде внутреннего механизма для выгребания данных из Kafka?

Pavel
12.03.2017
15:22:01
Оч разный формат

Обертка на кафку пишется оч быстро.

Gennadiy
12.03.2017
15:22:26
Мы рассматриваем отказ от Vertica в пользу Clickhouse

>Обертка на кафку пишется оч быстро. например)

Pavel
12.03.2017
15:23:30
Ну забрать батч с кафки и уложить в кликхаус

Я на С++ такое написал за два дня

Как формат представления в кафке юзал capnp

Буфер таблица тоже решение, если событий не сильно много

Gennadiy
12.03.2017
15:27:36
То есть вы написали демон (службу) которая постоянно читает события из кафки и направляет их в ClickHouse?

Pavel
12.03.2017
15:28:09
Да;)

Страница 86 из 723