@clickhouse_ru

Страница 65 из 723
Roman
10.02.2017
06:00:41
Если кто может перепостить в специализированную категорию - welcome
перепостил вчера https://www.reddit.com/r/Database/comments/5t2y9g/11_billion_taxi_rides_on_clickhouse/

Alexander
10.02.2017
08:33:22
Это значит, что SAMPLE захватывает существенно лишних данные при чтении - если данные для нужного SAMPLE расположены во многих маленьких диапазонах.
Я без SAMPLE считал, по нескольким таблицам и партишену самой большой, чтобы определить среднее compression ratio, и потом умножал на общий объем данных. Более точные рассчеты показывают, что уже больше петабайта. Но в самой большой таблице часть колонок заполняется не всегда, поэтому считать, что там есть данные не совсем честно. Но 800GB уже есть наверняка

Roman
10.02.2017
10:26:00
https://ca.indeed.com/viewjob?jk=979bec9443ac06a1&q=ClickHouse&tk=1b8jop7hi0kfq3sf&from=web Experience in using Cassandra, Spark and Clickhouse and efficient data analysis techniques with these products.

Alexandr
10.02.2017
14:30:32
Есть ли какая-нибудь возможность в ClickHouse отслеживать прогресс выполнения альтера?

Google
Alexey
10.02.2017
16:17:52
Есть ли какая-нибудь возможность в ClickHouse отслеживать прогресс выполнения альтера?
Удобного способа нет. ALTER может выполняться не мгновенно по следующим причинам: - запросы SELECT, INSERT блокируют ALTER-ы. Если запросы идут непрерывно, то ALTER будет всё время ждать; - сам ALTER выполняется асинхронно, но запрос в течение некоторого времени ждёт выполнения на всех репликах. Если реплика недоступна, то запрос будет ждать. ALTER выполнится тогда, когда реплика поднимется. При этом сам запрос в клиенте можно завершить - это ни на что не влияет. - долго могут выполняться запросы с ALTER MODIFY. Посмотреть их прогресс можно по логам сервера или по размерам записываемых файлов в кусках.

Bogdans
10.02.2017
18:26:12
привет. вопрос про timezones clickhouse-client поддерживает опцию --use_client_time_zone=1 существует ли похожий функционал для HTTP интерфейса?

Alex
10.02.2017
18:50:56
Короткий ответ - нет. При использовании HTTP сервер сам всё форматирует, и выставить таймзону на соединение, отличную от таймзоны сервера, возможности нет. Можно задавать произвольную таймзону в функции toString: SELECT toString(now(), 'Europe/London')

Anton
10.02.2017
18:51:30
Здравствуйте. Напомните, пожалуйста, где можно найти точное описание для написания прокси для работы с CH по бинарному протоколу. Искал-искал в чатике, да не нашел точно.

Anton
10.02.2017
18:53:48
спасибо

Anton
10.02.2017
18:54:14
А если без http вообще?

Тот же clickhouse-client разве по http работает?

Igor
10.02.2017
19:23:42
Тот же clickhouse-client разве по http работает?
нет, по бинарному протоколу

Anton
10.02.2017
19:24:10
так вот, я помню, что был .h файл, где этот протокол был описан. А название этого файла потерялось.

Igor
10.02.2017
19:25:15
Здравствуйте. Напомните, пожалуйста, где можно найти точное описание для написания прокси для работы с CH по бинарному протоколу. Искал-искал в чатике, да не нашел точно.
увы, только исходники КХ еще есть https://github.com/artpaul/clickhouse-cpp и я ради интереса ковырял некоторое время назад протокол, но забил https://github.com/hatarist/clickhouse-cli/blob/binary/clickhouse_cli/clickhouse/binary.py

Google
Igor
10.02.2017
19:25:22
а, ща найду

https://github.com/yandex/ClickHouse/blob/master/dbms/include/DB/Core/Protocol.h

Alexey
10.02.2017
19:26:28
Есть драйвер на Go, который использует родной протокол. https://github.com/kshvakov/clickhouse/

Anton
10.02.2017
19:27:42
круто!

Alibek
10.02.2017
19:47:31
Можно-ли заменить zookeeper на consul или etcd для clickhouse?

Pavel
10.02.2017
19:48:07
хороший вопрос) поддержу, тоже горячо люблю софт на Java

Alibek
10.02.2017
19:58:47
f1yegor
10.02.2017
20:11:35
zookeeper много у кого уже есть

Alexey
10.02.2017
20:14:33
Просто так заменить ZK на Consul трудно, так как у них разная семантика. Мы используем следующие возможности: - sequential nodes; - ephemeral nodes; - watches; - multi-CAS транзакции.

Alibek
10.02.2017
20:17:47
С моей колокольник конечно хреновее видно, но как-бы семантика-семантикой, а делают они одно и тоже.

Anatoly
10.02.2017
20:18:49
С моей колокольник конечно хреновее видно, но как-бы семантика-семантикой, а делают они одно и тоже.
я тут в гораздо более простой проект встраивал поддержку консула вместо етсд. месяц работы ушло, а они очень похожи.

Pavel
10.02.2017
20:20:03
а что не так было с etcd?

f1yegor
10.02.2017
20:20:15
и?
а то что вряд ли это кому-то реально нужно, кроме хипстоты

Pavel
10.02.2017
20:20:20
поделитесь опытом?

Anatoly
10.02.2017
20:20:39
а что не так было с etcd?
там (в проекте) pluggable бекенд. с etcd всё хорошо наверно, но у меня везде консулы и я хотел покодить на го.

Pavel
10.02.2017
20:21:03
а, ясно, спасибо за пояснение

Google
Anatoly
10.02.2017
20:21:37
ну месяц на реализацию вполне себе приемлемо....
на самом деле, если у вас много данных, у вас скорее всего будет хадуп/кафка/етс. а они все требуют зукипера.

поэтому на больших данных зукипер всё равно нужен.

Alibek
10.02.2017
20:22:26
а то что вряд ли это кому-то реально нужно, кроме хипстоты
вообще-то хочется поэкономить на нодах, не дотыкивая везде jvm и же с ним.

Daniel
10.02.2017
20:23:16
ноды на распберри?

Alibek
10.02.2017
20:23:31
не будет у меня ни кафки, ни хадупа и вообще хочется избежать использования jvm...

Anatoly
10.02.2017
20:23:54
религия, понятно.

Daniel
10.02.2017
20:24:03
критерии технофашисткие %)

Anatoly
10.02.2017
20:24:05
пойду домой, всем хорошей пятницы, коллеги.

Alibek
10.02.2017
20:24:43
религия, понятно.
не, просто достаточная практика использования jvm в других задачах...

Собственно религия, это утверждать, что на больших данных без jvm не обойтись. И тот же clickhouse будучи написанным на cpp вполне себе опровергает это. Но вот для репликации/шардига зачем-то понадобилось использовать jvm софтину...

Виктор
10.02.2017
20:28:50
В Метрике половина бэкенда на java

И норм!

Alibek
10.02.2017
20:29:26
В Метрике половина бэкенда на java
А чего тогда на java clickhouse не написали?

Pavel
10.02.2017
20:29:38
и слава высшим силам, что не написали :)

Fike
10.02.2017
20:29:43
Собственно религия, это утверждать, что на больших данных без jvm не обойтись. И тот же clickhouse будучи написанным на cpp вполне себе опровергает это. Но вот для репликации/шардига зачем-то понадобилось использовать jvm софтину...
ваш оппонент писал не столько про jvm, сколько про конкретные решения, которые в силу разных причин отцентрировались на этой платформе. но, думаю, смысла в этом споре нет вообще

Alibek
10.02.2017
20:31:15
и слава высшим силам, что не написали :)
Ага! Если ещё дропнуть zookeeper - вообще будет ништяк. ))

Pavel
10.02.2017
20:34:32
мой кейс немного иной, у конкретно меня (не работодателя) все на С++ либо на Go (в основном тулзы управлния)

и наверное это тоже религия не хотеть тащить еще третий язык в стек :)

Alibek
10.02.2017
20:35:39
это не религия - это критическое мышление и стремление избежать хипстоты ))

Google
Pavel
10.02.2017
20:36:29
скорее избежать технлоологии которую не понимаешь и не имеешь в ней скилла

Daniel
10.02.2017
20:40:10
давайте закончим этот треш, он бессмысленен из всех аргументов переезда на tech2 только что в tech1 используется lang1, при этом сам автор предложения признается что не понимает функциональных различий между tech1 и tech2 emotions driven development

Виктор
10.02.2017
20:49:13
На самом деле для java требуется некоторая экспертиза

Если куча всего написано на c++ то не притаскивать java в принципе не так уж необоснованно

Касается, собственно, любой технологии

Daniel
10.02.2017
20:51:37
consul на go вроде ж? тоже экспертиза нужна, хоть vm у него и сильно примитивней

Daniel
10.02.2017
20:52:43
не что?

Виктор
10.02.2017
20:53:01
Вообще это всё еще зависит от нагрузки и сложности конфигурации

Если нагрузка не такая большая и кейс более-менее типичный

Тот же zk работает в стоке без всяких проблем

Просто ставишь и забываешь

Я думаю и с консулом так же

Экспертиза нужна когда проблемы начинаются

Anatoly
10.02.2017
20:55:38
Смысла действительно нет. У кого-то есть jvm, ну и ладно. У кого-то нет - религия. Алогично.
нет, у кого-то нет jvm, потому что "jvm у меня не будет" - это религия. я вот не люблю го, что ж теперь софт, написанный на нём не юзать.

f1yegor
10.02.2017
20:57:29
извиняюсь что начал флейм

c++ java go. всем peace

Олег
10.02.2017
21:55:12
Добрый вечер. clickhouse-client иногда мне показывает ну запрос статистику вроде «12 rows in set. Elapsed: 0.003 sec. Processed 16.66 thousand rows, 425.91 KB (5.31 million rows/s., 135.73 MB/s.)». А иногда (на маленьких таблицах?) не показывает. Подскажите, от чего это зависит, и можно ли уговорить его всегда показывать.

Igor
10.02.2017
22:09:55
> @milovidov_an > У нас более старая версия CityHash > сохранены значения старой версии CityHash, поэтому мы не можем её обновить Алексей, cпасибо за подробный ответ, мы этого и боялись что CityHash может меняться, нам нужно было партировать на наших клиентов: с++,java,php,js - реализацию как в CH, чтобы клиенты могли такой-же вычислять хеш как и CH и это было бы не изменно) Еще пару вопросов, хочу реализовать в CHgui, просмотр процессов с возможностью Kill и реализовать получение информации о ходе выполнения запроса ( сделать недо подобие clickhouse-client через http) : Насколько опасно в запросы из CHgui подставлять комментарий в виде /*__QUID__*/ в начале каждого запроса, где QUID=sha1(), насколько я смог понять из кода/документации самого CH комменты вырезаются и придумать/смоделировать, когда однострочный комментарий перед/в конце SELECT может вызвать проблему - не реально ? Насколько корректно отправлять KILL на запрос, через отправку запроса "SELECT 1" в GET указывая query_id ? И как можно убить запрос в кластере ? Не смог разобраться/понять зачем initial_query_id, получается это ID запроса в ноде которая породила запросы в кластер ?

Alibek
10.02.2017
22:12:43
нет, у кого-то нет jvm, потому что "jvm у меня не будет" - это религия. я вот не люблю го, что ж теперь софт, написанный на нём не юзать.
offtop: да как-бы "[не]люблю" побоку? Речь о ресурсоёмкости, о производительности, о эксплуатации - зачем мне kafka (которая так же тащит zookeeper) , когда есть значительно более шустрый и менее ресурсоёмкий gnatsd, который не тащит за собой ничего?

Google
Fike
10.02.2017
22:14:01
ох ну только не опять

Alibek
10.02.2017
22:14:40
ладно, ладно. проехали.

Alibek
10.02.2017
22:16:20
кафка умеет хранить, а в gnatsd - разраб сказал - незачем хранить.

f1yegor
10.02.2017
22:17:09
в натс наверное можно сделать больше очередей, и он только в памяти?

Anatoly
10.02.2017
22:17:43
ну, т.е. совсем разные системы и одна другую не заменяет :)

Fike
10.02.2017
22:18:18
разраб сказал?

Alibek
10.02.2017
22:18:20
ну, т.е. совсем разные системы и одна другую не заменяет :)
делают они одно и тоже, только кафка умеет ещё и хранить.

Страница 65 из 723