@clickhouse_ru

« Назад

Страница 157 из 723

Далее »

Vladislav

31.05.2017
17:54:59

Tabix всё же требует писать SQL. Хотелось чего-то более простого, типа metabase

Беслан

31.05.2017
17:57:49

проще табикса ничего нет

ну, или я не встречал

Vitaliy

31.05.2017
18:07:05

@TanVD есть, но запрос все равно хотя бы раз написать надо будет )

Google

Vitaliy

31.05.2017
18:12:34

seektable.com буквально на днях додебажили CH коннектор. Вроде бы работает, главное чтобы GROUP BY запрос отдавался в приемлимое время.

Andrey

31.05.2017
18:55:29

Ребят, а есть ли какой-то способ в range_hashed словаре использовать не числовой ID?

Pavel

31.05.2017
22:12:04

нескромный вопрос, а есть лимит на размер батча при вставке?

Alex

31.05.2017
22:20:15

есть настройка max_insert_block_size (по умолчанию 1048576) - при вставке большего количества строк они будут вставляться батчами такого размера

George

01.06.2017
08:47:49

Привет, а есть возможность соеденить два массива в select запросе?

Andrey

01.06.2017
08:55:22

У кого нибудь была задача посчитать номер недели с начала года? Как решали?

Mariya

01.06.2017
08:56:36

У кого нибудь была задача посчитать номер недели с начала года? Как решали?

https://clickhouse.yandex/docs/en/functions/date_time_functions.html#torelativeweeknum

Andrey

01.06.2017
08:57:37

relativeweeknum возвращает относительно некоторого момента в прошлом. А хотелось бы номер недели с начала определенного года. т.е. я передаю год и число, а получаю номер недели

Mariya

01.06.2017
08:58:38

Хочется с начала того же года. что и дата, или какого-то определенного года в прошлом?

Andrey

01.06.2017
09:00:01

Хочется с начала того же года. что и дата, или какого-то определенного года в прошлом?

того же года что и дата. Аналог SELECT EXTRACT(WEEK FROM now()); в Postgres.

Mariya

01.06.2017
09:12:00

Кажется, должна помочь комбинация toStartOfYear и toMonday. Что-то типа такого SELECT (toMonday(now()) - toMonday(toStartOfYear(now()))) / 7

Roman

01.06.2017
09:29:48

Вопрос: если инициировать выборку из дистрибьютед таблицы под пользователем с ограниченными правами, то запросы в остальные шарды пойдут от имени какого пользователя? Указанного в конфигурации кластера <remote_servers> ?

Dmitry

01.06.2017
09:30:17

Да, от указанного в <remote_servers>

Google

Roman

01.06.2017
10:03:32

Просите за нубский вопрос, но в ClickHouse возможно использование алиасов для неагреггированных полей? select t.field as SomeField from t

Возможно.

Maxim

01.06.2017
10:06:33

select field as SomeField from t будет работать

Andrey

01.06.2017
10:07:15

Кажется, должна помочь комбинация toStartOfYear и toMonday. Что-то типа такого SELECT (toMonday(now()) - toMonday(toStartOfYear(now()))) / 7

Спасибо! Это похоже то что нужно!

Roman

01.06.2017
10:33:22

select field as SomeField from t будет работать

Спасибо, разобрался

Alex

01.06.2017
10:37:25

Коллеги, кто-то в курсе проектов использования кх как централизованного хранилища логов приложения? Каждая запись кроме стандартных атрибутов содержит еще json размером до 10-20кб. Известны ли подводные камни ?

Pavel

01.06.2017
10:41:24

зависит от объема "стандартных аттрибутов"

если их пять штук и 20 килобайт блоба - кликхаусу тут делать нечего

он не предназначен для логов в "свободном формате"

Roman

01.06.2017
10:56:05

Да, от указанного в <remote_servers>

Тогда возникает вопрос использования лимитов и квот. Если запрос приходит от условного юзера web с лимитами на память и время, то на другие шарды он уходит от уже другого пользователя без этих лимитов

Dmitry

01.06.2017
11:01:09

Параметры попадаются на реплики

papa

01.06.2017
11:04:52

а что вы хотите сделать, допустим у вас есть логи (user_id, visit_date) и (user_id, purchase_date), и вам нужно по ним посчитать что?

Kirill

01.06.2017
11:21:46

Всем привет, подскажите, вот в ReplicatedMergeTree работает дедупликация, если в батче <100 строк, верно? Есть возможность обойти ее? Использовать Buffer перед RMT? Или может настройка use_uncompressed_cache влияет?

Oleg

01.06.2017
11:23:55

> Запрос INSERT разбивается на блоки данных размером до max_insert_block_size = 1048576 строк.

>Блоки данных дедуплицируются.

зачем обходить?

Roman

01.06.2017
11:26:05

Параметры попадаются на реплики

т.е. можно быть увереным, что лимиты установленные на пользователе-инициаторе запроса к дистрибьютед таблице будут распространятся на все ноды кластера?

Kirill

01.06.2017
11:28:26

зачем обходить?

у меня возможны дубли сингл инсертами, которые нельзя терять.

Oleg

01.06.2017
11:29:18

а, ну сингл инсерты не рекомендуют, если батчи копить, то дублей не будет. Buffer да, решение. Но может что-то получше подскажут

Alex

01.06.2017
11:31:27

День защиты детей 2017 #GoogleDoodle https://g.co/doodle/u9cqwz

Google

Kirill

01.06.2017
11:31:58

Оке, а вот еще момент, который мне непонятен, если батчем, но в батче менее 100 строк? или там априори не работает дедупликация?

Oleg

01.06.2017
11:33:01

работает. В доке речь про последние 100 блоков. Про 100 строк ничего не написано.

Kirill

01.06.2017
11:34:47

Да верно.. Спасибо

Mikhail

01.06.2017
11:35:07

День защиты детей 2017 #GoogleDoodle https://g.co/doodle/u9cqwz

https://www.youtube.com/watch?v=eB7owerZNo4

Alex

01.06.2017
11:38:13

если их пять штук и 20 килобайт блоба - кликхаусу тут делать нечего

Что значит делать нечего ? Есть более эффективные хранилища ? Или кх будет падать ? Тормозить при 5 rps ?

Pavel

01.06.2017
11:39:24

Это значит, что Кликхаус не проектировался для подобного и не даст никаких преимуществ против варианта "положить все в мускул"

тормозить не будет, падать не будет

Alex

01.06.2017
11:39:57

Это обоснованное утверждение или просто мнение ?

Pavel

01.06.2017
11:40:51

это мнение основанное на базовом понимании дизайна column ориентированных БД и небольшом опыте эксплутации CH в случае когда данные в формате, который CH обрабатывает хорошо

Yury

01.06.2017
11:41:33

Что значит делать нечего ? Есть более эффективные хранилища ? Или кх будет падать ? Тормозить при 5 rps ?

logstash+kibana+elasticsearch

Alex

01.06.2017
11:41:56

logstash+kibana+elasticsearch

В чем преимущество ?

Pavel

01.06.2017
11:42:07

именно так, ELK просто создана для такого

Yury

01.06.2017
11:42:16

оно создавалась для этого

Pavel

01.06.2017
11:42:26

а кликхаус не создавался))))

Alex

01.06.2017
11:42:52

Оракл например для всего создавался, но тормозить везде ему это не мешает.

Pavel

01.06.2017
11:43:11

это офтоп, CH - это не "обычная субд"

это узко-специализированная СУБД

Alex

01.06.2017
11:43:41

Да, отлично она заточена под то, что данные только вставляются.

Pavel

01.06.2017
11:43:56

нет, опять нет.

это не причина, это следствие

Google

Alex

01.06.2017
11:44:31

Павел, давайте начнем с простого. Вы разработчик кх ?

Pavel

01.06.2017
11:44:43

нет, я его пользователь

Alex

01.06.2017
11:44:52

Вы изучали его код ?

Pavel

01.06.2017
11:44:56

который внимательно прочитал документацию и имеет пару баз в продакшене

Alex

01.06.2017
11:45:12

Понятно. Значит просто мнение.

Pavel

01.06.2017
11:45:19

я это изначально сказал, выше

Alex

01.06.2017
11:46:13

Спасибо за него. Но я бы хотел услышать обоснованное мнение по моему вопросу. Которое базируется на фактах а не на базовом понимании колоночных субд.

Pavel

01.06.2017
11:49:30

https://habrahabr.ru/company/yandex/blog/303282/

Если вам нужно просто хранить логи, у вас есть много вариантов. Вы можете загружать логи в Hadoop, анализировать их с помощью Hive, Spark или Impala. В этом случае вовсе не обязательно использовать ClickHouse. Всё становится сложнее, если вам нужно выполнять запросы в интерактивном режиме по неагрегированным данным, поступающим в систему в реальном времени. Для решения этой задачи, открытых технологий подходящего качества до сих пор не существовало.

этого достаточно, как ответ разработчиков?

Vlad

01.06.2017
11:50:07

Вопрос в количестве записей логов. Профит вы будете получать в случае множества записей. Например если льете логи доступа и разбиваете на нужные колонки для хранения в КХ миллион событий в день. Тогда дальнейший анализ или аналитика будет выполняться Очень Быстро. Если логов мало, то смысл КХ теряется

Alex

01.06.2017
11:50:08

У меня ведь другой вопрос был.

Меня больше интересует сколько рпс можно ожидать ( при заданном сайзинге серверов) на вставку данных. Анализ логов будет ограничен только выборкой по нескольким полям. Никаких группировок и тп не требуется. Время на выполнение запросов на чтение достаточно "разумное для ожидания" может составлять и минуты.

Kirill

01.06.2017
11:53:34

Меня больше интересует сколько рпс можно ожидать ( при заданном сайзинге серверов) на вставку данных. Анализ логов будет ограничен только выборкой по нескольким полям. Никаких группировок и тп не требуется. Время на выполнение запросов на чтение достаточно "разумное для ожидания" может составлять и минуты.

1 реквест в секунду, расчитывайте на это

Alex

01.06.2017
11:54:13

Это для какого сервера ? Откуда взята такая оценка ?

Kirill

01.06.2017
11:55:34

Потому, что в CH запиь не меряется в рпс

нужно вставлять редко, но много

Pavel

01.06.2017
11:55:57

а скорее в размере батча, который, желательно в тащах штук строк измеряется

Alex

01.06.2017
11:56:16

Ок, уже лучше

Kirill

01.06.2017
11:56:59

батчи в несколько десятков/сотен тысяч строк в секунду - это норм

Google

Vladimir

01.06.2017
11:57:38

Меня больше интересует сколько рпс можно ожидать ( при заданном сайзинге серверов) на вставку данных. Анализ логов будет ограничен только выборкой по нескольким полям. Никаких группировок и тп не требуется. Время на выполнение запросов на чтение достаточно "разумное для ожидания" может составлять и минуты.

Зависит и от сложности вставки

Alex

01.06.2017
11:57:54

Что значит сложность вставки ?

Vladimir

01.06.2017
11:58:34

Что значит сложность вставки ?

Я писал графитные данные, сразу в бинарном формате. Это string, float64, int 32, date

Kirill

01.06.2017
11:58:34

Что значит сложность вставки ?

чем больше колонок и данных в них тем медленнее

Roman

01.06.2017
11:58:52

У меня есть опыт записи логов с приложений в кх. Стр-ра примерно следующая: Date, Time, appName, Type, Message, где Message json в несколько kb. Логи собираются в батчере и пушаться по достижению лимита или таймаута. Вставка примерно 20к/с на 16core, 32gb ram. Существенной нагрузки сервер не испытывает. Но были проблемы с выводом последних сообщений из таблицы в графане, т.к. колонка Message имеет огромный размер. имхо

Vladimir

01.06.2017
11:59:19

Таких строк я впихивал 2.5млн в секунду, батчами по примерно 250 тысяч.

Alex

01.06.2017
11:59:28

У меня есть опыт записи логов с приложений в кх. Стр-ра примерно следующая: Date, Time, appName, Type, Message, где Message json в несколько kb. Логи собираются в батчере и пушаться по достижению лимита или таймаута. Вставка примерно 20к/с на 16core, 32gb ram. Существенной нагрузки сервер не испытывает. Но были проблемы с выводом последних сообщений из таблицы в графане, т.к. колонка Message имеет огромный размер. имхо

Ура !

Vladimir

01.06.2017
11:59:37

Но на 16 ядерном цпу, 128гб рам

Alex

01.06.2017
11:59:38

В смысле задача аналогичная

20к/с это чего ?

Строк или запросов с батчами ?

Vladimir

01.06.2017
12:00:29

Кх по структуре оптимизирован под обработку хорошо структурированных данных с разумно маленькими полями

10 полей по 1кб ему лучше чем 1 поле на 10кб

Roman

01.06.2017
12:02:06

Строк или запросов с батчами ?

20 тыс строк в секунду. Соглашусь с отсальными, что этот кейс не самым лучшим образом подходит для кх. Нужно как-можно лучше структурировать логи

Alex

01.06.2017
12:02:59

Роман батчер самописное что то?

Pavel

01.06.2017
12:03:51

было дело, такое еще умела RethinkDB, которая как монга, но сильно легче

вот там можно было без индексаци и прочего трамбовать довольно много данных, но я до продакшена ее не дотаищил, а потом они и сами свернули лавочку

« Назад

Страница 157 из 723

Далее »

Открыть в Telegram