@clickhouse_ru

« Назад

Страница 122 из 723

Далее »

Maksim

18.04.2017
14:17:28

30 тыс строк это всего период за неделю

пачками шлем. получаем результат пишем в файл

файловый кеш

но результат от кх приходит через минуту две. вот это проблема(

Google

Maksim

18.04.2017
14:18:07

т.к. много данных

Igor

18.04.2017
14:18:14

а, он только _начинает_ приходить через минуту?

Maksim

18.04.2017
14:18:48

ага

бывает через 3)

Igor

18.04.2017
14:19:13

сорри

Maksim

18.04.2017
14:19:58

да запрос жирноват. 5 sum и 7 группировок

но тут проблема скорее в другом. много результатов

я пишу эти же результаты в файл. и файлик выходит около 50-100 мб

Roman

18.04.2017
14:20:53

а сколько времени выполняется сам запрос?

Igor

18.04.2017
14:21:28

можно http компрессию включить как вариант вот примеры как раз с curlом есть https://github.com/yandex/ClickHouse/blob/6eb9bac6eb8c6697c1b9b3ed24351d32dbc5e81e/dbms/tests/queries/0_stateless/00302_http_compression.sh

Maksim

18.04.2017
14:21:35

а сколько времени выполняется сам запрос?

как проверить ? напрямую в клиенте кх ? без курла ?

Roman

18.04.2017
14:21:41

да

Igor

18.04.2017
14:21:46

можно time curl ...

Google

Igor

18.04.2017
14:21:51

можно клиентом, да

Maksim

18.04.2017
14:24:32

вот прикол в том что если например обернуть это дело в select count(*) FROM (тут мой другой select жирный) то через клиент напрямую 3 сек

Showed first 10000. 1786493 rows in set. Elapsed: 9.159 sec. Processed 1.79 million rows, 960.02 MB (195.88 thousand rows/s., 104.82 MB/s.)

я так понимаю это 10 000

или статистика за весь select ?

Showed это что? отобразил только 10 000 а запрос обработал за 9 сек ?

Ilya

18.04.2017
14:41:52

Showed это что? отобразил только 10 000 а запрос обработал за 9 сек ?

все так

вот прикол в том что если например обернуть это дело в select count(*) FROM (тут мой другой select жирный) то через клиент напрямую 3 сек

https://clickhouse.yandex/reference_ru.html#count() Запрос вида SELECT count() FROM table не оптимизируется, так как количество записей в таблице нигде не хранится отдельно - из таблицы будет выбран какой-нибудь достаточно маленький столбец, и будет посчитано количество значений в нём. думаю поэтому

Maksim

18.04.2017
14:47:02

все так

тогда видимо все остальное время он выкачивает данные в ответ на запрос))

Ilya

18.04.2017
14:47:24

фильтрует другие колонки

чем меньше колонок в селекте, тем быстрее

Maksim

18.04.2017
14:50:19

ладно что нибудь придумаю спасибо )

Ilya

18.04.2017
14:50:41

если пагинация допустима в запросе (limit+offset)

то можно в 2 запроса делать

первым ограничить поиск (по дате, например), а вторым уже запрашивать нужную страницу результата с более узким условием поиска

мы так делаем

не where date >= 2016-01-01 and date <= 2017-01-01, а смотрим сколько записей по датам, отсчитываем нужный offset а потом where date >= 2016-02-23 and date <= 2016-02-25 уже с селеком нужных данных

костыль, но помогает быстро работать запросам

или еще "лайфках" - union all нескольких одинаковых запросов, например помесячно

или по какому-нибудь еще признаку

Google

Ilya

18.04.2017
14:55:30

тоже быстрее работает

Maksim

18.04.2017
15:06:57

тоже быстрее работает

как вариант. но у нас группировка по часу представь сколько результатов

скорее будем слать напрямую запросы

с пагинацией да

а от кеша откажемся

Ilya

18.04.2017
15:09:07

как вариант. но у нас группировка по часу представь сколько результатов

не, я имею ввиду: where date >= 2016-01-01 and date <= 2016-03-01 -> where date >= 2016-01-01 and date < 2016-02-01 union all where date >= 2016-02-01 and date <= 2016-03-01

Maksim

18.04.2017
15:09:51

разве это не одно и тоже если бы вы написали битвин из двух дат?

Ilya

18.04.2017
15:10:46

параллельно идут, а поверх них еще запрос, который догруппировывает, сортирует и тд

Maksim

18.04.2017
15:11:49

параллельно идут, а поверх них еще запрос, который догруппировывает, сортирует и тд

надо попробовать спасибо)

Alexandr

18.04.2017
15:47:52

Всем привет! Такой вопрос: а где нибудь есть описание system.metrics и подобных таблиц?

Andrew

18.04.2017
15:48:58

кстати, видео в шапке https://www.youtube.com/watch?v=AXSQbV8Zhvg чет недоступно больше

prll

18.04.2017
15:50:38

Всем привет! Такой вопрос: а где нибудь есть описание system.metrics и подобных таблиц?

самое полное - описание кодом ;)

Dmitrii

18.04.2017
15:52:06

Подскажите, уровень логгирования "trace" это какой? и какая вообще иерархия уровней логгирования?

стандартная небось?

<Error> Application: Invalid argument: Not a valid log level: info

видимо нет

prll

18.04.2017
16:03:00

https://pocoproject.org/docs/Poco.Logger.html#13773

information

Dmitrii

18.04.2017
16:18:16

Кул! Спасибо.

Maksim

18.04.2017
17:54:46

кто нибудь знает предел кх - одновременных запросов select ?

Google

nikoinlove

18.04.2017
17:55:40

сколько можно спросить или сколько он может ответить?)

Maksim

18.04.2017
17:57:24

сколько асинхронных запросов могу отправить одновременно?

Vladimir

18.04.2017
17:57:30

кто нибудь знает предел кх - одновременных запросов select ?

Там есть переменная в конфиге, по-умолчанию — 100. Сколько потянет — не знаю

⚓D

18.04.2017
17:59:28

сколько асинхронных запросов могу отправить одновременно?

https://clickhouse.yandex/reference_ru.html#Пропускная способность при обработке большого количества коротких запросов.

Maksim

18.04.2017
18:01:39

понял

Andrey

18.04.2017
18:33:24

Ребят, а есть где то дока по расчету гранулярности индекса? Последний параметр при создании mergetree.

f1yegor

18.04.2017
19:34:55

Лучше не менять

Или если вы уже прочитали мою статью на медиуме

medium.com/f1yegor

Vladimir

18.04.2017
19:43:22

medium.com/f1yegor

404

f1yegor

18.04.2017
19:56:48

сорри, по памяти писал https://medium.com/@f1yegor/clickhouse-primary-keys-2cf2a45d7324

Виктор

18.04.2017
20:52:07

Всем привет! Обсуждаем ClickHouse, задаём любые вопросы, стараемся не флудить! Информация: https://clickhouse.yandex Страничка на вики - https://ru.wikipedia.org/wiki/ClickHouse Доклад про ClickHouse с Highload++: https://www.youtube.com/watch?v=TAiCXHgZn50 Google группа - https://groups.google.com/forum/#!forum/clickhouse Чат на английском: https://t.me/clickhouse_en

f1yegor

18.04.2017
21:05:33

?

Andrey

18.04.2017
22:41:17

Советую grammarly

Pavel

18.04.2017
22:43:12

+1

полезная штука очень

Dmitrii

19.04.2017
04:49:40

Доброе утро! а как бороться с этим? Code: 252, e.displayText() = DB::Exception: Too much parts. Merges are processing significantly slower than inserts., e.what() = DB::Exception

увеличил значение этой опции parts_to_throw_insert

чем это может быть чревато?

<zanudaMode>Должно быть "Too many...", а не "Too much..." :-Ъ</zanudaMode>

Google

Dmitrii

19.04.2017
05:20:17

okay видимо чревато вот этим 2017.04.19 08:18:22.482873 [ 12 ] <Error> HTTPHandler: Cannot send exception to client: Code: 24, e.displayText() = DB::Exception: Cannot write to ostream

количество партиций, тем временем, растет.

Alexey

19.04.2017
05:43:57

Какая версия сервера?

Dmitrii

19.04.2017
05:44:29

1.1.54213

Этому предшествовало переполнение раздела диска, на котороый льются логи.

Alexey

19.04.2017
05:45:16

Поставьте 1.1.54198 http://repo.yandex.ru/clickhouse/trusty/pool/main/c/clickhouse/ Сейчас это последняя stable.

Dmitrii

19.04.2017
05:45:22

из-за вот этого 2017.04.19 07:32:08.894218 [ 17 ] <Information> HTTPHandler: Done processing query

хорошо, спасибо щас попробую

Igor

19.04.2017
08:47:13

доброе утро коллеги. а есть возможность в CH сделать аналог инфлюксовского last() ... group by time(), т.е. разбить на произвольное количество интервалов и взять последнее значение из каждого? мануал несколько раз перерыл, но пока особо идей не появилось.

Igor

19.04.2017
08:48:57

последнее в каком смысле? max() например не подойдет?

Andrey

19.04.2017
08:51:46

Вроде и max с group by подойдёт

Ilya

19.04.2017
08:56:03

доброе утро коллеги. а есть возможность в CH сделать аналог инфлюксовского last() ... group by time(), т.е. разбить на произвольное количество интервалов и взять последнее значение из каждого? мануал несколько раз перерыл, но пока особо идей не появилось.

argMax(arg, val)

Igor

19.04.2017
09:03:04

max(time) вполне подойдет

вопрос, видимо, в том как разбить timeseries по группам в интервалы, чтобы у каждой группы взять max()?

Igor

19.04.2017
09:06:53

toStartOfHour и иже с ними

:) SELECT toStartOfHour(timestamp) AS hr, count() FROM click WHERE timestamp BETWEEN '2017-04-13 20:00:00' AND '2017-04-14 03:00:00' GROUP BY hr ORDER BY hr ┌──────────────────hr─┬─count()─┐ │ 2017-04-13 20:00:00 │ **** │ │ 2017-04-13 21:00:00 │ **** │ │ 2017-04-13 22:00:00 │ **** │ │ 2017-04-13 23:00:00 │ **** │ │ 2017-04-14 00:00:00 │ **** │ │ 2017-04-14 01:00:00 │ **** │ │ 2017-04-14 02:00:00 │ **** │ └─────────────────────┴─────────┘

Открыть в Telegram