
g00glle
13.05.2017
06:10:38
@Civiloid спасибо за разъяснения
А можно я тогда вообще разойдусь и задам вопрос посложнее? ?
В задаче, что я описал выше, на стороне источника формируется избыточное количество строк для 60ти секунд - задан промежуток 58с > t > 122c. Eсть ли какие-то уже наработанные в community подходы для дедупликации строк? Прикидываю попробовать как-то реализовать механизм через temporary table, но вдруг уже кто-то изобрёл велосипед...
Задачи, которые я хочу решить - удовлетворить свой перфекционизм, минимизировать мусор. В перспективе прикидываю сложить в CH значительное количество данных от разных систем (пока, например, исторических данных мониторинга от трёх систем) - начинать с захламления имхо не лучшая идея.

g00glle
13.05.2017
22:22:48
Evgeny, @inv2004:
Кхм, не уверен, что касательно моей задачи вопрос в маленьких пачках данных. У меня сейчас жалкие 19к строк через web интерфейс передаётся 14+ минут, а это всего лишь данные источника за минуту. csv с этими данными - меньше 3Мб.
Важное замечание, возможно - вместо curl приходится использовать cmdlet Powershell-а 'Invoke-RestMethod' - может, косяк производительности в нём?
P.S.:
@maxlapshin, lol... 1.000.000 строк в секунду да при моей текущей производительности...

Alexander
13.05.2017
22:37:31
А что странного в миллионе строк в секунду? И тут надо еще понимать:
1) размер строки, сколько там колонок. Строка из 10 интов, и 100 стрингов -- это две большие разницы.
2) производительность дисковой подсистемы. В рамках одного сервера упирается обычно в диск
3) сколько серверов в кластере. Вставка при правильном дизайне масштабируется линейно
Можно грубо прикинуть размер строки в байтах, поделить его примерно на 5 (компрессия), а еще лучше померить точнее, как жмет ваши данные КликХаус, и соотнести с write speed дисковой подсистемы. Это будет верхний предел, но КликХаус от него не сильно должен отступать при достаточно больших блоках

Alexander
14.05.2017
02:18:16
У меня около 5000 строк в секунду. Но данных не очень много, строка, которую надо в cityhash и десяток чисел.

f1yegor
14.05.2017
11:27:34
компиляцию запросов стоит включать?
/** Whether query compilation is enabled. */ \
M(SettingBool, compile, false) \
superset image https://hub.docker.com/r/crobox/superset