
Evgeny
07.08.2018
11:14:55
Чтобы избежать дублей, я бы брал файлы оттуда где они появляются, переносил в отдельную папку, оттуда загружал и переносил дальше, в постоянный архив

Alexander
07.08.2018
11:15:13

Roman
07.08.2018
11:17:58
А есть возможность не из файлов, а напрямую потоком загружать данные в кх?

Stanislav
07.08.2018
11:24:50
откуда именно загружать?

Google

Roman
07.08.2018
11:34:20
Данные транслировать по сети, и не создавая файлов загружать в кх.

Stanislav
07.08.2018
11:34:48
И? В чём проблема?
У ch есть два интерфейса для этого - http и tcp
В конце-концов, можно поставить клиента на удалённой машине

Eugene
07.08.2018
11:36:31

Stanislav
07.08.2018
11:37:02
/me на части хостов вообще через curl грузит...

Eugene
07.08.2018
11:37:15

Roman
07.08.2018
11:37:48
/me

Stanislav
07.08.2018
11:37:56
Ну почему же? Есть и библиотеки для питонов всяких...

Pavel
07.08.2018
11:38:17
даже во всяких питонах лучше кормить субпроцесс кликхаус-клиента через стдин
по кр мере, проще

Roman
07.08.2018
11:41:20

Google

Pavel
07.08.2018
11:42:29
ээээ
proc = subprocess.Popen(
[
'clickhouse-client',
'--database=<>',
'--query=' + ins_stmt,
...
],
stdin=subprocess.PIPE,
stdout=subprocess.PIPE,
)
output, err = proc.communicate(input=bytes(YOUR_CUTE_DATA, 'utf-8'))
чот типа такого, наверное?

Roman
07.08.2018
11:44:17

Сергей
07.08.2018
11:50:03
@milovidov_an Доброго дня, Вы под алпайн кликхаус не собираете?

Юрий
07.08.2018
12:10:59
Привет, товарищи.
Скажите, SummingMergeTree гарантирует полное схлопывание строк или нет?
Наблюдаю частичное суммирование, часть строк остались отдельно жить.
┌─adv_id─┬─price─┬─event_date─┬─event_type─┬─event_count─┬──────event_datetime─┐
│ 1 │ 100 │ 2018-08-07 │ publish │ 1 │ 2018-08-07 15:09:47 │
│ 1 │ 100 │ 2018-08-07 │ publish │ 1 │ 2018-08-07 15:09:47 │
│ 1 │ 100 │ 2018-08-07 │ publish │ 1 │ 2018-08-07 15:09:47 │
│ 1 │ 100 │ 2018-08-07 │ publish │ 21 │ 2018-08-07 15:09:25 │
└────────┴───────┴────────────┴────────────┴─────────────┴─────────────────────┘

Vasilij
07.08.2018
12:11:52
Нет. Применяйте OPTIMIZE ... FINAL , но и это не даст 100% гарантии.

Юрий
07.08.2018
12:12:43
спасибо

Kirill
07.08.2018
12:13:33

Vasilij
07.08.2018
12:15:21
хм. дало эффект однако
Ну и хорошо :) Но обычно доагрегируем уже в SELECT-е, главное что SummingMergeTree сделает за вас 99% работы, и как правило на порядки ускорит агрегацию результата.

Konstantin
07.08.2018
13:26:07
господа, а ни у кого нет рабочей связки logstash-clickhouse?

Alexander
07.08.2018
13:28:18

Konstantin
07.08.2018
13:29:09
оно не особо работает нынче

Константин
07.08.2018
13:29:31

Konstantin
07.08.2018
13:29:44
версия logstash-mixin-http_client (<6.0.0) конфликтует с той, что поставляется с логстешем 6.2

Константин
07.08.2018
13:30:32
а у приложения нет возможности конфигурировать log format?
я лью в КХ аксес логи nginx

Konstantin
07.08.2018
13:30:57
приложение не хочется учить само ходить в КХ

Google

Константин
07.08.2018
13:31:15
так не надо, его учить ходить в КХ

Konstantin
07.08.2018
13:31:18
пусть оно и дальше пишет в файл, который ротируется и прочее, а filebeat + logstash пишут в кх

Константин
07.08.2018
13:32:16
я сделал все банально просто: в nginx сформировал access log в json формате, и повесил на крон баш скрипт, которые раз в 5 минут ротирует лог файл и льет данные в КХ
да, попахивает велосипедом, но работает на ура

Konstantin
07.08.2018
13:32:55
это немного топорно, ага

Константин
07.08.2018
13:33:50
да, топорно, но мне ничего более и не надо

Юрий
07.08.2018
15:12:02
Привет. Подскажите пжлст такой момент.
У меня таблица
SummingMergeTree(event_date, (adv_id, price, event_type), 8192, event_count)
где я собираю события публикации/снятия с публикации объектов.
Специфика такая, что юзеры могут перепубликовывать (без снятия) много раз объявления для:
- актуализации даты
- для изменения цены
Такие события схлопываются успешно и суммируются в event_count
Все ок. Но дальше юзер снимает с публикации объявление.
А через пару дней - снова публикует.
И эта публикация начинает схлопываться снова.
А делать этого мне нельзя, так как это не последовательно идущие публикации.
Последовательность разрывается событием UNPUBLISH.
Средствами движка можно как то реализовать схлопывание только последовательно идущих одинаковых значений первичного ключа (adv_id, price, event_type) ?

Alexey
07.08.2018
15:14:07

Kirill
07.08.2018
15:15:11

Vladimir
07.08.2018
15:15:16
Добрый вечер, как из массива строку получить не подскажите?
[1,2,4,5] -> 1_2_4_5

Юрий
07.08.2018
15:16:23

Сергей
07.08.2018
15:16:37

Combot
07.08.2018
15:16:37
Sergey (0) увеличил репутацию Alexey Milovidov (4)

papa
07.08.2018
15:18:31

Google

Kirill
07.08.2018
15:18:31

Vladimir
07.08.2018
15:18:59
Спсб большое в доках не нашел - плохо искал

Юрий
07.08.2018
15:19:19

Vladimir
07.08.2018
15:21:46
A если целые то какая магия?

Victor
07.08.2018
15:23:24
привести к строке?

Vladimir
07.08.2018
15:24:54
ага

Alex
07.08.2018
15:26:42
arrayMap

Vladimir
07.08.2018
15:27:18
Спсб
Чувствую летать будет ))

Alexander
07.08.2018
16:31:40
@milovidov_an Подскажи, другие алгоритмы джоинов помимо hash join не планируются?

Alexey
07.08.2018
16:38:31

Alexander
07.08.2018
16:56:32

Denis
07.08.2018
16:59:27
@milovidov_an я попробовал 18.1 и сразу наступил на https://github.com/yandex/ClickHouse/issues/2795
и я не могу понять почему это вообще сломалось (читая readme и комиты) и вот теперь уже страшно вообще тестить 18-ю, там вообще много затронуто и что могло сломаться еще?

Dmitry
07.08.2018
18:24:11
Разработчики КХ, это просто песня, спасибо вам)

Egor
07.08.2018
18:31:19
Я помню на митапе в Берлине обсуждался вопрос отсутствия английского слогана для кх. Как на счёт "Clickhouse - performance full house" ?)

Dmitry
07.08.2018
18:36:48
Нет правда мы не КХ написали корпоративный мессенджер =) действильно fullhouse

Yuran
07.08.2018
18:51:10
ClickHouse does not lag?

Denis
07.08.2018
18:51:17
да просто написать Clickhouse -- ne tormozit.
со спатником и перестройкой прокатило.

Yuran
07.08.2018
18:51:46
Is ClickHouse slow? Nyet

Google

Denis
07.08.2018
18:59:17
clickhouse never slow down

Wolf
07.08.2018
19:02:13
Даун можно опустить

Dmitry
07.08.2018
19:12:36
clickhouse - no chaos

Denis
07.08.2018
20:42:40

Evgeny
07.08.2018
21:18:34

Alexey
07.08.2018
21:26:03


Yuri
07.08.2018
21:33:20
ClickHouse - performance first ??

daria
07.08.2018
21:40:55

Alexander
08.08.2018
00:46:23


Vadim
08.08.2018
05:05:30
Привет всем!
Кто подскажет, что необходимо сделать после изменения схемы хранения, чтобы КХ перезста смердживать данные до 1 минуты, конфиг такой:
<pattern>
<regexp>^DevOps\.clickhouse\.test\.</regexp>
<function>avg</function>
<retention>
<age>0</age>
<precision>5</precision>
</retention>
</pattern>
а данные:
SELECT
Timestamp,
Value
FROM graphite
WHERE Path = 'DevOps.clickhouse.test.testval'
ORDER BY Timestamp ASC
┌──Timestamp─┬──────────────Value─┐
│ 1533703153 │ 6 │
│ 1533703199 │ 13.5 │
│ 1533703259 │ 34.333333333333336 │
│ 1533703269 │ 43.5 │
│ 1533703319 │ 90.5 │
│ 1533703342 │ 116.16666666666667 │
│ 1533703439 │ 163.64285714285714 │
│ 1533703492 │ 219 │
│ 1533703619 │ 257 │
│ 1533703679 │ 321.5 │
│ 1533703739 │ 375 │
│ 1533703784 │ 415.5263157894737 │
│ 1533703799 │ 433 │
│ 1533703859 │ 492 │
│ 1533703919 │ 522 │
│ 1533703979 │ 577.5 │
│ 1533704039 │ 640.5 │
│ 1533704099 │ 694.5 │
│ 1533704119 │ 714 │
│ 1533704219 │ 746.5 │
│ 1533704246 │ 767.0357142857143 │
│ 1533704279 │ 801 │
│ 1533704339 │ 856.90625 │
│ 1533704395 │ 911.5 │
│ 1533704459 │ 922 │
│ 1533704519 │ 981.5 │
│ 1533704579 │ 1036.5 │
│ 1533704623 │ 1078.1818181818182 │
│ 1533704639 │ 1092.5 │
│ 1533704642 │ 1102 │
│ 1533704663 │ 1113.5 │
│ 1533704679 │ 1131.5 │
└────────────┴────────────────────┘
шлю каждую секунду
инкрементальный счетчик