
Vladimir
09.04.2017
07:03:06
Просто кто-то на уровне receiver'а это абстраоирует от тебя

Pavel
09.04.2017
07:06:18
ну и написать батчер довольно легко
я вот совершенно не хочу тащить монстра-кафку под такие задачи и налабал свой
аж 120 строк кода вышло :)

Google

Roman
09.04.2017
07:21:30

Yury
09.04.2017
07:22:09
Персистентное хранилище, оттуда они уже уезжают на обработку

Roman
09.04.2017
07:23:10
А оно где хранит? В памяти или на диске тоже? И сколько времени должно хранить.

Yury
09.04.2017
07:23:20
На диске, вечно

Roman
09.04.2017
07:24:09
Так может быть в какую то тайм-сериес базу складывать просто?

Yury
09.04.2017
07:25:07
У них у всех проблемы. Что-то не реплицируется, что-то тормозит
Или все же есть какая-то неплохая?
Собственно в этом и вопрос :)

Roman
09.04.2017
07:27:14
Какие ты уже смотрел? И главное какие потом методы обработки нужну или уже используются.
Стек у тебя какой?

Vladimir
09.04.2017
07:31:05
Это старый вариант этого поганенького гуглошыта
Лучше его в приличном обществе не доставать

Roman
09.04.2017
07:31:29
Кинь новенький плиз

Google

Vladimir
09.04.2017
07:31:50

Roman
09.04.2017
07:31:55
Я просто хотел список дать с деталями

Vladimir
09.04.2017
07:31:56
И новый и старый

Yury
09.04.2017
07:31:58
Сейчас у меня с самописного коллектора все уходит на сохранение в кафку, оттуда вычитывается и шлется на агрегацию в pipelinedb.
Напрягает именно кафка тем, что в нее по сути можно только записать и последовательно прочитать. Причем читать из-за партиций тоже не особо удобно. Скорость офигенная, но нам так быстро не обязательно. Хочется более произвольное чтение по диапазону временному.

Vladimir
09.04.2017
07:36:25

Yury
09.04.2017
07:42:49
а кто-то этот DalmatinerDB кроме автора шита пробовал?

ptchol
09.04.2017
07:45:38
Не ?

Yury
09.04.2017
07:46:12
простите, что выстраивает?
нам тс база нужна, вот и все. Спрашиваю какая нынче в тренде.

ptchol
09.04.2017
07:49:49
Вы же говорите у вас данные потом вычитываются несколькими консьюмерами, разными диапазонами, агрегируются и становятся не нужны. Нет ?

Vladimir
09.04.2017
07:50:42

Yury
09.04.2017
07:51:00
агрегирующие функции меняются, новые добавляются. Надо историю заново прокатывать.
Насколько плоха затея писать просто в кассандру?

Vladimir
09.04.2017
07:56:52
Минусы те же что с кх. Пишешь или батчами или получишь фигню

Yury
09.04.2017
07:57:39
ясно

Vladimir
09.04.2017
07:58:28
У любой базы данных запись батчем намного эффективнее
Просто в более старых базах уже может быть готовой receiver который от тебя это скрывает

Yury
09.04.2017
07:59:17
да это все решаемо

Google

Vladimir
09.04.2017
08:58:23
Про табличку которую Роман спрашивал:
https://docs.google.com/spreadsheets/d/1sMQe9oOKhMhIVw9WmuCEWdPtAoccJ4a-IuZv4fXDHxM/edit#gid=0
Но у нее есть особенности, которые надо понимать:
1. Составляла контора которая оказывает платный саппорт далматинеру.
2. Все performance метрики были собраны методом "что авторы заявили в datasheet/whitepaper". То есть никакого "на одном железе", никакого "единая методология тестирования" там нет.
3. Никто не мерял задержку до доступности данных
4. Все метрики про Usability/Functionality без каких либо публично доступных критериев, так просто показалось авторам.
5. Там далеко не все перечислено. Я составлял список просто имя-ссылка и в нем уже сейчас 38 пунктов того что кажется можно воткнуть как Time-Series: https://gist.github.com/Civil/6c43a1476cb44937afd56320578749e9
И совет - ознакомьтесь с постом https://blog.project-fifo.net/the-lies-we-tell/ про примеры проблем бенчмарков time-series баз данных.

ptchol
09.04.2017
10:04:30

Vladimir
09.04.2017
10:29:39

ptchol
09.04.2017
10:30:37
С Кассандра это не просто процесс, это ритуал за которым следить нужно хорошенько

Vladimir
09.04.2017
10:30:45
@ptchol
это да, но суть все равно вроде бы та же - данные пишутся в некоторые файлики, периодически фоновый процесс ходит и мержит близкое, сжимает заново и т.п. Если очень упрощенно. Или я не правильно что-то запомнил?

ptchol
09.04.2017
10:32:48
Там чуть сложнее но вцелом да
Там есть так сказать мажор компакт

Vladimir
09.04.2017
10:33:01
я упрощенно, да

ptchol
09.04.2017
10:34:00
И автоматического механизма восстановления реплика фактора нет

Yury
09.04.2017
12:04:10


Vladimir
09.04.2017
12:05:12

Yury
09.04.2017
12:05:37
она вообще очень подозрительно выглядит

Vladimir
09.04.2017
12:06:18
но базовые вещи очень адекватны - то есть чуваки реально поискали где находится средний размер точек и п.р
но вот все оценки надо аккуратно смотреть

Александр
09.04.2017
12:56:25
The SysLog plugin receives log messages from the daemon and dispatches them to syslog(3). At version 5.1 and later, the Syslog plugin can also act as a consumer of Notifications if the NotifyLevel option is provided.
Currently, using LogLevel "debug" is only valid if the collectd sources are built with -DCOLLECT_DEBUG at compilation time.
По другому это ни как не обойти?
collectd
Там все(3 плагина) log c припиской, только при компиле из сорцев, доступен debug lvl

Paul
09.04.2017
14:45:05

Google

Александр
09.04.2017
16:21:27
Да ошибка psql
https://github.com/collectd/collectd/issues/1905
Хотел посмотреть в чём проблема

Subbotin
10.04.2017
09:23:22
хэй, гайс.

Admin
ERROR: S client not available

Subbotin
10.04.2017
09:23:28
Нужно база писать time series данные с датчиков. порядка тысяча записей в секунду (оценка сверху с не плохим запасом).
решение нужно простое и кондовое. чтоб не надо было отдельного человека чисто чтоб админил базу и чтоб не проёбывались данные. в идеале конечно было б круто иметь всякие фишки типа подписываний, динамических выборок и всякого прочего, но не критично. простота и кондовость - на первом месте.
инфлюкс? графит? или это все глючное поделие с которым убьёшься в администрирование и стоит не ебать мозг и поставить sqlite или постгрес?

Magistr
10.04.2017
09:25:57
clickhouse ?

Vladimir
10.04.2017
09:28:24
Но на 1 к в секунду сойдет даже sqlite :)

Subbotin
10.04.2017
09:29:28
ну sqlite просто не очень удобный. Хотя конечно простой и надёжный.

Старый
10.04.2017
09:29:28
чтот я этой java хрени слабо доверяю

Vladimir
10.04.2017
09:30:22

Paul
10.04.2017
09:47:52

Vladimir
10.04.2017
09:49:40
На 1к в секунду пойдет даже запись в тхт файл :)

Subbotin
10.04.2017
09:50:16
ты базы данных только производительностью меряешь чтоли?
вопрос то как раз в том в чем писать хорошо и удобно. ну и чтоб удобно было потом выборки генерить.
и чтоб не проёбывались данные, и чтоб не было ебли со спецэффектами конкретной базы для которых нужен специальный человек, который будет их пилить.

ptchol
10.04.2017
09:55:40
и есть такие бд что ли ?
_почему то думаю что сейчас скажут про постгрю_

Google

Dmitry
10.04.2017
10:03:32
как что-то плохое! :)

Subbotin
10.04.2017
10:06:25
ну постгрес конечно заебок

Phil
10.04.2017
10:09:33
ну постгрес конечно заебок
Но он не подходит под твое же "конкретной базы для которых нужен специальный человек, который будет их пилить"

Subbotin
10.04.2017
10:10:46
почему? на требуемых мне нагрузках и объемах постгрес по сути будет "поставил и забыл" за исключением того что бэкапы из коробки делать не очень удобно.
в прочем не знаю ни одной базы кроме sqlite где бэкапы были бы удобными

Phil
10.04.2017
10:15:08

Subbotin
10.04.2017
10:19:56

Phil
10.04.2017
10:22:15
А меня стошнило

Vladimir
10.04.2017
10:25:17

Subbotin
10.04.2017
10:26:08
но не всегда ключевая

Magistr
10.04.2017
10:27:17
в принципе мы статистику в постгрессе хранили и база до 100Г разрасталась, было норм

Evgeny
10.04.2017
12:19:38

Subbotin
10.04.2017
12:47:33
Эээээ. Что ты подразумеваешь под cardinality? данные не реляционные

Evgeny
10.04.2017
12:49:14
количество временных рядов/метрик