
Nikolay
06.01.2018
19:44:38
Есть записи типа А (которых 4 млн):
1. Порядковый номер
2. Хэш
3. Временная отметка
4. Набор доп. информации одинаковый для всех записей
Записи типа Б(125 млн):
1. Хэш
2. Внешний ключ для связи с А (либо хэш, либо номер еще не знаю что лучше)
3. Временная отметка
4. Набор доп. информации одинаковый для всех записей
Сейчас это всё в неудобном формате (можно сказать, что текстовый), а чтобы сделать запрос - нужно долго вычитывать файлы (60 GB) и в общем как-то неудобно. Для этого собственно и выбрали pg
Грубо говоря итоговая цель - по доп. информации, которую хранят сущности из Б (пусть будет IP адрес, к примеру) найти все записи с этим IP адресом и что-нибудь посчитать.

Ascandar
06.01.2018
19:53:58

Che
06.01.2018
19:55:37

Google

Nikolay
06.01.2018
19:57:00

Che
06.01.2018
19:57:16
а, ок
у меня такие же примерно проблемы, как бы я не оптимизировал запросы, как бы я не конфигурировал саму постгрес, все жутко медленно. но у меня и данных немного больше

Petr
06.01.2018
19:58:28

Ascandar
06.01.2018
19:59:21
Как то коллеги решили логи в базу закачивать, мол это труъ, потом как пару дней логов набрало с сотни серваков и бд все легла к чертям. Поэтому логичный выбор для логов типа ELK

Petr
06.01.2018
19:59:54
вообще для львиной доли задач со всякого рода логами и статистикой лучше всего именно кликхаус подходит

Nikolay
06.01.2018
20:01:41
ELK и Elastic Search как относятся друг к другу, это не одно и то же? Я просто мало очень об этом знаю, поэтому пока не рассматривал этот вариант. Почему это будет быстрее сабжа?

Ascandar
06.01.2018
20:02:35
Одно и тоже, просто стек эластиксерч, логстеш и кибана
Быстрее будет, потому что для таких данных он и оптимизирован

Айтуар
06.01.2018
20:05:18

Nikolay
06.01.2018
20:05:40
Кликхаус выглядит более подходящим. Можно вообще сравнивать колоночную субд с ES?

KlonD90
06.01.2018
20:06:10
для логов кликхаус получше

Google

KlonD90
06.01.2018
20:07:18
elasticsearch конечно крутой поиск. но не понимаю зачем туда реальные терабайтные логи загоняют ._.

Ascandar
06.01.2018
20:08:07
Кликхаус почитаю
Заинтриговал

Аггей
06.01.2018
20:12:09

Petr
06.01.2018
20:12:48

Nikolay
06.01.2018
20:12:48
Всем спасибо, буду гуглить) с праздниками всех)

Ascandar
06.01.2018
20:13:37
Елк просто готовое уже для сборов логов, клиехаус наверняка надо дориливать

Petr
06.01.2018
20:13:48

Ascandar
06.01.2018
20:14:37
То есть есть аналог кибаны и логстеша?

KlonD90
06.01.2018
20:15:08

Аггей
06.01.2018
20:16:20
https://github.com/mikechris/logstash-output-clickhouse
Первая строка гугла

Ascandar
06.01.2018
20:17:20
Как зачем, фильтры для разных логов, визуализауия типа кибаны, файлбит для сбора
Все писать свой велосипед - как то не то

Darafei
06.01.2018
20:17:55
а как потом грепать кликхауз?

Аггей
06.01.2018
20:18:14
Ну файлбит и логстэш поддерживают много всякого... а вот насчет кибаны неуверен

Ascandar
06.01.2018
20:18:39
Только не надо, что через селект)))

Google

Аггей
06.01.2018
20:20:09
https://redash.io/

Petr
06.01.2018
20:53:17
любителям поинтересоваться за кликхаус милости прошу сюда @clickhouse_ru

Sergey
06.01.2018
21:07:55

Petr
06.01.2018
21:11:14

Sergey
06.01.2018
21:12:17
Плюс можно свежие партиции класть на более быстрые диски.

Petr
06.01.2018
21:13:41
да, в принципе можно, но это тоже скорость занизит на ≈10^1
т.к. напомню, что партиции придется смотреть все

Sergey
06.01.2018
21:15:24
Новые вроде в вашей схеме неиндексированные

Petr
06.01.2018
21:15:26
я пока придержался методики на двух партициях...
тесты всё ещё выполняются, надеюсь через пару часов будет результ

Sergey
06.01.2018
21:16:18

Petr
06.01.2018
21:16:55
кинете? я самостоятельно прикидку делал

Sergey
06.01.2018
21:18:19
https://postgrespro.com/blog/pgsql/17869
Можно попробовать запись доклада поискать.

Petr
06.01.2018
23:38:01
@SergeyPpro спасибо, посмотрим

om
07.01.2018
01:11:59
там не совсем логи, но что-то близкое по смыслу.
Если прикрутить полнотекстовый поиск, то получается тот же ES, со всеми плюшками postgresql.
БД логов 343Gb,
42 хоста,
Макс 20 млн в сутки,
Глубина в 45 суток.
Посуточное партиционирование,
Поиск - стремителен.

Очень добрый
07.01.2018
04:23:58
Мле

Roman
07.01.2018
07:29:54
Всем привет, можете порекомендовать материал про хранения юзера в бд, процесс аутентификации ?
Или все намного проще ? ( пароль храним как varchar, хэшируем через bcrypt , проверяем в приложении через select )

L
07.01.2018
08:10:59
Всем привет, с Праздником Вас, подскажите, для сайта вот это опасно?
http://prntscr.com/hx4qjc

Google

ros
07.01.2018
08:21:31
попытка заинектить sql
степень опасности зависит от кода, который засовывает это в постгрю

L
07.01.2018
08:27:53
т.е беспокоиться не стоит, верно?

ros
07.01.2018
08:30:47
только вы знаете что у вас там внутри
стоит или не стоит решать вам

L
07.01.2018
08:32:41
ros Спасибо за ответы большое

Andrey
07.01.2018
09:07:31

Petr
07.01.2018
09:13:41
@netneladno привет!
результаты теста такие:
1. Билд индексов: 20ч 2мин
2. Вставка 3.4кк rows в таблицу без индексов: 3мин 51сек
3. Вставка 3.4кк rows в таблицу с индексами: 7ч 7мин
--
Короче говоря, если пачка данных больше 10млн, то индексы таки быстрее полностью снести, вставить пачку, и построить уже...

Denis
07.01.2018
09:20:34

Yaroslav
07.01.2018
09:28:07

Timur
07.01.2018
10:22:55
Коллеги, привет. Так-как ни одного нормального ресурса с удобными поиском и большой базой IT-событий (хакатонов, конференций, вебинаров) не нашли, решили сделать свой агрегатор. Кто готов - потратьте, пожалуйста, минуту на наш Google-опросник https://docs.google.com/forms/d/e/1FAIpQLSeF62yKGrK_dA9s06MXASrGZMof2pVPsI_cBXCvKk-6BBA4-A/viewform

Evgeniy
07.01.2018
10:25:03

Сергей
07.01.2018
10:25:52

Dattk
07.01.2018
10:43:33

Сергей
07.01.2018
10:45:13
Они за такие копейки сервис поддерживают
Полторы чашки кофе

Dattk
07.01.2018
10:47:16
для нас это в год цена аренды площадки и проведение дополнительного мероприятия, поэтому не подходит, может кому-то и подходит. я лишь указал что там не все меропрития собраны, как раз из-за отсутствия базового тарифа с нулевой ценой и разовой оплатой без подписки

Сергей
07.01.2018
10:48:07
А за бесплатно никто не будет создавать и поддерживать аналогичный сервис

Dattk
07.01.2018
10:48:27
timepad.ru например
его минус в фокусе на онлайне: при отборе по городу - он показывает и онлайн мусор

Lev
07.01.2018
10:57:49
то есть вы планируете, что разработка и поддержка сайта с мероприятиями будет дешевле, чем 8 баксов в месяц?

Dattk
07.01.2018
11:27:36
Мы два года так проводим мероприятия не платя никому, с бюджетами 5–50 тысяч и скидываясь не деньгами а своим временем ?

Google

Lev
07.01.2018
11:32:46
ну так делайте мероприятия! Зачем вам поддержка ресурса?

Dattk
07.01.2018
11:43:14

Nikolay
07.01.2018
14:24:19


om
07.01.2018
14:30:13
запутался - куда поиск прикручивать?
logs=# \dS log__20180101
Таблица "public.log__20180101"
Столбец | Тип | Модификаторы
—--------+--------------------------+------------—
snd_date | timestamp with time zone |
rcv_date | timestamp with time zone |
host | text |
facility | text |
level | text |
program | text |
source | text |
pid | text |
message | text |
tsv | tsvector |
Индексы:
"log__20180101_host_idx" btree (host)
"log__20180101_level_idx" btree (level)
"log__20180101_rcv_date_idx" btree (rcv_date)
"log__20180101_snd_date_idx" btree (snd_date)
"log__20180101_tsv_idx" gin (tsv)
Ограничения-проверки:
"partition_check" CHECK (rcv_date >= '2018-01-01 00:00:00+09'::timestamp with time zone AND rcv_date < '2018-01-02 00:00:00+09'::timestamp with time zone)
Триггеры:
tsvectorupdate BEFORE INSERT OR UPDATE ON log__20180101 FOR EACH ROW EXECUTE PROCEDURE tsvector_update_trigger('tsv', 'pg_catalog.english', 'message')
Наследует: all_events
запутался - куда поиск прикручивать?
Если вкратце - то при вставке записи отрабатывает триггер, который в столбцец tsv складывает вектор сформированный из message.
На столбце построен Gin индекс, по которму и идёт поиск.


Alex
07.01.2018
14:49:09

Dattk
07.01.2018
15:05:52

Kirill
07.01.2018
21:40:55
Всем привет

Petr
07.01.2018
21:41:52