
/dev
31.08.2016
11:44:59

aodzaki.toko
31.08.2016
11:46:08

Andrey
31.08.2016
11:46:40
Вызывать чьи-то интерфейсы - это не написание своей нейросети

Andrew
31.08.2016
11:46:43

Google

Just
31.08.2016
11:47:01

Andrew
31.08.2016
11:48:16
вообще, про связной я что-то погорячился, первоначально в виду вот это имел
http://xor.ai/faq
в подробности того, насколько там все интеллектуально, не вникал, но вроде как что-то такое заявлялось. пруфов не будет)

/dev
31.08.2016
11:50:14

Just
31.08.2016
11:51:54

Andrew
31.08.2016
11:52:36

KreyDan
31.08.2016
12:47:58
Привет!)

Dan
31.08.2016
13:22:03
На одну и ту же задачу могут выделить совершенно разные суммы, считаемые разными способами, и каждый будет прав
Но было бы интересно собрать такую статистику и посмотреть зависимости

Pavel
31.08.2016
13:49:43
Ребята, всем привет)

Ivan
31.08.2016
13:58:07
И тебе привет=)

Леонид
31.08.2016
15:33:16

Google

Леонид
31.08.2016
15:34:51

ThisIs
31.08.2016
16:48:35
Куда лучше записывать логи профилирования?

ZeroFQ
31.08.2016
18:14:10
Есть задача - сохранять очень много текстовой информации (в перспективе - терабайты). По ряду причин, все должно храниться в рамках одного сервера. ОС Linux.
Какую реляционную СУБД выбрать для обеспечения как приемлемой скорости записи (данные поступают со скоростью порядка пары мегабайт в секунду), так и хорошей скорости чтения (планируются сложные запросы либо с джойнами, либо серии подряд идущих запросов без джойнов)?
Запросы относительно редки, но время ожидания тоже не должно быть большим. Сохранность данных на первом месте.
Сейчас рассматриваю MariaDB+TokuDB, Firebird, Cassandra (сильно не уверен из-за ее нереляционности). Склоняюсь к первому, но, может, у кого-нибудь были похожие задачи?

Magistr
31.08.2016
18:16:35
Каков тип текстовой информации ? Каков размер записи ?

Sergey
31.08.2016
18:18:26
В зависимости от того, какой характер нагрузки, решения могут быть очень разными. Чего больше: чтения или записи? Выборки последовательные или рандомные? По каким критериям идет выборка? Как планируется шардить данные, какие требования к резервированию? и т.д. т т.п… В перспективе: под узкие специфичные задачи на больших масштабах, как правило, выгоднее свое кастомное хранилище, написанное на си (возможно, как плагин к какой-то системе). Только не надо с этого начинать, поставьте любую СУБД (ту же maria) и дойдите с ней хотя бы до N гигабайт .)


ZeroFQ
31.08.2016
18:24:07
В зависимости от того, какой характер нагрузки, решения могут быть очень разными. Чего больше: чтения или записи? Выборки последовательные или рандомные? По каким критериям идет выборка? Как планируется шардить данные, какие требования к резервированию? и т.д. т т.п… В перспективе: под узкие специфичные задачи на больших масштабах, как правило, выгоднее свое кастомное хранилище, написанное на си (возможно, как плагин к какой-то системе). Только не надо с этого начинать, поставьте любую СУБД (ту же maria) и дойдите с ней хотя бы до N гигабайт .)
Больше записи.
Выборки рандомные, чаще по ключевым полям, но относительно редкая часть запросов будет по LIKE %бла%блабла%.
Про шардинг пока не думал, предполагается все хранить на одном сервере, соответственно, на одной ноде СУБД.
Сохранность данных очень важна, но там, скорее всего, будет RAID с полным зеркалированием.
Начинать со своего велосипеда тоже не очень-то хочется )


aodzaki.toko
31.08.2016
18:26:11
Мне кажется, что стоит обратить внимание не только на выбор СУБД, но и раздел файловой системы, где будет хранилище.

ZeroFQ
31.08.2016
18:26:33
А что насчет PostgreSQL? Есть ли выгода про сравнению с TokuDB?

aodzaki.toko
31.08.2016
18:28:10
Тут нужно пробовать. ПГ хороша. Но её нужно уметь настраивать.
Мне кажется, что стоит попробовать maria+toku. Если нет, то уже думать.

ZeroFQ
31.08.2016
18:37:42
Я еще думал насчёт Tarantool, но тогда придется полностью пересматривать структуру базы, приводя ее к key-value схеме. И далеко не факт, что это даст какие-либо преимущества.

Magistr
31.08.2016
18:39:37
А бизнес задача какая ? так мб проще будет посоветовать базу

aodzaki.toko
31.08.2016
18:50:54

Sergey
31.08.2016
18:52:35

Леонид
31.08.2016
18:52:53
А делать со строками что планируется? Читать по ключу? Или агрегировать?

aodzaki.toko
31.08.2016
18:53:10
Ещё стоит подумать о том, на сколько данные "реляционны"? Может стоит глянуть на монгу и её механизм map-reduce
Много белых пятен в задаче, для нас)

Google

ZeroFQ
31.08.2016
18:55:05

Magistr
31.08.2016
18:57:29
Я вот быстро и по ключу в Аэроспайке хорошо читал

aodzaki.toko
31.08.2016
18:57:31

ZeroFQ
31.08.2016
18:57:39

aodzaki.toko
31.08.2016
18:58:11
Ладно, пойду спать. Всем спокойной ночи

Magistr
31.08.2016
18:58:13
Сетевая случаем не граф ?

Евгений
31.08.2016
18:58:16
Тарантул - это такой redis + application server, оба плохо работают с большими ключами, ну и хранят только столько, сколько помещается в память. Cassandra не масштабируется при ключах в мегабайты длиной. Вообще, хранить в базе данных что-то большее килобайт - путь к io stalls. Хранить в одном месте байты и мегабайты - похоже на ошибку. Искать по этому с помощью like% - вы точно понмаете, что делаете?

aodzaki.toko
31.08.2016
18:58:22

Евгений
31.08.2016
18:58:36
Начать надо с mysql+innodb и увидеть, где проблемы

Леонид
31.08.2016
18:58:52
Учитывая, что озвучено - постгре или току. Выбор зависит от админа. И та и другая в руках отличного админа в пять раз быстрее, чем в руках хорошего. Поэтому что админ лучше знает.

Евгений
31.08.2016
19:00:13
что за строчки в мегабайты длиной в одном ключе? их точно нельзя порезать на части?

Леонид
31.08.2016
19:00:16

aodzaki.toko
31.08.2016
19:00:49

Евгений
31.08.2016
19:01:44
геномы пакуются через rANS например, и зчем в одной базе бактерия с миллионом букв и тут же бактерия с десятью буквами? такие вообще бывают?

aodzaki.toko
31.08.2016
19:02:15

Евгений
31.08.2016
19:04:45
вот что для упаковки геномов специально придумали: https://github.com/jkbonfield/rans_static
но это еще без lz, т.е. не подойдет для упаковки строчек в условной базе данных

aodzaki.toko
31.08.2016
19:07:10

ZeroFQ
31.08.2016
21:37:25

Google

ZeroFQ
31.08.2016
21:39:45
Всем, кто отвечал, спасибо!

Евгений
31.08.2016
22:24:32
полнотекстовый поиск на одной ноде лучше sphinx, его индекс заметно меньше, но он требует хранить в памяти атрибуты (для быстрого поиска, впрочем, можно положить на диск в спициальных конфигах)
в принципе, sphinx как-то живет и на нескольких нодах, но я не пробовал, а для эластика такая конфигурация родная

Paul
31.08.2016
22:38:40

Евгений
31.08.2016
22:42:33
сфинкс умеет mysql, postresql, mssql и odbc, есть xml загрузчик (не знаю, кто им пользуется), и относительно недавно появились tsv/csv загрузчики
сфинкс не хранит оригиналы "в себе", так что нужен внешний сторадж, и обычно это какая-то популярная sql база, в этом плане тоже большое отличие от эластика

Paul
31.08.2016
22:43:44
я с ним работал во времена mysql 5.0 и тогда он мог только с mysql работать. Это похоронило надежду на перевод одного крупного проекта на постгрес

Евгений
31.08.2016
22:44:51
хм, может быть, мне казалось, что постгрес он всегда умел, но наверное я забыл

Paul
31.08.2016
22:45:13
нет, раньше точно не умел. Если теперь умеет - это отличная новость

Евгений
31.08.2016
22:45:50
да, сейчас без проблем загружает, там даже odbc есть, так что из любого sql сможет, хоть из db2 или оракла какого

Ilya
01.09.2016
04:54:51

aodzaki.toko
01.09.2016
08:37:36
привет!!!

Алексей
01.09.2016
08:42:53

Stepan
01.09.2016
20:00:42
Господа вашу бих дату в большом автосервисе можно использовать? Есть готовый бизнес план/идея как юзать чтобы показать хозяину? И вам хорошо будет и мне?

Ivan
01.09.2016
20:01:52
напиши в личку, обсудим

Andrew
01.09.2016
20:06:44
интересно, насколько же большим должен быть автосервис, чтобы бигдата принесла там профит...