@bigdata_ru

Страница 11 из 327
/dev
31.08.2016
11:44:59
Это несомненно, но в сабже было про объяснение на пальцах и нубскую реализацию
ну я и привёл пример, как ещё более не надо делать нейросети

Andrey
31.08.2016
11:46:40
Вызывать чьи-то интерфейсы - это не написание своей нейросети

Andrew
31.08.2016
11:46:43
Google
Andrew
31.08.2016
11:48:16
вообще, про связной я что-то погорячился, первоначально в виду вот это имел http://xor.ai/faq

в подробности того, насколько там все интеллектуально, не вникал, но вроде как что-то такое заявлялось. пруфов не будет)

/dev
31.08.2016
11:50:14
Just
31.08.2016
11:51:54
вообще, про связной я что-то погорячился, первоначально в виду вот это имел http://xor.ai/faq
ну вот, у нас связной-анкетка - у людей это. по крайней мере выглядит точно солиднее, а как работает проверим

Andrew
31.08.2016
11:52:36
KreyDan
31.08.2016
12:47:58
Привет!)

Dan
31.08.2016
13:22:03
На одну и ту же задачу могут выделить совершенно разные суммы, считаемые разными способами, и каждый будет прав

Но было бы интересно собрать такую статистику и посмотреть зависимости

Pavel
31.08.2016
13:49:43
Ребята, всем привет)

Ivan
31.08.2016
13:58:07
И тебе привет=)

Леонид
31.08.2016
15:33:16
Google
Леонид
31.08.2016
15:34:51
дёргать MKL, BLAS и LAPACK ещё вполне допустимо
Дергать blas и lapack для нейронов - это как сайт на си писать. Можно, но как-то не принято.

ThisIs
31.08.2016
16:48:35
Куда лучше записывать логи профилирования?

ZeroFQ
31.08.2016
18:14:10
Есть задача - сохранять очень много текстовой информации (в перспективе - терабайты). По ряду причин, все должно храниться в рамках одного сервера. ОС Linux. Какую реляционную СУБД выбрать для обеспечения как приемлемой скорости записи (данные поступают со скоростью порядка пары мегабайт в секунду), так и хорошей скорости чтения (планируются сложные запросы либо с джойнами, либо серии подряд идущих запросов без джойнов)? Запросы относительно редки, но время ожидания тоже не должно быть большим. Сохранность данных на первом месте. Сейчас рассматриваю MariaDB+TokuDB, Firebird, Cassandra (сильно не уверен из-за ее нереляционности). Склоняюсь к первому, но, может, у кого-нибудь были похожие задачи?

Magistr
31.08.2016
18:16:35
Каков тип текстовой информации ? Каков размер записи ?

Sergey
31.08.2016
18:18:26
В зависимости от того, какой характер нагрузки, решения могут быть очень разными. Чего больше: чтения или записи? Выборки последовательные или рандомные? По каким критериям идет выборка? Как планируется шардить данные, какие требования к резервированию? и т.д. т т.п… В перспективе: под узкие специфичные задачи на больших масштабах, как правило, выгоднее свое кастомное хранилище, написанное на си (возможно, как плагин к какой-то системе). Только не надо с этого начинать, поставьте любую СУБД (ту же maria) и дойдите с ней хотя бы до N гигабайт .)

ZeroFQ
31.08.2016
18:24:07
В зависимости от того, какой характер нагрузки, решения могут быть очень разными. Чего больше: чтения или записи? Выборки последовательные или рандомные? По каким критериям идет выборка? Как планируется шардить данные, какие требования к резервированию? и т.д. т т.п… В перспективе: под узкие специфичные задачи на больших масштабах, как правило, выгоднее свое кастомное хранилище, написанное на си (возможно, как плагин к какой-то системе). Только не надо с этого начинать, поставьте любую СУБД (ту же maria) и дойдите с ней хотя бы до N гигабайт .)
Больше записи. Выборки рандомные, чаще по ключевым полям, но относительно редкая часть запросов будет по LIKE %бла%блабла%. Про шардинг пока не думал, предполагается все хранить на одном сервере, соответственно, на одной ноде СУБД. Сохранность данных очень важна, но там, скорее всего, будет RAID с полным зеркалированием. Начинать со своего велосипеда тоже не очень-то хочется )

Каков тип текстовой информации ? Каков размер записи ?
Строки UTF-8 переменной длины. От пары символов до нескольких мегабайт.

aodzaki.toko
31.08.2016
18:26:11
Мне кажется, что стоит обратить внимание не только на выбор СУБД, но и раздел файловой системы, где будет хранилище.

ZeroFQ
31.08.2016
18:26:33
А что насчет PostgreSQL? Есть ли выгода про сравнению с TokuDB?

aodzaki.toko
31.08.2016
18:28:10
Тут нужно пробовать. ПГ хороша. Но её нужно уметь настраивать.

Мне кажется, что стоит попробовать maria+toku. Если нет, то уже думать.

ZeroFQ
31.08.2016
18:37:42
Я еще думал насчёт Tarantool, но тогда придется полностью пересматривать структуру базы, приводя ее к key-value схеме. И далеко не факт, что это даст какие-либо преимущества.

Magistr
31.08.2016
18:39:37
А бизнес задача какая ? так мб проще будет посоветовать базу

Sergey
31.08.2016
18:52:35
Я еще думал насчёт Tarantool, но тогда придется полностью пересматривать структуру базы, приводя ее к key-value схеме. И далеко не факт, что это даст какие-либо преимущества.
Тоже хотел про него упомянуть, но все зависит от задачи. Если она больше напоминает архивирование, да к тому же на одной машине, то преимущества тарантула будут не существенные. Он крут, когда много машин, все синхронизируется, разнородные данные и на них накручнено много бизнес-логики.

Леонид
31.08.2016
18:52:53
А делать со строками что планируется? Читать по ключу? Или агрегировать?

aodzaki.toko
31.08.2016
18:53:10
Ещё стоит подумать о том, на сколько данные "реляционны"? Может стоит глянуть на монгу и её механизм map-reduce

Много белых пятен в задаче, для нас)

Google
ZeroFQ
31.08.2016
18:55:05
Ещё стоит подумать о том, на сколько данные "реляционны"? Может стоит глянуть на монгу и её механизм map-reduce
Монга + Toku? Там, скорее, сетевая структура. Просто в реляционных БД сети вполне неплохо хранятся. С монгой надо будет мучаться.

Magistr
31.08.2016
18:57:29
Я вот быстро и по ключу в Аэроспайке хорошо читал

ZeroFQ
31.08.2016
18:57:39
aodzaki.toko
31.08.2016
18:58:11
Ладно, пойду спать. Всем спокойной ночи

Magistr
31.08.2016
18:58:13
Сетевая случаем не граф ?

Евгений
31.08.2016
18:58:16
Тарантул - это такой redis + application server, оба плохо работают с большими ключами, ну и хранят только столько, сколько помещается в память. Cassandra не масштабируется при ключах в мегабайты длиной. Вообще, хранить в базе данных что-то большее килобайт - путь к io stalls. Хранить в одном месте байты и мегабайты - похоже на ошибку. Искать по этому с помощью like% - вы точно понмаете, что делаете?

aodzaki.toko
31.08.2016
18:58:22
Евгений
31.08.2016
18:58:36
Начать надо с mysql+innodb и увидеть, где проблемы

Леонид
31.08.2016
18:58:52
Учитывая, что озвучено - постгре или току. Выбор зависит от админа. И та и другая в руках отличного админа в пять раз быстрее, чем в руках хорошего. Поэтому что админ лучше знает.

Евгений
31.08.2016
19:00:13
что за строчки в мегабайты длиной в одном ключе? их точно нельзя порезать на части?

Евгений
31.08.2016
19:01:44
геномы пакуются через rANS например, и зчем в одной базе бактерия с миллионом букв и тут же бактерия с десятью буквами? такие вообще бывают?

Евгений
31.08.2016
19:04:45
вот что для упаковки геномов специально придумали: https://github.com/jkbonfield/rans_static

но это еще без lz, т.е. не подойдет для упаковки строчек в условной базе данных

Google
ZeroFQ
31.08.2016
21:39:45
что за строчки в мегабайты длиной в одном ключе? их точно нельзя порезать на части?
Ну это, скорее всего, будут не ключевые поля, но по ним нужен полнотекстовый поиск. Надо будет посмотреть на эластик.

Всем, кто отвечал, спасибо!

Евгений
31.08.2016
22:24:32
полнотекстовый поиск на одной ноде лучше sphinx, его индекс заметно меньше, но он требует хранить в памяти атрибуты (для быстрого поиска, впрочем, можно положить на диск в спициальных конфигах)

в принципе, sphinx как-то живет и на нескольких нодах, но я не пробовал, а для эластика такая конфигурация родная

Paul
31.08.2016
22:38:40
полнотекстовый поиск на одной ноде лучше sphinx, его индекс заметно меньше, но он требует хранить в памяти атрибуты (для быстрого поиска, впрочем, можно положить на диск в спициальных конфигах)
а сфинкс научился поддерживать что нибудь кроме mysql? Лично я голосую за эластик. Главное - его настроить, ибо настройка из коробки ужасна, а вот его гибкость в настройке - почти безгранична

Евгений
31.08.2016
22:42:33
сфинкс умеет mysql, postresql, mssql и odbc, есть xml загрузчик (не знаю, кто им пользуется), и относительно недавно появились tsv/csv загрузчики

сфинкс не хранит оригиналы "в себе", так что нужен внешний сторадж, и обычно это какая-то популярная sql база, в этом плане тоже большое отличие от эластика

Paul
31.08.2016
22:43:44
я с ним работал во времена mysql 5.0 и тогда он мог только с mysql работать. Это похоронило надежду на перевод одного крупного проекта на постгрес

Евгений
31.08.2016
22:44:51
хм, может быть, мне казалось, что постгрес он всегда умел, но наверное я забыл

Paul
31.08.2016
22:45:13
нет, раньше точно не умел. Если теперь умеет - это отличная новость

Евгений
31.08.2016
22:45:50
да, сейчас без проблем загружает, там даже odbc есть, так что из любого sql сможет, хоть из db2 или оракла какого

aodzaki.toko
01.09.2016
08:37:36
привет!!!

Алексей
01.09.2016
08:42:53
привет!!!
Привет :)

Stepan
01.09.2016
20:00:42
Господа вашу бих дату в большом автосервисе можно использовать? Есть готовый бизнес план/идея как юзать чтобы показать хозяину? И вам хорошо будет и мне?

Ivan
01.09.2016
20:01:52
напиши в личку, обсудим

Andrew
01.09.2016
20:06:44
интересно, насколько же большим должен быть автосервис, чтобы бигдата принесла там профит...

Страница 11 из 327