Aleksey
а то у меня маленькая база пока на всего 60 гигов, но она должна подрости до почти тера
Aleksey
мне надо что то знать что бы она работала сама по себе :) ?
Sergey
Если на ПБ это единственная проблема, то заебись. :)
Ну там ещё mmap и прочие весёлые штуки были. Они только начинали мигрировать на 2.6
yopp
Ну 2.6 это было сколько лет назад уже.
Sergey
А 3.0 только где-то вдалеке маячил. На таких объёмах это процесс не быстрый.
Sergey
Ну 3.0 уже был в релизах на момент нашего разговора
yopp
Вчера обнаружил что мой yopp.in всё ещё на 1.1.4 работает. ;)
yopp
Время летит совершенно незаметно. :(
Sergey
Хех. А я вот хочу case insensitive индексы, но никак не доходят руки все протестировать и обновиться на 3.4
yopp
Ну там кроме лажи с монгосами никаких проблем не возникает при апдейте.
Pavel
Ребят, как изменить тип данных в монге у одного поля? Сейчас числа хранятся в строках, нужно их конвертнуть в числа
Sergey
циклом
vveare138
йоу ребятки
vveare138
а монга умеет в order по массиву?
vveare138
допустим есть массив айдишников и мне надо вытащить данные в этом же порядке
vveare138
в таком же как и в массиве
Pavel
монга по дефолту вытаскивает данные в том порядке, в котором они в базе
Pavel
ты хоть раз запрос find делал?
vveare138
неа
vveare138
что такое find?
vveare138
и что такое запрос?
Denis
https://aphyr.com/posts/338-jepsen-mongodb-3-4-0-rc3 открывай шампанское )
yopp
всё, официально можно говорить что монга не теряет данные? %)
Nick
я правильно понимаю что это относится к релизнутой 3.4?
Nick
The general release of 3.4.0 fixes these bugs, and additional fixes are available in 3.4.1. Users should upgrade to 3.4.1 to avoid these risks.
🧿Bey🧿
И как вообще без транзакций?
yopp
И как вообще без транзакций?
А как там с дедлоками?
🧿Bey🧿
Справедливо
🧿Bey🧿
Консистентнинька
yopp
набеги!
Aleksey
предлагаю с этим не мирится. банить на всякий случай каждого случайного
Alex
:)
Aleksey
именно
yopp
а есть такой бот?
Aleksey
думаю надо формулировать не так
Aleksey
такой бот есть
Aleksey
но как его зовут ?
CC-BY-SA-4.0/Docker-ce30.0
Откуда это всё?
Anonymous
накрута вроде
Artem
накрута вроде
нет. на гиктаймс сделали подборку чатов для программистов
Oleg
не только для программистов
Oleg
привет
Anonymous
Dmitry
подскажите по монге: она годится для временного хранения данных, нужно сделать сравнение большого количества строк и все это нужно где-то хранить. Или монга все-таки не айс для такого типа задач?
Dmitry
раньше с ней не работал, вот гадаю
J
какие данные?
Dmitry
сами данные в JSON прилетают, то есть формат вроде подходит
J
ну можно почему бы и нет
J
правда вот задача... что бы сравнить
Alex
большое количество это сколько ? :)
Dmitry
а что за задача по сравнению? может Вы что-то не так делаете?
есть скажем 1000к фраз, и есть документы (10к+, возможно больше) с большим количеством ключевых слов-фраз, нужно пройтись и найти совпадения с определенным коэффициентом точности, буду делать на питоне.
Dmitry
в будущем количество скорее всего будет расти
Artem
скорей всего
Dmitry
ну то есть нужно перекрестно сравнить 1к ключевых фраз с 10к*20 ключевых
Dmitry
сравнение делать нужно через питон, лингво библиотекой
Dmitry
то есть не тупо регулярка
Artem
Грубо говоря, вы индексируете документы, а затем смотрите, какие подходят к вашим словам. Посомтрите на elasticSearch
Artem
там все что вам надо из коробки
Dmitry
интересно...спасибо
Dmitry
ну а если все-таки монгу на коленке - сильно плохо?
Dmitry
в будущем возможно будут доп. задачи по работе с данными...
Artem
ну а если все-таки монгу на коленке - сильно плохо?
Проблема в том как вы будете сравнивать. Как вы собираетесь искать в документе фразу?
Dmitry
Проблема в том как вы будете сравнивать. Как вы собираетесь искать в документе фразу?
документ уже будет обработан, у меня будет готовый массив вырезанных фраз
Dmitry
нужно просто проверить Similarity
Dmitry
и если Similarity выше определенного значения - записать "есть совпадение"
Dmitry
python
Artem
блин)
Dmitry
:)
Artem
каким алгоритмом? какая у него сложность?
Dmitry
еще не смотрел :)
Dmitry
SequenceMatcher
Dmitry
если есть что-то такое уже в базе - буду очень рад :)
Roman
всем привет
Artem
поиск в обратный индексе можно выполнить за линейное время. Берите ElasticSearch. Сходным образом работают и поисковики
Dmitry
SequenceMatcher is quadratic time for the worst case and has expected-case behavior dependent in a complicated way on how many elements the sequences have in common; best case time is linear.