
Nikolay
08.03.2017
15:00:58
Тут вопрос скорости доступа. Десяток гигов - это не проблема для любой реляционной бд

Arkadiy
08.03.2017
15:01:17
А ищешь что?
произвольные вещи, начиная от определённых конструкций HTTP, заканчивая специфичными последовательностями чистого TCP и UDP
поэтому и нужны регулярки, обычным поиском не получится найти такое
ну в моём восприятие

Google

Paul
08.03.2017
15:01:45
Ну если произвольные, то да, регулярки + маппинг + файлы в последовательных блоках

Arkadiy
08.03.2017
15:03:16
DPI поди
по сути да, только не IPS, а именно IDS
то есть я работаю с уже созданными дампами
вернее их пачкой
или придётся специфичную прогать?

Paul
08.03.2017
15:05:28
Какие средства? Используй mmap() и вперёд
Но для начала просто положи эти данные и попробуй быстрым граппером каким-то
скажем, ripgrep
Ну там в примерах даже файл на 10 гиб, 2.5сек поиск для rg -w 'Sherlock [A-Z]\w+'
Но там файл один (т.е. ФС упреждающее чтение следующих блоков начинает).
Как вариант упаковать данные в tar и грепать по нему уже

Artyom
08.03.2017
15:11:17
Почему для такого нельзя использовать какие-нибудь специфичные алгоритмы?

Google

Arkadiy
08.03.2017
15:11:29

Paul
08.03.2017
15:11:57

Arkadiy
08.03.2017
15:12:11
но grep разве умеет байты через регулрку искать?

Paul
08.03.2017
15:12:24
Сначала попробуй не пакую
grep медленный
ripgrep
он умеет
gnu grep тоже умеет, но не важно

Artyom
08.03.2017
15:13:12
А всмысле произвольный поиск?

Paul
08.03.2017
15:14:34
А всмысле произвольный поиск?
Ну, задавать можешь произвольную регулярку (т.е. никакие КМП тут не подойдут) и искать надо по всем данным (т.е. уменьшить их размер за счёт выкидывания лишнего или построения полнотекстового индекса не получится).
Поэтому и остаётся хранить все данные и искать регуляркой.

Artyom
08.03.2017
15:18:48
Ну регулярки же линейно работают так, да?

Paul
08.03.2017
15:19:12
Нет, не так

Artyom
08.03.2017
15:19:57
И какая у них сложность?

Paul
08.03.2017
15:20:20
От регулярки зависит

Artyom
08.03.2017
15:20:36
Каким образом?)
Регулярка же внутри строит автомат
А значит что бы найти паттерн

Google

Paul
08.03.2017
15:20:51
Именно

Artyom
08.03.2017
15:20:54
Надо пройтись по автомату
Итого в среднем линия или я ошибаюсь?

Paul
08.03.2017
15:21:42
Ты и температуру в среднем по больнице меришь?

Arkadiy
08.03.2017
15:21:47
автомат вроде как недетерменированный получается

Paul
08.03.2017
15:21:53
Если дка не построится и всё улетит в бектрекинг
То будет больно
и соответственно (суб)линейно относительно входных

Arkadiy
08.03.2017
15:24:23
или вообще искать по файлам в директории, даже не маппя их?

Paul
08.03.2017
15:25:18

Paul
08.03.2017
15:25:38

Arkadiy
08.03.2017
15:26:28
но это не суть
то есть структуру по любому делать придётся

Paul
08.03.2017
15:28:25
Если ты ищешь по всему, то выцеплять и не нужно
Если по конкетным частям, то положи в реляционку / отдельные файлы. Но тут препроцессинг нужен, да

Google

Arkadiy
08.03.2017
15:32:01
Окей, попробую)
Спасибо большое за помощь)

Леонид
09.03.2017
07:12:02

Constantine
09.03.2017
07:13:29
Что за тест?

Леонид
09.03.2017
07:23:37
https://m.geektimes.ru/post/281266/
Гугл хочет продавать товары для миллиардов. Узкоспециализированные товары выпиливают.

Admin
ERROR: S client not available

Ahm
09.03.2017
07:27:01

Evgeny
09.03.2017
10:37:05

Paul
09.03.2017
10:41:20
Правильно передали эстафету фидлу
Чуваки знают своё дело

Ahm
09.03.2017
11:10:05

Nick
09.03.2017
11:14:04

Evgeny
09.03.2017
11:24:52

Viktor
09.03.2017
12:21:18
пните в правильную сторону есть какая-нибудь метрика из NLP чтобы сравнить допустим "красная рубашка" и "рубашка красная" и сказать что это примерно одно и тоже

Artem
09.03.2017
12:23:06
tf-idf?

Viktor
09.03.2017
12:26:06
для документов оно норм
а вот для фраз я не уверен

Constantine
09.03.2017
12:30:11
Норм

Google

Constantine
09.03.2017
12:30:31
Сначала словарь составляешь
Потом в вектор переводишь
Между векторами либо косинус либо Манхэттен

Paul
09.03.2017
12:31:41

Constantine
09.03.2017
12:32:32
Может проще считать, хз

Paul
09.03.2017
12:35:31
Ну, между косинусным расстоянием и метриками различие принципиальное и тут зависит от задачи
Но вот какую метрику брать я обычно хз, нигде не видел каких-то рекомендаций

Constantine
09.03.2017
12:46:21
косинусное расстояние это и есть метрика
либо я не понимаю про что ты
отличий особых я не заметил
просто числа разные получаются
а если отсортировать
примерно одинаковые результаты
попробовать разные метрики задача тривиальная
просто меняешь один параметр

Paul
09.03.2017
12:56:34