@bigdata_ru

Страница 51 из 327
Nikolay
08.03.2017
15:00:58
Тут вопрос скорости доступа. Десяток гигов - это не проблема для любой реляционной бд

Arkadiy
08.03.2017
15:01:17
А ищешь что?
произвольные вещи, начиная от определённых конструкций HTTP, заканчивая специфичными последовательностями чистого TCP и UDP

поэтому и нужны регулярки, обычным поиском не получится найти такое

ну в моём восприятие

Google
Paul
08.03.2017
15:01:45
Ну если произвольные, то да, регулярки + маппинг + файлы в последовательных блоках

Arkadiy
08.03.2017
15:03:16
DPI поди
по сути да, только не IPS, а именно IDS

то есть я работаю с уже созданными дампами

вернее их пачкой

или придётся специфичную прогать?

Paul
08.03.2017
15:05:28
Какие средства? Используй mmap() и вперёд

Но для начала просто положи эти данные и попробуй быстрым граппером каким-то

скажем, ripgrep

Ну там в примерах даже файл на 10 гиб, 2.5сек поиск для rg -w 'Sherlock [A-Z]\w+'

Но там файл один (т.е. ФС упреждающее чтение следующих блоков начинает).

Как вариант упаковать данные в tar и грепать по нему уже

Artyom
08.03.2017
15:11:17
Почему для такого нельзя использовать какие-нибудь специфичные алгоритмы?

Google
Arkadiy
08.03.2017
15:11:29
Как вариант упаковать данные в tar и грепать по нему уже
хм, кодирование разве не убьёт поиск?

Paul
08.03.2017
15:11:57
хм, кодирование разве не убьёт поиск?
Не должен, там же ничего не шифруется

Arkadiy
08.03.2017
15:12:11
но grep разве умеет байты через регулрку искать?

Paul
08.03.2017
15:12:24
Сначала попробуй не пакую

grep медленный

ripgrep

он умеет

gnu grep тоже умеет, но не важно

Artyom
08.03.2017
15:13:12
А всмысле произвольный поиск?

Paul
08.03.2017
15:14:34
А всмысле произвольный поиск?
Ну, задавать можешь произвольную регулярку (т.е. никакие КМП тут не подойдут) и искать надо по всем данным (т.е. уменьшить их размер за счёт выкидывания лишнего или построения полнотекстового индекса не получится).

Поэтому и остаётся хранить все данные и искать регуляркой.

Artyom
08.03.2017
15:18:48
Ну регулярки же линейно работают так, да?

Paul
08.03.2017
15:19:12
Нет, не так

Artyom
08.03.2017
15:19:57
И какая у них сложность?

Paul
08.03.2017
15:20:20
От регулярки зависит

Artyom
08.03.2017
15:20:36
Каким образом?)

Регулярка же внутри строит автомат

А значит что бы найти паттерн

Google
Paul
08.03.2017
15:20:51
Именно

Artyom
08.03.2017
15:20:54
Надо пройтись по автомату

Итого в среднем линия или я ошибаюсь?

Paul
08.03.2017
15:21:42
Ты и температуру в среднем по больнице меришь?

Arkadiy
08.03.2017
15:21:47
автомат вроде как недетерменированный получается

Paul
08.03.2017
15:21:53
Если дка не построится и всё улетит в бектрекинг

То будет больно

автомат вроде как недетерменированный получается
Если без рекурсивных регулярок и форвардинга, то дка строится нормально

и соответственно (суб)линейно относительно входных

Arkadiy
08.03.2017
15:24:23
Ну там в примерах даже файл на 10 гиб, 2.5сек поиск для rg -w 'Sherlock [A-Z]\w+'
я правильно понимаю, что твоя идея в том, чтобы грепать файлы из соответствуещего /proc/`а после их маппинга?

или вообще искать по файлам в директории, даже не маппя их?

Paul
08.03.2017
15:25:18
произвольные вещи, начиная от определённых конструкций HTTP, заканчивая специфичными последовательностями чистого TCP и UDP
Если при этом ты ищешь всегда по чему-то одному (скажем, заголовки), то может быть эффективно в реляционку засунуть, да. Либо самому по файлам разбить как по полям и дальше рипгреппом

Arkadiy
08.03.2017
15:26:28
но это не суть

Если этого будет достаточно, то на этом и стоит остановится
только вот я пока плохо представляю, как с помощью грепа можно выцепить сам пакет из дампа, если анализировать тупо файл без его предварительного разбора

то есть структуру по любому делать придётся

Paul
08.03.2017
15:28:25
Если ты ищешь по всему, то выцеплять и не нужно

Если по конкетным частям, то положи в реляционку / отдельные файлы. Но тут препроцессинг нужен, да

Google
Arkadiy
08.03.2017
15:32:01
Окей, попробую)

Спасибо большое за помощь)

Леонид
09.03.2017
07:12:02
А кто может объяснить, что печального в том, что Гугол под себя Кагол подминает?
Закроет через год, как обычно. Тест зубной щетки такой сервис не пройдет

Constantine
09.03.2017
07:13:29
Что за тест?

Леонид
09.03.2017
07:23:37
https://m.geektimes.ru/post/281266/

Гугл хочет продавать товары для миллиардов. Узкоспециализированные товары выпиливают.

Admin
ERROR: S client not available

Paul
09.03.2017
10:41:20
Правильно передали эстафету фидлу

Чуваки знают своё дело

Ahm
09.03.2017
11:10:05


Evgeny
09.03.2017
11:24:52
Спасибо. Видео будет?
Будет платная трансляция и бесплатное видео через пару месяцев после конфы.

Viktor
09.03.2017
12:21:18
пните в правильную сторону есть какая-нибудь метрика из NLP чтобы сравнить допустим "красная рубашка" и "рубашка красная" и сказать что это примерно одно и тоже

Artem
09.03.2017
12:23:06
tf-idf?

Viktor
09.03.2017
12:26:06
для документов оно норм

а вот для фраз я не уверен

Constantine
09.03.2017
12:30:11
Норм

Google
Constantine
09.03.2017
12:30:31
Сначала словарь составляешь

Потом в вектор переводишь

Между векторами либо косинус либо Манхэттен

Constantine
09.03.2017
12:32:32
Может проще считать, хз

Paul
09.03.2017
12:35:31
Ну, между косинусным расстоянием и метриками различие принципиальное и тут зависит от задачи

Но вот какую метрику брать я обычно хз, нигде не видел каких-то рекомендаций

Constantine
09.03.2017
12:46:21
косинусное расстояние это и есть метрика

либо я не понимаю про что ты

отличий особых я не заметил

просто числа разные получаются

а если отсортировать

примерно одинаковые результаты

попробовать разные метрики задача тривиальная

просто меняешь один параметр

Paul
09.03.2017
12:56:34
косинусное расстояние это и есть метрика
Косинусное расстояние мера, но не метрика

Страница 51 из 327