@bigdata_ru

Страница 189 из 327

Sergey

03.12.2017
21:15:14

я наверно не корректно сформировал свой вопрос

извените, задал преждевременный вопрос, сейчас подумал - я ж могу не заносить в бд нормальные сообщения, а обрабатывать между клиентом и бд, в самой проге, а в бд, записывать только результат для спамных документов ?

Kirill

03.12.2017
21:35:59

ну да) только тебе все равно понадобятся примеры не спама. так что лучше собирай их какое то ограниченное количество просто

Artem

04.12.2017
09:00:58

Очень скромная зп, не по теме и вообще здесь нельзя вакансии :)

Google

Dan

04.12.2017
09:17:52

@anastasiafat у нас вакансии не разрешены

на то есть причина

Constantine

04.12.2017
10:34:41

Because Reason

Magic

04.12.2017
10:39:20

Ребят. Хочу сделать спам фильтр. Знаю только один способ трансформации слов в машинно понятные значения, это tf-idf. Но тут есть проблемка, чтоб научить прогу распозновать спам, ему нужно еще скормить и нормальные сообщения, соответственно если это будет телеграмм бот, с каждым новым сообщением бд будет обонвляться или пополняться. Можно как-то обойтись только спам предложениями, без нормальных сообщений?

В телеграмм уже есть некоторые боты которые со спамом борятся, и я кажется тут писал алгоритм по которому можно проверять

Sergey

04.12.2017
10:39:52

В телеграмм уже есть некоторые боты которые со спамом борятся, и я кажется тут писал алгоритм по которому можно проверять

здорово! но я это пропустил(

Magic

04.12.2017
10:40:06

И нет, без нормальных сообщений не обойтись в идеале. Но можно и без них, но будет погрешность весьма высока

У меня один бот уже работает с наркотой спамом, часто ловит, но там не используется не спам. И бывают дикие косяки

А готовых сетов я не находил, и весьма специфичен спам

Выход: делайте публичного бота (как я и прочие) и собирайте датасет сами

У меня где-то около 21+ млн сообщений ботом обработано, но спама все равно мало

Точнее, не достаточно для идеала:(

А так, я применяю tf idf, баевский классификатор и ещё ряд параметров. Сам текст + около 8-10 вводных числовых параметров текста. К слову, чисто без текста даже, по этим 8-10 параметрам весьма не плохие результаты получил

Andrey

04.12.2017
10:48:25

А так, я применяю tf idf, баевский классификатор и ещё ряд параметров. Сам текст + около 8-10 вводных числовых параметров текста. К слову, чисто без текста даже, по этим 8-10 параметрам весьма не плохие результаты получил

а что это за параметры?

Google

Magic

04.12.2017
10:53:02

а что это за параметры?

Не вспомню все которые вывел (и предлагаю подумать самим :)) но на вскидку типо длина текста количество слов, пробелов, смайлов спец символов и тд

Andrey

04.12.2017
10:53:46

Не вспомню все которые вывел (и предлагаю подумать самим :)) но на вскидку типо длина текста количество слов, пробелов, смайлов спец символов и тд

аа) понял, я просто думал какие то не связанные с текстом, такие мы тоже использовали

Evgeniy

04.12.2017
10:55:08

А так, я применяю tf idf, баевский классификатор и ещё ряд параметров. Сам текст + около 8-10 вводных числовых параметров текста. К слову, чисто без текста даже, по этим 8-10 параметрам весьма не плохие результаты получил

ну фиче инжениринг решает, это естественно)

Magic

04.12.2017
11:07:32

аа) понял, я просто думал какие то не связанные с текстом, такие мы тоже использовали

Так не связанных с текстом смысл брать) куча критериев характеризующих текст надо же)) Не связанных с текстом лишь ники можно брать авторов думаю но толку мало

Jonas

04.12.2017
13:31:31

привет. Я работаю с датасетом. https://archive.ics.uci.edu/ml/datasets/online+news+popularity Там 58 атрибутов. Хочу выбрать наиболее лучшие для построения модели (около 40) . Используя sciki-learn. Как это сделать?

plq

04.12.2017
13:36:39

Хочешь, чтобы тебе scikit-learn выбрал атрибуты?

Igor

04.12.2017
13:37:20

http://scikit-learn.org/stable/modules/feature_selection.html

Jonas

04.12.2017
13:38:02

Хочешь, чтобы тебе scikit-learn выбрал атрибуты?

da

Zidan

04.12.2017
17:15:22

Кто нибудь разбирался в задачах поиска контуров ?

Почему один контор похож на другой ?

Контур*

Sergey

04.12.2017
17:38:10

У меня один бот уже работает с наркотой спамом, часто ловит, но там не используется не спам. И бывают дикие косяки

Да, встречал нарк спамы, там так описано, что нужно читать подтекст чтоб понять

Evgeniy

04.12.2017
21:41:19

кто видел примеры Bayesian CNN на Edward?

Magic

05.12.2017
00:21:31

Да, встречал нарк спамы, там так описано, что нужно читать подтекст чтоб понять

не знаю, я обычно встречаю явный спам. там видно сразу

Vadim

05.12.2017
11:07:00

Ребят, кто-нибудь встречал корпус с размеченными датами на русском языке?

Andrey

05.12.2017
11:20:16

Ребят, кто-нибудь встречал корпус с размеченными датами на русском языке?

датами - в смысле типа "1 декабря 2017 года" ?

Vadim

05.12.2017
11:21:24

можно и с такими, но желательно с разным представлением

Artem

05.12.2017
11:22:02

можно и с такими, но желательно с разным представлением

так сгенерируйте

Vadim

05.12.2017
11:22:04

допустим с такими "завтра в первой половине дня"

так сгенерируйте

Можно и так, но было бы неплохо, если он где-то есть

Google

Николай

05.12.2017
11:38:29

Подскажите пожалуйста как с помощью scipy или statsmodels посчитать Scheffe test ?

Andrey

05.12.2017
11:51:17

С помощью R считайте, быстрее будет

Максим

05.12.2017
12:31:03

В какую крипту вкладываться?))

Evgeniy

05.12.2017
12:31:16

В какую крипту вкладываться?))

в котиков

Dan

05.12.2017
12:33:39

В какую крипту вкладываться?))

предлагаю сразу же прекратить этот флуд ?

Vyaches

05.12.2017
21:09:18

Народ, подскажите алгоритм по которому можно привести две кривые к одной размерности? Ну, тобишь, "растянуть". К примеру, был вектор данных с размерностью 37. Как привести этот вектор к размерности 100, не теряя при этом сами данные?

/dev

05.12.2017
21:10:45

Народ, подскажите алгоритм по которому можно привести две кривые к одной размерности? Ну, тобишь, "растянуть". К примеру, был вектор данных с размерностью 37. Как привести этот вектор к размерности 100, не теряя при этом сами данные?

нулями конец забей, спой "ще не вмерла" и закоммить

Vyaches

05.12.2017
21:11:17

нулями конец забей, спой "ще не вмерла" и закоммить

Та не, надо именно проинтерполировать както

/dev

05.12.2017
21:11:48

Та не, надо именно проинтерполировать както

1000 и 1 метод здесь

Evgeniy

05.12.2017
21:14:02

Народ, подскажите алгоритм по которому можно привести две кривые к одной размерности? Ну, тобишь, "растянуть". К примеру, был вектор данных с размерностью 37. Как привести этот вектор к размерности 100, не теряя при этом сами данные?

ну подумай, как бы ты хотел двумерный вектор в трехмерный превратить

а главное зачем

Vyaches

05.12.2017
21:16:43

ну подумай, как бы ты хотел двумерный вектор в трехмерный превратить

та не, ты не понял смысл. У тебя есть изображение размером 1000 на 1000. Тебе нужно из него сделать 500х500. Что ты делаешь? Просто ужимаешь картинку с потерей качества. Так вот, такую же операцию нужно проделать с вектором, тоесть вместо вектора размерностью 10, условно, пикселей, олучить размерность 100. Гугл чет ничего путного не дает. Наверное поздно уже, туплю.

Evgeniy

05.12.2017
21:17:43

та не, ты не понял смысл. У тебя есть изображение размером 1000 на 1000. Тебе нужно из него сделать 500х500. Что ты делаешь? Просто ужимаешь картинку с потерей качества. Так вот, такую же операцию нужно проделать с вектором, тоесть вместо вектора размерностью 10, условно, пикселей, олучить размерность 100. Гугл чет ничего путного не дает. Наверное поздно уже, туплю.

ну почитай про алгоритмы интерполяции

изображений

та не, ты не понял смысл. У тебя есть изображение размером 1000 на 1000. Тебе нужно из него сделать 500х500. Что ты делаешь? Просто ужимаешь картинку с потерей качества. Так вот, такую же операцию нужно проделать с вектором, тоесть вместо вектора размерностью 10, условно, пикселей, олучить размерность 100. Гугл чет ничего путного не дает. Наверное поздно уже, туплю.

без ответа на вопрос зачем что-то лучше сложно подсказать

Vyaches

05.12.2017
21:20:53

без ответа на вопрос зачем что-то лучше сложно подсказать

Просто необходимо привести неоднородные временные данные к одной размерности для того чтобы загнать в нейронку.

Admin

ERROR: S client not available

Evgeniy

05.12.2017
21:21:23

Просто необходимо привести неоднородные временные данные к одной размерности для того чтобы загнать в нейронку.

а данные о времени есть?

Михаил

05.12.2017
21:21:58

Домножь х на повышающий кожффициент чтобы уложить их в одну размерность по длине и построй полином

Vyaches

05.12.2017
21:23:12

а данные о времени есть?

Неа. Просто вектора различной величины.

Google

Vyaches

05.12.2017
21:24:19

Домножь х на повышающий кожффициент чтобы уложить их в одну размерность по длине и построй полином

а либы есть для этого?

Evgeniy

05.12.2017
21:25:01

Неа. Просто вектора различной величины.

чутье подсказывает что это плохая идея

Vyaches

05.12.2017
21:25:21

чутье подсказывает что это плохая идея

паучье? :D

Михаил

05.12.2017
21:25:42

Здравый смысл) 1

Evgeniy

05.12.2017
21:26:32

паучье? :D

а что в векторах? опиши задачу по человечески

Vyaches

05.12.2017
21:35:44

а что в векторах? опиши задачу по человечески

Окей. Народ, наверное, начнет с этого подхода дикого угарать... В общем, я хочу попробовать порешать задачу speaker recognition без привязки к конкретному тексту. Про то какие сейчас подходы есть почитал, про то как там с помощью чего голос обрабатывается - тоже. Первичные данные получил поигрался, все ок. В общем, идея следующая - попробовать запилить VAE для того чтобы он генерил фичи из голоса. Для этого на вход подаётся отрезок записи голоса, а на выход - другой отрезок. Но при этом обучаться этот VAE будет для одного человека на разных отрезках на входе, и одном отрезке на выходе. (На вход - множество различных отрезков с различными комбинациями слов, на выход - один отрезок с одной фиксированной комбинацией => у меня это одно слово). Но, человеки говорят это слово примерно с одной длительностью, а на деле - есть небольшая(но существенная) разница в количестве семплов. Так вот, хотелось бы привести звуковой отрезок к одной фиксированной длине.... как-то так.

Evgeniy

05.12.2017
21:36:37

Окей. Народ, наверное, начнет с этого подхода дикого угарать... В общем, я хочу попробовать порешать задачу speaker recognition без привязки к конкретному тексту. Про то какие сейчас подходы есть почитал, про то как там с помощью чего голос обрабатывается - тоже. Первичные данные получил поигрался, все ок. В общем, идея следующая - попробовать запилить VAE для того чтобы он генерил фичи из голоса. Для этого на вход подаётся отрезок записи голоса, а на выход - другой отрезок. Но при этом обучаться этот VAE будет для одного человека на разных отрезках на входе, и одном отрезке на выходе. (На вход - множество различных отрезков с различными комбинациями слов, на выход - один отрезок с одной фиксированной комбинацией => у меня это одно слово). Но, человеки говорят это слово примерно с одной длительностью, а на деле - есть небольшая(но существенная) разница в количестве семплов. Так вот, хотелось бы привести звуковой отрезок к одной фиксированной длине.... как-то так.

а почему бы тебе скользящее окно в rnn не подавать?

Vyaches

05.12.2017
21:38:09

а почему бы тебе скользящее окно в rnn не подавать?

потому что в таком случае будет привязка к предыдущему сэмплу. Другими словами - зависимость семпла от букв. Мне нужно чтобы была независимая оценка каждого семпла

Evgeniy

05.12.2017
21:46:21

потому что в таком случае будет привязка к предыдущему сэмплу. Другими словами - зависимость семпла от букв. Мне нужно чтобы была независимая оценка каждого семпла

ну так он же и на самом деле зависит

Vyaches

05.12.2017
21:48:21

ну так он же и на самом деле зависит

хммм. Кажется я кое-что придумал :D Спасибо :)

tonko

06.12.2017
06:35:28

хммм. Кажется я кое-что придумал :D Спасибо :)

Надеюсь это что-гениальное, ибо мне lstm+ctc дает 12% word accuracy. В прочем, наверное словарь подрезать надо. 545к слов не шутки.

Andrey

06.12.2017
06:41:48

Окей. Народ, наверное, начнет с этого подхода дикого угарать... В общем, я хочу попробовать порешать задачу speaker recognition без привязки к конкретному тексту. Про то какие сейчас подходы есть почитал, про то как там с помощью чего голос обрабатывается - тоже. Первичные данные получил поигрался, все ок. В общем, идея следующая - попробовать запилить VAE для того чтобы он генерил фичи из голоса. Для этого на вход подаётся отрезок записи голоса, а на выход - другой отрезок. Но при этом обучаться этот VAE будет для одного человека на разных отрезках на входе, и одном отрезке на выходе. (На вход - множество различных отрезков с различными комбинациями слов, на выход - один отрезок с одной фиксированной комбинацией => у меня это одно слово). Но, человеки говорят это слово примерно с одной длительностью, а на деле - есть небольшая(но существенная) разница в количестве семплов. Так вот, хотелось бы привести звуковой отрезок к одной фиксированной длине.... как-то так.

distill.pub/2017/ctc

Все уже украдено до нас

Vyaches

06.12.2017
06:50:17

distill.pub/2017/ctc

У меня не рекуррентная сеть. У меня просто набор фичей.

Andrey

06.12.2017
08:22:42

Я про идею работы без выравнивания аудиопотока на текстовый транскрипт

Andre

06.12.2017
09:59:23

Для этого можно просто опенцв

Например canny edge detector

Vyaches

06.12.2017
14:34:32

Кто-нибудь знает как решить проблемy недостаточного количества места в корневом каталоге на ubuntu(ака: [Errno 28] No space left on device) при pip install ?

Andrey

06.12.2017
14:35:10

Кто-нибудь знает как решить проблемy недостаточного количества места в корневом каталоге на ubuntu(ака: [Errno 28] No space left on device) при pip install ?

освободить место)

Vyaches

06.12.2017
14:35:54

освободить место)

не, не прокатит. На сервере корневой каталог размером всего-лишь 10gb. Переразметку\очистку делать не вариант.

Google

Ivan