@bigdata_ru

Страница 189 из 327
Sergey
03.12.2017
21:15:14
я наверно не корректно сформировал свой вопрос

извените, задал преждевременный вопрос, сейчас подумал - я ж могу не заносить в бд нормальные сообщения, а обрабатывать между клиентом и бд, в самой проге, а в бд, записывать только результат для спамных документов ?

Kirill
03.12.2017
21:35:59
ну да) только тебе все равно понадобятся примеры не спама. так что лучше собирай их какое то ограниченное количество просто

Artem
04.12.2017
09:00:58
Очень скромная зп, не по теме и вообще здесь нельзя вакансии :)

Google
Dan
04.12.2017
09:17:52
@anastasiafat у нас вакансии не разрешены

на то есть причина

Constantine
04.12.2017
10:34:41
Because Reason

Magic
04.12.2017
10:40:06
И нет, без нормальных сообщений не обойтись в идеале. Но можно и без них, но будет погрешность весьма высока

У меня один бот уже работает с наркотой спамом, часто ловит, но там не используется не спам. И бывают дикие косяки

А готовых сетов я не находил, и весьма специфичен спам

Выход: делайте публичного бота (как я и прочие) и собирайте датасет сами

У меня где-то около 21+ млн сообщений ботом обработано, но спама все равно мало

Точнее, не достаточно для идеала:(

А так, я применяю tf idf, баевский классификатор и ещё ряд параметров. Сам текст + около 8-10 вводных числовых параметров текста. К слову, чисто без текста даже, по этим 8-10 параметрам весьма не плохие результаты получил

Google
Magic
04.12.2017
10:53:02
а что это за параметры?
Не вспомню все которые вывел (и предлагаю подумать самим :)) но на вскидку типо длина текста количество слов, пробелов, смайлов спец символов и тд

Andrey
04.12.2017
10:53:46
Magic
04.12.2017
11:07:32
аа) понял, я просто думал какие то не связанные с текстом, такие мы тоже использовали
Так не связанных с текстом смысл брать) куча критериев характеризующих текст надо же)) Не связанных с текстом лишь ники можно брать авторов думаю но толку мало

Jonas
04.12.2017
13:31:31
привет. Я работаю с датасетом. https://archive.ics.uci.edu/ml/datasets/online+news+popularity Там 58 атрибутов. Хочу выбрать наиболее лучшие для построения модели (около 40) . Используя sciki-learn. Как это сделать?

plq
04.12.2017
13:36:39
Хочешь, чтобы тебе scikit-learn выбрал атрибуты?

Igor
04.12.2017
13:37:20
http://scikit-learn.org/stable/modules/feature_selection.html

Zidan
04.12.2017
17:15:22
Кто нибудь разбирался в задачах поиска контуров ?

Почему один контор похож на другой ?

Контур*

Sergey
04.12.2017
17:38:10
У меня один бот уже работает с наркотой спамом, часто ловит, но там не используется не спам. И бывают дикие косяки
Да, встречал нарк спамы, там так описано, что нужно читать подтекст чтоб понять

Evgeniy
04.12.2017
21:41:19
кто видел примеры Bayesian CNN на Edward?

Magic
05.12.2017
00:21:31
Да, встречал нарк спамы, там так описано, что нужно читать подтекст чтоб понять
не знаю, я обычно встречаю явный спам. там видно сразу

Vadim
05.12.2017
11:07:00
Ребят, кто-нибудь встречал корпус с размеченными датами на русском языке?

Andrey
05.12.2017
11:20:16
Vadim
05.12.2017
11:21:24
можно и с такими, но желательно с разным представлением

Vadim
05.12.2017
11:22:04
допустим с такими "завтра в первой половине дня"

так сгенерируйте
Можно и так, но было бы неплохо, если он где-то есть

Google
Николай
05.12.2017
11:38:29
Подскажите пожалуйста как с помощью scipy или statsmodels посчитать Scheffe test ?

Andrey
05.12.2017
11:51:17
С помощью R считайте, быстрее будет

Максим
05.12.2017
12:31:03
В какую крипту вкладываться?))

Evgeniy
05.12.2017
12:31:16
Dan
05.12.2017
12:33:39
В какую крипту вкладываться?))
предлагаю сразу же прекратить этот флуд ?

Vyaches
05.12.2017
21:09:18
Народ, подскажите алгоритм по которому можно привести две кривые к одной размерности? Ну, тобишь, "растянуть". К примеру, был вектор данных с размерностью 37. Как привести этот вектор к размерности 100, не теряя при этом сами данные?

Vyaches
05.12.2017
21:11:17
нулями конец забей, спой "ще не вмерла" и закоммить
Та не, надо именно проинтерполировать както

/dev
05.12.2017
21:11:48
Vyaches
05.12.2017
21:16:43
ну подумай, как бы ты хотел двумерный вектор в трехмерный превратить
та не, ты не понял смысл. У тебя есть изображение размером 1000 на 1000. Тебе нужно из него сделать 500х500. Что ты делаешь? Просто ужимаешь картинку с потерей качества. Так вот, такую же операцию нужно проделать с вектором, тоесть вместо вектора размерностью 10, условно, пикселей, олучить размерность 100. Гугл чет ничего путного не дает. Наверное поздно уже, туплю.

Evgeniy
05.12.2017
21:17:43
изображений

Vyaches
05.12.2017
21:20:53
без ответа на вопрос зачем что-то лучше сложно подсказать
Просто необходимо привести неоднородные временные данные к одной размерности для того чтобы загнать в нейронку.

Admin
ERROR: S client not available

Михаил
05.12.2017
21:21:58
Домножь х на повышающий кожффициент чтобы уложить их в одну размерность по длине и построй полином

Vyaches
05.12.2017
21:23:12
а данные о времени есть?
Неа. Просто вектора различной величины.

Google
Evgeniy
05.12.2017
21:25:01
Неа. Просто вектора различной величины.
чутье подсказывает что это плохая идея

Михаил
05.12.2017
21:25:42
Здравый смысл) 1

Evgeniy
05.12.2017
21:26:32
паучье? :D
а что в векторах? опиши задачу по человечески

Vyaches
05.12.2017
21:35:44
а что в векторах? опиши задачу по человечески
Окей. Народ, наверное, начнет с этого подхода дикого угарать... В общем, я хочу попробовать порешать задачу speaker recognition без привязки к конкретному тексту. Про то какие сейчас подходы есть почитал, про то как там с помощью чего голос обрабатывается - тоже. Первичные данные получил поигрался, все ок. В общем, идея следующая - попробовать запилить VAE для того чтобы он генерил фичи из голоса. Для этого на вход подаётся отрезок записи голоса, а на выход - другой отрезок. Но при этом обучаться этот VAE будет для одного человека на разных отрезках на входе, и одном отрезке на выходе. (На вход - множество различных отрезков с различными комбинациями слов, на выход - один отрезок с одной фиксированной комбинацией => у меня это одно слово). Но, человеки говорят это слово примерно с одной длительностью, а на деле - есть небольшая(но существенная) разница в количестве семплов. Так вот, хотелось бы привести звуковой отрезок к одной фиксированной длине.... как-то так.

Evgeniy
05.12.2017
21:36:37
Окей. Народ, наверное, начнет с этого подхода дикого угарать... В общем, я хочу попробовать порешать задачу speaker recognition без привязки к конкретному тексту. Про то какие сейчас подходы есть почитал, про то как там с помощью чего голос обрабатывается - тоже. Первичные данные получил поигрался, все ок. В общем, идея следующая - попробовать запилить VAE для того чтобы он генерил фичи из голоса. Для этого на вход подаётся отрезок записи голоса, а на выход - другой отрезок. Но при этом обучаться этот VAE будет для одного человека на разных отрезках на входе, и одном отрезке на выходе. (На вход - множество различных отрезков с различными комбинациями слов, на выход - один отрезок с одной фиксированной комбинацией => у меня это одно слово). Но, человеки говорят это слово примерно с одной длительностью, а на деле - есть небольшая(но существенная) разница в количестве семплов. Так вот, хотелось бы привести звуковой отрезок к одной фиксированной длине.... как-то так.
а почему бы тебе скользящее окно в rnn не подавать?

Vyaches
05.12.2017
21:38:09
а почему бы тебе скользящее окно в rnn не подавать?
потому что в таком случае будет привязка к предыдущему сэмплу. Другими словами - зависимость семпла от букв. Мне нужно чтобы была независимая оценка каждого семпла

Vyaches
05.12.2017
21:48:21
ну так он же и на самом деле зависит
хммм. Кажется я кое-что придумал :D Спасибо :)

tonko
06.12.2017
06:35:28
хммм. Кажется я кое-что придумал :D Спасибо :)
Надеюсь это что-гениальное, ибо мне lstm+ctc дает 12% word accuracy. В прочем, наверное словарь подрезать надо. 545к слов не шутки.

Andrey
06.12.2017
06:41:48
Окей. Народ, наверное, начнет с этого подхода дикого угарать... В общем, я хочу попробовать порешать задачу speaker recognition без привязки к конкретному тексту. Про то какие сейчас подходы есть почитал, про то как там с помощью чего голос обрабатывается - тоже. Первичные данные получил поигрался, все ок. В общем, идея следующая - попробовать запилить VAE для того чтобы он генерил фичи из голоса. Для этого на вход подаётся отрезок записи голоса, а на выход - другой отрезок. Но при этом обучаться этот VAE будет для одного человека на разных отрезках на входе, и одном отрезке на выходе. (На вход - множество различных отрезков с различными комбинациями слов, на выход - один отрезок с одной фиксированной комбинацией => у меня это одно слово). Но, человеки говорят это слово примерно с одной длительностью, а на деле - есть небольшая(но существенная) разница в количестве семплов. Так вот, хотелось бы привести звуковой отрезок к одной фиксированной длине.... как-то так.
distill.pub/2017/ctc

Все уже украдено до нас

Vyaches
06.12.2017
06:50:17
distill.pub/2017/ctc
У меня не рекуррентная сеть. У меня просто набор фичей.

Andrey
06.12.2017
08:22:42
Я про идею работы без выравнивания аудиопотока на текстовый транскрипт

Andre
06.12.2017
09:59:23
Для этого можно просто опенцв

Например canny edge detector

Vyaches
06.12.2017
14:34:32
Кто-нибудь знает как решить проблемy недостаточного количества места в корневом каталоге на ubuntu(ака: [Errno 28] No space left on device) при pip install ?

Vyaches
06.12.2017
14:35:54
освободить место)
не, не прокатит. На сервере корневой каталог размером всего-лишь 10gb. Переразметку\очистку делать не вариант.

Google
Ivan
06.12.2017
14:42:11
посмотри кто сьел место (не в корень же оно падает) и примапай в тот каталог раздел.

... это как временная неотложная мера.

yopp
06.12.2017
15:55:18
Это, а кто-то уже пробовал reVISION от Xilinx?

Страница 189 из 327