@bigdata_ru

Страница 158 из 327
Alexandr
17.10.2017
10:38:18
На русском даже гуглить не знаю что. На английском куча в интернете

Oleksandr
17.10.2017
10:38:41
язык англ

Alexandr
17.10.2017
10:41:20
Ссылки тут не пускают?

Тогда deep learning sentiment analysis python гуглить

Google
Alexandr
17.10.2017
10:41:39
или что-то типа того

Oleksandr
17.10.2017
10:42:59
sentiment analysis не совсем то, тк эмоциональная составляющая для категорий выше будет примерно одинаковая

ладно, пойду по старинке, с мешком слов сперва

Mikhail
17.10.2017
10:47:05
ребят, а вот раз речь про разбор текста зашла, то вброшу. Делаю чатбота, заюзал wit.ai, он берет на себя часть по определению намерения, настроения и т.д. Потом мне в сыром виде приходят параметры с весами вероятности и я в зависимости от них вызываю ту или иную логику бизнес домена. А есть хорошие практики как дальше для бизнес домена формировать выборки? Или кто во что горазд дальше?

столкнулся с проблемой что я большинство ключевых слов теперь дублирую в wit.ai и у себя на бекенде. Встает вопрос синхронизации словарей.

ну и в итоге все равно все на конечный автомат начинает походить

или я по неправильному пути пошел?

Alexandr
17.10.2017
11:02:34
ладно, пойду по старинке, с мешком слов сперва
Там есть ссылки про две категории - imdb базу на положительные и отрицательные отзывы

Slava
17.10.2017
13:34:02
Посоветуйте где почитать про функцию потерь, кросс энтропию, logloss?

Andrey
17.10.2017
13:47:02
Elements of statistical learning, deep learning book

Попроще - cs231

Slava
17.10.2017
13:54:22
Спасибо

Ivan
17.10.2017
14:51:19
вот про лог лосс вопрос - вижу, везде используется формула распределения бернулли. А если распределение гауссово, то формула логлосса будет иной?

Google
Ivan
17.10.2017
15:05:07
вопрос снят, действительно другая функция. (не логглосс, а MLE)

http://mathworld.wolfram.com/MaximumLikelihood.html

Dan
17.10.2017
19:19:16
*вжух

Проксимов
17.10.2017
19:19:37
У меня прям какая-то агрессия и зубы скрипят

Dan
17.10.2017
19:19:54
Всё нормально. Обострение же ?

Antonio
17.10.2017
23:18:23
тут кстати говорят, что телеграм могут заблокировать. Обыдно очень будет, по теме ML есть где ещё пообщаться? я тут нашел на математическом форуме раздел (недавно создали) http://dxdy.ru/iskusstvennyj-intellekt-i-mashinnoe-obuchenie-f91.html

Да привык уже к тёплому ламповому чату тут, спасибо модераторам кстати огромное.

Dan
17.10.2017
23:42:21
✌️

Vova
18.10.2017
00:16:38
если "заблокируют" будете ходить по VPN - я давно за ним. Если не можете настроить или купить VPN... ну что тут скажешь... нужно учиться.

Andrey
18.10.2017
02:17:42
Судя по тому, что телега популярна в правительстве РФ, то не думаю, что заблокируют.

Andrey
18.10.2017
05:45:01
Телеграмм не заблокируют, это про-правительственная разработка

Vova
18.10.2017
08:39:13
Daily reminder that you cannot trust commercial VPN
ок, а кому можно доверять?

これはスタスか…ロマンですか
18.10.2017
08:40:01
Vova
18.10.2017
08:43:42
Anyway I use custom VPN solution based on TLS\SSL tunnel (looks like https traffic for DPI). F them all

Timur
18.10.2017
08:45:54
Daily reminder that you cannot trust commercial VPN
не стоит доверять если ты занимаешься чем-то нелегальным, а в чем проблема если ты пользуешься ради доступа к заблоченным ресурсам?

Vova
18.10.2017
08:49:23
не стоит доверять если ты занимаешься чем-то нелегальным, а в чем проблема если ты пользуешься ради доступа к заблоченным ресурсам?
в чём то наш коллега прав, множество последних новаций в области уголовных репрессий в РФ (репост, цитата, случайно что то не то скажете в форуме - штраф, уголовка - и это пока выглядит только как начало), заставляет думать над выбором правильного VPN.

Google
Timur
18.10.2017
08:51:07
>assumming that if it is legal now, it is gonna remain legal forever
закон обратной силы не имеет, сменится закон, будут сомнения в провайдере - меняем провайдера

yopp
18.10.2017
08:56:47
Это работает только в ряде случаев, когда законы вводят новые ограничения или ужесточают ранее существовавшие нормы. Если закон улучшает положение субъекта, он вполне может быть ретроактивным.

yopp
18.10.2017
08:59:17
;)

Во имя улучшения будет

Timur
18.10.2017
08:59:37
жизни фсб?)

yopp
18.10.2017
08:59:39
Если будет очень надо

yopp
18.10.2017
09:05:16
Например?

Vova
18.10.2017
09:42:26
Это работает только в ряде случаев, когда законы вводят новые ограничения или ужесточают ранее существовавшие нормы. Если закон улучшает положение субъекта, он вполне может быть ретроактивным.
это мы сейчас (видимо) обсуждаем страны, в которых есть законы и есть суд, который их соблюдает (в первую очередь конституцию). При этом во многих суд и закон имеют в разной степени декоративные функции. Так что для них обсуждение местного "закона", это из разряда "пронесёт" или "не пронесёт".

yopp
18.10.2017
09:43:02
Это очень плоский и контрпродуктивный взгляд на вещи

Разговор вообще о блокировках и VPN шёл.

Admin


Timur
18.10.2017
09:45:20
причем в контексте места проживания большинства чата)

yopp
18.10.2017
09:45:20
Странно что использование VPN ещё не требует ключи в фсб сдавать

Vladislav
18.10.2017
09:46:03
скоро

yopp
18.10.2017
09:48:37
Бот продолжает лютовать

Google
Vova
18.10.2017
09:50:59
Это намёк что надо возвратиться к основной теме

Коллеги у меня с одной стороны общий, но с другой - экзотический вопрос. Проблема: В фичи "проникает" output. Тот самый который нужно прогнозировать (моя задача - прогноза, а не классификации). Понятно, что есть проблема мультиколлинераности. Но как я понимаю, она обсуждается и решается в контексте мультиколлинераности фичей. Например для линейных моделей ridge regression (самостоятельно или в рамках elatsic net). А вот случайное попадание (подмешивание) output, т.е. того, что нужно прогнозировать, в фичи - не обсуждается. Нехарактерная проблема. В силу того, что объём данных для обработки у меня огромный (много-много моделей, всё строится автоматом, не в какой то REPL, а-ля Jupyter) и ручной отбор проделать невозможно возниает эта проблема. Какие варианты решения? В ситуации с деревьями например или NN. Считаю (в моём случае), что в худшем случае output подмешивается линейно к фичам, в лучшем - отдельной фичей с лёгким шумом (последний случай - простой, я его решаю предельно тупо). Возможно я что то упускаю из вида банальное. Любые мысли хороши. Thx

Henadz
18.10.2017
11:06:01
Коллеги у меня с одной стороны общий, но с другой - экзотический вопрос. Проблема: В фичи "проникает" output. Тот самый который нужно прогнозировать (моя задача - прогноза, а не классификации). Понятно, что есть проблема мультиколлинераности. Но как я понимаю, она обсуждается и решается в контексте мультиколлинераности фичей. Например для линейных моделей ridge regression (самостоятельно или в рамках elatsic net). А вот случайное попадание (подмешивание) output, т.е. того, что нужно прогнозировать, в фичи - не обсуждается. Нехарактерная проблема. В силу того, что объём данных для обработки у меня огромный (много-много моделей, всё строится автоматом, не в какой то REPL, а-ля Jupyter) и ручной отбор проделать невозможно возниает эта проблема. Какие варианты решения? В ситуации с деревьями например или NN. Считаю (в моём случае), что в худшем случае output подмешивается линейно к фичам, в лучшем - отдельной фичей с лёгким шумом (последний случай - простой, я его решаю предельно тупо). Возможно я что то упускаю из вида банальное. Любые мысли хороши. Thx
так а что здесь нехарактерного? типичная проблема

лики в датасетах

Drino
18.10.2017
11:35:35
Коллеги у меня с одной стороны общий, но с другой - экзотический вопрос. Проблема: В фичи "проникает" output. Тот самый который нужно прогнозировать (моя задача - прогноза, а не классификации). Понятно, что есть проблема мультиколлинераности. Но как я понимаю, она обсуждается и решается в контексте мультиколлинераности фичей. Например для линейных моделей ridge regression (самостоятельно или в рамках elatsic net). А вот случайное попадание (подмешивание) output, т.е. того, что нужно прогнозировать, в фичи - не обсуждается. Нехарактерная проблема. В силу того, что объём данных для обработки у меня огромный (много-много моделей, всё строится автоматом, не в какой то REPL, а-ля Jupyter) и ручной отбор проделать невозможно возниает эта проблема. Какие варианты решения? В ситуации с деревьями например или NN. Считаю (в моём случае), что в худшем случае output подмешивается линейно к фичам, в лучшем - отдельной фичей с лёгким шумом (последний случай - простой, я его решаю предельно тупо). Возможно я что то упускаю из вида банальное. Любые мысли хороши. Thx
А в реальном мире такой "проблемы" нет? Если нет - добавить к фичам немного шума, убрать самые близкие фичи, выделять test set ASAP и желательно из другого источника. А вообще - в чём причина такого "проникновения"?

Некоторые фичи иногда пропущены, но соседний департамент предсказывает их на основе аутпута?

Vova
18.10.2017
11:53:35
Некоторые фичи иногда пропущены, но соседний департамент предсказывает их на основе аутпута?
специфика данных, это временные ряды. Казуальность вообще проблема.

Personal bot for tenni
18.10.2017
12:35:07
thelastpolaris Ваше сообщение было удалено в связи с высокой активностью спамеров, оно выглядит подозрительно.

Andrey
18.10.2017
12:38:14
Проблемы формирования выборки

Если вы будете учить спам-детектор, при этом соберете все спам-письма с одних ящиков, а все нормальные - с других ящиков, и добавите в фичи название ящика, то она выучит чисто названия ящиков

Похожую проблему ищите

Henadz
18.10.2017
12:41:13
так это ж переобучение

Andrey
18.10.2017
12:42:02
Если все проблемы машинного обучения называть переобучением, то да

Но так все болезни можно называть "высокой температурой"

Это проблемы формирования выборки

Они в этом учении про переобучение вообще не рассматриваются, как будто их не бывает

Henadz
18.10.2017
12:45:09
это типичное переобучение

на обучающую выборку

Andrey
18.10.2017
12:46:58
Если в задаче классификации танка все советские танки сфоткать в лесу, а немецкие - в пустыне, то оно научится классифицировать танки чисто по пейзажу

Google
Henadz
18.10.2017
12:48:17
ну кривое валидирование, это понятно

Страница 158 из 327