@bigdata_ru

« Назад

Страница 110 из 327

Далее »

Cyril

21.07.2017
13:39:16

Проще PCA применить и взять 20-30 главных компонент

Ок, сделаю

Grail

21.07.2017
13:39:57

https://ru.wikipedia.org/wiki/%D0%9C%D1%83%D0%BB%D1%8C%D1%82%D0%B8%D0%BA%D0%BE%D0%BB%D0%BB%D0%B8%D0%BD%D0%B5%D0%B0%D1%80%D0%BD%D0%BE%D1%81%D1%82%D1%8C

Cyril

21.07.2017
13:40:12

Потом выбираю фолд с наименьшей погрешностью и обучаю на нём модель?

Andrey

21.07.2017
13:40:33

Бустингу пофиг на мультиколлинеарность

Google

Andrey

21.07.2017
13:41:14

И для линейных моделей проблемы начинаются при действительно сильной корреляции

Бустингу пофиг на мультиколлинеарность

Если это бустинг над деревьями, конечно

Потом выбираю фолд с наименьшей погрешностью и обучаю на нём модель?

На ком - на ней? На погрешности?

Cyril

21.07.2017
13:46:52

На ком - на ней? На погрешности?

На фолде

Alex

21.07.2017
13:59:47

Что значит не должно быть корреляции?

не говорите глупости. если у вас будут две фичи с корреляцией 0.9999999 то одну можно смело выбрасывать т.к информации в модель она не приносит

хоть деревья хоть что

какие PCA?у него 40 фичей и 550 семплов

1) попробуйте не корреляцией убирать а посмотреть на l1 регуляризацию - мусор сам отпадет 2) на 550 можно и LOO а не kfold 3) rmse? 4) почему именно линейные модели? попробуйте найти фичи и деревьями - можно попробовать потом комбинации фичей посмотреть

Потом выбираю фолд с наименьшей погрешностью и обучаю на нём модель?

модель нужно обучать на всех данных, k-fold или LOO это для валидации модели при отсутствии тест-сета

очень надеюсь что вы не антифрод в сбербанке делаете

Потом выбираю фолд с наименьшей погрешностью и обучаю на нём модель?

https://www.youtube.com/playlist?list=PLJOzdkh8T5kp99tGTEFjH_b9zqEQiiBtC

Cyril

21.07.2017
14:10:07

1) попробуйте не корреляцией убирать а посмотреть на l1 регуляризацию - мусор сам отпадет 2) на 550 можно и LOO а не kfold 3) rmse? 4) почему именно линейные модели? попробуйте найти фичи и деревьями - можно попробовать потом комбинации фичей посмотреть

Спасибо, попробую.

очень надеюсь что вы не антифрод в сбербанке делаете

Это нормально, тоже люблю самоутверждаться за счёт опускания нубов)))

Google

Alex

21.07.2017
14:21:46

Это нормально, тоже люблю самоутверждаться за счёт опускания нубов)))

как хорошо что мы на одной волне! а курс воронцова лучше посмотрите

Dan

21.07.2017
15:05:48

на правах пятницы

Pipito

21.07.2017
15:32:21

ребят привет. делала Feature ranking и получила результаты, где показано, что переменная не шибко влияет на результат, но при том, до этого когда делала предскзания, эта самая переменная и вносила основной вклад. В чем может быть проблема ?

Alex

21.07.2017
15:45:23

ребят привет. делала Feature ranking и получила результаты, где показано, что переменная не шибко влияет на результат, но при том, до этого когда делала предскзания, эта самая переменная и вносила основной вклад. В чем может быть проблема ?

нужны подробности - что за модель, какой ранкинг, что вы считаете проблемой. Мы ж не знаем над чем вы работаете

Pipito

21.07.2017
17:07:10

я пользовалась feature_selection.RFE

и проблема в том, что до этого, пытаясь отобрать оптимальные переменные, я поняла, что есть переменная, которая влияет на точность предсказания на 30%. А RFE показывает, что она по сути вообще ничего не делает

модель предсказания - линейная регрессия

Alex

21.07.2017
17:10:35

В rfe тоже линейку подаете?

Pipito

21.07.2017
17:10:53

да

Alex

21.07.2017
17:11:36

«пытаясь отобрать я поняла» а это как произошло?

Pipito

21.07.2017
17:16:16

ну просто есть один признак ['first_max_value'] и если его убрать из обучающей выбоки, то точность предсказания упадет на 30%

вот я его один раз и убрала

и поняла, что он важный

Alex

21.07.2017
17:20:12

Эстиматор точно с теми же параметрами подаете? Если модель Вы строите с регуляризацией а rfe без то результаты будут отличаться

Pipito

21.07.2017
17:22:41

вот тут я кажется и просчиталась

вообще сейчас попробую разные типы ранкингов сделать и расчитать по ним среднее

а уже потом предсказания делать, думаю это имеет больший смысл

Andrey

21.07.2017
17:29:55

не говорите глупости. если у вас будут две фичи с корреляцией 0.9999999 то одну можно смело выбрасывать т.к информации в модель она не приносит

попробуйте прочитать то, что написано выше. Про 0.4, 0.9, 0.95 и 0.99

какие PCA?у него 40 фичей и 550 семплов

Почему вы метод главных компонент называете по множественном числе? И что мешает его использовать в озвученной ситуации?

Google

Pipito

21.07.2017
17:57:07

а кому-нибудь вообще на практике помогал Feature Ranking?

на StackExchange вычитала информацию, что это переменных для обучащей выборки

Artyom

21.07.2017
19:17:26

я использую важности леса для отбора признаков, но использовать надо аккуратно, нельзя просто так взять и выкинуть маловажные переменные, об этом прочитать у Александра Дьяконова http://www.machinelearning.ru/wiki/images/c/cc/PZAD2016_09_rf.pdf потому что лес измеряет не просто важность переменной саму по себе (как например Information Value), а насколько важной является переменная в сочетании с другими переменными. то есть вы можете добавить переменную и та переменная, которая была неважной может стать важной, это я получал в экспериментах. кроме того, когда переменные коррелированы обе метрики важности дают смещенные оценки. поэтому да используем лес, но при этом включаем здравый смысл и смотрим, какие переменные могут быть полезными с т.з. бизнеса, затем если строится регрессионная модель, например, логрегрессию делаю, делаем принудительное включение переменных с учетом информации о важностях переменных с последующей регуляризацией. у меня есть в Ответах и докладе Максима Савченко, одного из ведущих аналитиков Сбербанка, можно найти в группе у нас и на ютьюбе

Ekin

21.07.2017
20:21:21

язык erlang, отображать graphit. scale не ясен. "много данных" понятие растяжимое.

Dan

21.07.2017
20:33:15

[Forwarded from Just links] http://www.anandtech.com/show/11649/intel-launches-movidius-neural-compute-stick

Kaspar

22.07.2017
14:30:50

[Forwarded from Just links] http://www.anandtech.com/show/11649/intel-launches-movidius-neural-compute-stick

Уже в продаже на маусере. Как дойдёт - напишу результаты тестов в связке с распбери

Mikhail

22.07.2017
16:58:50

http://polyaxon.com

Антон

22.07.2017
22:01:32

Всем привет! Я видел научные статьи на тему контентной фильтрации веб с помощью нейронных сетей, но еще не осилил. Мне интересно, кто нибудь пытался реально применить машинное обучение к данной теме?

И насколько машинное обучение, вообще, может быть пригодно к данной задаче?

Dan

23.07.2017
10:20:47

http://telegra.ph/Kotiki-Kodyat-vypusk-5-07-23

у нас уже 5 выпуск. даже бота пришлось на время отключить ? ?

Admin

ERROR: S client not available

Проксимов

23.07.2017
10:35:40

http://telegra.ph/Kotiki-Kodyat-vypusk-5-07-23

Кто этим занимается?

Dan

23.07.2017
10:40:33

Кто этим занимается?

Я и Сильвер

Проксимов

23.07.2017
10:49:15

Я и Сильвер

Сильвер?

Dan

23.07.2017
11:30:54

Сильвер?

Двумя словами не объяснить. Но она из элиты. (С)

Dima

23.07.2017
13:04:15

https://www.youtube.com/watch?v=o6WMr1QDNCQ

пионер машинного обучения

Проксимов

23.07.2017
13:08:46

https://www.youtube.com/watch?v=o6WMr1QDNCQ

Как то с английским у него

Dima

23.07.2017
13:09:19

пёрфект рашн аксент

Google

Dima

23.07.2017
13:09:47

а вообще зато с математикой хорошо

https://ru.wikipedia.org/wiki/%D0%92%D0%B0%D0%BF%D0%BD%D0%B8%D0%BA,_%D0%92%D0%BB%D0%B0%D0%B4%D0%B8%D0%BC%D0%B8%D1%80_%D0%9D%D0%B0%D1%83%D0%BC%D0%BE%D0%B2%D0%B8%D1%87

bellicose

23.07.2017
15:49:52

Привет ребят, после 11класса подзабил на матем, хотелось бы снова быть "в теме" Есть ли какие то учебники по мат, которые пригодятся для ML? Спасибо.

Pipito

23.07.2017
15:54:04

+++

Nikolay

23.07.2017
15:54:24

Привет ребят, после 11класса подзабил на матем, хотелось бы снова быть "в теме" Есть ли какие то учебники по мат, которые пригодятся для ML? Спасибо.

Лесин-Лисовец "Методы оптимизации"

и от них дальше плясать, как вариант

Pipito

23.07.2017
15:54:54

А это включает основы по типу ( работы с матрицами )?

bellicose

23.07.2017
15:55:14

Лесин-Лисовец "Методы оптимизации"

Благодарю, буду копать , изучать

Nikolay

23.07.2017
15:55:14

А это включает основы по типу ( работы с матрицами )?

работа с матрицами - это линейная алгебра

Aldar

23.07.2017
15:55:21

Привет ребят, после 11класса подзабил на матем, хотелось бы снова быть "в теме" Есть ли какие то учебники по мат, которые пригодятся для ML? Спасибо.

http://www.fast.ai/2017/07/17/num-lin-alg/

Nikolay

23.07.2017
15:55:22

любой учебник по ней подойдет

bellicose

23.07.2017
15:55:37

Кстати давно еще, в хакере былп статья. По такому.. как найду , здесь скину ссыль)

http://www.fast.ai/2017/07/17/num-lin-alg/

Спасибо)

Maxim

23.07.2017
19:00:48

Доброго времени суток. А какие есть способы для предотвращения появления идентичных нейронов в сети? С одинаковыми весами, т.е делающих одно и тоже. Против этого вроде как должна рандомная инициализация спасать, но что если нейроны "слиплись" во время обучения? Есть какие-то методы по "разлеплению"? Как эта проблема называется в англоязычной литературе, что-то никак не гуглится ничего...

Andrey

24.07.2017
05:01:44

Доброго времени суток. А какие есть способы для предотвращения появления идентичных нейронов в сети? С одинаковыми весами, т.е делающих одно и тоже. Против этого вроде как должна рандомная инициализация спасать, но что если нейроны "слиплись" во время обучения? Есть какие-то методы по "разлеплению"? Как эта проблема называется в англоязычной литературе, что-то никак не гуглится ничего...

Открыть в Telegram