
Очень добрый
14.12.2017
11:35:47
не то

Kaspar
14.12.2017
11:36:03
вот правильная ссылка
https://raw.githubusercontent.com/PacktPublishing/Learning-Pandas-Second-Edition/master/data/goog.csv

Михаил
14.12.2017
11:36:35
https://raw.githubusercontent.com/PacktPublishing/Learning-Pandas-Second-Edition/master/data/goog.csv
а ну я уже опоздал)

Google

Очень добрый
14.12.2017
11:37:05
понял
благодарю

Михаил
14.12.2017
11:37:22
да вот это и сохраняйте

Очень добрый
14.12.2017
11:38:44
Супер, спасибо)

Pipito
14.12.2017
11:57:20
Странный вопрос: а существуют ли Feature ranking tests, которые автоматические создают комбинированные переменные и смотрят зависимость с целовой(Y).Грубо говорая Feature Engineering

Михаил
14.12.2017
12:03:43
Есть
Щас поищу

Pipito
14.12.2017
12:14:29
воу

Михаил
14.12.2017
12:42:54
http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html
вот вроде то что нужно

Andrey
14.12.2017
13:16:14
Оно ж умеет только создавать, а не тестировать?

Google

Михаил
14.12.2017
13:23:50
ну блин для тестирования там тоже полно библиотек

Pipito
14.12.2017
13:35:17
Я не ожидал что такие решения действительно существуют

Михаил
14.12.2017
13:35:49
да там столько всего вкусного сам расстроен что всего не знаю

Pipito
14.12.2017
13:37:58
просто балдеж, с каждым разом диву даюсь

Dog
14.12.2017
13:52:16
бле пацаны, в какой тип impala может сконвертить hbaseвский big-endian long?

Pipito
14.12.2017
14:33:21

Vyaches
14.12.2017
14:52:49
Народ, кто нибудь в курсе почему может не работает нампаевский fill? почему-то None возвращает...
y = np.zeros(shape=(49,))
y.fill(1)

Evgeniy
14.12.2017
14:55:08
теперь сделай print(y)

Vyaches
14.12.2017
14:56:09
!pip3 install numpy —upgrade тоже не помог.

Михаил
14.12.2017
14:57:41
плак плак
y=y.fill(
замените на y.fill(
и должно получиться счастье

Vyaches
14.12.2017
14:59:42
и должно получиться счастье
внезапно заработало. хотя до этого писал точь в точь так же[по крайней мере изначально вопрос формулировал именно так]. Наверное upgrade всё-таки помог. В любом случае, спасибо.

Михаил
14.12.2017
15:01:18
вероятно эффект наблюдателя)) у меня тоже такая петрушка постоянно

Vyaches
14.12.2017
15:02:59

Kate
14.12.2017
15:26:04
Подскажите каким алгоритмом лучше считать рекомендации на оооочень разряженой матрице. И вообще есть ли смысл такое считать
Я обычно использовала Спарк с его АЛС.

Google

Михаил
14.12.2017
15:29:30
насколько ооочень большая?
ну т.е. на один комп без вариантов впихнуть?

Kate
14.12.2017
15:32:10
100.000 юзеров, 7000 магазинов
Но я откинула вообще магазы где ничего не покупали и юзеров которые ничего не купили

Михаил
14.12.2017
15:33:18
ну вообще должна влезть и в оперативку...

Kate
14.12.2017
15:33:22
Получилось не много данных но нулей многовато все равно
Ну это да, влезает

Михаил
14.12.2017
15:33:54
попробуйте матричные разложения

Kate
14.12.2017
15:34:01
Я сгрупировала магазы в категории , что бы уменьшить рощряженость
Того 3000юзер*80категория

Михаил
14.12.2017
15:35:09
ну вообще если база изначально очень большая я бы по юзерам и магазам построил что то вроде графов и отобрал бы несвязанные компоненты, тогда можно работать не с большой кучей данных а с кучками поменьше, но правда скорее всего это все слипнется в одну большую компоненту
http://antoinevastel.github.io/machine%20learning/python/2016/02/14/svd-recommender-system.html

Михаил
14.12.2017
15:36:41
попробуйте такой подход
или у вас что то более специфическое

Kate
14.12.2017
15:37:37
SVD разве не хуже на разряженых данных чем АЛС ?

Михаил
14.12.2017
15:38:23
честно - не сравнивал

Kate
14.12.2017
15:38:35
Специфичность в том, что взаимодействий юзера с магазином ничтожное

Михаил
14.12.2017
15:38:43
но я бы толкался от оценки результатов на выходе

Kate
14.12.2017
15:38:44
Рекомендуются магазины

Михаил
14.12.2017
15:39:39
попробуйте прорядить свою матрицу еще немножко и попробовать разные подходы, кто точнее и полнее восстановит то что мы прорядили - тот и молодец

Google

Andrey
14.12.2017
15:41:06

Михаил
14.12.2017
15:46:31
надо будет покрутить)


Igor
14.12.2017
16:16:26
ну и туда же неплохо бы стабильность спроса добавить
Пока я изучаю агрегированный спрос на группы одежды (сорочки, пиджаки и т. д.) в целом и в разных городах, чтобы «с высоты птичьего полёта» получить общее понимание - по каждой товарной группе лучше двигаться в сторону более дорогих или более дешевых товаров, и есть ли смысл в дифференцировании ценовой политики по регионам. Пока что я построил регрессию логарифма спроса на логарифм цены, и (знающие люди, спасибо им, подсказали) добавил в качестве инструмента для цены себестоимость (т. к. очевидно, что пропущенные переменные в модели есть). Вот думаю, может я чего-то ещё не учёл? Может, есть альтернативные способы учесть, что ошибки не i.i.d.? А на уровне отдельных товаров планирую отдельно поисследовать и копать в сторону discrete choice models - всяческие логиты, пробиты и т. п. Тут получается, кстати, что нужно оценивать очень много переменных с гигантской ковариационной матрицей, и если есть практические советы на эту тему - буду премного благодарен


Andrey
14.12.2017
16:43:22
Смысл логарифмирования цены не очень понятен. Оно было бы понятно, если б половина людей покупала обычную одежду за 100$, другая половина - исключительно от Армани по личному заказу за 10000$-5000000$

Никита
14.12.2017
16:43:26
ну так юзайте QR - идеально для sparse

Andrey
14.12.2017
16:44:34
А так шкала выглядит вполне себе линейной

Admin
ERROR: S client not available

Andrey
14.12.2017
16:45:04
Есть дополнительные данные в модели?
Часть людей будет смотреть только на цену одежды, часть - только на качество. Итоговый спрос будет во многом зависеть от соотношения числа людей этих двух типов в городе

Artem
14.12.2017
17:53:55
Зарплата в конкретном регионе будет влиять и объем рекламы по брендам, наличие стоковых магазинов по брендам

Andrey
14.12.2017
17:59:39
Бедные люди будут искать самое дешёвое, а остальные - зашёл в магазин, понравилось - купил, и на их спрос изменение цены в разумных пределах вообще никак влиять не будет, вот в чём гипотеза
Обычно люди думают не больше одноклеточных молекул в этом плане
Короче у одежды для разных полов должны быть разные паттерны

Artem
14.12.2017
18:12:15

Andrey
14.12.2017
18:13:45
Или мужик бабе

Pipito
14.12.2017
18:14:08
или дорогой мужик мужику

Kek
14.12.2017
18:14:15

Andrey
14.12.2017
18:14:34
? Это выбросы

Google

Pipito
14.12.2017
18:14:36
шубы и мужские бывают
я понимаю, что в датасете это будет аномалией какой-то
но все же

Artem
14.12.2017
18:16:41
Скорее ещё может влиять дата покупки. Выплаты заработных плат имеют циклы, перед началом цикла человек покупает дороже, в конце цикла сосёт , ой. Экономит

Mike
14.12.2017
18:24:08

Igor
14.12.2017
21:40:28
Уважаемые дать сайентисты, я понимаю, что можно расширять модель и добавлять переменные. Вы правильно все пишете, но я исхожу из того, что в любой модели всегда будут пропущенные переменные, ибо либо мы не знаем про них, либо нет соответствующих данных. И задача, таким образом - понимая, что модель неверно (неполностью) специфицирована получить, тем не менее, несмещённые оценки.

Donaudampf
14.12.2017
23:39:53
А кто-нибудь имел дело с OneClassSVM из sklearn(http://scikit-learn.org/stable/modules/generated/sklearn.svm.OneClassSVM.html)? Подскажите пожалуйста, можно ли как-то тюнинговать классификатор, чтобы с запасом сдвинуть порог срабатывания в нужную сторону? У меня задача, в которой допускаются ложные положительные срабатывания, но ложные отрицательные нужно свести к минимуму(в идеале - исключить). Пробовал подбирать nu и gamma, но только за их счёт нужного результата добиться не получается

Очень добрый
15.12.2017
00:12:13
Господа
Есть ли принципиальная разница между тем, какую библиотеку изучать первой? Типа, тензор флоу либо керас? Есть ли принципиальная разница или приоритеты?
или скайкит

/dev
15.12.2017
00:23:53
Искусственно это можно сделать, "размножив" положительный класс, оттуда пойдут все изменения к двойственной задаче

Donaudampf
15.12.2017
00:27:05
ну там собственно один класс и есть
то есть просто продублировать объекты многократно?
или есть смысл добавлять какой-то шум к значениям?

/dev
15.12.2017
00:33:07

Donaudampf
15.12.2017
00:34:52
аа, вот оно что
а я в параметры самого классификатора втыкал