@bigdata_ru

Страница 196 из 327
Очень добрый
14.12.2017
11:35:47
не то

Kaspar
14.12.2017
11:36:03
вот правильная ссылка https://raw.githubusercontent.com/PacktPublishing/Learning-Pandas-Second-Edition/master/data/goog.csv

Михаил
14.12.2017
11:36:35
https://raw.githubusercontent.com/PacktPublishing/Learning-Pandas-Second-Edition/master/data/goog.csv

а ну я уже опоздал)

Google
Очень добрый
14.12.2017
11:37:05
понял



благодарю

Михаил
14.12.2017
11:37:22
да вот это и сохраняйте

Очень добрый
14.12.2017
11:38:44


Супер, спасибо)

Pipito
14.12.2017
11:57:20
Странный вопрос: а существуют ли Feature ranking tests, которые автоматические создают комбинированные переменные и смотрят зависимость с целовой(Y).Грубо говорая Feature Engineering

Михаил
14.12.2017
12:03:43
Есть

Щас поищу

Pipito
14.12.2017
12:14:29
воу

Михаил
14.12.2017
12:42:54
http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html

вот вроде то что нужно

Andrey
14.12.2017
13:16:14
Оно ж умеет только создавать, а не тестировать?

Google
Михаил
14.12.2017
13:23:50
ну блин для тестирования там тоже полно библиотек

Pipito
14.12.2017
13:35:17
Я не ожидал что такие решения действительно существуют

Михаил
14.12.2017
13:35:49
да там столько всего вкусного сам расстроен что всего не знаю

Pipito
14.12.2017
13:37:58
просто балдеж, с каждым разом диву даюсь

Dog
14.12.2017
13:52:16
бле пацаны, в какой тип impala может сконвертить hbaseвский big-endian long?

Pipito
14.12.2017
14:33:21
да там столько всего вкусного сам расстроен что всего не знаю
теперь бы адекватно понять как это работает

Vyaches
14.12.2017
14:52:49
Народ, кто нибудь в курсе почему может не работает нампаевский fill? почему-то None возвращает... y = np.zeros(shape=(49,)) y.fill(1)

Evgeniy
14.12.2017
14:55:08
теперь сделай print(y)

Vyaches
14.12.2017
14:56:09


!pip3 install numpy —upgrade тоже не помог.

Михаил
14.12.2017
14:57:41
плак плак

y=y.fill(

замените на y.fill(

и должно получиться счастье

Vyaches
14.12.2017
14:59:42
и должно получиться счастье
внезапно заработало. хотя до этого писал точь в точь так же[по крайней мере изначально вопрос формулировал именно так]. Наверное upgrade всё-таки помог. В любом случае, спасибо.

Михаил
14.12.2017
15:01:18
вероятно эффект наблюдателя)) у меня тоже такая петрушка постоянно

Vyaches
14.12.2017
15:02:59
Kate
14.12.2017
15:26:04
Подскажите каким алгоритмом лучше считать рекомендации на оооочень разряженой матрице. И вообще есть ли смысл такое считать

Я обычно использовала Спарк с его АЛС.

Google
Михаил
14.12.2017
15:29:30
насколько ооочень большая?

ну т.е. на один комп без вариантов впихнуть?

Kate
14.12.2017
15:32:10
100.000 юзеров, 7000 магазинов

Но я откинула вообще магазы где ничего не покупали и юзеров которые ничего не купили

Михаил
14.12.2017
15:33:18
ну вообще должна влезть и в оперативку...

Kate
14.12.2017
15:33:22
Получилось не много данных но нулей многовато все равно

Ну это да, влезает

Михаил
14.12.2017
15:33:54
попробуйте матричные разложения

Kate
14.12.2017
15:34:01
Я сгрупировала магазы в категории , что бы уменьшить рощряженость

Того 3000юзер*80категория

Михаил
14.12.2017
15:35:09
ну вообще если база изначально очень большая я бы по юзерам и магазам построил что то вроде графов и отобрал бы несвязанные компоненты, тогда можно работать не с большой кучей данных а с кучками поменьше, но правда скорее всего это все слипнется в одну большую компоненту

http://antoinevastel.github.io/machine%20learning/python/2016/02/14/svd-recommender-system.html

Михаил
14.12.2017
15:36:41
попробуйте такой подход

или у вас что то более специфическое

Kate
14.12.2017
15:37:37
SVD разве не хуже на разряженых данных чем АЛС ?

Михаил
14.12.2017
15:38:23
честно - не сравнивал

Kate
14.12.2017
15:38:35
Специфичность в том, что взаимодействий юзера с магазином ничтожное

Михаил
14.12.2017
15:38:43
но я бы толкался от оценки результатов на выходе

Kate
14.12.2017
15:38:44
Рекомендуются магазины

Михаил
14.12.2017
15:39:39
попробуйте прорядить свою матрицу еще немножко и попробовать разные подходы, кто точнее и полнее восстановит то что мы прорядили - тот и молодец

Google
Andrey
14.12.2017
15:41:06
100.000 юзеров, 7000 магазинов
https://www.oreilly.com/ideas/deep-matrix-factorization-using-apache-mxnet

Михаил
14.12.2017
15:46:31
надо будет покрутить)

Igor
14.12.2017
16:16:26
ну и туда же неплохо бы стабильность спроса добавить
Пока я изучаю агрегированный спрос на группы одежды (сорочки, пиджаки и т. д.) в целом и в разных городах, чтобы «с высоты птичьего полёта» получить общее понимание - по каждой товарной группе лучше двигаться в сторону более дорогих или более дешевых товаров, и есть ли смысл в дифференцировании ценовой политики по регионам. Пока что я построил регрессию логарифма спроса на логарифм цены, и (знающие люди, спасибо им, подсказали) добавил в качестве инструмента для цены себестоимость (т. к. очевидно, что пропущенные переменные в модели есть). Вот думаю, может я чего-то ещё не учёл? Может, есть альтернативные способы учесть, что ошибки не i.i.d.? А на уровне отдельных товаров планирую отдельно поисследовать и копать в сторону discrete choice models - всяческие логиты, пробиты и т. п. Тут получается, кстати, что нужно оценивать очень много переменных с гигантской ковариационной матрицей, и если есть практические советы на эту тему - буду премного благодарен

Andrey
14.12.2017
16:43:22
Смысл логарифмирования цены не очень понятен. Оно было бы понятно, если б половина людей покупала обычную одежду за 100$, другая половина - исключительно от Армани по личному заказу за 10000$-5000000$

Никита
14.12.2017
16:43:26
ну так юзайте QR - идеально для sparse

Andrey
14.12.2017
16:44:34
А так шкала выглядит вполне себе линейной

Admin
ERROR: S client not available

Andrey
14.12.2017
16:45:04
Есть дополнительные данные в модели?

Часть людей будет смотреть только на цену одежды, часть - только на качество. Итоговый спрос будет во многом зависеть от соотношения числа людей этих двух типов в городе

Artem
14.12.2017
17:53:55
Зарплата в конкретном регионе будет влиять и объем рекламы по брендам, наличие стоковых магазинов по брендам

Andrey
14.12.2017
17:59:39
Бедные люди будут искать самое дешёвое, а остальные - зашёл в магазин, понравилось - купил, и на их спрос изменение цены в разумных пределах вообще никак влиять не будет, вот в чём гипотеза

Обычно люди думают не больше одноклеточных молекул в этом плане

Зарплата в конкретном регионе будет влиять и объем рекламы по брендам, наличие стоковых магазинов по брендам
Мужику в любом случае надо одни штаны, одну шапку одни сапоги и т.д., вне зависимости от зарплаты. Вот бабы другое дело

Короче у одежды для разных полов должны быть разные паттерны

Artem
14.12.2017
18:12:15
Мужику в любом случае надо одни штаны, одну шапку одни сапоги и т.д., вне зависимости от зарплаты. Вот бабы другое дело
Много дорогой одежды в регионах покупают в кредит, например шубы. Процент одобрения кредитов меняется по регионам. Например Кавказ одобряют меньше чем Ханты

Pipito
14.12.2017
18:14:08
или дорогой мужик мужику

Andrey
14.12.2017
18:14:34
? Это выбросы

Google
Pipito
14.12.2017
18:14:36
шубы и мужские бывают

я понимаю, что в датасете это будет аномалией какой-то

но все же

Artem
14.12.2017
18:16:41
Скорее ещё может влиять дата покупки. Выплаты заработных плат имеют циклы, перед началом цикла человек покупает дороже, в конце цикла сосёт , ой. Экономит

Igor
14.12.2017
21:40:28
Уважаемые дать сайентисты, я понимаю, что можно расширять модель и добавлять переменные. Вы правильно все пишете, но я исхожу из того, что в любой модели всегда будут пропущенные переменные, ибо либо мы не знаем про них, либо нет соответствующих данных. И задача, таким образом - понимая, что модель неверно (неполностью) специфицирована получить, тем не менее, несмещённые оценки.

Donaudampf
14.12.2017
23:39:53
А кто-нибудь имел дело с OneClassSVM из sklearn(http://scikit-learn.org/stable/modules/generated/sklearn.svm.OneClassSVM.html)? Подскажите пожалуйста, можно ли как-то тюнинговать классификатор, чтобы с запасом сдвинуть порог срабатывания в нужную сторону? У меня задача, в которой допускаются ложные положительные срабатывания, но ложные отрицательные нужно свести к минимуму(в идеале - исключить). Пробовал подбирать nu и gamma, но только за их счёт нужного результата добиться не получается

Очень добрый
15.12.2017
00:12:13
Господа

Есть ли принципиальная разница между тем, какую библиотеку изучать первой? Типа, тензор флоу либо керас? Есть ли принципиальная разница или приоритеты?

или скайкит

Donaudampf
15.12.2017
00:27:05
ну там собственно один класс и есть

то есть просто продублировать объекты многократно?

или есть смысл добавлять какой-то шум к значениям?

/dev
15.12.2017
00:33:07
то есть просто продублировать объекты многократно?
Там есть sample_weight в fit, туда подать можно. Руками ничего размножать не надо

Donaudampf
15.12.2017
00:34:52
аа, вот оно что

а я в параметры самого классификатора втыкал

Страница 196 из 327