@bigdata_ru

« Назад

Страница 196 из 327

Далее »

Очень добрый

14.12.2017
11:35:47

не то

Kaspar

14.12.2017
11:36:03

вот правильная ссылка https://raw.githubusercontent.com/PacktPublishing/Learning-Pandas-Second-Edition/master/data/goog.csv

Михаил

14.12.2017
11:36:35

https://raw.githubusercontent.com/PacktPublishing/Learning-Pandas-Second-Edition/master/data/goog.csv

а ну я уже опоздал)

Google

Очень добрый

14.12.2017
11:37:05

понял

благодарю

Михаил

14.12.2017
11:37:22

да вот это и сохраняйте

Очень добрый

14.12.2017
11:38:44

Супер, спасибо)

Pipito

14.12.2017
11:57:20

Странный вопрос: а существуют ли Feature ranking tests, которые автоматические создают комбинированные переменные и смотрят зависимость с целовой(Y).Грубо говорая Feature Engineering

Михаил

14.12.2017
12:03:43

Есть

Щас поищу

Pipito

14.12.2017
12:14:29

воу

Михаил

14.12.2017
12:42:54

http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html

вот вроде то что нужно

Andrey

14.12.2017
13:16:14

Оно ж умеет только создавать, а не тестировать?

Google

Михаил

14.12.2017
13:23:50

ну блин для тестирования там тоже полно библиотек

Pipito

14.12.2017
13:35:17

Я не ожидал что такие решения действительно существуют

вот вроде то что нужно

Спасибо !

Михаил

14.12.2017
13:35:49

да там столько всего вкусного сам расстроен что всего не знаю

Pipito

14.12.2017
13:37:58

просто балдеж, с каждым разом диву даюсь

Dog

14.12.2017
13:52:16

бле пацаны, в какой тип impala может сконвертить hbaseвский big-endian long?

Pipito

14.12.2017
14:33:21

да там столько всего вкусного сам расстроен что всего не знаю

теперь бы адекватно понять как это работает

Vyaches

14.12.2017
14:52:49

Народ, кто нибудь в курсе почему может не работает нампаевский fill? почему-то None возвращает... y = np.zeros(shape=(49,)) y.fill(1)

Evgeniy

14.12.2017
14:55:08

теперь сделай print(y)

Vyaches

14.12.2017
14:56:09

!pip3 install numpy —upgrade тоже не помог.

Михаил

14.12.2017
14:57:41

плак плак

y=y.fill(

замените на y.fill(

и должно получиться счастье

Vyaches

14.12.2017
14:59:42

и должно получиться счастье

внезапно заработало. хотя до этого писал точь в точь так же[по крайней мере изначально вопрос формулировал именно так]. Наверное upgrade всё-таки помог. В любом случае, спасибо.

Михаил

14.12.2017
15:01:18

вероятно эффект наблюдателя)) у меня тоже такая петрушка постоянно

Vyaches

14.12.2017
15:02:59

вероятно эффект наблюдателя)) у меня тоже такая петрушка постоянно

ну или просто затупил, ага. бывает :D

Kate

14.12.2017
15:26:04

Подскажите каким алгоритмом лучше считать рекомендации на оооочень разряженой матрице. И вообще есть ли смысл такое считать

Я обычно использовала Спарк с его АЛС.

Google

Михаил

14.12.2017
15:29:30

насколько ооочень большая?

ну т.е. на один комп без вариантов впихнуть?

Kate

14.12.2017
15:32:10

100.000 юзеров, 7000 магазинов

Но я откинула вообще магазы где ничего не покупали и юзеров которые ничего не купили

Михаил

14.12.2017
15:33:18

ну вообще должна влезть и в оперативку...

Kate

14.12.2017
15:33:22

Получилось не много данных но нулей многовато все равно

Ну это да, влезает

Михаил

14.12.2017
15:33:54

попробуйте матричные разложения

Kate

14.12.2017
15:34:01

Я сгрупировала магазы в категории , что бы уменьшить рощряженость

Того 3000юзер*80категория

Михаил

14.12.2017
15:35:09

ну вообще если база изначально очень большая я бы по юзерам и магазам построил что то вроде графов и отобрал бы несвязанные компоненты, тогда можно работать не с большой кучей данных а с кучками поменьше, но правда скорее всего это все слипнется в одну большую компоненту

http://antoinevastel.github.io/machine%20learning/python/2016/02/14/svd-recommender-system.html

Михаил

14.12.2017
15:36:41

попробуйте такой подход

или у вас что то более специфическое

Kate

14.12.2017
15:37:37

SVD разве не хуже на разряженых данных чем АЛС ?

Михаил

14.12.2017
15:38:23

честно - не сравнивал

Kate

14.12.2017
15:38:35

Специфичность в том, что взаимодействий юзера с магазином ничтожное

Михаил

14.12.2017
15:38:43

но я бы толкался от оценки результатов на выходе

Kate

14.12.2017
15:38:44

Рекомендуются магазины

Михаил

14.12.2017
15:39:39

попробуйте прорядить свою матрицу еще немножко и попробовать разные подходы, кто точнее и полнее восстановит то что мы прорядили - тот и молодец

Google

Andrey

14.12.2017
15:41:06

100.000 юзеров, 7000 магазинов

https://www.oreilly.com/ideas/deep-matrix-factorization-using-apache-mxnet

Михаил

14.12.2017
15:46:31

надо будет покрутить)

Igor

14.12.2017
16:16:26

ну и туда же неплохо бы стабильность спроса добавить

Пока я изучаю агрегированный спрос на группы одежды (сорочки, пиджаки и т. д.) в целом и в разных городах, чтобы «с высоты птичьего полёта» получить общее понимание - по каждой товарной группе лучше двигаться в сторону более дорогих или более дешевых товаров, и есть ли смысл в дифференцировании ценовой политики по регионам. Пока что я построил регрессию логарифма спроса на логарифм цены, и (знающие люди, спасибо им, подсказали) добавил в качестве инструмента для цены себестоимость (т. к. очевидно, что пропущенные переменные в модели есть). Вот думаю, может я чего-то ещё не учёл? Может, есть альтернативные способы учесть, что ошибки не i.i.d.? А на уровне отдельных товаров планирую отдельно поисследовать и копать в сторону discrete choice models - всяческие логиты, пробиты и т. п. Тут получается, кстати, что нужно оценивать очень много переменных с гигантской ковариационной матрицей, и если есть практические советы на эту тему - буду премного благодарен

Andrey

14.12.2017
16:43:22

Смысл логарифмирования цены не очень понятен. Оно было бы понятно, если б половина людей покупала обычную одежду за 100$, другая половина - исключительно от Армани по личному заказу за 10000$-5000000$

Никита

14.12.2017
16:43:26

ну так юзайте QR - идеально для sparse

Andrey

14.12.2017
16:44:34

А так шкала выглядит вполне себе линейной

Admin

ERROR: S client not available

Andrey

14.12.2017
16:45:04

Есть дополнительные данные в модели?

Часть людей будет смотреть только на цену одежды, часть - только на качество. Итоговый спрос будет во многом зависеть от соотношения числа людей этих двух типов в городе

Artem

14.12.2017
17:53:55

Зарплата в конкретном регионе будет влиять и объем рекламы по брендам, наличие стоковых магазинов по брендам

Andrey

14.12.2017
17:59:39

Бедные люди будут искать самое дешёвое, а остальные - зашёл в магазин, понравилось - купил, и на их спрос изменение цены в разумных пределах вообще никак влиять не будет, вот в чём гипотеза

Обычно люди думают не больше одноклеточных молекул в этом плане

Зарплата в конкретном регионе будет влиять и объем рекламы по брендам, наличие стоковых магазинов по брендам

Мужику в любом случае надо одни штаны, одну шапку одни сапоги и т.д., вне зависимости от зарплаты. Вот бабы другое дело

Короче у одежды для разных полов должны быть разные паттерны

Artem

14.12.2017
18:12:15

Мужику в любом случае надо одни штаны, одну шапку одни сапоги и т.д., вне зависимости от зарплаты. Вот бабы другое дело

Много дорогой одежды в регионах покупают в кредит, например шубы. Процент одобрения кредитов меняется по регионам. Например Кавказ одобряют меньше чем Ханты

Andrey

14.12.2017
18:13:45

Много дорогой одежды в регионах покупают в кредит, например шубы. Процент одобрения кредитов меняется по регионам. Например Кавказ одобряют меньше чем Ханты

Дорогие шубы тоже только бабы покупают

Или мужик бабе

Pipito

14.12.2017
18:14:08

или дорогой мужик мужику

Kek

14.12.2017
18:14:15

Мужику в любом случае надо одни штаны, одну шапку одни сапоги и т.д., вне зависимости от зарплаты. Вот бабы другое дело

Кек

Andrey

14.12.2017
18:14:34

? Это выбросы

Google

Pipito

14.12.2017
18:14:36

шубы и мужские бывают

я понимаю, что в датасете это будет аномалией какой-то

но все же

Artem

14.12.2017
18:16:41

Скорее ещё может влиять дата покупки. Выплаты заработных плат имеют циклы, перед началом цикла человек покупает дороже, в конце цикла сосёт , ой. Экономит

Mike

14.12.2017
18:24:08

Мое почтение уважаемым экспертам. Не решал ли кто-нибудь задачу оценки эластичности спроса по цене?

Решал)

Igor

14.12.2017
21:40:28

Уважаемые дать сайентисты, я понимаю, что можно расширять модель и добавлять переменные. Вы правильно все пишете, но я исхожу из того, что в любой модели всегда будут пропущенные переменные, ибо либо мы не знаем про них, либо нет соответствующих данных. И задача, таким образом - понимая, что модель неверно (неполностью) специфицирована получить, тем не менее, несмещённые оценки.

Donaudampf

14.12.2017
23:39:53

А кто-нибудь имел дело с OneClassSVM из sklearn(http://scikit-learn.org/stable/modules/generated/sklearn.svm.OneClassSVM.html)? Подскажите пожалуйста, можно ли как-то тюнинговать классификатор, чтобы с запасом сдвинуть порог срабатывания в нужную сторону? У меня задача, в которой допускаются ложные положительные срабатывания, но ложные отрицательные нужно свести к минимуму(в идеале - исключить). Пробовал подбирать nu и gamma, но только за их счёт нужного результата добиться не получается

Очень добрый

15.12.2017
00:12:13

Господа

Есть ли принципиальная разница между тем, какую библиотеку изучать первой? Типа, тензор флоу либо керас? Есть ли принципиальная разница или приоритеты?

или скайкит

/dev