
Evgeniy
19.10.2018
12:02:28

Arslan
19.10.2018
12:04:08

Evgeniy
19.10.2018
12:19:55

Google

Artyom
19.10.2018
12:20:44
Китайцы наверное тоже на англ пишут в основном

Tony
19.10.2018
12:57:45
есть юзер, я вижу куда он тратит деньги. Таких юзеров много. Надо для каждого определить его предпочтения, желательно значением, а не классом. Надо для каждого юзера создавать модель или можно как-то обучить на всех?

I
19.10.2018
14:24:41
Ребята, может кто подскажет группу, в которой обсуждают алгоритмы?

Dan
19.10.2018
14:34:11
Принимаются предложения в список :)
@EvgeniyZh а вот твой чат битком рекламой набит :(

I
19.10.2018
14:35:12

Evgeniy
19.10.2018
14:41:16

Dan
19.10.2018
14:42:03
мой чат?
Прости пожалуйста за неточную формулировку...
не твой чат, а чат, ссылку на который ты прислал

Evgeniy
19.10.2018
14:44:20

Dan
19.10.2018
14:44:27
¯\_(ツ)_/¯
У меня уже профессиональная деформация

Tony
20.10.2018
05:45:26
есть юзер, я вижу куда он тратит деньги. Таких юзеров много. Надо для каждого определить его предпочтения, желательно значением, а не классом. Надо для каждого юзера создавать модель или можно как-то обучить на всех?

Google

Ruslan
20.10.2018
17:57:52
Товарищи, есть тут кто проходит mlcourse_ai_rus?

Paul
20.10.2018
17:58:22
Прохожу

Ruslan
20.10.2018
17:59:11
Вторая неделя, 4 задание. Запоролся с pandas, не могу понять, как сначала сделать groupby и agg по двум столбцам, а потом ещё сделать выборку по третьему столбцу...

Paul
20.10.2018
17:59:59
С 4 сам не могу разобраться, да и насколько я понял, он у большинства вызывает в слаке вопросы

Ruslan
20.10.2018
18:00:54
Он вызывает вопросы больше по заданию, а у меня запара с Pandas..)

Paul
20.10.2018
18:01:39
Я пробовал пока только просто groupby по двум столбцам, обращаясь сначала к depDelay, вызывая value_counts и сортируя, но никуда это не привело :(

Ruslan
20.10.2018
18:02:22
Могу вытащить отсюда индексы, в список их переделать, но как по списку сделать выборку, тоже не допирает. Решения на SO чё-то не подходят..

Paul
20.10.2018
18:03:02
У меня пока и такого нет ???

Ruslan
20.10.2018
18:04:18
flights_df[(flights_df['DepDelay'] > 0)].groupby(['Origin', 'Dest'])\
.agg({'DepDelay': 'count'})\
.sort_values(by='DepDelay', ascending=False)\
.iloc[0:5]
Может, тебе из этого что-нибудь в голову придёт)

Paul
20.10.2018
18:05:31
О, спасибо, не пробовал(и не знал до этого момента о) agg, может что-то получится теперь :)

Ruslan
20.10.2018
19:37:20

Иван
20.10.2018
20:29:55


Andrew
21.10.2018
08:48:37
Всем привет, мне дали задание, датасет из 183 вещественных признаков [0...1] размером 250 000, Таргет бинарная величина, распределение таргета 220 000 нулей и 30 000 единиц, Также есть отложеная выборка, где 7 000 объектов с нулями и 7 000 с единицами, лучше всего справляется дерево, 0,51 на отложеной и 0,68 на обучении причем класификатор относил все объекты к нулевому класу, я сбалансировал обучающую выборку до 30 000 объектов с нулями и 30 000 с единицами. Также сделал PCA до 100 признаков. Качество повысилось до 0,56 на отложеной, и 0,75 на обучении, на матрице сопряженности стало видно что класификатор научился различать 1 и 0 классы, но всеравно делает очень много ошибок как первого так и второго рода. Что можно ещё придумать? Зараниее спасибо!


Pavel
21.10.2018
12:19:32
Всем, привет! Кто знает ресурсы, на которых размещаются реальные кейсы с примерами, как big data и аналитика помогает в различных отраслях, машиностроение, нефтянака и т.д. везде где смотрю, один общие слова, без реальных кейсов и использованных инструментов и алгоритмов???

Denis
21.10.2018
12:20:07

Pavel
21.10.2018
12:23:59
На хакатонах не всегда публикуют итоговую информацию, каким образом команды добились того, или иного результата и почему использовали именно тот или иной инструмент, аналитику или метод.
Но попробую поискать по лучше. Спасибо.

Denis
21.10.2018
12:24:49

Google

alex
21.10.2018
13:25:53
Не всегда публикуют, потому что боятся разгласить, что использовали excel )

Иван
21.10.2018
16:07:32
Всем привет, мне дали задание, датасет из 183 вещественных признаков [0...1] размером 250 000, Таргет бинарная величина, распределение таргета 220 000 нулей и 30 000 единиц, Также есть отложеная выборка, где 7 000 объектов с нулями и 7 000 с единицами, лучше всего справляется дерево, 0,51 на отложеной и 0,68 на обучении причем класификатор относил все объекты к нулевому класу, я сбалансировал обучающую выборку до 30 000 объектов с нулями и 30 000 с единицами. Также сделал PCA до 100 признаков. Качество повысилось до 0,56 на отложеной, и 0,75 на обучении, на матрице сопряженности стало видно что класификатор научился различать 1 и 0 классы, но всеравно делает очень много ошибок как первого так и второго рода. Что можно ещё придумать? Зараниее спасибо!
Композиция моделей?

Paul
21.10.2018
16:43:55
#a2_q4 наконец получилось осилить. Большое спасибо тем, кто помогал, а особенно @guitarhero777, не думаю, что без твоей помощи осилил бы.

Ruslan
21.10.2018
16:50:35

Hackerman
21.10.2018
17:12:58
Всем привет;)

Paul
21.10.2018
17:19:25

Ruslan
21.10.2018
17:25:03
Оу, панятна)

Hackerman
21.10.2018
17:31:18
С чем едят биг дата?:)
Ок.Пойду кстати поем:)