
osl
28.02.2017
08:11:55
Ребята, подскажите, есть несбалансированная выборка 1:50, я ее делю на тестовую и обучающую, обучающую овер сеплю и андерсеплю, на ней учусь xgb, все норм, на тестовой получается ерунда, что можно предпринять по этому поводу?

Andrey
28.02.2017
08:16:12
Какого рода ерунда?
Если модель обучилась до точности 98%, то на тесте те же 98% можно и без модели получить

osl
28.02.2017
08:35:05
Ну я не accuracy меряю, на обучении precision recall маленького класса ~90, на тесте 50%, 7% соответственно

Google

Constantine
28.02.2017
08:35:56
тестовая и обучающая выборки случайно выбираются?
пропорция между классами сохраняется?

osl
28.02.2017
08:36:41
Случайно. Сохраняется
Так, в тестовой сохраняется, в обучающей уже потом не сохраняется

Constantine
28.02.2017
09:01:10
может наоборот?
у тебя тестовая/обучающая какое соотношение

osl
28.02.2017
09:03:40
Тестовая обучающая 3/7. Не наоборот, потому что я же обучающую после разделения оверсемплю

Constantine
28.02.2017
09:05:57
раздели по отдельным классам и передай в http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html
потом объедини
будет 1к50 в тестовой и учебной

osl
28.02.2017
09:17:42
Ну в смысле будет и там и там такая пропорция и просто на этом попробовать его обучить без генерации minority класса?

Andrey
28.02.2017
09:18:15
Для начала всегда нужно так делать
Потом смотреть, помогает ли балансировка классов

Google

Roman
28.02.2017
13:37:28
что думаете? https://nplus1.ru/news/2017/02/25/take

/dev
28.02.2017
14:55:56

Matwey
28.02.2017
15:01:36

Constantine
01.03.2017
11:25:48
@Acapone какая связь с темой текущего чата?

Boris
01.03.2017
11:26:51
тыж программист

Dan
01.03.2017
11:27:55
это спам

Denis
01.03.2017
17:00:38
всем привет! есть клиентская база, нужно разбить на бизнес-группы некие. зачастую используется связка kNN +pca(2компоненты) и потом из изображают на 2D графике, где цвет - кластер, а оси - главные компоненты, но как понять что за кластеры с точки зрения бизнес-смысла получаются и как связать главные компоненты с изначальным набором переменных? метод в pca о доли объясненной дисперсии каждой компонентой мне кажется недостаточно информативен

Ivan
01.03.2017
17:31:05
А сколько изначально переменных? Вообще-то pca по сути отображает переменные в пространство где отсутвуют коррелируемые переменные.
Для нахождения кластеров - пробовали сразу визуализировать данные с помощью t-SNE?

Denis
01.03.2017
20:03:33

Oleg
01.03.2017
21:52:47
У вас классно, но похоже я еще не готов осилить BD/ML ?

Natalia
02.03.2017
16:53:29
Всем привет!
Я в поисках data scientist, горящего этим направлением, ничего против не имеющего банковского сектора, рассматривающего (вполне серьезно!) карьерные возможности, ожидающего хороший (!) уровнь финансовой компенсации! Отзовись!
Резюме можно направлять в лс.
Всем хорошего вечера!☺

Sergey
02.03.2017
19:06:01
Началось...

Волчик
02.03.2017
19:06:57
можно ли стать дата саентистом, имея образование 11 классов средней школы?

targitaj
02.03.2017
19:07:20
HR расчухали тему с телеграмом штоль

/dev
02.03.2017
19:08:55

targitaj
02.03.2017
19:09:18

Natalia
02.03.2017
19:10:56
Расчухали))
По цифрам могу сориентировать в лс
Все очень индивидуально.
Смотрим людей только с высшим образованием.

Google

Волчик
02.03.2017
19:12:24
а если у меня статьи в журналах?

/dev
02.03.2017
19:13:02

Artem
02.03.2017
19:13:04

Natalia
02.03.2017
19:13:30
К сожалению, пока только с релевантным опытом

Dan
02.03.2017
19:13:57
Я вот тут подумал
Надо бы обсудить с коллегами админами чатов по смежным тематикам, и может сделать канал или чат вакансий отдельно

Admin
ERROR: S client not available

Волчик
02.03.2017
19:16:41

Artem
02.03.2017
19:16:48
https://telegram.me/joinchat/ABI4pz7v7KfJhb12XIkIUA
Или не то?
блин

Artem
02.03.2017
19:17:22
ссылка бита

Natalia
02.03.2017
19:25:19
Здорово! Спасибо большое за ссылку!

Rinat
03.03.2017
07:51:11
Ребята, подскажите, пожалуйста, инструмент, либу или способ решения задачи: есть 1 млн html файлов (объявления). Есть форма, которую нужно заполнить при анализе каждого файла и записать в базу, json (это пока не критично). Нужно выдернуть из описания подходящие под поле формы значения и записать. В настоящий момент не известно какие точно ключевые слова будут подходить для каждого поля, поэтому будет постанализ , чтобы делать корректировки в ключевые слова, а возможно и в стоп-слова

Constantine
03.03.2017
07:52:05
гугли scikit feature extraction
или nltoolkit более специализированная

targitaj
03.03.2017
08:56:40

Rinat
03.03.2017
09:11:58

Sergey
03.03.2017
19:38:35
https://openbigdata.ru/

Google

Sergey
03.03.2017
19:38:43
Регистрируйтесь ;)

Sergey
03.03.2017
19:55:55
Сергей, а какова тематика хакатона? Там с одной стороны написано про big data, но из "требований" можно сделать вывод, что это только чат-бот-фронт к некой внутренней системе.

Dan
03.03.2017
19:58:38
Похоже что так и есть. Немного не понятно только, какое будет апи
Но вообще интересно
Добавьте к главным призам еще тысяч 500 рублей, а то не солидно как-то
В прошлом году хакатон был с музыкальным чатботом
Там приз интереснее был