@bigdata_ru

Страница 49 из 327

osl

28.02.2017
08:11:55

Ребята, подскажите, есть несбалансированная выборка 1:50, я ее делю на тестовую и обучающую, обучающую овер сеплю и андерсеплю, на ней учусь xgb, все норм, на тестовой получается ерунда, что можно предпринять по этому поводу?

Andrey

28.02.2017
08:16:12

Какого рода ерунда?

Если модель обучилась до точности 98%, то на тесте те же 98% можно и без модели получить

osl

28.02.2017
08:35:05

Ну я не accuracy меряю, на обучении precision recall маленького класса ~90, на тесте 50%, 7% соответственно

Google

Constantine

28.02.2017
08:35:56

тестовая и обучающая выборки случайно выбираются?

пропорция между классами сохраняется?

osl

28.02.2017
08:36:41

Случайно. Сохраняется

Так, в тестовой сохраняется, в обучающей уже потом не сохраняется

Constantine

28.02.2017
09:01:10

может наоборот?

у тебя тестовая/обучающая какое соотношение

osl

28.02.2017
09:03:40

Тестовая обучающая 3/7. Не наоборот, потому что я же обучающую после разделения оверсемплю

Constantine

28.02.2017
09:05:57

раздели по отдельным классам и передай в http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

потом объедини

будет 1к50 в тестовой и учебной

osl

28.02.2017
09:17:42

Ну в смысле будет и там и там такая пропорция и просто на этом попробовать его обучить без генерации minority класса?

Andrey

28.02.2017
09:18:15

Для начала всегда нужно так делать

Потом смотреть, помогает ли балансировка классов

Google

Roman

28.02.2017
13:37:28

что думаете? https://nplus1.ru/news/2017/02/25/take

/dev

28.02.2017
14:55:56

что думаете? https://nplus1.ru/news/2017/02/25/take

что теперь ещё и за переобученными моделями баги исправлять придётся

Matwey

28.02.2017
15:01:36

что думаете? https://nplus1.ru/news/2017/02/25/take

А описание кто и в каком виде должен писать?

Constantine

01.03.2017
11:25:48

@Acapone какая связь с темой текущего чата?

Boris

01.03.2017
11:26:51

тыж программист

Dan

01.03.2017
11:27:55

это спам

Denis

01.03.2017
17:00:38

всем привет! есть клиентская база, нужно разбить на бизнес-группы некие. зачастую используется связка kNN +pca(2компоненты) и потом из изображают на 2D графике, где цвет - кластер, а оси - главные компоненты, но как понять что за кластеры с точки зрения бизнес-смысла получаются и как связать главные компоненты с изначальным набором переменных? метод в pca о доли объясненной дисперсии каждой компонентой мне кажется недостаточно информативен

Ivan

01.03.2017
17:31:05

А сколько изначально переменных? Вообще-то pca по сути отображает переменные в пространство где отсутвуют коррелируемые переменные. Для нахождения кластеров - пробовали сразу визуализировать данные с помощью t-SNE?

Denis

01.03.2017
20:03:33

А сколько изначально переменных? Вообще-то pca по сути отображает переменные в пространство где отсутвуют коррелируемые переменные. Для нахождения кластеров - пробовали сразу визуализировать данные с помощью t-SNE?

Denis Denis: изначально 4-5 переменных. вообще можно больше, но я рассматривал только переменные, которые являются долями и в сумме дают 1 (например доля трат клиентом в понедельник, вторник и т д по каждому дню дают в сумме 1)

Oleg

01.03.2017
21:52:47

У вас классно, но похоже я еще не готов осилить BD/ML ?

Natalia

02.03.2017
16:53:29

Всем привет! Я в поисках data scientist, горящего этим направлением, ничего против не имеющего банковского сектора, рассматривающего (вполне серьезно!) карьерные возможности, ожидающего хороший (!) уровнь финансовой компенсации! Отзовись! Резюме можно направлять в лс. Всем хорошего вечера!☺

Sergey

02.03.2017
19:06:01

Началось...

Волчик

02.03.2017
19:06:57

можно ли стать дата саентистом, имея образование 11 классов средней школы?

targitaj

02.03.2017
19:07:20

HR расчухали тему с телеграмом штоль

/dev

02.03.2017
19:08:55

Всем привет! Я в поисках data scientist, горящего этим направлением, ничего против не имеющего банковского сектора, рассматривающего (вполне серьезно!) карьерные возможности, ожидающего хороший (!) уровнь финансовой компенсации! Отзовись! Резюме можно направлять в лс. Всем хорошего вечера!☺

Ищем дата сатанистов @ Не называем цифры

targitaj

02.03.2017
19:09:18

Ищем дата сатанистов @ Не называем цифры

суммы

Natalia

02.03.2017
19:10:56

Расчухали))

По цифрам могу сориентировать в лс

Все очень индивидуально.

Смотрим людей только с высшим образованием.

Google

Волчик

02.03.2017
19:12:24

а если у меня статьи в журналах?

/dev

02.03.2017
19:13:02

Смотрим людей только с высшим образованием.

Смотрим на glassdor, ods, игнорируем всё, что меньше $4k в Москве

Artem

02.03.2017
19:13:04

а если у меня статьи в журналах?

И нет высшего? :D

Natalia

02.03.2017
19:13:30

К сожалению, пока только с релевантным опытом

Dan

02.03.2017
19:13:57

Я вот тут подумал

Надо бы обсудить с коллегами админами чатов по смежным тематикам, и может сделать канал или чат вакансий отдельно

Admin

ERROR: S client not available

Волчик

02.03.2017
19:16:41

И нет высшего? :D

Как Да Винчи

Artem

02.03.2017
19:16:48

Надо бы обсудить с коллегами админами чатов по смежным тематикам, и может сделать канал или чат вакансий отдельно

Он есть

https://telegram.me/joinchat/ABI4pz7v7KfJhb12XIkIUA

Или не то?

блин

Artem

02.03.2017
19:17:22

ссылка бита

Natalia

02.03.2017
19:25:19

Здорово! Спасибо большое за ссылку!

Rinat

03.03.2017
07:51:11

Ребята, подскажите, пожалуйста, инструмент, либу или способ решения задачи: есть 1 млн html файлов (объявления). Есть форма, которую нужно заполнить при анализе каждого файла и записать в базу, json (это пока не критично). Нужно выдернуть из описания подходящие под поле формы значения и записать. В настоящий момент не известно какие точно ключевые слова будут подходить для каждого поля, поэтому будет постанализ , чтобы делать корректировки в ключевые слова, а возможно и в стоп-слова

Constantine

03.03.2017
07:52:05

гугли scikit feature extraction

или nltoolkit более специализированная

targitaj

03.03.2017
08:56:40

Надо бы обсудить с коллегами админами чатов по смежным тематикам, и может сделать канал или чат вакансий отдельно

Хм... А потом набигать туда развлекаться

Rinat

03.03.2017
09:11:58

гугли scikit feature extraction

спасибо!

Sergey

03.03.2017
19:38:35

https://openbigdata.ru/

Google

Sergey

03.03.2017
19:38:43

Регистрируйтесь ;)

Sergey

03.03.2017
19:55:55

Сергей, а какова тематика хакатона? Там с одной стороны написано про big data, но из "требований" можно сделать вывод, что это только чат-бот-фронт к некой внутренней системе.

Dan

03.03.2017
19:58:38

Похоже что так и есть. Немного не понятно только, какое будет апи

Но вообще интересно

Добавьте к главным призам еще тысяч 500 рублей, а то не солидно как-то

В прошлом году хакатон был с музыкальным чатботом

Открыть в Telegram