
Sewerin
21.05.2018
07:05:20
Хотя, делить всё же стоит, хоть и одно сводимо к другому.

Vova
21.05.2018
07:06:32
Я говорил в контексте вашего вопроса.
Ну а если под "неметрическими" переменными подразумевается категориальные, то многие boosted trees заточены на пережёвывание датасетов именно с ними.
Причём без оцифровки (энкодинга).

Google

Паша
21.05.2018
07:11:30
+ еще может пригодиться метод Boruta (пакет borutapy в питоне)
это для отбора признаков

Vova
21.05.2018
07:12:12
Насколько я помню xgboost внутри энкодит категориальные фичи и это плохо. А вот Lightgbm - пережёвывает их нативно.
Ну и совсем нативно их кушает CatBoost насколько я помню - заодно и патриотизм можно свой подкрепить.

49060
21.05.2018
07:59:40
Всем привет
Может кто нибудь подробно объяснить что означает feature importance в ransom forest
Понятно, что важность признаков, а как именно он считается
Random*
Как объяснить эти магические цифры обычному человеку
Это не веса(как в линейных моделях), это не вклад в общую целевую переменную, тогда что?
И если есть ссылка почитать - было бы круто

Anna
21.05.2018
08:04:40
они характеризуют то, что мы теряем, если убираем признак. Или что приобретаем, если его добавляем. То есть к общей модели. Таким образом, если зависимость признака и результата была не линейная, а зависимость была в совокупности от нескольких признаков, то фича импотанс будет не сильно информативен. В этом плане хорошо делает встроенный функционал кэтбуста. Он умеет не только фича импотанс показывать, но и то же самое для связок из двоек/троек/четверок признаков.

Паша
21.05.2018
08:07:54
Скорее мы не убираем признак, а этот признак рандомно мешаем

Google

Anna
21.05.2018
08:08:32

Паша
21.05.2018
08:09:18
Нет, если представить обучающий набор как матрицу, то мы в колонке (фиче) случайно перемешываем значения

49060
21.05.2018
08:09:44
Я нашел документ вот такой
Но по русски бы чего нибудь)

Anna
21.05.2018
08:10:49

Паша
21.05.2018
08:12:03
Там в этом документе, на сколько я понял, два вида рассматривается
Я говорил про второй тип
Вот тут лектор годно рассказывает про бустинговые модели, и на этом моменте говорит про информативность признаков

49060
21.05.2018
09:14:24
Спасибо

Anastasia
21.05.2018
09:18:20
вот может полезно будет
http://lightgbm.readthedocs.io/en/latest/Parameters-Tuning.html
https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/
https://www.analyticsvidhya.com/blog/2017/06/which-algorithm-takes-the-crown-light-gbm-vs-xgboost/
http://lightgbm.readthedocs.io/en/latest/Parameters.html

Vova
21.05.2018
09:22:30
отвыкайте раз и навсегда:)
до какого то уровня nowadays можно-таки доползти без "технического" английского, но нюансы и относительно свежие тренды, конешь, можно найти в осноном только на английском. Или вот такие вещи: stats.stackexchange.com , там порой очень важные моменты подсвечивают

Anna
21.05.2018
09:26:37

Vova
21.05.2018
09:29:04

Anna
21.05.2018
09:29:16
йеп

Андрей
21.05.2018
09:32:23
А есть здесь любители tensorflow?
Будут ли проблемы с вычислениями, если у меня i7 со встроенной видеокартой?

alex
21.05.2018
09:34:46
Рано или поздно будут

Google

Paul
21.05.2018
09:45:12

Evgeniy
21.05.2018
09:48:27

Paul
21.05.2018
09:49:43
tf поддерживает opencl
Хм.. то есть таки можно его использовать с встроенными картами по opencl. Думал, что нет.
Я просто изначально использую видеокарту от Nvidia и не заморачивался с другими вещами..

Mariia
21.05.2018
09:53:24
хочу купить ноут с mx150, а там только в феврале подвезли поддержку куды драйверами
хотя аппаратная уже год была

Vova
21.05.2018
10:05:42
я все вычисления делаю в облаке, "дома" у меня примитивные ноуты как терминалы RDP
GPU можно точно также арендовать у того же GCE

Mariia
21.05.2018
10:06:14
задумывалась над этим но смущает цена

Oleksandr
21.05.2018
10:06:30

Mariia
21.05.2018
10:06:44

Oleksandr
21.05.2018
10:06:45
и тоже интересно про цену
@hitmaker у твоего бота false positive зашкаливает /=

Vova
21.05.2018
10:07:37
кстати, а почему не амаз?
это личное, был жуткий случай, регился на мазоне, какой то индус замучал верифицировать экаунт. У AZURE и GCE - "два щелчка", а у амазона то скриншот паспорта то ещё что то. Три недели переписывались. Осадочек остался.

Dan
21.05.2018
10:07:59

Oleksandr
21.05.2018
10:08:12

Vova
21.05.2018
10:08:46
На самом деле для кластеров я использую scaleway и с недавних пор hetzner cloud

Google

Mariia
21.05.2018
10:08:51

Vova
21.05.2018
10:09:02
крайне дёшево

Admin
ERROR: S client not available

Mariia
21.05.2018
10:09:17
+ насчет гемора, та же ажура у нас требует что бы подписали и отправили им то ли в ирландию то ли еще куда-то договор

Vova
21.05.2018
10:09:18
но у них нет GPU

Mariia
21.05.2018
10:09:32

Vova
21.05.2018
10:09:35

Evgeniy
21.05.2018
10:09:40

Vova
21.05.2018
10:09:52

Mariia
21.05.2018
10:09:57

Oleksandr
21.05.2018
10:10:05
в компании сейчас все gpu вычисления на амазоне, и мне интересно, есть ли смысл дергаться с переходом на gce

Mariia
21.05.2018
10:10:24

Vova
21.05.2018
10:10:48
https://www.hetzner.com/cloud (закладка цены)

Mariia
21.05.2018
10:11:03

Evgeniy
21.05.2018
10:11:11
ох чет хз хз
естественно есть тонкости, но в первом приближение верно

Vova
21.05.2018
10:12:12
https://cloud.google.com/gpu/ это прайсинг чисто на GPU, им ещё нужны инстансы к которым можно подрубать

Mariia
21.05.2018
10:12:13

Vova
21.05.2018
10:12:37
кстати рекомендую использовать Preemptible

Mariia
21.05.2018
10:13:05

Vova
21.05.2018
10:13:13
ок

Google

Anna
21.05.2018
10:15:13

Dmitry
21.05.2018
10:16:48
fast.ai перевели свой курс с амазона на https://www.paperspace.com/
Цены на GPU в принципе неплохие

Vova
21.05.2018
10:17:12
https://www.paperspace.com/pricing
мысли сходятся
там правда фикс платежи есть , ок 15 долл в месяц

Mariia
21.05.2018
10:18:13
8 баксов в месяц оч классная цена.. но не совсем понятно что ты получаешь

Vova
21.05.2018
10:19:19

Roman
21.05.2018
10:20:38

Mariia
21.05.2018
10:21:23

Dmitry
21.05.2018
10:23:57

Mariia
21.05.2018
10:25:27