@bigdata_ru

Страница 273 из 327
Sewerin
21.05.2018
07:05:20
Хотя, делить всё же стоит, хоть и одно сводимо к другому.

Vova
21.05.2018
07:06:32
Я говорил в контексте вашего вопроса.

Ну а если под "неметрическими" переменными подразумевается категориальные, то многие boosted trees заточены на пережёвывание датасетов именно с ними.

Причём без оцифровки (энкодинга).

Google
Паша
21.05.2018
07:11:30
+ еще может пригодиться метод Boruta (пакет borutapy в питоне)

это для отбора признаков

Vova
21.05.2018
07:12:12
Насколько я помню xgboost внутри энкодит категориальные фичи и это плохо. А вот Lightgbm - пережёвывает их нативно.

Ну и совсем нативно их кушает CatBoost насколько я помню - заодно и патриотизм можно свой подкрепить.

49060
21.05.2018
07:59:40
Всем привет

Может кто нибудь подробно объяснить что означает feature importance в ransom forest

Понятно, что важность признаков, а как именно он считается

Random*

Как объяснить эти магические цифры обычному человеку

Это не веса(как в линейных моделях), это не вклад в общую целевую переменную, тогда что?

И если есть ссылка почитать - было бы круто

Anna
21.05.2018
08:04:40
они характеризуют то, что мы теряем, если убираем признак. Или что приобретаем, если его добавляем. То есть к общей модели. Таким образом, если зависимость признака и результата была не линейная, а зависимость была в совокупности от нескольких признаков, то фича импотанс будет не сильно информативен. В этом плане хорошо делает встроенный функционал кэтбуста. Он умеет не только фича импотанс показывать, но и то же самое для связок из двоек/троек/четверок признаков.

Паша
21.05.2018
08:07:54
Скорее мы не убираем признак, а этот признак рандомно мешаем

Google
Anna
21.05.2018
08:08:32
Скорее мы не убираем признак, а этот признак рандомно мешаем
то есть? заменяем его значения случайным шумом?

Паша
21.05.2018
08:09:18
Нет, если представить обучающий набор как матрицу, то мы в колонке (фиче) случайно перемешываем значения

49060
21.05.2018
08:09:44
Я нашел документ вот такой

Но по русски бы чего нибудь)

Anna
21.05.2018
08:10:49
Но по русски бы чего нибудь)
отвыкайте раз и навсегда:)

Нет, если представить обучающий набор как матрицу, то мы в колонке (фиче) случайно перемешываем значения
хм. спасибо. покопаю в эту сторону. (пы.сы. но часть про кэтбуст все верно, ее можно в комменте читать:) )

Паша
21.05.2018
08:12:03
Там в этом документе, на сколько я понял, два вида рассматривается

Я говорил про второй тип

Я нашел документ вот такой
https://youtu.be/QV6hE-MY4CQ?t=16m7s

Вот тут лектор годно рассказывает про бустинговые модели, и на этом моменте говорит про информативность признаков

49060
21.05.2018
09:14:24
Спасибо

Anastasia
21.05.2018
09:18:20
вот может полезно будет

http://lightgbm.readthedocs.io/en/latest/Parameters-Tuning.html https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/ https://www.analyticsvidhya.com/blog/2017/06/which-algorithm-takes-the-crown-light-gbm-vs-xgboost/ http://lightgbm.readthedocs.io/en/latest/Parameters.html

Vova
21.05.2018
09:22:30
отвыкайте раз и навсегда:)
до какого то уровня nowadays можно-таки доползти без "технического" английского, но нюансы и относительно свежие тренды, конешь, можно найти в осноном только на английском. Или вот такие вещи: stats.stackexchange.com , там порой очень важные моменты подсвечивают

Anna
21.05.2018
09:26:37
до какого то уровня nowadays можно-таки доползти без "технического" английского, но нюансы и относительно свежие тренды, конешь, можно найти в осноном только на английском. Или вот такие вещи: stats.stackexchange.com , там порой очень важные моменты подсвечивают
я входила с бигдаты. На тот момент найти что-то толковое и глубокое по теме на русском не было шансов. С тех пор я не вижу тенденции, чтобы в бигдате стремились что-то переводить. В датасайнсе полегче, но только в последние годы. Ну и все-таки даже переведенные статьи лучше бы сверять с оригиналом. Могут быть важные расхождения, ведущие к непониманию вопроса.

Anna
21.05.2018
09:29:16
йеп

Андрей
21.05.2018
09:32:23
А есть здесь любители tensorflow?

Будут ли проблемы с вычислениями, если у меня i7 со встроенной видеокартой?

alex
21.05.2018
09:34:46
Рано или поздно будут

Google
Paul
21.05.2018
09:45:12
А есть здесь любители tensorflow?
Здесь наверное все кто работает с сетками знакомы с tf)

Будут ли проблемы с вычислениями, если у меня i7 со встроенной видеокартой?
Что бы работать с видеокартой вам нужна видео-карта с поддержкой CUDA. Иначе работать не будет. У вас есть еще возможность использовать tf не для видеокарт.

Paul
21.05.2018
09:49:43
tf поддерживает opencl
Хм.. то есть таки можно его использовать с встроенными картами по opencl. Думал, что нет.

Я просто изначально использую видеокарту от Nvidia и не заморачивался с другими вещами..

Mariia
21.05.2018
09:53:24
хочу купить ноут с mx150, а там только в феврале подвезли поддержку куды драйверами

хотя аппаратная уже год была

Vova
21.05.2018
10:05:42
я все вычисления делаю в облаке, "дома" у меня примитивные ноуты как терминалы RDP

GPU можно точно также арендовать у того же GCE

Mariia
21.05.2018
10:06:14
задумывалась над этим но смущает цена

Oleksandr
21.05.2018
10:06:30
Mariia
21.05.2018
10:06:44
кстати, а почему не амаз?
миллион шекелей?)

Oleksandr
21.05.2018
10:06:45
и тоже интересно про цену

@hitmaker у твоего бота false positive зашкаливает /=

Vova
21.05.2018
10:07:37
кстати, а почему не амаз?
это личное, был жуткий случай, регился на мазоне, какой то индус замучал верифицировать экаунт. У AZURE и GCE - "два щелчка", а у амазона то скриншот паспорта то ещё что то. Три недели переписывались. Осадочек остался.

Dan
21.05.2018
10:07:59
@hitmaker у твоего бота false positive зашкаливает /=
Нет, просто ты очень часто отправляешь сообщения :) flood-protect

Oleksandr
21.05.2018
10:08:12
Нет, просто ты очень часто отправляешь сообщения :) flood-protect
было аж два сообщения за хз сколько дней

Vova
21.05.2018
10:08:46
На самом деле для кластеров я использую scaleway и с недавних пор hetzner cloud

Google
Vova
21.05.2018
10:09:02
крайне дёшево

Admin
ERROR: S client not available

Mariia
21.05.2018
10:09:17
+ насчет гемора, та же ажура у нас требует что бы подписали и отправили им то ли в ирландию то ли еще куда-то договор

Vova
21.05.2018
10:09:18
но у них нет GPU

Mariia
21.05.2018
10:09:32
крайне дёшево
лол, у всех свои понятия. сколько?

Evgeniy
21.05.2018
10:09:40
задумывалась над этим но смущает цена
правило большого пальца: если платишь за электричество, облако выгоднее

Vova
21.05.2018
10:09:52
Mariia
21.05.2018
10:09:57
меня как то прошла эта участь...
многих тоже, наверное там от страны и времени регистрации зависит

Oleksandr
21.05.2018
10:10:05
в компании сейчас все gpu вычисления на амазоне, и мне интересно, есть ли смысл дергаться с переходом на gce

Vova
21.05.2018
10:10:48
https://www.hetzner.com/cloud (закладка цены)

Mariia
21.05.2018
10:11:03
https://www.scaleway.com/pricing/
эм а где там гпу или я слепая?

Evgeniy
21.05.2018
10:11:11
ох чет хз хз
естественно есть тонкости, но в первом приближение верно

Vova
21.05.2018
10:12:12
https://cloud.google.com/gpu/ это прайсинг чисто на GPU, им ещё нужны инстансы к которым можно подрубать

Mariia
21.05.2018
10:12:13
https://www.hetzner.com/cloud (закладка цены)
лол, мы про гпу говорим. про впску понятно что можно где угодно за копейки поднять

Vova
21.05.2018
10:12:37
кстати рекомендую использовать Preemptible

Vova
21.05.2018
10:13:13
ок

Google
Anna
21.05.2018
10:15:13
а можно более подробнее?
https://habr.com/post/348058/ например

Dmitry
21.05.2018
10:16:48
fast.ai перевели свой курс с амазона на https://www.paperspace.com/ Цены на GPU в принципе неплохие

Vova
21.05.2018
10:17:12
https://www.paperspace.com/pricing

мысли сходятся

там правда фикс платежи есть , ок 15 долл в месяц

Mariia
21.05.2018
10:18:13
8 баксов в месяц оч классная цена.. но не совсем понятно что ты получаешь

Vova
21.05.2018
10:19:19


Mariia
21.05.2018
10:21:23
а ты на F# под gpu пишешь?
нене, я только питон для этого дела

Dmitry
21.05.2018
10:23:57
а ты их юзаешь? не совсем поняла их план
Еще не использовал, но планирую. Последний раз нейронки обучал на floydhub.com, но они цены подняли достаточно ощутимо

Mariia
21.05.2018
10:25:27
Еще не использовал, но планирую. Последний раз нейронки обучал на floydhub.com, но они цены подняли достаточно ощутимо
напиши плиз если что, я не очень поняла, берут ли они фиксированную оплату а потом за часы, или за часы это на норм видюхах

Страница 273 из 327