@bigdata_ru

Страница 109 из 327
Grigory
19.07.2017
20:46:41
Спиннерами или криптовалютами?

Python'ер
19.07.2017
20:47:50
Спиннерами или криптовалютами?
Крышками от нюка-колы.

Dan
19.07.2017
21:16:44
Реактос кстати уже сейчас поддерживает udf, ext234 и btrfs
А как же zfs? И что там с контейнерами?

Google
Tenni
19.07.2017
21:17:41
Rostislav
20.07.2017
06:26:15
Ребят, привет. Кто-нибудь знает системы, запоминающие лицо человека, и затем распознающие его, если он был в базе?

Kaspar
20.07.2017
06:27:15
Findface b2b

Rostislav
20.07.2017
06:31:39
Ага, слышал про них. Только не нашел как у них система построена.

Alejandro
20.07.2017
06:38:41
А как же zfs? И что там с контейнерами?
При наличии btrfs без него можно обойтись.

Tenni
20.07.2017
06:48:34
Alejandro
20.07.2017
06:49:15
Я и не говорил, что одно и то же

Daniil
20.07.2017
18:31:48
Чуваки, всем привет. Вопрос такой: сколько примерно стоит собрать небольшой сервер для вычислений на GPU? Облачное не подойдёт. Нужно для работы, а за год платы за сервак можно и рабочую станцию запилить...

Tenni
20.07.2017
18:35:49
напрямую от gpu цена зависит

Daniil
20.07.2017
18:35:50
Я понимаю, что это довольно абстрактно конечно, но могу уточнить, что приобретать будет компания, поэтому бюджет в принципе может быть приличным

Ivan
20.07.2017
18:42:00
Dgx-1 ваш выбор)))

Artem
20.07.2017
18:50:09
Dgx-1 ваш выбор)))
Ну, этотне панацея, иногда лучше что-нибудь другое)

Google
Ivan
20.07.2017
18:50:32
я полностью согласен с тобой, но какой вопрос - такой ответ=)

Нужно все ж больше контекста

Alex
20.07.2017
18:51:53
вот денег бы еще на dgx-1

домой поставить

Ivan
20.07.2017
18:52:37
там еще tower вроде обещают версию

есть еще devbox, кстати, побюджетней

Pipito
20.07.2017
19:59:45
Ребят, посоветуйте, какими способами можно сделать Feature Rank при простом алгоритме линейной регрессии и чтобы это не была простая корреляция.

Я просто создала новые параметры параметры в датасете и они коррелируют с целевой переменной

Но как отобрать самые оптимальные

Потому что, опираясь на простую корреляцию - все как-то очень плохо

Artyom
20.07.2017
20:26:36
https://www.kaggle.com/arthurtok/feature-ranking-w-randomforest-rfe-linear-models

и что конкретно плохо?

Pipito
20.07.2017
21:27:38
????

https://www.kaggle.com/arthurtok/feature-ranking-w-randomforest-rfe-linear-models

Cyril
21.07.2017
05:27:04
Ребята, есть задачка. Много параметров по точке, есть расход и доход по точке. Надо используя датасет с параметрами спрогнозировать доход и расход точки. Какую модель посоветуете. Может есть пример у кого?

Grail
21.07.2017
07:29:30
прогнозы это в регрессию

Cyril
21.07.2017
07:32:11
прогнозы это в регрессию
а если неизвестны параметры на прогнозную дату?

Grail
21.07.2017
07:33:35
monte-carlo? смотрите все возможные исходы событий

Alex
21.07.2017
07:33:40
Значит можно предсказывать интервал и какое-то среднее. А еще для такой задачи точное значение не имеет смысла так что можно побить на корзины

Cyril
21.07.2017
07:37:00
Значит можно предсказывать интервал и какое-то среднее. А еще для такой задачи точное значение не имеет смысла так что можно побить на корзины
т.е. предсказывать параметры и по ним применять модель регрессии, построенную на обучающей выборке? Или забить на фичи и предсказывать по расходу\доходу по предсказывающим моделям типа sarima?

Google
Alex
21.07.2017
07:42:42
Да вариантов много. Вообще для бизнеса странно что расходы и доходы не имеют какой-то зависимости. Я бы подумал в эту стороны и свел бы задачу к предсказанию только одной величины. После этого это становится ближе к регрессии.

Cyril
21.07.2017
08:19:36
ну я и планировал использовать один из показателей для построения модели регрессии для поиска другого и наоборот. Спасибо

Проксимов
21.07.2017
09:21:56
Вилку

Dan
21.07.2017
11:46:02
Вилку
бот убивает всё, где есть хх.ру ?

Nikolay
21.07.2017
11:49:41
тут это, послезавтра мы с топовым мэйнтейнером Gensim устраиваем в Москве спринт на тему "что такое gensim, почему он крут и как решать на нем задачи NLP"

https://www.meetup.com/Gensim-sprint/

присоединяйтесь

tonko
21.07.2017
11:53:27
хмм

а что-то полезное для тех кто имеет опыт в nlp /дистрибутивной семантике будет ?

Nikolay
21.07.2017
12:00:24
а что-то полезное для тех кто имеет опыт в nlp /дистрибутивной семантике будет ?
ну, как минимум можно будет позадавать вопросы глубокие и поругать, если что-то не нравится

Nikolay
21.07.2017
12:04:38
заманчиво, однако.
го на канал https://opendatascience.slack.com/messages/C6BSU1BTN/

Andrey
21.07.2017
12:16:33
кстати, насчет nlp - у кого нибудь есть опыт реального использования вот этой библиотеки?

https://spacy.io/

tonko
21.07.2017
12:18:08
у меня она не встала с пипа, но я прочитал уже половину документации

Admin
ERROR: S client not available

Andrey
21.07.2017
12:20:22
я пока ее мало поковырял, но она привлекла меня ( судя по описанию) тем, что при токенизации текста она может в один токен запихнуть устойчивое выражение ( то есть если вместе два слова означают одно, а по отдельности совсем другое) - пока до этого не дошел, вот хотел узнать, реально это работает или нет

bebebe
21.07.2017
12:25:03
http://rusvectores.org/ru/

Cyril
21.07.2017
13:09:35
Народ, ещё вопрос. У меня в датасете очень много фич, я посмотрел корреляцию и оставил те фичи, и обучил по ним пару моделей регрессии. Ошибки по кфолд в среднем около 22%. Попробовал не убирать лишние фичи - ошибки около 16%. Скажите, мне убирать фичи или со всеми модель делать? Не получилось ли, что я переучил модель?

Google
Alex
21.07.2017
13:15:12
Cyril
21.07.2017
13:28:14
Много это сколько? Что за фичи? Какая регрессия? Что с регуляризаций? сколько фолдов? Какого размера датасет? Как границу по корреляции выбирали? ну нельзя такие вопросы задавать. информации для ответа - 0
Я ж нуб. 40 фич, после корреляции оставил около 12. Регрессии: линейная, xgboost, catboost. Фолдов 10, записей 550. Границу 0.4 выбрал от балды. Пробовал нормплизовывать, погрешность сильно не менялась.

Oleksandr
21.07.2017
13:31:02
о, как catboost ?

Cyril
21.07.2017
13:32:51
о, как catboost ?
Заметно быстрее xgboost, но погрешность стабильно больше на пару процентов. Но это с настройками по дефолту.

Ещё не разбирался с аттрибутами

Cyril
21.07.2017
13:35:13
Границу чего?
По корреляции

Свыше 0.4 убирал

Andrey
21.07.2017
13:35:56
Надо брать 0.9, 0.95 или даже 0.99

Grail
21.07.2017
13:36:25
зависимость между features имеется в виду

Andrey
21.07.2017
13:36:45
Ну и 40 - это мало фич, а не много

Если данных хотя бы пара тысяч наблюдений

Cyril
21.07.2017
13:37:22
Надо брать 0.9, 0.95 или даже 0.99
Оу, ну тогда ясно. Таких фич всего пару штук было.

Спасибо

Artyom
21.07.2017
13:37:49
гоняете шум

нарушение правила 20 EPV

Cyril
21.07.2017
13:38:04
Лагов добавить?

Andrey
21.07.2017
13:38:15
Проще PCA применить и взять 20-30 главных компонент

Grail
21.07.2017
13:38:26
Оу, ну тогда ясно. Таких фич всего пару штук было.
не нужно так делать, между фичами корреляции быть не должно, вас не правильно поняли

Страница 109 из 327