@bigdata_ru

« Назад

Страница 109 из 327

Далее »

Grigory

19.07.2017
20:46:41

Спиннерами или криптовалютами?

Python'ер

19.07.2017
20:47:50

Спиннерами или криптовалютами?

Крышками от нюка-колы.

Dan

19.07.2017
21:16:44

Не главный, но я из этой компании

Из какой компании?

Реактос кстати уже сейчас поддерживает udf, ext234 и btrfs

А как же zfs? И что там с контейнерами?

Google

Tenni

19.07.2017
21:17:41

А как же zfs? И что там с контейнерами?

поддерживаю

Rostislav

20.07.2017
06:26:15

Ребят, привет. Кто-нибудь знает системы, запоминающие лицо человека, и затем распознающие его, если он был в базе?

Kaspar

20.07.2017
06:27:15

Findface b2b

Rostislav

20.07.2017
06:31:39

Ага, слышал про них. Только не нашел как у них система построена.

Alejandro

20.07.2017
06:38:41

А как же zfs? И что там с контейнерами?

При наличии btrfs без него можно обойтись.

Tenni

20.07.2017
06:48:34

При наличии btrfs без него можно обойтись.

это далеко не одно и то же

Alejandro

20.07.2017
06:49:15

Я и не говорил, что одно и то же

Daniil

20.07.2017
18:31:48

Чуваки, всем привет. Вопрос такой: сколько примерно стоит собрать небольшой сервер для вычислений на GPU? Облачное не подойдёт. Нужно для работы, а за год платы за сервак можно и рабочую станцию запилить...

Alex

20.07.2017
18:35:19

Чуваки, всем привет. Вопрос такой: сколько примерно стоит собрать небольшой сервер для вычислений на GPU? Облачное не подойдёт. Нужно для работы, а за год платы за сервак можно и рабочую станцию запилить...

«небольшой сервер» это очень абстрактно

Tenni

20.07.2017
18:35:49

напрямую от gpu цена зависит

Daniil

20.07.2017
18:35:50

Я понимаю, что это довольно абстрактно конечно, но могу уточнить, что приобретать будет компания, поэтому бюджет в принципе может быть приличным

Ivan

20.07.2017
18:42:00

Dgx-1 ваш выбор)))

Artem

20.07.2017
18:50:09

Dgx-1 ваш выбор)))

Ну, этотне панацея, иногда лучше что-нибудь другое)

Google

Ivan

20.07.2017
18:50:32

я полностью согласен с тобой, но какой вопрос - такой ответ=)

Нужно все ж больше контекста

Alex

20.07.2017
18:51:53

вот денег бы еще на dgx-1

домой поставить

Ivan

20.07.2017
18:52:37

там еще tower вроде обещают версию

есть еще devbox, кстати, побюджетней

Pipito

20.07.2017
19:59:45

Ребят, посоветуйте, какими способами можно сделать Feature Rank при простом алгоритме линейной регрессии и чтобы это не была простая корреляция.

Я просто создала новые параметры параметры в датасете и они коррелируют с целевой переменной

Но как отобрать самые оптимальные

Потому что, опираясь на простую корреляцию - все как-то очень плохо

Artyom

20.07.2017
20:26:36

https://www.kaggle.com/arthurtok/feature-ranking-w-randomforest-rfe-linear-models

и что конкретно плохо?

Pipito

20.07.2017
21:27:38

????

https://www.kaggle.com/arthurtok/feature-ranking-w-randomforest-rfe-linear-models

Cyril

21.07.2017
05:27:04

Ребята, есть задачка. Много параметров по точке, есть расход и доход по точке. Надо используя датасет с параметрами спрогнозировать доход и расход точки. Какую модель посоветуете. Может есть пример у кого?

Grail

21.07.2017
07:29:30

прогнозы это в регрессию

Cyril

21.07.2017
07:32:11

прогнозы это в регрессию

а если неизвестны параметры на прогнозную дату?

Grail

21.07.2017
07:33:35

monte-carlo? смотрите все возможные исходы событий

Alex

21.07.2017
07:33:40

Значит можно предсказывать интервал и какое-то среднее. А еще для такой задачи точное значение не имеет смысла так что можно побить на корзины

Cyril

21.07.2017
07:37:00

Значит можно предсказывать интервал и какое-то среднее. А еще для такой задачи точное значение не имеет смысла так что можно побить на корзины

т.е. предсказывать параметры и по ним применять модель регрессии, построенную на обучающей выборке? Или забить на фичи и предсказывать по расходу\доходу по предсказывающим моделям типа sarima?

Google

Alex

21.07.2017
07:42:42

Да вариантов много. Вообще для бизнеса странно что расходы и доходы не имеют какой-то зависимости. Я бы подумал в эту стороны и свел бы задачу к предсказанию только одной величины. После этого это становится ближе к регрессии.

Cyril

21.07.2017
08:19:36

ну я и планировал использовать один из показателей для построения модели регрессии для поиска другого и наоборот. Спасибо

Проксимов

21.07.2017
09:21:56

Вилку

Dan

21.07.2017
11:46:02

Вилку

бот убивает всё, где есть хх.ру ?

Nikolay

21.07.2017
11:49:41

тут это, послезавтра мы с топовым мэйнтейнером Gensim устраиваем в Москве спринт на тему "что такое gensim, почему он крут и как решать на нем задачи NLP"

https://www.meetup.com/Gensim-sprint/

присоединяйтесь

tonko

21.07.2017
11:53:27

хмм

а что-то полезное для тех кто имеет опыт в nlp /дистрибутивной семантике будет ?

Nikolay

21.07.2017
12:00:24

а что-то полезное для тех кто имеет опыт в nlp /дистрибутивной семантике будет ?

ну, как минимум можно будет позадавать вопросы глубокие и поругать, если что-то не нравится

tonko

21.07.2017
12:04:08

ну, как минимум можно будет позадавать вопросы глубокие и поругать, если что-то не нравится

заманчиво, однако.

Nikolay

21.07.2017
12:04:38

заманчиво, однако.

го на канал https://opendatascience.slack.com/messages/C6BSU1BTN/

Andrey

21.07.2017
12:16:33

кстати, насчет nlp - у кого нибудь есть опыт реального использования вот этой библиотеки?

https://spacy.io/

tonko

21.07.2017
12:18:08

у меня она не встала с пипа, но я прочитал уже половину документации

Admin

ERROR: S client not available

Andrey

21.07.2017
12:20:22

я пока ее мало поковырял, но она привлекла меня ( судя по описанию) тем, что при токенизации текста она может в один токен запихнуть устойчивое выражение ( то есть если вместе два слова означают одно, а по отдельности совсем другое) - пока до этого не дошел, вот хотел узнать, реально это работает или нет

tonko

21.07.2017
12:23:57

я пока ее мало поковырял, но она привлекла меня ( судя по описанию) тем, что при токенизации текста она может в один токен запихнуть устойчивое выражение ( то есть если вместе два слова означают одно, а по отдельности совсем другое) - пока до этого не дошел, вот хотел узнать, реально это работает или нет

поддержу русского надо проверить, но судя по докам ее нет.

bebebe

21.07.2017
12:25:03

http://rusvectores.org/ru/

Cyril

21.07.2017
13:09:35

Народ, ещё вопрос. У меня в датасете очень много фич, я посмотрел корреляцию и оставил те фичи, и обучил по ним пару моделей регрессии. Ошибки по кфолд в среднем около 22%. Попробовал не убирать лишние фичи - ошибки около 16%. Скажите, мне убирать фичи или со всеми модель делать? Не получилось ли, что я переучил модель?

Google

Alex

21.07.2017
13:15:12

Народ, ещё вопрос. У меня в датасете очень много фич, я посмотрел корреляцию и оставил те фичи, и обучил по ним пару моделей регрессии. Ошибки по кфолд в среднем около 22%. Попробовал не убирать лишние фичи - ошибки около 16%. Скажите, мне убирать фичи или со всеми модель делать? Не получилось ли, что я переучил модель?

Много это сколько? Что за фичи? Какая регрессия? Что с регуляризаций? сколько фолдов? Какого размера датасет? Как границу по корреляции выбирали? ну нельзя такие вопросы задавать. информации для ответа - 0

Cyril

21.07.2017
13:28:14

Много это сколько? Что за фичи? Какая регрессия? Что с регуляризаций? сколько фолдов? Какого размера датасет? Как границу по корреляции выбирали? ну нельзя такие вопросы задавать. информации для ответа - 0

Я ж нуб. 40 фич, после корреляции оставил около 12. Регрессии: линейная, xgboost, catboost. Фолдов 10, записей 550. Границу 0.4 выбрал от балды. Пробовал нормплизовывать, погрешность сильно не менялась.

Oleksandr

21.07.2017
13:31:02

о, как catboost ?

Cyril

21.07.2017
13:32:51

о, как catboost ?

Заметно быстрее xgboost, но погрешность стабильно больше на пару процентов. Но это с настройками по дефолту.

Ещё не разбирался с аттрибутами

Andrey

21.07.2017
13:34:59

Я ж нуб. 40 фич, после корреляции оставил около 12. Регрессии: линейная, xgboost, catboost. Фолдов 10, записей 550. Границу 0.4 выбрал от балды. Пробовал нормплизовывать, погрешность сильно не менялась.

Границу чего?

Cyril

21.07.2017
13:35:13

Границу чего?

По корреляции

Свыше 0.4 убирал

Andrey

21.07.2017
13:35:56

Надо брать 0.9, 0.95 или даже 0.99

Grail

21.07.2017
13:36:25

зависимость между features имеется в виду

Andrey

21.07.2017
13:36:45

Ну и 40 - это мало фич, а не много

Если данных хотя бы пара тысяч наблюдений

Cyril

21.07.2017
13:37:22

Надо брать 0.9, 0.95 или даже 0.99

Оу, ну тогда ясно. Таких фич всего пару штук было.

Спасибо

Artyom

21.07.2017
13:37:49

гоняете шум

нарушение правила 20 EPV

Cyril

21.07.2017
13:38:04

Лагов добавить?

Andrey

21.07.2017
13:38:15

Проще PCA применить и взять 20-30 главных компонент

Grail

21.07.2017
13:38:26

Оу, ну тогда ясно. Таких фич всего пару штук было.

не нужно так делать, между фичами корреляции быть не должно, вас не правильно поняли

Cyril

21.07.2017
13:39:04

не нужно так делать, между фичами корреляции быть не должно, вас не правильно поняли

Открыть в Telegram