@bigdata_ru

Страница 165 из 327
Kirill
24.10.2017
11:04:45
потому и не нахватает лишнего

Lepus
24.10.2017
11:11:37
несколько десятков
Как ты разбивку по множествам, кстати, делаешь?

Train, test, validation

Vova
24.10.2017
11:15:07
Google
Vova
24.10.2017
11:15:43
оставшиеся 80% пользуются для CV через разбиение 4fold, 10раз. Т.е. 40 раз.

после того как модель найдена через 4fold CV по 40 забегам (4x10), вынимаю загашник 20% и смотрю резалт

он идёт в глобальный score, который я выводил выше

Lepus
24.10.2017
11:17:03
Нормально

Vova
24.10.2017
11:17:33
всё это проделывается на множестве задач - порядка 3000

3000 фирм

и уже по ним строятся средние о которых я писал

щас ищу в инете все упоминания fail-ов xgboost, для понимания что же является "плохой" областью

редко, очень редко встречаются такие, но все в области time series, что характерно

http://ellisp.github.io/blog/2016/11/06/forecastxgb

не хотел я стакингом заниматься, но наверно придётся строить... ну хоть что то xgboost должна же высосать

т.е. взять Ridge за основу и прикрутить туда xgb на резидуалс или как то ещё

Lepus
24.10.2017
11:35:29
редко, очень редко встречаются такие, но все в области time series, что характерно
У time series проблемы с функциональным приближением градиента ошибки

Google
Черный Мойведь
24.10.2017
12:30:39


Andrey
24.10.2017
12:33:25
[:|:|:|:]

Vova
24.10.2017
12:33:53
я вроде знаю этот стартап

они всех хотят обучать с помощью AI, который обучается образцовыми учителями (репетиторами)

Andrey
24.10.2017
12:34:26
Много их

Vova
24.10.2017
12:34:29
если ничо не путаю

Vyaches
24.10.2017
12:39:18
друзья. всем привет. кто может подсказать, как при помощи сверточной сети попробовать спрогнозировать перемещение обьекта? чтобы было понятно: есть поле давления,и два поля скорости ветра(по Х и по У). Как спрогнозировать перемещение на основе данных о скорости ветра? Логично, что нужен кодировщик... но вот более конкретно. Слои, функции активации, и т.д. Задача не обычная, информации в интернете не нашел((. Может быть кто-нибудь чтонибудь подскажет?Есть идеи?)

Andrey
24.10.2017
13:18:01
Обучающая выборка нужна, а не слои с кодировщиками

Denis
24.10.2017
13:55:56
в школе вроде без сверточных сетей обходились при решении таких задач)

Vyaches
24.10.2017
14:01:50
Обучающая выборка нужна, а не слои с кодировщиками
выборка длиной в 4 года устроит? Данные уже есть, теперь разбираюсь с алгоритмом...

Maria
24.10.2017
14:04:07
а выборка из каких данных состоит? интересно просто, решаю похожую задачу но без сеток. а в каком масштабе решается задача?

Tony
24.10.2017
14:19:49
что с этим делать знает кто? IPython.core.error.UsageError: Invalid GUI request 'inline', valid ones are:dict_keys(['none', 'osx', 'tk', 'gtk', 'wx', 'qt', 'qt4', 'qt5', 'glut', 'pyglet', 'gtk3'])

Vyaches
24.10.2017
14:30:28
а выборка из каких данных состоит? интересно просто, решаю похожую задачу но без сеток. а в каком масштабе решается задача?
Выборка состоит из полей интересующих величин(к примеру: давление, температура, ветер, и т.д)

Tony
24.10.2017
14:33:14
Andrey
24.10.2017
14:38:03
Табличку с парой строк бы увидеть...

Vyaches
24.10.2017
14:39:56
Что есть поле величины?
Поле давления: [[1000,1001,1004], [1000,1002,1003], [1001,1003,1003]]

Только в масштабе земного полушария, к примеру.

Andrey
24.10.2017
14:41:11
Тогда да, можно свертки применять

Google
Andrey
24.10.2017
14:42:13
На вход 3d-тензор с пространственными измерениями и глубиной по числу величин (t, давление)

В пространстве сколько точек? 100х100, 1000х1000?

Vyaches
24.10.2017
14:50:09
В пространстве сколько точек? 100х100, 1000х1000?
Не имеет значения. Любые размеры. Если с шагом по планете в 1 градус, то 180*360.

Daniil "dgaponov"
24.10.2017
17:16:43
Всем привет. Мне нужно собрать датасет из сообщений/постов/статей с тематикой оскорбления чувств верующих, призывов к митингам, продаже наркотиков, проституции и подобного рода тематик. Где лучше собрать? Хочу по апи вк, но не могу подобрать нормальные ключевики для поиска (все время одна порнуха). Буду очень благодарен за любую наводку)

Vova
24.10.2017
17:25:43
можем сюда накидать

шутка

Artem
24.10.2017
17:31:32
Давайте все вместе поднажмем

Vova
24.10.2017
17:32:57
сначала нужно попросить индульгенцию у модератора

Daniil "dgaponov"
24.10.2017
17:34:34
а тут все пойдет

что якобы мешает информационной безопасности общества

Kirill
24.10.2017
17:35:38
ну да, так и понял) забавно просто

Alexandr
24.10.2017
17:35:49
что якобы мешает информационной безопасности общества
Ну смотри. Составь список прошедших митингов спорных

И по датам делай поисковый запрос к вк-ленте

Найдешь анонсы мероприятий

Vova
24.10.2017
17:36:25
сижу, слушаю и офигеваю

Alexandr
24.10.2017
17:36:32
Там же комментарии и репосты анонсов и комментарии к ним

Вот тебе и будет "материал"

Vova
24.10.2017
17:37:44
Конституция РФ Статья 31 Граждане Российской Федерации имеют право собираться мирно без оружия, проводить собрания, митинги и демонстрации, шествия и пикетирование.

Alexandr
24.10.2017
17:38:49
С оскорблениями сложнее, но вспомни последние муссируемые в СМИ истории типа Матильды и покемонов в храмах - по этим словам аналогично насобирай из ленты + комментарии репостов - срач там будет в ассортименте.

Google
A
24.10.2017
17:39:36
я бы посмотрел на решения суда которые принимались по этим статьям. там-то точно плохие тексты.

Vova
24.10.2017
17:40:28
И это прекрасно, что мы живём в такой свободной стране
я иногда перечитываю конституцию РФ (и всем советую), очень отрезвляет.

Alexandr
24.10.2017
17:41:31
я иногда перечитываю конституцию РФ (и всем советую), очень отрезвляет.
И на трезвую голову конституции других стран читали? Где именно вам бы бОльше хотелось жить?

yopp
24.10.2017
17:42:17
чятаны, давайте с политикой завязывайте

Alexandr
24.10.2017
17:43:13
Сколько % done?

Artem
24.10.2017
17:57:36
Читаю сейчас Брэнсона, так тот себе остров (Некер) всего за 175 тысяч фунтов купил когда-то

Правда инфраструктура намного дороже обошлась

Для ИИ спеца это не деньги, ребят

/dev
24.10.2017
18:02:58
существует ли отдельно список всего, что могут трактовать оружием?
Существует готовая классификация вплоть до указания дульной энергии снаряда

Jan
24.10.2017
20:36:44
Anyone looking for junior assistance?

Devanya
25.10.2017
01:31:18
AIs promise and risks https://www.techgig.com/tech-news/AI-s-promise-and-risks-136237

Andrey
25.10.2017
05:12:07
Не имеет значения. Любые размеры. Если с шагом по планете в 1 градус, то 180*360.
Значение имеет. 1000х1000 в VGG или другой подобной архитектуре потребует овердофига памяти GPU. А так - начните с обычной архитектуры Lenet

На входе все равно почти что картинка, на выходе - надо решить, но пусть даже вектор координат

Lepus
25.10.2017
05:22:45
Всем доброго утра! Интересует вопрос в ритейле и продуктовой аналитике Пробовал ли кто-нибудь считать: - ценовую эластичность по товарам на основе исторических данных по продажам и изменению цен - взаимное влияние цен различных товаров друг на друга (например, товар подорожал, но у него есть товар-заменитель и все продажи перемещаются туда, или наоборот подешевел, и начинает подъедать продажи похожих товаров)

Alexandr
25.10.2017
05:55:03
Предположу прежде чем пытаться это счетать вам стоит пообщаться с кем-то из крупного ретейла, кто с этим связан. Т.к. есть ощущение, что крупный ретейл сознательно старается вести к неэластичности.

Google
Tatiana
25.10.2017
06:36:00
Всем привет! Есть база данных, в которой хранятся адреса производителей продукции. Эти самые адреса вносятся вручную пользователем, а хранятся они убожествейнишим образом - varchar. То есть в общем итоге, в базе куча дублирующихся адресов, которые отличаются друг от друга перестановкой слов и сокращениями. Каким вариантом можно решить проблему с дублированием? Я начиталась про MDM системы, может кто посоветует насчет них?

Tatiana
25.10.2017
06:53:28
Просто возможно, в дальнейшем может возникнуть проблема не только с адресами... хотелось бы универсальное решение проблемы дублирования

Alexandr
25.10.2017
06:58:32
Это не так)
Расскажите о своё опыте) Просто на "эластичность" влияет ассортимент и выкладка. Это как раз то в чём Ашаны эксперты. Там наверняка есть свой взгляд на эти вопросы

Просто возможно, в дальнейшем может возникнуть проблема не только с адресами... хотелось бы универсальное решение проблемы дублирования
"универсального решения" любых проблем скорее всего нет либо оно будет стоить вам как Боинг. Так что как предлагали выше начните с геокодера яндекса

Drino
25.10.2017
07:03:12
Просто возможно, в дальнейшем может возникнуть проблема не только с адресами... хотелось бы универсальное решение проблемы дублирования
Если этого будет действительно много и хочется поддерживать велосипед - MDM звучит хорошо. А так у Яндекса есть ещё справочник по организациям (хоть я и не уверен, насколько он хорош в данном конкретном случае).

Tatiana
25.10.2017
07:07:10
Велосипед поддерживать мало хочется, но базы на пару лямов записей и постоянно пополняются. Пока мне сообщили только о дублировании с адресами и наименованием производителей, а что еще может вскрыться, кто знает. Для аналитики хотелось бы чтобы базы были приведены в порядок и в дальнейшем бардак не разводить.

Drino
25.10.2017
07:19:33
Велосипед поддерживать мало хочется, но базы на пару лямов записей и постоянно пополняются. Пока мне сообщили только о дублировании с адресами и наименованием производителей, а что еще может вскрыться, кто знает. Для аналитики хотелось бы чтобы базы были приведены в порядок и в дальнейшем бардак не разводить.
Честно говоря не знаю, как тут поступить лучше. Мне кажется, что можно сделать для аналитики маленький кастомный велосипед с заменой сокращений (их можно искать с помощью частотного анализа) и оценки расстояния по, например, мешку слов.

Tatiana
25.10.2017
07:21:26
Хорошо, спасибо большое за совет :)

Boris
25.10.2017
08:05:38
Всем привет! Есть база данных, в которой хранятся адреса производителей продукции. Эти самые адреса вносятся вручную пользователем, а хранятся они убожествейнишим образом - varchar. То есть в общем итоге, в базе куча дублирующихся адресов, которые отличаются друг от друга перестановкой слов и сокращениями. Каким вариантом можно решить проблему с дублированием? Я начиталась про MDM системы, может кто посоветует насчет них?
можно взять алгоритм для сравнения похожести слов. дальше разбиваешь каждый адрес на слова, таким образом адрес представляется как множество слов. и считаешь для каждой пары адресов коэффициент жаккарда, где совпадающими считаешь очень близкие слова. эмпирически подбираешь значение при котором два адреса объявляются одинаковыми. в моем случае сравнивались названия фирм, было в районе 0.7

Страница 165 из 327