@bigdata_ru

Страница 220 из 327
Sergey
28.01.2018
19:15:01
Большие данные. Принципы и практика построения масштабируемых систем обработки данных в реальном времени

Peter
28.01.2018
19:15:15
Интегрировать ради чего?
Я объясню, возможно некорректно написал, сейчас распишу подробнее. Нужно создать сайт, по сути система тестирования, где могут взаимодействовать люди друг с другом. В системе должны быть предусмотрены разные роли тестируемого и человека, который должен проводить тест. Тестриуемый может о себе оставлять информацию на сайте, а человек, проводящий тесты должен выбирать тех, кто будет проходить тест. По информации о прохождении тестов + по личной информации (личные качества, скилы и т.д.) , надо построить модель, которая будет показывать, насколько хорошо будет подходить тот или иной кандидат для тестирования. Могу еще подробнее расписать, но вкратце так)

Google
Peter
28.01.2018
19:15:23
Признателен за ваши ответы!

Sergey
28.01.2018
19:15:54
Oleg
28.01.2018
19:18:12
еще такой момент, книга сама по себе старая - 2012 года. И например там описываются библиотеки которые уже умерли

yopp
29.01.2018
20:48:04
http://www.nyriad.com/products/nsulate/

Dan
29.01.2018
20:48:55
Ничего себе

dot
30.01.2018
02:21:24
блин как же это все охрененно!! http://robotclass.ru/tutorials/opencv-moments-color-object-search/

Vyaches
30.01.2018
19:52:31
Не сочтите за рекламу... Ребята крутую рекламу на ютубе запустили)) тафталогия :D Гляньте прост, можт кому-то пригодится. Стажи, как-никак. https://www.youtube.com/watch?v=KxoYURwZcIA

Pipito
30.01.2018
19:53:42
нормас тема

Pipito
30.01.2018
19:53:51
иногда пилит такие видосы

годные

Google
Pipito
30.01.2018
19:54:10
тоже советую

Vyaches
30.01.2018
19:54:27
:DD Я вот хотел бы пойти к ним на стажи, но я с Питера, увы.

#thegirlwhocodes
31.01.2018
12:02:27
Добрый день, начала курс машинного обучения на курсере, Andrew Ng, и там было упомянуто вот это:

it turns out that for some learning problems, what you really want is not to use, like, three or five features. But instead, you want to use an infinite number of features, an infinite number of attributes, so that your learning algorithm has lots of attributes or features or cues with which to make those predictions.

Встречаются в реальной жизни такие задачи и зачем использовать бесконечное множество фич и атрибутов?

Boojum
31.01.2018
12:05:01
Встречаются в реальной жизни такие задачи и зачем использовать бесконечное множество фич и атрибутов?
А сколько используется фич, например, при классификации изображений? Можете посчитать?

Boojum
31.01.2018
12:07:08
Поняла)) но не бесконечно же
Ну, мы не знаем сколько их, нейросеть сама выбирает из неограниченного множества

Evgeniy
31.01.2018
12:07:10
Поняла)) но не бесконечно же
чем больше тем лучше

Egor
31.01.2018
12:07:47
не всегда. иногда стоит урезать количество фич

чем больше тем лучше

#thegirlwhocodes
31.01.2018
12:10:27
Спасибо всем!

Alexander
31.01.2018
13:00:08
а кто-нибудь юзал hyperopt?

такое чувство, что это какой-то грид-серч

Andrey
31.01.2018
13:04:07
Ну в общем-то он и есть, см. документацию

Или random search, или tree of Parzen estimators

Alexander
31.01.2018
13:17:15
а есть что-нибудь поумнее?

Loki
31.01.2018
13:18:52
Здраствуйте, не посоветуете куда копать нужно по отсканированному или сфотанному фото пасспорта считать mrz? наткнулся на тесеракт,но если качество фото не хорошое, то получает текст плохо, можно ли как то повисить точность или улучщит фото?

Andrey
31.01.2018
13:25:16
Lena
31.01.2018
15:06:43
Добрый день! Я java програмист, но очень срочно надо решить задачу по машин ленингу. Допустим. Есть список ресторанов. И есть статистика этих ресторанов по дням (кол-во посетителей, кол-во блюд в меню, кол-во обслуживающего персонала, кол-во рекомендаций)). Надо предсказывать посещения по этим ресторанам. Так вот. У меня пока две простенькие модели. 1-ая -- она анализирует каждый временной ряд. Вообщем, просто алгоритм АРИМА. Не знаю вообще, насколько он сюда подходит, определенные результаты выдает. Вторая -- тренируется на данных по всем ресторанам за прошлую неделю, и вадает предсказания на завтра. Т. е. такой набор: в прошлую субботу ресторан предлагал 100 видов блюд, обслуживали посетителей 10 официантов, до субботы у ресторана было 70 хороших рекомендаций, и посетило его 200 человек. Тренируем по всей базе статистики за прошлую субботу, и потом по этой модели предсказываем кол-во посетителей на эту субботу. (Этап кластеризации и тут пропускаю, не описываю) Вопрос в следующем: как в одном алгоритме для получения предсказания по конкретному ресторну соединить и анализ статистики ресторана (то есть анализ временного ряда), и анализ в сравнении со всему отсальными ресторанами. Скорее всего, объяснение запутано, могу объяснить подробнее. Буду рада любым советам, в том числе и самым общим, так как область для меня действительно новая, а информации много. Спасибо!!!

Google
Admin
ERROR: S client not available

Drino
31.01.2018
15:32:58
Добрый день! Я java програмист, но очень срочно надо решить задачу по машин ленингу. Допустим. Есть список ресторанов. И есть статистика этих ресторанов по дням (кол-во посетителей, кол-во блюд в меню, кол-во обслуживающего персонала, кол-во рекомендаций)). Надо предсказывать посещения по этим ресторанам. Так вот. У меня пока две простенькие модели. 1-ая -- она анализирует каждый временной ряд. Вообщем, просто алгоритм АРИМА. Не знаю вообще, насколько он сюда подходит, определенные результаты выдает. Вторая -- тренируется на данных по всем ресторанам за прошлую неделю, и вадает предсказания на завтра. Т. е. такой набор: в прошлую субботу ресторан предлагал 100 видов блюд, обслуживали посетителей 10 официантов, до субботы у ресторана было 70 хороших рекомендаций, и посетило его 200 человек. Тренируем по всей базе статистики за прошлую субботу, и потом по этой модели предсказываем кол-во посетителей на эту субботу. (Этап кластеризации и тут пропускаю, не описываю) Вопрос в следующем: как в одном алгоритме для получения предсказания по конкретному ресторну соединить и анализ статистики ресторана (то есть анализ временного ряда), и анализ в сравнении со всему отсальными ресторанами. Скорее всего, объяснение запутано, могу объяснить подробнее. Буду рада любым советам, в том числе и самым общим, так как область для меня действительно новая, а информации много. Спасибо!!!
Можно подложить второй модели на вход предсказания первой. Только делать это надо аккуратно - если первая учится на тех же данных, что и вторая, то она будет очень хорошо предсказывать на обучающем сете, поэтому сеты лучше побить.

Sergey
31.01.2018
15:33:36
параметры аримы можно как доп фичи докинуть

Lena
31.01.2018
15:35:50
@drino_drunker Спасибо за ответ! У меня первая учиться только на своем временно ряду, то есть использует только свою статистику, но за все время. А второй использует данные по всем ресторанам, но за 1 день.

Sergey @drino_drunker то есть я правильно поняла, что можно оставить второй алгоритм (там, кстати, RandomForestRegressor ), и просто расширить модель, добавив поле "предсказанное аримой значение посетителей"?

Drino
31.01.2018
15:37:53
Да, например.

Lena
31.01.2018
15:38:33
Спасибо большое!

Pipito
31.01.2018
15:38:44
Lena
31.01.2018
15:43:31
И еще: мне надо делать предсказание не на 1-2 дня, а, например, кол-во посетителей через две - три недели. Правильным ли будет для этого анализировать всю статистику с шагом в две - три недели? (У нас статистики уже больше, чем за 6 месяцев). Или надо экспериментировать?

Sergey
31.01.2018
15:45:05
Экспериментировать

Lena
31.01.2018
15:45:49
спасибо!

Pipito
31.01.2018
15:59:15
спасибо!
не за что)

Lena
31.01.2018
16:11:33
И еще я кое в чем сомневаюсь. Во втором случае (Там, где RandomForrest) Можно ли кол-во посетителей за прошедший период тоже использовать как параметр? Или это неправильно? Просто считатся, что чем больше посетило вчера, тем больше посетит завтра (ну типо сарафонное радио и все такое). Сейчас у меня X = [кол-во рекомендаций, кол-во блюд, число официанов] Y = [кол-во посетителей] Возможна ли такая структура?? X = [кол-во рекомендаций, кол-во блюд, число официанов, кол-во посетителей за весь прошедший период] Y = [кол-во посетителей] Или тогда нужны другие алгоритмы?

Просто реально кол-во посетителей за прошлый день игрмает достаточно большую роль

Artem
31.01.2018
16:25:55
Добавлять фичи в виде приростов посещений неделя к неделе, день ко дню, месяц к месяцу и т.п. будет как индикатор. Либо скользящие средние. А если с числом официантов напортачили и не верно вывели смены? День недели не играет роли? Посещения сайта? Кол-во запросов в поисковой выдаче по точному входежнию по названию ресторана?

Tsh
31.01.2018
16:39:02
В вашем случае имеет место сильные цикличность и сезонность: день недели, время года, праздники. В лоб примененные вышеперечисленные алгоритмы могут дать удивительные результаты

Lena
31.01.2018
16:42:43
Tsh на самом деле именно эта модель придуманная, так как нашу модель мне запретили разглашать. там сезонность есть, но не сильно выраженная. день недели очень важен, поэтому шаг в 7 дней --это обязательное условие. то есть предскащывая посещения в субботу я анализируб субботние статистики

Lena
31.01.2018
16:45:27
но арима вроде и рассчитана как раз на данные с высокой сезонностью, разве нет? по крайней мере уже сталкивалась, что когда ресторан закрывался или на протяжении недели не отдавались данные по нему, арима, видимо, считая, что это зима и за ней последует плодородная весна, предсказывала дикий рост посетителей

Страница 220 из 327