@bigdata_ru

Страница 220 из 327

Dan

28.01.2018
19:08:05

Добрый вечер! Меня очень интересует, как интегрировать big data в веб-приложение/сервис, очень хотелось бы прочитать про то, как лучше всего реализовать это, про процессы разработки, про то, какие ресурсы будут нужны, какие технологии исполиользовать, посоветуете литературу? Заранее спасибо!

Интегрировать ради чего?

Артем

28.01.2018
19:14:54

Добрый вечер! Меня очень интересует, как интегрировать big data в веб-приложение/сервис, очень хотелось бы прочитать про то, как лучше всего реализовать это, про процессы разработки, про то, какие ресурсы будут нужны, какие технологии исполиользовать, посоветуете литературу? Заранее спасибо!

Как вариант, можно посмотреть это: https://www.amazon.com/Designing-Data-Intensive-Applications-Reliable-Maintainable/dp/1449373321/ref=pd_cp_14_1?_encoding=UTF8&pd_rd_i=1449373321&pd_rd_r=B5MJ9297C8DXXM0C5N0D&pd_rd_w=lsDfp&pd_rd_wg=xw6p7&psc=1&refRID=B5MJ9297C8DXXM0C5N0D

Sergey

28.01.2018
19:15:01

Большие данные. Принципы и практика построения масштабируемых систем обработки данных в реальном времени

Peter

28.01.2018
19:15:15

Интегрировать ради чего?

Я объясню, возможно некорректно написал, сейчас распишу подробнее. Нужно создать сайт, по сути система тестирования, где могут взаимодействовать люди друг с другом. В системе должны быть предусмотрены разные роли тестируемого и человека, который должен проводить тест. Тестриуемый может о себе оставлять информацию на сайте, а человек, проводящий тесты должен выбирать тех, кто будет проходить тест. По информации о прохождении тестов + по личной информации (личные качества, скилы и т.д.) , надо построить модель, которая будет показывать, насколько хорошо будет подходить тот или иной кандидат для тестирования. Могу еще подробнее расписать, но вкратце так)

Google

Peter

28.01.2018
19:15:23

Признателен за ваши ответы!

Sergey

28.01.2018
19:15:54

Большие данные. Принципы и практика построения масштабируемых систем обработки данных в реальном времени

На русском есть. Она не прям топ, но для старта сойдёт.

Я объясню, возможно некорректно написал, сейчас распишу подробнее. Нужно создать сайт, по сути система тестирования, где могут взаимодействовать люди друг с другом. В системе должны быть предусмотрены разные роли тестируемого и человека, который должен проводить тест. Тестриуемый может о себе оставлять информацию на сайте, а человек, проводящий тесты должен выбирать тех, кто будет проходить тест. По информации о прохождении тестов + по личной информации (личные качества, скилы и т.д.) , надо построить модель, которая будет показывать, насколько хорошо будет подходить тот или иной кандидат для тестирования. Могу еще подробнее расписать, но вкратце так)

А тут и бигдаты никакой нет Хватит Mysql для хранения прохождения тестов и профилей

Peter

28.01.2018
19:17:46

А тут и бигдаты никакой нет Хватит Mysql для хранения прохождения тестов и профилей

Все немного сложнее)

Oleg

28.01.2018
19:18:12

еще такой момент, книга сама по себе старая - 2012 года. И например там описываются библиотеки которые уже умерли

yopp

29.01.2018
20:48:04

http://www.nyriad.com/products/nsulate/

Dan

29.01.2018
20:48:55

Ничего себе

dot

30.01.2018
02:21:24

блин как же это все охрененно!! http://robotclass.ru/tutorials/opencv-moments-color-object-search/

Vyaches

30.01.2018
19:52:31

Не сочтите за рекламу... Ребята крутую рекламу на ютубе запустили)) тафталогия :D Гляньте прост, можт кому-то пригодится. Стажи, как-никак. https://www.youtube.com/watch?v=KxoYURwZcIA

Pipito

30.01.2018
19:53:42

нормас тема

Dan

30.01.2018
19:53:49

Не сочтите за рекламу... Ребята крутую рекламу на ютубе запустили)) тафталогия :D Гляньте прост, можт кому-то пригодится. Стажи, как-никак. https://www.youtube.com/watch?v=KxoYURwZcIA

Не реклама рекламы это уже интересно. Но сделали круто, согласен

Pipito

30.01.2018
19:53:51

иногда пилит такие видосы

годные

Google

Pipito

30.01.2018
19:54:10

тоже советую

Vyaches

30.01.2018
19:54:27

:DD Я вот хотел бы пойти к ним на стажи, но я с Питера, увы.

#thegirlwhocodes

31.01.2018
12:02:27

Добрый день, начала курс машинного обучения на курсере, Andrew Ng, и там было упомянуто вот это:

it turns out that for some learning problems, what you really want is not to use, like, three or five features. But instead, you want to use an infinite number of features, an infinite number of attributes, so that your learning algorithm has lots of attributes or features or cues with which to make those predictions.

Встречаются в реальной жизни такие задачи и зачем использовать бесконечное множество фич и атрибутов?

Boojum

31.01.2018
12:05:01

Встречаются в реальной жизни такие задачи и зачем использовать бесконечное множество фич и атрибутов?

А сколько используется фич, например, при классификации изображений? Можете посчитать?

#thegirlwhocodes

31.01.2018
12:06:11

А сколько используется фич, например, при классификации изображений? Можете посчитать?

Поняла)) но не бесконечно же

Boojum

31.01.2018
12:07:08

Поняла)) но не бесконечно же

Ну, мы не знаем сколько их, нейросеть сама выбирает из неограниченного множества

Evgeniy

31.01.2018
12:07:10

Поняла)) но не бесконечно же

чем больше тем лучше

Egor

31.01.2018
12:07:47

не всегда. иногда стоит урезать количество фич

чем больше тем лучше

#thegirlwhocodes

31.01.2018
12:10:27

Спасибо всем!

Alexander

31.01.2018
13:00:08

а кто-нибудь юзал hyperopt?

такое чувство, что это какой-то грид-серч

Andrey

31.01.2018
13:04:07

Ну в общем-то он и есть, см. документацию

Или random search, или tree of Parzen estimators

Alexander

31.01.2018
13:17:15

а есть что-нибудь поумнее?

Loki

31.01.2018
13:18:52

Здраствуйте, не посоветуете куда копать нужно по отсканированному или сфотанному фото пасспорта считать mrz? наткнулся на тесеракт,но если качество фото не хорошое, то получает текст плохо, можно ли как то повисить точность или улучщит фото?

Andrey

31.01.2018
13:25:16

а есть что-нибудь поумнее?

Нет

Lena

31.01.2018
15:06:43

Добрый день! Я java програмист, но очень срочно надо решить задачу по машин ленингу. Допустим. Есть список ресторанов. И есть статистика этих ресторанов по дням (кол-во посетителей, кол-во блюд в меню, кол-во обслуживающего персонала, кол-во рекомендаций)). Надо предсказывать посещения по этим ресторанам. Так вот. У меня пока две простенькие модели. 1-ая -- она анализирует каждый временной ряд. Вообщем, просто алгоритм АРИМА. Не знаю вообще, насколько он сюда подходит, определенные результаты выдает. Вторая -- тренируется на данных по всем ресторанам за прошлую неделю, и вадает предсказания на завтра. Т. е. такой набор: в прошлую субботу ресторан предлагал 100 видов блюд, обслуживали посетителей 10 официантов, до субботы у ресторана было 70 хороших рекомендаций, и посетило его 200 человек. Тренируем по всей базе статистики за прошлую субботу, и потом по этой модели предсказываем кол-во посетителей на эту субботу. (Этап кластеризации и тут пропускаю, не описываю) Вопрос в следующем: как в одном алгоритме для получения предсказания по конкретному ресторну соединить и анализ статистики ресторана (то есть анализ временного ряда), и анализ в сравнении со всему отсальными ресторанами. Скорее всего, объяснение запутано, могу объяснить подробнее. Буду рада любым советам, в том числе и самым общим, так как область для меня действительно новая, а информации много. Спасибо!!!

Google

Evgeniy

31.01.2018
15:08:07

а есть что-нибудь поумнее?

nas

Admin

ERROR: S client not available

Drino

31.01.2018
15:32:58

Добрый день! Я java програмист, но очень срочно надо решить задачу по машин ленингу. Допустим. Есть список ресторанов. И есть статистика этих ресторанов по дням (кол-во посетителей, кол-во блюд в меню, кол-во обслуживающего персонала, кол-во рекомендаций)). Надо предсказывать посещения по этим ресторанам. Так вот. У меня пока две простенькие модели. 1-ая -- она анализирует каждый временной ряд. Вообщем, просто алгоритм АРИМА. Не знаю вообще, насколько он сюда подходит, определенные результаты выдает. Вторая -- тренируется на данных по всем ресторанам за прошлую неделю, и вадает предсказания на завтра. Т. е. такой набор: в прошлую субботу ресторан предлагал 100 видов блюд, обслуживали посетителей 10 официантов, до субботы у ресторана было 70 хороших рекомендаций, и посетило его 200 человек. Тренируем по всей базе статистики за прошлую субботу, и потом по этой модели предсказываем кол-во посетителей на эту субботу. (Этап кластеризации и тут пропускаю, не описываю) Вопрос в следующем: как в одном алгоритме для получения предсказания по конкретному ресторну соединить и анализ статистики ресторана (то есть анализ временного ряда), и анализ в сравнении со всему отсальными ресторанами. Скорее всего, объяснение запутано, могу объяснить подробнее. Буду рада любым советам, в том числе и самым общим, так как область для меня действительно новая, а информации много. Спасибо!!!

Можно подложить второй модели на вход предсказания первой. Только делать это надо аккуратно - если первая учится на тех же данных, что и вторая, то она будет очень хорошо предсказывать на обучающем сете, поэтому сеты лучше побить.

Sergey

31.01.2018
15:33:36

параметры аримы можно как доп фичи докинуть

Lena

31.01.2018
15:35:50

@drino_drunker Спасибо за ответ! У меня первая учиться только на своем временно ряду, то есть использует только свою статистику, но за все время. А второй использует данные по всем ресторанам, но за 1 день.

Sergey @drino_drunker то есть я правильно поняла, что можно оставить второй алгоритм (там, кстати, RandomForestRegressor ), и просто расширить модель, добавив поле "предсказанное аримой значение посетителей"?

Drino

31.01.2018
15:37:53

Да, например.

Lena

31.01.2018
15:38:33

Спасибо большое!

Pipito

31.01.2018
15:38:44

Спасибо большое!

не за что)

Lena

31.01.2018
15:43:31

И еще: мне надо делать предсказание не на 1-2 дня, а, например, кол-во посетителей через две - три недели. Правильным ли будет для этого анализировать всю статистику с шагом в две - три недели? (У нас статистики уже больше, чем за 6 месяцев). Или надо экспериментировать?

Sergey

31.01.2018
15:45:05

Экспериментировать

Lena

31.01.2018
15:45:49

спасибо!

Pipito

31.01.2018
15:59:15

спасибо!

не за что)

Lena

31.01.2018
16:11:33

И еще я кое в чем сомневаюсь. Во втором случае (Там, где RandomForrest) Можно ли кол-во посетителей за прошедший период тоже использовать как параметр? Или это неправильно? Просто считатся, что чем больше посетило вчера, тем больше посетит завтра (ну типо сарафонное радио и все такое). Сейчас у меня X = [кол-во рекомендаций, кол-во блюд, число официанов] Y = [кол-во посетителей] Возможна ли такая структура?? X = [кол-во рекомендаций, кол-во блюд, число официанов, кол-во посетителей за весь прошедший период] Y = [кол-во посетителей] Или тогда нужны другие алгоритмы?

Просто реально кол-во посетителей за прошлый день игрмает достаточно большую роль

Artem

31.01.2018
16:25:55

Добавлять фичи в виде приростов посещений неделя к неделе, день ко дню, месяц к месяцу и т.п. будет как индикатор. Либо скользящие средние. А если с числом официантов напортачили и не верно вывели смены? День недели не играет роли? Посещения сайта? Кол-во запросов в поисковой выдаче по точному входежнию по названию ресторана?

Tsh

31.01.2018
16:39:02

В вашем случае имеет место сильные цикличность и сезонность: день недели, время года, праздники. В лоб примененные вышеперечисленные алгоритмы могут дать удивительные результаты

Lena

31.01.2018
16:42:43

Tsh на самом деле именно эта модель придуманная, так как нашу модель мне запретили разглашать. там сезонность есть, но не сильно выраженная. день недели очень важен, поэтому шаг в 7 дней --это обязательное условие. то есть предскащывая посещения в субботу я анализируб субботние статистики

Mike

31.01.2018
16:44:40

Tsh на самом деле именно эта модель придуманная, так как нашу модель мне запретили разглашать. там сезонность есть, но не сильно выраженная. день недели очень важен, поэтому шаг в 7 дней --это обязательное условие. то есть предскащывая посещения в субботу я анализируб субботние статистики

погоду подключите)

Lena

31.01.2018
16:45:27

но арима вроде и рассчитана как раз на данные с высокой сезонностью, разве нет? по крайней мере уже сталкивалась, что когда ресторан закрывался или на протяжении недели не отдавались данные по нему, арима, видимо, считая, что это зима и за ней последует плодородная весна, предсказывала дикий рост посетителей

« Назад

Страница 220 из 327

Далее »

Открыть в Telegram