@bigdata_ru

« Назад

Страница 221 из 327

Далее »

Lena

31.01.2018
16:47:31

никакая другая модель кроме ресторанов в голову не пришла просто=))

Drino

31.01.2018
16:51:39

И еще я кое в чем сомневаюсь. Во втором случае (Там, где RandomForrest) Можно ли кол-во посетителей за прошедший период тоже использовать как параметр? Или это неправильно? Просто считатся, что чем больше посетило вчера, тем больше посетит завтра (ну типо сарафонное радио и все такое). Сейчас у меня X = [кол-во рекомендаций, кол-во блюд, число официанов] Y = [кол-во посетителей] Возможна ли такая структура?? X = [кол-во рекомендаций, кол-во блюд, число официанов, кол-во посетителей за весь прошедший период] Y = [кол-во посетителей] Или тогда нужны другие алгоритмы?

Если предположить, что данные шумные - можно складывать за период (неделю). Можно ещё сделать flatten от данных за последние 7 дней, а не за 7 дней назад. Можно делать за период и за день 7 дней назад. Брать количество посетителей тоже можно, казалось бы.

Главное - чтобы данные были при предсказании.

Lena

31.01.2018
17:06:57

ок. спасибо. значит, можно и и кол-во посетителей за прошлый период добавлять в параметры (то есть, грубо говоря, то, что было в "ответе"за прошлый период). а можно и прирост. спасибо, буду пробовать. а данных хватает. у нас стабильно собираются данные.

Google

Vera

31.01.2018
17:10:44

привет, сообщество! Где почитать Data Algorithms: Recipes for Scaling Up with Hadoop and Spark и перевели ли на русский? Через амазон будут долго везти

Как вам книга вообще?

нашла, что через сафари можно читать

Nick

31.01.2018
20:02:12

Посоветуйте алгоритм для выявления аномалий в данных, спасибо.

Viktor

31.01.2018
20:12:51

Начни с statistic process control и усложняй его если будет нужно

Roman

31.01.2018
22:22:08

yandexdataschool/Practical_RL: A course in reinforcement learning in the wild https://github.com/yandexdataschool/Practical_RL

Drino

01.02.2018
05:41:51

exp(-d), 1/(1 + exp(-d)) и т.д.

Ну, если округлять, то уже дистанция ~0.01 будет как 100%. Подкручивать константу в расстоянии, кажется, не так сложно

Evgeniy

01.02.2018
07:16:56

а там вектор разве не единичный?

Antonio

01.02.2018
08:29:57

Привет

Видно мои сообщения?

Piu

01.02.2018
08:30:33

Видно мои сообщения?

нет

Google

Piu

01.02.2018
08:30:36

привет

Antonio

01.02.2018
08:31:51

Меня просто вчера в телеграме забанили ( первый раз о таком услышал) и нельзя было писать в публичные каналы

теперь уже боюсь публиковать ссылку на литературу по машинному обучению (

Ну это же бред, ладно я бы свой сайт продвигал там или группу в вк, а так ссылка на ответ в стековерфлоу

Причём я очень долго и скурпулёзно собирал информацию( и до сих пор периодически дополняют перечень). Прям 451 по фаренгейту, свобода слова..

Паша

01.02.2018
08:42:16

За что забанили то? За ссылку на ответ с оверфлоу?

Antonio

01.02.2018
08:55:01

Кто то нажаловался, я если и постил, то только эту ссылку

Mikhail

01.02.2018
08:59:13

Может для кого-то это оказалось Шок-контентом

tonko

01.02.2018
09:00:23

ну кстати, формально это можно считать продвижением

Andrey

01.02.2018
09:17:44

Это 100% продвижение

То, что нет корыстных целей, формально неважно

Dan

01.02.2018
09:27:43

Кто то нажаловался, я если и постил, то только эту ссылку

Может быть ты кому-то писал в личку, и там просто шутки ради нажали "Spam", такое тоже может быть.

Antonio

01.02.2018
10:03:59

аа понятно

Aleksey

01.02.2018
10:05:34

Всем привет, только вчера начал поднимать спарк. Это нормально, что на локальном компьютере я не могу прогрузить ~100мб текста (Процссор - i7, 16Gb памяти)? Монитор показывает 3 процесса, каждый из которых кушает ~20Gb памяти

Lena

01.02.2018
10:18:43

нет, это ненормально.

а с какой ошибкой падает?

Aleksey

01.02.2018
10:24:36

а с какой ошибкой падает?

До ошибки не доходит - начинают все приложения по памяти падать, а сам процесс недосчитывает.

Alexey

01.02.2018
10:53:53

До ошибки не доходит - начинают все приложения по памяти падать, а сам процесс недосчитывает.

А куда подгружаете? (Tensorflow исользуете?)

Sergey

01.02.2018
10:55:52

Всем привет, только вчера начал поднимать спарк. Это нормально, что на локальном компьютере я не могу прогрузить ~100мб текста (Процссор - i7, 16Gb памяти)? Монитор показывает 3 процесса, каждый из которых кушает ~20Gb памяти

Настройки на executors какие?

Google

Sergey

01.02.2018
10:56:35

Просто там по дефолту на драйвер и экзекьюторы может стоять много памяти

Aleksey

01.02.2018
10:56:36

А куда подгружаете? (Tensorflow исользуете?)

Я на чистом pyspark. Думаю, что это из-за того, что данные перегонял несколько раз через flatMap и groupBy. Переписал на более линейную трансформацию и все начало нормально работать. Тем не менее не ожидал, что может настолько загружать систему на относительно небольшом наборе данных.

Loki

01.02.2018
12:42:47

Здрасте, можно ли на джаве с помошю opencv распозновать текст из картинки?

Hot

01.02.2018
12:43:30

Можно.

Admin

ERROR: S client not available

Loki

01.02.2018
12:46:09

тесеракт чтоли?

не подскажете как можно увеличить точность распознование?

tonko

01.02.2018
12:47:42

evaluation / hyperparam optimization

dot

01.02.2018
17:30:52

Здравствуйте. Скажите а в open cv есть метод линейно коррекции ?

Antonio

01.02.2018
17:42:23

обновился список, добавлен видеокурс: Информационный поиск (осень 2016) https://ru.stackoverflow.com/questions/678970/%d0%9a%d0%bd%d0%b8%d0%b3%d0%b8-%d0%b8-%d1%83%d1%87%d0%b5%d0%b1%d0%bd%d1%8b%d0%b5-%d1%80%d0%b5%d1%81%d1%83%d1%80%d1%81%d1%8b-%d0%bf%d0%be-%d0%bc%d0%b0%d1%88%d0%b8%d0%bd%d0%bd%d0%be%d0%bc%d1%83-%d0%be%d0%b1%d1%83%d1%87%d0%b5%d0%bd%d0%b8%d1%8e/683632#683632

много про ранжирование рассказывается

Vyaches

01.02.2018
19:44:37

Может кто-нибудь скинуть быстрый гайд по тому как тюнить random forest? Либо в личке на пальцах обьяснить?

Antonio

01.02.2018
20:22:16

ещё добавлено: Ивахненко А.А. Введение в теорию нейросетей и глубокое обучение

Artyom

01.02.2018
21:31:43

Может кто-нибудь скинуть быстрый гайд по тому как тюнить random forest? Либо в личке на пальцах обьяснить?

Берете количество деревьев, дающих приемлемое качество за приемлемое время обучения. Больше данных – больше деревьев. 500-1000 деревьев как отправная точка. Перебираете глубину max_depth, обрезка часто срабатывает, не сильно короткие, будет недообучение, не сильно глубокие, будут шум всякий ловить. Также перебираем max_samples_leaf. А можно и не перебирать, а воспользоваться эвристикой Айсена Татаринова https://aysent.github.io/2015/11/08/random-forest-leaf-visualization.html и смотреть, при какой глубине и количестве листьев в листе получаем наиболее крутые ступеньки. Пробуем перебрать количество случайно отбираемых предикторов max_features. Вспоминаем про правила Бреймана. Для регрессии треть, половина трети, удвоенная треть и все предикторы. Для классификации корень от общего количества, половина корня и удвоенный корень. Нужно брать от 30 до 50% предикторов. Если ниже 30%, сокращаем состязательность между предикторами, max_features=1 будет означать отсутствие состязательности (плохо), если выше 50%, выше вероятность отбирать одни и те же предикторы, уменьшается декоррелированность, тоже плохо (все предикторы выберем, деревья будут сильно похожи, по крайней мере будут более схожи, чем если бы мы использовали меньшее значение max_features). Хорошее теор. обоснование есть в работе Рыжкова. Если работаете с H2O, дополнительное улучшение дает циклический перебор типов гистограмм, смена кодировки категориалок, смена количества бинов. Но это на скорую руку, а также можно посмотреть в моей книжке по лесу. Есть еще более продвинутые схемы «кольцо» (как раз такая приводится в скрипте R, возвращаемся к тому, с чего начали) и «сжимающася спираль», это H2O сейчас над такими работает, в Driveless AI такие бегают, они пришли из бустинга и тоже работают для леса. Там же на гитхабе можно найти. с материалами Александра Дьяконова обязательно ознакомиться http://www.machinelearning.ru/wiki/images/c/cc/PZAD2016_09_rf.pdf и работой Александра Рыжкова http://www.machinelearning.ru/wiki/images/d/d8/2015_517_RyzhkovAM.pdf как тюнить в Питон https://github.com/Gewissta/Kniga/blob/master/Programming%20code%20R%20and%20Python/%D0%93%D0%BB%D0%B0%D0%B2%D0%B0%2012_%D0%9F%D0%BE%D1%81%D1%82%D1%80%D0%BE%D0%B5%D0%BD%D0%B8%D0%B5%20%D1%81%D0%BB%D1%83%D1%87%D0%B0%D0%B9%D0%BD%D0%BE%D0%B3%D0%BE%20%D0%BB%D0%B5%D1%81%D0%B0%20%D1%81%20%D0%BF%D0%BE%D0%BC%D0%BE%D1%89%D1%8C%D1%8E%20Python.ipynb как тюнить в R https://github.com/Gewissta/Predictive_modeling_with_R_and_Python/blob/master/Decisions/%D0%A0%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B5%20%D0%B7%D0%B0%D0%B4%D0%B0%D1%87%D0%B8%20%D0%9E%D0%A2%D0%9F%20%D0%91%D0%B0%D0%BD%D0%BA%D0%B0%20(%D0%BF%D0%B0%D0%BA%D0%B5%D1%82%20R%20h2o%2C%20%D1%84%D1%83%D0%BD%D0%BA%D1%86%D0%B8%D1%8F%20h2o.randomForest).R

Anton

01.02.2018
21:44:27

Доброго времени суток, кто нибудь может посоветовать прогу для конструкции и анализа Байесовских сетей?

/dev

01.02.2018
21:52:10

Доброго времени суток, кто нибудь может посоветовать прогу для конструкции и анализа Байесовских сетей?

gcc

Evgeniy

01.02.2018
21:52:30

gcc

clang же

Доброго времени суток, кто нибудь может посоветовать прогу для конструкции и анализа Байесовских сетей?

edward глянь, или pyro

/dev

01.02.2018
21:52:59

clang же

Недостаточно ынтерпрайзно

Недостаточно кроваво

Google

Loki

02.02.2018
05:43:21

Здраствуйте, пытаюсь с помошью тессеракта из фото текст получить, но даже в четком изображении немного тупить , не подскажете как получить требуемый результат?

на первом, вместо S, $

« Назад

Страница 221 из 327

Далее »

Открыть в Telegram