
Lena
31.01.2018
16:47:31
никакая другая модель кроме ресторанов в голову не пришла просто=))

Drino
31.01.2018
16:51:39
И еще я кое в чем сомневаюсь. Во втором случае (Там, где RandomForrest) Можно ли кол-во посетителей за прошедший период тоже использовать как параметр? Или это неправильно? Просто считатся, что чем больше посетило вчера, тем больше посетит завтра (ну типо сарафонное радио и все такое).
Сейчас у меня
X = [кол-во рекомендаций, кол-во блюд, число официанов]
Y = [кол-во посетителей]
Возможна ли такая структура??
X = [кол-во рекомендаций, кол-во блюд, число официанов, кол-во посетителей за весь прошедший период]
Y = [кол-во посетителей]
Или тогда нужны другие алгоритмы?
Если предположить, что данные шумные - можно складывать за период (неделю). Можно ещё сделать flatten от данных за последние 7 дней, а не за 7 дней назад. Можно делать за период и за день 7 дней назад. Брать количество посетителей тоже можно, казалось бы.
Главное - чтобы данные были при предсказании.


Lena
31.01.2018
17:06:57
ок. спасибо. значит, можно и и кол-во посетителей за прошлый период добавлять в параметры (то есть, грубо говоря, то, что было в "ответе"за прошлый период). а можно и прирост. спасибо, буду пробовать. а данных хватает. у нас стабильно собираются данные.

Google

Vera
31.01.2018
17:10:44
привет, сообщество! Где почитать Data Algorithms: Recipes for Scaling Up with Hadoop and Spark и перевели ли на русский? Через амазон будут долго везти
Как вам книга вообще?
нашла, что через сафари можно читать

Nick
31.01.2018
20:02:12
Посоветуйте алгоритм для выявления аномалий в данных, спасибо.

Viktor
31.01.2018
20:12:51
Начни с statistic process control и усложняй его если будет нужно

Roman
31.01.2018
22:22:08
yandexdataschool/Practical_RL: A course in reinforcement learning in the wild
https://github.com/yandexdataschool/Practical_RL

Drino
01.02.2018
05:41:51
exp(-d), 1/(1 + exp(-d)) и т.д.
Ну, если округлять, то уже дистанция ~0.01 будет как 100%. Подкручивать константу в расстоянии, кажется, не так сложно

Evgeniy
01.02.2018
07:16:56
а там вектор разве не единичный?

Antonio
01.02.2018
08:29:57
Привет
Видно мои сообщения?

Piu
01.02.2018
08:30:33

Google

Piu
01.02.2018
08:30:36
привет

Antonio
01.02.2018
08:31:51
Меня просто вчера в телеграме забанили ( первый раз о таком услышал) и нельзя было писать в публичные каналы
теперь уже боюсь публиковать ссылку на литературу по машинному обучению (
Ну это же бред, ладно я бы свой сайт продвигал там или группу в вк, а так ссылка на ответ в стековерфлоу
Причём я очень долго и скурпулёзно собирал информацию( и до сих пор периодически дополняют перечень). Прям 451 по фаренгейту, свобода слова..

Паша
01.02.2018
08:42:16
За что забанили то? За ссылку на ответ с оверфлоу?

Antonio
01.02.2018
08:55:01
Кто то нажаловался, я если и постил, то только эту ссылку

Mikhail
01.02.2018
08:59:13
Может для кого-то это оказалось Шок-контентом

tonko
01.02.2018
09:00:23
ну кстати, формально это можно считать продвижением

Andrey
01.02.2018
09:17:44
Это 100% продвижение
То, что нет корыстных целей, формально неважно

Dan
01.02.2018
09:27:43

Antonio
01.02.2018
10:03:59
аа понятно

Aleksey
01.02.2018
10:05:34
Всем привет, только вчера начал поднимать спарк. Это нормально, что на локальном компьютере я не могу прогрузить ~100мб текста (Процссор - i7, 16Gb памяти)?
Монитор показывает 3 процесса, каждый из которых кушает ~20Gb памяти

Lena
01.02.2018
10:18:43
нет, это ненормально.
а с какой ошибкой падает?

Aleksey
01.02.2018
10:24:36

Alexey
01.02.2018
10:53:53

Sergey
01.02.2018
10:55:52

Google

Sergey
01.02.2018
10:56:35
Просто там по дефолту на драйвер и экзекьюторы может стоять много памяти

Aleksey
01.02.2018
10:56:36
А куда подгружаете? (Tensorflow исользуете?)
Я на чистом pyspark. Думаю, что это из-за того, что данные перегонял несколько раз через flatMap и groupBy. Переписал на более линейную трансформацию и все начало нормально работать.
Тем не менее не ожидал, что может настолько загружать систему на относительно небольшом наборе данных.

Loki
01.02.2018
12:42:47
Здрасте, можно ли на джаве с помошю opencv распозновать текст из картинки?

Hot
01.02.2018
12:43:30
Можно.

Admin
ERROR: S client not available

Loki
01.02.2018
12:46:09
тесеракт чтоли?
не подскажете как можно увеличить точность распознование?

tonko
01.02.2018
12:47:42
evaluation / hyperparam optimization

dot
01.02.2018
17:30:52
Здравствуйте. Скажите а в open cv есть метод линейно коррекции ?

Antonio
01.02.2018
17:42:23
обновился список, добавлен видеокурс:
Информационный поиск (осень 2016)
https://ru.stackoverflow.com/questions/678970/%d0%9a%d0%bd%d0%b8%d0%b3%d0%b8-%d0%b8-%d1%83%d1%87%d0%b5%d0%b1%d0%bd%d1%8b%d0%b5-%d1%80%d0%b5%d1%81%d1%83%d1%80%d1%81%d1%8b-%d0%bf%d0%be-%d0%bc%d0%b0%d1%88%d0%b8%d0%bd%d0%bd%d0%be%d0%bc%d1%83-%d0%be%d0%b1%d1%83%d1%87%d0%b5%d0%bd%d0%b8%d1%8e/683632#683632
много про ранжирование рассказывается

Vyaches
01.02.2018
19:44:37
Может кто-нибудь скинуть быстрый гайд по тому как тюнить random forest? Либо в личке на пальцах обьяснить?

Antonio
01.02.2018
20:22:16
ещё добавлено:
Ивахненко А.А. Введение в теорию нейросетей и глубокое обучение


Artyom
01.02.2018
21:31:43
Может кто-нибудь скинуть быстрый гайд по тому как тюнить random forest? Либо в личке на пальцах обьяснить?
Берете количество деревьев, дающих приемлемое качество за приемлемое время обучения. Больше данных – больше деревьев. 500-1000 деревьев как отправная точка. Перебираете глубину max_depth, обрезка часто срабатывает, не сильно короткие, будет недообучение, не сильно глубокие, будут шум всякий ловить. Также перебираем max_samples_leaf. А можно и не перебирать, а воспользоваться эвристикой Айсена Татаринова https://aysent.github.io/2015/11/08/random-forest-leaf-visualization.html и смотреть, при какой глубине и количестве листьев в листе получаем наиболее крутые ступеньки. Пробуем перебрать количество случайно отбираемых предикторов max_features. Вспоминаем про правила Бреймана. Для регрессии треть, половина трети, удвоенная треть и все предикторы. Для классификации корень от общего количества, половина корня и удвоенный корень. Нужно брать от 30 до 50% предикторов. Если ниже 30%, сокращаем состязательность между предикторами, max_features=1 будет означать отсутствие состязательности (плохо), если выше 50%, выше вероятность отбирать одни и те же предикторы, уменьшается декоррелированность, тоже плохо (все предикторы выберем, деревья будут сильно похожи, по крайней мере будут более схожи, чем если бы мы использовали меньшее значение max_features). Хорошее теор. обоснование есть в работе Рыжкова. Если работаете с H2O, дополнительное улучшение дает циклический перебор типов гистограмм, смена кодировки категориалок, смена количества бинов.
Но это на скорую руку, а также можно посмотреть в моей книжке по лесу. Есть еще более продвинутые схемы «кольцо» (как раз такая приводится в скрипте R, возвращаемся к тому, с чего начали) и «сжимающася спираль», это H2O сейчас над такими работает, в Driveless AI такие бегают, они пришли из бустинга и тоже работают для леса. Там же на гитхабе можно найти.
с материалами Александра Дьяконова обязательно ознакомиться http://www.machinelearning.ru/wiki/images/c/cc/PZAD2016_09_rf.pdf и работой Александра Рыжкова http://www.machinelearning.ru/wiki/images/d/d8/2015_517_RyzhkovAM.pdf
как тюнить в Питон
https://github.com/Gewissta/Kniga/blob/master/Programming%20code%20R%20and%20Python/%D0%93%D0%BB%D0%B0%D0%B2%D0%B0%2012_%D0%9F%D0%BE%D1%81%D1%82%D1%80%D0%BE%D0%B5%D0%BD%D0%B8%D0%B5%20%D1%81%D0%BB%D1%83%D1%87%D0%B0%D0%B9%D0%BD%D0%BE%D0%B3%D0%BE%20%D0%BB%D0%B5%D1%81%D0%B0%20%D1%81%20%D0%BF%D0%BE%D0%BC%D0%BE%D1%89%D1%8C%D1%8E%20Python.ipynb
как тюнить в R
https://github.com/Gewissta/Predictive_modeling_with_R_and_Python/blob/master/Decisions/%D0%A0%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B5%20%D0%B7%D0%B0%D0%B4%D0%B0%D1%87%D0%B8%20%D0%9E%D0%A2%D0%9F%20%D0%91%D0%B0%D0%BD%D0%BA%D0%B0%20(%D0%BF%D0%B0%D0%BA%D0%B5%D1%82%20R%20h2o%2C%20%D1%84%D1%83%D0%BD%D0%BA%D1%86%D0%B8%D1%8F%20h2o.randomForest).R


Anton
01.02.2018
21:44:27
Доброго времени суток, кто нибудь может посоветовать прогу для конструкции и анализа Байесовских сетей?

/dev
01.02.2018
21:52:10

Evgeniy
01.02.2018
21:52:30

/dev
01.02.2018
21:52:59
Недостаточно кроваво

Google

Loki
02.02.2018
05:43:21
Здраствуйте, пытаюсь с помошью тессеракта из фото текст получить, но даже в четком изображении немного тупить , не подскажете как получить требуемый результат?
на первом, вместо S, $