@bigdata_ru

Страница 180 из 327
Nikolay
20.11.2017
09:23:07
в awk тоже поля с 1 нумеруются

/dev
20.11.2017
09:30:45
Constantine
20.11.2017
11:56:17
блин

Google
Constantine
20.11.2017
11:56:23
не дают форвардить

годный наброс на производительность

Igor
20.11.2017
12:03:00
А что пользователь просматривал, какие комментарии оставлял, какие рейтинги ставил каждому товару?

Constantine
20.11.2017
12:08:08
Напиши Бангалору в твитор

Igor
20.11.2017
12:08:34
Это кто?)

Constantine
20.11.2017
12:10:18
Толстый троль, эксперт по всему, сотрудник букинга

Автор копипасты выше

Igor
20.11.2017
12:12:31
Автор копипасты выше
А что вы думаете про копипасту выше?

Oleksandr
20.11.2017
12:13:06
"big data" — хайп и не всегда нужно? да ну, не может быть

Constantine
20.11.2017
12:13:18
Нужно замерять, а не вкорячить все баззворды

Если юпитер позволяет быстро модель проверить

Nikolay
20.11.2017
12:13:56
особенно кафку на 100 человек в день

Constantine
20.11.2017
12:14:05
То это важнее чем пол года теребить спарк

Google
yopp
20.11.2017
12:14:08
Суть копипасты в том, то надо не в данных ковырятся, а решать _практическую бизнес-задачу_

Constantine
20.11.2017
12:14:33
Мудрость древних

Забытая

yopp
20.11.2017
12:14:40
Если ваша работа такой задачи не решает, вы либо R&D делаете, либо просто проедаете бабло работодателя

Многие в IT это забывают

А делать R&D тоже нужно для решения задачи.

Oleksandr
20.11.2017
12:15:02
ну все так, больше того, 90% "практических бизнес задач" на ура (с приемлемой точностью) решаются примитивами типа скользящего среднего, кминс или наибайеса

Constantine
20.11.2017
12:15:37
Ну или амазоновский ml

Constantine
20.11.2017
12:15:46
Где логистическая регрессия

Oleksandr
20.11.2017
12:15:58
Почему наебался?
наивный байес, я так его люблю сокращать

Constantine
20.11.2017
12:15:59
И мышевозюкательный интерфейс

Я даже для интереса воспроизводил результаты

Oleksandr
20.11.2017
12:16:14
Где логистическая регрессия
слишком сложно, ты что

Constantine
20.11.2017
12:16:19
Плюс минус

Пора встраивать BTC в TF и рубить бабло на консультациях

Нет, выходить на ICO

Igor
20.11.2017
12:21:08
Суть копипасты в том, то надо не в данных ковырятся, а решать _практическую бизнес-задачу_
В конкретном примере с Delivery Hero, не окажется ли, что модель, которая игнорирует 90% процентов данных (на 100 к покупок в день придется где-то 10 M просмотров товаров в день, как минимум), будет в разы хуже той, которую можно было бы построить, учитывая все данные?

yopp
20.11.2017
12:23:16
Итеративно нужно подходить

Sergey
20.11.2017
12:23:20
Ну сначала на куске данных делаешь, отрабатываешь зарплату, потом делаешь лучше

Google
yopp
20.11.2017
12:23:53
Херово, но работающий и дающий денежный результат алгоритм всегда лучше, чем не дающая денег «можно было бы» теория

Кровавая правда работающего бизнеса в том, что он ищет _лучшего_, он зарабатывает на посредственном и простом.

Igor
20.11.2017
12:27:51
для рекомм системы, я подозреваю, не будет
Думаете? То, что пользователь искал (интуитивно) мне кажется, может быть гораздо важнее, чем то, что он покупал

Tony
20.11.2017
12:28:00
Oleksandr
20.11.2017
12:28:48
Думаете? То, что пользователь искал (интуитивно) мне кажется, может быть гораздо важнее, чем то, что он покупал
смотря как имплеменить, конечно я про классический collaborative filtering, а, насколько я знаю, именно он обычно является "основным" алгоритмом

плюс вопрос, как именно теряются 90% данных — случайно или можно "выбирать" нужное (скажем, чтобы история покупок/просмотров конкретного юзера всегда была доступна)

yopp
20.11.2017
12:31:29
Если вы можете своему бизнесу из маленького среза, на коленке за три часа, помочь увеличить выручку хоть на 0.1% то не надо искать более идеального решения, нужно брать и увеличивать прямо тут.

Igor
20.11.2017
12:32:40
Да, я согласен, это своего рода пример 80/20. Но в любом случае, потом же придется реализовать эти 20%, иначе это потенциально сделает кто-то другой?

yopp
20.11.2017
12:40:02
Это вообще общие соображения про индустрию

Igor
20.11.2017
12:52:59
смотря как имплеменить, конечно я про классический collaborative filtering, а, насколько я знаю, именно он обычно является "основным" алгоритмом
Немного погуглил, Амазон использует item-to-item CF. Видимо, это их собственный алгоритм, http://www.cs.umd.edu/~samir/498/Amazon-Recommendations.pdf здесь есть подробности, но я пока не успел прочитать. http://rejoiner.com/resources/amazon-recommendations-secret-selling-online/ - здесь лайтовая версия о том, как это работает в Амазоне

Oleksandr
20.11.2017
12:54:42
да что с этим ботом, блин, второе сообщение трет

Oleksandr
20.11.2017
12:54:55
https://en.wikipedia.org/wiki/Netflix_Prize — ещё на тему рекомм систем (старое, но, насколько я знаю, существенного прогресса в конкретно этой области с тех пор не было)

ура, обошел фильтры

Igor
20.11.2017
12:57:23
Просмотрел публикацию, наверное, сейчас много поменялось. Про Нетфликс гляну, спасибо

Still, although Amazon recommendations are cited by many company observers as a killer feature, analysts believe there’s a lot of room for growth.“There’s a collective belief within the e-commerce industry that Amazon’s recommendation engine is a suboptimal solution,” says Mulpuru. Trisha Dill, a Well’s Fargo analyst, says it’s hard to fault Amazon for their recommendations, but she also says the company has a lot of work to do in offering users items more relevant to them. As an example, she points to a targeted email she received pushing a chainsaw carrying case. (She doesn’t own a chainsaw.)

Constantine
20.11.2017
13:00:54
это статья бородатого года

Admin
ERROR: S client not available

Constantine
20.11.2017
13:01:03
наверняка они улучшили

но не рассказывают

Google
Igor
20.11.2017
13:01:16
Не сомневаюсь, но пока ничего новей не нашел)

The Rejoiner recommendations engine mines data from: Purchased shopping cart data Items added to carts but abandoned Pageviews All this data is fed into Rejoiner’s recommendations engine to help predict what your customers are most likely to buy next.

https://github.com/amzn/amazon-dsstne

Все-таки не покидает ощущение, что пример из копипасты не совсем удачен, т.к именно рекомендации - одно из основных источников прибыли, а для того же Амазона - это огромные деньги. И простейшие модели уже давно построены, а далее идет борьба за улучшение качества, которое "на коленке" уже не построишь

Constantine
20.11.2017
13:29:02
Да

Но лично вы не Амазон

Который может кинуть пару тысяч математиков на запинывание проблемы

Igor
20.11.2017
13:31:35
Я - нет, да и мораль истории понятна) Но не уверен, что она касается таких гигантов, как тот же Delivery Hero ? Но, наверное, люди оттуда сами это понимают)

Igor
20.11.2017
14:08:20
Да, согласен. Но мой вопрос собственно в том, что теперь почти каждый может себе позволить построить простейшие модели, то в чем конкурентное преимущество будет этих моделей?

Igor
20.11.2017
14:12:10
Удачная цитата) Впрочем, в ритейле, наверное, уже каждый этим занимается

Drino
20.11.2017
14:12:33
Ну и если все их строят, то, наверное, лучшая модель у того, у кого данных больше.

Igor
20.11.2017
14:24:01
Ну и качество модели, наверное, тоже? (Впрочем, здесь еще проблема в том, что у тех, у кого данных больше, обычно и денег на R&D больше)

Drino
20.11.2017
14:25:22
Ну, если есть много данных, то нужно меньше усилий на тюнинг модели для тех же результатов.

Constantine
20.11.2017
18:15:22
https://twitter.com/googleresearch/status/932670010740195328

Пора расчехлять нейронки

Viktor
20.11.2017
18:21:40
Коллеги, у меня вопрос по последнему этапу того чем мы с вами занимаемся. После того как модель построена и оптимизирована мы, насколько я понимаю, должны идти к продуктовому менеджеру или другому бигбосу чтобы показывать чего мы добились и как это богатство применять для получения выгоды. В каком виде это обычно делается? Есть ли какие-то best practices по этим отчетам?

yopp
20.11.2017
18:28:00
по хорошему вигода должна уже изначально быть kpi, а процессы должны позволять быстрое тестирование гипотез

но это от индустрии зависит

Google
David Tigiev
20.11.2017
18:53:54
?

Semper
20.11.2017
20:01:30
Коллеги, можно попросить у вас помощи по очень простой задаче по ТВ/матстату?

Oleksandr
20.11.2017
20:05:03
можно попросить

в просьбе отказано

:)

Страница 180 из 327