@bigdata_ru

Страница 71 из 327
Andrey
21.04.2017
13:27:23
Флах для начинающих не очень, хотя книга мощная

Там совсем без кода, это нормально заходит не всем

Kate
21.04.2017
13:28:27
Хадуп я только начинаю, то главное изложение

Andrey
21.04.2017
13:30:07
Лучше сначала Введение в статистическое обучение хотя бы осилить, потом уже за Флаха браться

Google
Kate
21.04.2017
13:32:44
Книга так называется?

Andrey
21.04.2017
13:35:09
Да

Kate
21.04.2017
13:38:33
Спасибо

Gabriel
21.04.2017
13:42:46
Я про hadoop читал the definitive guide to hadoop. Там был приведён код, и общие принципы рассказывались.

Но вообще, по-моему, соваться в большие данные, не имея самих больших данных и мощностей для работы с ними, сложно.

Kate
21.04.2017
13:45:48
Мне по работе уже нужно знание такие технологий

Так что пора соваться

Gabriel
21.04.2017
13:48:41
По работе — хорошо. А как вы будете учиться? Вот есть у вас, скажем, cdh. Вы его запускаете. На своей машине. Одной. В режиме псевдораспределения. И одна ваша машина делает вид, что она — каждая машина в стойке. Вся прелесть использования методов работы с большими данными пропадает.

Kate
21.04.2017
13:57:00
Я же не знаю как точно устроен хадуп, и как это тестировать.

Но не начав, хоть что то учить, так и дальше не буду понимать. Может кто то с работы подскажет, надеюсь, но сомневаюсь

Gabriel
21.04.2017
14:00:01
Это понятно. Вкратце: хадуп устроен так, что он гораздо лучше работает на куче машин. И тестировать его лучше на ней)

Kate
21.04.2017
14:02:25
Спасибо за совет.

Google
Kate
21.04.2017
14:05:42
Почему

/dev
21.04.2017
14:09:34
Почему
Оверхед на оверхеде.

Артём
21.04.2017
14:17:47
Всем привет! Кто имеет опыт по настройке big data для интернет магазина ? https://habrahabr.ru/company/google/blog/194950/ https://habrahabr.ru/company/google/blog/194950/ https://habrahabr.ru/post/230243/ стукните в лс!

Gabriel
21.04.2017
14:20:44
И абсолютно бесполезен на одной-пяти.
Тем более. В общем, хадуп разрабатывался для работы с таки большими данными. Большие данные хранятся стойками) И обрабатываются кластерами их хотя бы десятков машин.

Igor
21.04.2017
14:21:58
Мне по работе уже нужно знание такие технологий
https://stepik.org/course/Hadoop-%D0%A1%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D0%B0-%D0%B4%D0%BB%D1%8F-%D0%BE%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B8-%D0%B1%D0%BE%D0%BB%D1%8C%D1%88%D0%B8%D1%85-%D0%BE%D0%B1%D1%8A%D0%B5%D0%BC%D0%BE%D0%B2-%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85-150

Adam
21.04.2017
17:16:11
Оверхед на оверхеде.
может просто не умеете готовить?

/dev
21.04.2017
17:16:50
может просто не умеете готовить?
Может, я умею готовить одну машину лучше хадупов?

Adam
21.04.2017
17:18:50
Может, я умею готовить одну машину лучше хадупов?
если данные помещаются на одной или вычислительные мощности не требуются, то неудивительно, а если не влезут, то что делать?

Леонид
21.04.2017
18:26:35
может просто не умеете готовить?
Идеология map-reduce в принципе крайне оверхедная. Тот, кто умеет ее готовить в курсе. Если есть возможность задачу решить другим способом - лучше другим и решать. Как ни готовь, а десятком машин на хадупе одну на кликхаусе обогнать не выйдет.

Dan
21.04.2017
18:56:42
Возможно кому-то это будет интересно

Наш список часто пополняется и активно развивается. Появляется много новых интересных сообществ, групп, информационных каналов. За всем, конечно уследить сложно, но мы все пытаемся это сделать. Мы рады представить новую группу, посвящённую великолепному функциональному и выразительному языку программирования Elm https://t.me/elm_ru

Andrey
21.04.2017
21:38:07
привет всем, а кто нибудь работал с фреймворком tf-seq2seq в тензорфлоу?

https://google.github.io/seq2seq/

Boris
22.04.2017
18:04:13
Народ, привет. Мне ваш чатик один знакомый подсказал Может поможете ответить на один вопрос: Сколько может стоить и занимать по времени разработка приложухи типа Призмы, только с одним определенным фильтром?

Evgeny
22.04.2017
18:18:34
Народ, привет. Мне ваш чатик один знакомый подсказал Может поможете ответить на один вопрос: Сколько может стоить и занимать по времени разработка приложухи типа Призмы, только с одним определенным фильтром?
Снять фичи с одной фотографии, стиль с другой и совместить их по известным уже всем алгоритмам — задача на вечер. Разработать два клиента под мобильные платформы существенно дольше. Призма запускалась с обработкой данных на серверах, поэтому у них ещё неслабый бекенд и инфраструктура были. После появлились алгоритмы, которые могут сделать всё на устройстве.

Google
Boris
22.04.2017
18:44:00
Спасибо за инфу, а бюджет хотя бы примерный какой должен у этого быть?

Timofey
22.04.2017
18:45:13
Кстати, непонятно, зачем им был нужен бэкенд. Это обучить нейронку нетривиально, просто заюзать же должно быть процессорно несложно

Артём
22.04.2017
18:55:13
Всем привет! Кто имеет опыт по настройке big data для интернет магазина ? https://habrahabr.ru/company/google/blog/194950/ https://habrahabr.ru/company/google/blog/194950/ https://habrahabr.ru/post/230243/ стукните в лс!

Evgeny
22.04.2017
19:20:49
Кстати, непонятно, зачем им был нужен бэкенд. Это обучить нейронку нетривиально, просто заюзать же должно быть процессорно несложно
К ним в код не смотрел, свечку не держал, но предполагаю, что в первых версиях использовали vgg, строили матрицы Грама и logloss'или на серверах по довольно простой причине. Модель vgg, как правило, очень большая, а скачивать приложение в 450 мегабайт хотят/могут/готовы ждать не все пользователи.

Dan
23.04.2017
00:21:26
Привет. Спамить будешь? ?

Артем
23.04.2017
00:23:16
Привет

?

Нет

Dan
23.04.2017
00:24:19
Интересуешься машинным обучением?

Артем
23.04.2017
00:35:03
Ага

Dmitry
23.04.2017
09:31:15
Подскажите пожалуйста по elasticsearch: есть много текстов в одном индексе. У каждого есть "родитель" - компания. Нужно посчитать score не для каждого отдельного документа а для компаний, то есть такой себе агрегированный score. То есть как бы конкатенировать все статьи по компаниям и посчитать score для каждой. Есть ли вариант без конкатенации? Смотрел в сторону бакетов и вроде не то. Сейчас думаю может просто потом суммировать отдельные score или найти среднее арифметическое, но что-то говорит что будет очень криво.

Да, поиск будет через match_phrase и таких фраз будет много....

Adam
23.04.2017
09:34:26
выглядит как tf idf с группировкой по компании

Dmitry
23.04.2017
09:41:34
Adam
23.04.2017
09:41:47
а как ты вообще индекс строишь?

Dmitry
23.04.2017
09:42:10
Загружаю статьи, одно поле - текст, второе - компания

Все тексты(статьи) лежат как отдельные документы

В общем да, нужен match_phrase с группировкой по компании но я не знаю как его можно сделать

Admin
ERROR: S client not available

Adam
23.04.2017
09:43:22
через какую то внешнюю программу обрабатываешь свои сущности и индекс в еластик шлёшь?

Google
Dmitry
23.04.2017
09:44:41
в монгу попадают через скрипт в общем

софт на питоне

но я надеялся что score по компании можно будет посчитать на стороне ES

Adam
23.04.2017
09:46:13
а в запросе всегда компания будет указана?

Dmitry
23.04.2017
09:46:35
а в запросе всегда компания будет указана?
нет, она вообще не будет указана так как их неопределенное количество

ну то есть нужно сначала сделать какой-то аналог group by

типа group by company_id, match_phrase "bla bla bla"

и на выходе получить: company_id: 1, score: 1.23 company_id: 2, score: 2.34 ...

Adam
23.04.2017
09:49:03
я понял наконец что ты хочешь

Dmitry
23.04.2017
09:51:00
я понял наконец что ты хочешь
это реально сделать с ES?

ну или может есть другие варианты получше, или страктура у меня хреновая

Adam
23.04.2017
09:53:23
не знаю точно про ES, но в solr/lucene это можно сделать засчёт фасетов, типа получаешь выдачу на запрос и потом группируешь по признаку и по желанию аггрегируешь

Dmitry
23.04.2017
09:54:50
не знаю точно про ES, но в solr/lucene это можно сделать засчёт фасетов, типа получаешь выдачу на запрос и потом группируешь по признаку и по желанию аггрегируешь
ну в ES это я так понял бакеты, но как можно сагрегировать score? Ну то есть score считается с учетом длины документа ,частоты внутри документа и частоты вообще во всей коллекции и так далее. А агрегация просто что-то может посчитать типа поделить/умножить...

Adam
23.04.2017
09:56:03
мне кажется сойдёт за вопрос для stackoverflow, не так много людей с этим работает

Dmitry
23.04.2017
09:56:41
ясно, спасибо за помощь

Mohammed
24.04.2017
13:15:44
hi to all

Gabriel
24.04.2017
13:17:58
Hey there

kiltum
24.04.2017
16:23:37
Hi! Here is mostly russian, so probably you should search another one :)

Dan
24.04.2017
16:25:18
что-то мне подсказывает...

Google
kiltum
24.04.2017
16:42:12
Не, не может быть ;)

WaitForMeee
24.04.2017
16:46:34
у кого нибудь есть опыт работы с яндекс-толокой в качестве заказчика?

Gabriel
24.04.2017
16:53:16
C...кем?

Dan
24.04.2017
16:55:10
скорее вопрос почему в качестве заказчика?

WaitForMeee
24.04.2017
16:55:47
яндекс-толока

Constantine
24.04.2017
16:56:44
Юзали амазоновскую турку

Страница 71 из 327