@bigdata_ru

« Назад

Страница 71 из 327

Далее »

Andrey

21.04.2017
13:27:23

Флах для начинающих не очень, хотя книга мощная

Там совсем без кода, это нормально заходит не всем

Kate

21.04.2017
13:28:27

Хадуп я только начинаю, то главное изложение

Andrey

21.04.2017
13:30:07

Лучше сначала Введение в статистическое обучение хотя бы осилить, потом уже за Флаха браться

Google

Kate

21.04.2017
13:32:44

Книга так называется?

Andrey

21.04.2017
13:35:09

Да

Kate

21.04.2017
13:38:33

Спасибо

Gabriel

21.04.2017
13:42:46

Я про hadoop читал the definitive guide to hadoop. Там был приведён код, и общие принципы рассказывались.

Но вообще, по-моему, соваться в большие данные, не имея самих больших данных и мощностей для работы с ними, сложно.

Kate

21.04.2017
13:45:48

Мне по работе уже нужно знание такие технологий

Так что пора соваться

Gabriel

21.04.2017
13:48:41

По работе — хорошо. А как вы будете учиться? Вот есть у вас, скажем, cdh. Вы его запускаете. На своей машине. Одной. В режиме псевдораспределения. И одна ваша машина делает вид, что она — каждая машина в стойке. Вся прелесть использования методов работы с большими данными пропадает.

Kate

21.04.2017
13:57:00

Я же не знаю как точно устроен хадуп, и как это тестировать.

Но не начав, хоть что то учить, так и дальше не буду понимать. Может кто то с работы подскажет, надеюсь, но сомневаюсь

Gabriel

21.04.2017
14:00:01

Это понятно. Вкратце: хадуп устроен так, что он гораздо лучше работает на куче машин. И тестировать его лучше на ней)

Kate

21.04.2017
14:02:25

Спасибо за совет.

/dev

21.04.2017
14:05:17

Это понятно. Вкратце: хадуп устроен так, что он гораздо лучше работает на куче машин. И тестировать его лучше на ней)

И абсолютно бесполезен на одной-пяти.

Google

Kate

21.04.2017
14:05:42

Почему

/dev

21.04.2017
14:09:34

Почему

Оверхед на оверхеде.

Артём

21.04.2017
14:17:47

Всем привет! Кто имеет опыт по настройке big data для интернет магазина ? https://habrahabr.ru/company/google/blog/194950/ https://habrahabr.ru/company/google/blog/194950/ https://habrahabr.ru/post/230243/ стукните в лс!

Igor

21.04.2017
14:17:47

Это понятно. Вкратце: хадуп устроен так, что он гораздо лучше работает на куче машин. И тестировать его лучше на ней)

смотрел на хадуп и на цеф на виртуалках за 2,5$/мес. Поднял 10шт.

Gabriel

21.04.2017
14:20:44

И абсолютно бесполезен на одной-пяти.

Тем более. В общем, хадуп разрабатывался для работы с таки большими данными. Большие данные хранятся стойками) И обрабатываются кластерами их хотя бы десятков машин.

Igor

21.04.2017
14:21:58

Мне по работе уже нужно знание такие технологий

https://stepik.org/course/Hadoop-%D0%A1%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D0%B0-%D0%B4%D0%BB%D1%8F-%D0%BE%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B8-%D0%B1%D0%BE%D0%BB%D1%8C%D1%88%D0%B8%D1%85-%D0%BE%D0%B1%D1%8A%D0%B5%D0%BC%D0%BE%D0%B2-%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85-150

Kate

21.04.2017
14:25:51

https://stepik.org/course/Hadoop-%D0%A1%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D0%B0-%D0%B4%D0%BB%D1%8F-%D0%BE%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B8-%D0%B1%D0%BE%D0%BB%D1%8C%D1%88%D0%B8%D1%85-%D0%BE%D0%B1%D1%8A%D0%B5%D0%BC%D0%BE%D0%B2-%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85-150

Проходила данный курс

Основы даёт, что как устроено.

Timur

21.04.2017
16:20:58

Но вообще, по-моему, соваться в большие данные, не имея самих больших данных и мощностей для работы с ними, сложно.

Вах! Золотые слова!

Adam

21.04.2017
17:16:11

Оверхед на оверхеде.

может просто не умеете готовить?

/dev

21.04.2017
17:16:50

может просто не умеете готовить?

Может, я умею готовить одну машину лучше хадупов?

Adam

21.04.2017
17:18:50

Может, я умею готовить одну машину лучше хадупов?

если данные помещаются на одной или вычислительные мощности не требуются, то неудивительно, а если не влезут, то что делать?

Леонид

21.04.2017
18:26:35

может просто не умеете готовить?

Идеология map-reduce в принципе крайне оверхедная. Тот, кто умеет ее готовить в курсе. Если есть возможность задачу решить другим способом - лучше другим и решать. Как ни готовь, а десятком машин на хадупе одну на кликхаусе обогнать не выйдет.

Dan

21.04.2017
18:56:42

Возможно кому-то это будет интересно

Наш список часто пополняется и активно развивается. Появляется много новых интересных сообществ, групп, информационных каналов. За всем, конечно уследить сложно, но мы все пытаемся это сделать. Мы рады представить новую группу, посвящённую великолепному функциональному и выразительному языку программирования Elm https://t.me/elm_ru

/dev

21.04.2017
19:23:12

Наш список часто пополняется и активно развивается. Появляется много новых интересных сообществ, групп, информационных каналов. За всем, конечно уследить сложно, но мы все пытаемся это сделать. Мы рады представить новую группу, посвящённую великолепному функциональному и выразительному языку программирования Elm https://t.me/elm_ru

Воу-воу, фронтенд же, я чуть штаны не подвернул

Andrey

21.04.2017
21:38:07

привет всем, а кто нибудь работал с фреймворком tf-seq2seq в тензорфлоу?

https://google.github.io/seq2seq/

Boris

22.04.2017
18:04:13

Народ, привет. Мне ваш чатик один знакомый подсказал Может поможете ответить на один вопрос: Сколько может стоить и занимать по времени разработка приложухи типа Призмы, только с одним определенным фильтром?

Evgeny

22.04.2017
18:18:34

Народ, привет. Мне ваш чатик один знакомый подсказал Может поможете ответить на один вопрос: Сколько может стоить и занимать по времени разработка приложухи типа Призмы, только с одним определенным фильтром?

Снять фичи с одной фотографии, стиль с другой и совместить их по известным уже всем алгоритмам — задача на вечер. Разработать два клиента под мобильные платформы существенно дольше. Призма запускалась с обработкой данных на серверах, поэтому у них ещё неслабый бекенд и инфраструктура были. После появлились алгоритмы, которые могут сделать всё на устройстве.

Google

Boris

22.04.2017
18:44:00

Спасибо за инфу, а бюджет хотя бы примерный какой должен у этого быть?

Timofey

22.04.2017
18:45:13

Кстати, непонятно, зачем им был нужен бэкенд. Это обучить нейронку нетривиально, просто заюзать же должно быть процессорно несложно

Артём

22.04.2017
18:55:13

Всем привет! Кто имеет опыт по настройке big data для интернет магазина ? https://habrahabr.ru/company/google/blog/194950/ https://habrahabr.ru/company/google/blog/194950/ https://habrahabr.ru/post/230243/ стукните в лс!

Evgeny

22.04.2017
19:20:49

Кстати, непонятно, зачем им был нужен бэкенд. Это обучить нейронку нетривиально, просто заюзать же должно быть процессорно несложно

К ним в код не смотрел, свечку не держал, но предполагаю, что в первых версиях использовали vgg, строили матрицы Грама и logloss'или на серверах по довольно простой причине. Модель vgg, как правило, очень большая, а скачивать приложение в 450 мегабайт хотят/могут/готовы ждать не все пользователи.

Dan

23.04.2017
00:21:26

Привет. Спамить будешь? ?

Артем

23.04.2017
00:23:16

Привет

?

Нет

Dan

23.04.2017
00:24:19

Интересуешься машинным обучением?

Артем

23.04.2017
00:35:03

Ага

Dmitry

23.04.2017
09:31:15

Подскажите пожалуйста по elasticsearch: есть много текстов в одном индексе. У каждого есть "родитель" - компания. Нужно посчитать score не для каждого отдельного документа а для компаний, то есть такой себе агрегированный score. То есть как бы конкатенировать все статьи по компаниям и посчитать score для каждой. Есть ли вариант без конкатенации? Смотрел в сторону бакетов и вроде не то. Сейчас думаю может просто потом суммировать отдельные score или найти среднее арифметическое, но что-то говорит что будет очень криво.

Да, поиск будет через match_phrase и таких фраз будет много....

Adam

23.04.2017
09:34:26

выглядит как tf idf с группировкой по компании

Dmitry

23.04.2017
09:41:34

выглядит как tf idf с группировкой по компании

Это можно сделать в elasticsearch?

Adam

23.04.2017
09:41:47

а как ты вообще индекс строишь?

Dmitry

23.04.2017
09:42:10

Загружаю статьи, одно поле - текст, второе - компания

Все тексты(статьи) лежат как отдельные документы

В общем да, нужен match_phrase с группировкой по компании но я не знаю как его можно сделать

Admin

ERROR: S client not available

Adam

23.04.2017
09:43:22

через какую то внешнюю программу обрабатываешь свои сущности и индекс в еластик шлёшь?

Google

Dmitry

23.04.2017
09:44:41

через какую то внешнюю программу обрабатываешь свои сущности и индекс в еластик шлёшь?

данные лежат в монге, ES для индекса и поиска

в монгу попадают через скрипт в общем

софт на питоне

но я надеялся что score по компании можно будет посчитать на стороне ES

Adam

23.04.2017
09:46:13

а в запросе всегда компания будет указана?

Dmitry

23.04.2017
09:46:35

а в запросе всегда компания будет указана?

нет, она вообще не будет указана так как их неопределенное количество

ну то есть нужно сначала сделать какой-то аналог group by

типа group by company_id, match_phrase "bla bla bla"

и на выходе получить: company_id: 1, score: 1.23 company_id: 2, score: 2.34 ...

Adam

23.04.2017
09:49:03

я понял наконец что ты хочешь

Dmitry

23.04.2017
09:51:00

я понял наконец что ты хочешь

это реально сделать с ES?

ну или может есть другие варианты получше, или страктура у меня хреновая

Adam

23.04.2017
09:53:23

не знаю точно про ES, но в solr/lucene это можно сделать засчёт фасетов, типа получаешь выдачу на запрос и потом группируешь по признаку и по желанию аггрегируешь

Dmitry

23.04.2017
09:54:50

не знаю точно про ES, но в solr/lucene это можно сделать засчёт фасетов, типа получаешь выдачу на запрос и потом группируешь по признаку и по желанию аггрегируешь

ну в ES это я так понял бакеты, но как можно сагрегировать score? Ну то есть score считается с учетом длины документа ,частоты внутри документа и частоты вообще во всей коллекции и так далее. А агрегация просто что-то может посчитать типа поделить/умножить...

Adam

23.04.2017
09:56:03

мне кажется сойдёт за вопрос для stackoverflow, не так много людей с этим работает

Dmitry

23.04.2017
09:56:41

ясно, спасибо за помощь

Mohammed

24.04.2017
13:15:44

hi to all

Gabriel

24.04.2017
13:17:58

Hey there

kiltum

24.04.2017
16:23:37

Hi! Here is mostly russian, so probably you should search another one :)

Dan

24.04.2017
16:25:18

что-то мне подсказывает...

Google

kiltum

24.04.2017
16:42:12

Не, не может быть ;)

WaitForMeee

24.04.2017
16:46:34

у кого нибудь есть опыт работы с яндекс-толокой в качестве заказчика?

Gabriel

24.04.2017
16:53:16

C...кем?

Dan

24.04.2017
16:55:10

скорее вопрос почему в качестве заказчика?

WaitForMeee

24.04.2017
16:55:47

яндекс-толока

Constantine

24.04.2017
16:56:44

Юзали амазоновскую турку

« Назад

Страница 71 из 327

Далее »

Открыть в Telegram