@hadoopusers

Страница 5 из 182

ptchol

07.03.2017
13:05:19

мы вобще в нашем микрокластере пришли к решению, когда manage сервисы всех решений крутятся на 2-3 выделенных нодах, а весь компьют\сторадж ровно размазан по остальным нодам.

KrivdaTheTriewe

07.03.2017
16:53:19

https://www.safaribooksonline.com/library/view/spark-the-definitive/9781491912201/

Akceptor

10.03.2017
13:32:46

Нам надо сделать приложение, работающее с HDFS\Hive но нужно поддерживать несколько дистрибутивов (Hortonworks\Cloudera\IBM) и стоит вопрос как избежать jar hell работая с либьами самого хадупа в кластере. Есть какие-то best practise? Посоветуйте

KrivdaTheTriewe

11.03.2017
11:07:48

https://www.coursera.org/learn/scala-spark-big-data Вышел

Google

KrivdaTheTriewe

19.03.2017
12:38:54

как же она быстро говорит в курсе по спарку

еще очень обидело, что скриншоты не обноыили под актуальные данные

Sergey

19.03.2017
15:46:38

есть в монге коллекция на 100миллионов записей, если юзать агрегатор монги то это занимает вечность и сама база в это время в окололежачем состоянии. на сколько есть смысл юзать спарк чтобы сделать агрегации?

Nick

19.03.2017
20:06:16

есть в монге коллекция на 100миллионов записей, если юзать агрегатор монги то это занимает вечность и сама база в это время в окололежачем состоянии. на сколько есть смысл юзать спарк чтобы сделать агрегации?

Ты это в Спарк будешь загружать вечно)

Но попробовать нужно

Grigory

19.03.2017
20:42:12

Ты это в Спарк будешь загружать вечно)

Можно как то паралeлизацию выгрузки сдeлать попробовать, можeт и норм будeт да

Монга упрeтся вочтонить и всe

https://github.com/mongodb/mongo-hadoop

Sergey

20.03.2017
08:10:58

через коннектор вроде оно быстро выгружает в bson, так что не должно быть с этим проблем

Nick

20.03.2017
08:17:12

через коннектор вроде оно быстро выгружает в bson, так что не должно быть с этим проблем

но не 100лямов

Akceptor

20.03.2017
14:45:07

Может кто-то помочь с Ambari UI? http://stackoverflow.com/questions/42906503/add-a-combo-box-for-custom-service-in-ambari-ui

Grigory

22.03.2017
07:02:54

посоны а никто не зиповал / гзиповал директории на хдфс? надо руками писать мр джобу? готового ничего нет?

Boris

22.03.2017
07:04:42

Ну можно не МР, а что-то более высокоуровневое. Например в хайве создать таблицу со сжатым стором и переложить. Или пигом.

Google

Grigory

22.03.2017
07:04:58

да, это видел

Nick

22.03.2017
07:05:27

А у компрешин кодека ничего нет?

Grigory

22.03.2017
07:07:50

ну, по файлово можно им, думаю)

Boris

22.03.2017
07:08:18

Пигом 3 строчки по идее.

Demidov

22.03.2017
07:24:54

Как вариант можно использовать HAR (Hadoop ARchives), пример команды sudo -u hdfs hadoop archive -archiveName files.har -p /user/spark -r3

Nick

22.03.2017
07:47:51

ну, по файлово можно им, думаю)

Ну эт ж 3 строчки кода

Grigory

22.03.2017
07:53:57

да я наверное пофайлово и сделаю; у меня стрим байтов есть; очень удобно будет сразу гзиповано файл записать

KrivdaTheTriewe

22.03.2017
09:38:20

как вы логируете шелл скрипты запущенные в оззи?

Pavel

03.04.2017
11:19:06

Дорогие друзья! Мы строили-строили и, наконец, построили. 27 апреля собираем практиков и энтузиастов Apache Spark у себя на Мансарде! Расскажем, как перевели (почти) все наши ETL и ML пайплайны на Spark и как переехали на вторую версию. Познакомимся и пообщаемся! https://rambler-co-e-org.timepad.ru/event/470664/

KrivdaTheTriewe

03.04.2017
11:33:24

спасибо

Дорогие друзья! Мы строили-строили и, наконец, построили. 27 апреля собираем практиков и энтузиастов Apache Spark у себя на Мансарде! Расскажем, как перевели (почти) все наши ETL и ML пайплайны на Spark и как переехали на вторую версию. Познакомимся и пообщаемся! https://rambler-co-e-org.timepad.ru/event/470664/

в скала ру сделайте)

?Ivan

03.04.2017
12:38:23

в скала ру сделайте)

done

Pavel

03.04.2017
12:38:32

?

KrivdaTheTriewe

10.04.2017
11:27:57

Кто-нибудь занимался обновлением broadcast values в стриминге апачевском, есть какие-нибудь библиотеки ?

Hey, спаркисты, скажите пожалуйста, как вы хендлите ошибки при обработке rddшек , map в Try заворачиваете, ведете ли лог ошибок парсинга ?

Dmitry

10.04.2017
13:06:45

Через Try, но он иногда поднимаен на верх нетот exp.

KrivdaTheTriewe

10.04.2017
13:07:22

каким образом подымаете?

Dmitry

10.04.2017
13:10:07

Try, Failure(e), но бывает, что в лог выводится, "table not found exception", хотя на самом деле свалилось с другим ex'м. Пока не решали не как.

А какой еще опыт есть?

Grigory

10.04.2017
13:12:42

try не монадный; и эксепшоны кидать не помню где но с монадой кде-то было не удобно.

Google

KrivdaTheTriewe

10.04.2017
13:13:06

Ну Failure выплевывать в кафку и там уже какую-то обработку другой джобой делать может или еще что

Pavel

10.04.2017
13:41:41

Через Try, но он иногда поднимаен на верх нетот exp.

Да, это плата за ленивые вычисления

Admin

ERROR: S client not available

Ievgenii

18.04.2017
08:42:41

Тут зарелизили новую версию клаудеры: https://www.cloudera.com/documentation/enterprise/release-notes/topics/cdh_rn_new_in_cdh_511.html#cdh_new_in_511

KrivdaTheTriewe

18.04.2017
08:55:15

а HDF кто в проде использует?

Тут зарелизили новую версию клаудеры: https://www.cloudera.com/documentation/enterprise/release-notes/topics/cdh_rn_new_in_cdh_511.html#cdh_new_in_511

как-то все для облака

Farruh

19.04.2017
09:47:54

Кто нибудь знает есть эл.книги по спарк?

KrivdaTheTriewe

19.04.2017
09:48:41

в сафари букс много, ну и официальная документация

Farruh

19.04.2017
09:54:23

Сафари?

KrivdaTheTriewe

19.04.2017
09:55:16

safaribooks

Farruh

19.04.2017
09:59:26

https://www.safaribooksonline.com/search/?query=spark Я правильно понял?

KrivdaTheTriewe

19.04.2017
09:59:33

да

Farruh

19.04.2017
10:01:11

выбор большой, какой именно будет полезен?

Pavel

19.04.2017
14:50:45

Рекомендую эту http://shop.oreilly.com/product/mobile/0636920028512.do

И эту http://shop.oreilly.com/product/mobile/0636920046967.do

Но вообще полезность целью измеряется

Ievgenii

19.04.2017
21:12:51

Первая очень сильно устарела

Farruh

20.04.2017
01:00:21

Но вообще полезность целью измеряется

Спасибо за ссылки. Цель изучить спарк (начинаю) для ML

Pavel

20.04.2017
02:38:09

Spark ml - это очень странная штука. Например gbm и rf др сих пор не умеют вероятности классов выдавать.

Farruh

20.04.2017
02:42:59

а если Spart ML + Spark R?

Google

Pavel

20.04.2017
02:46:44

Тут скорее Spark для подготовки данных, R для локального обучения. Но там много граблей с сериализацией, скоростью, памятью

В общем смотрите трансляцию с нашего митапа по спарку, про многое расскажем

« Назад

Страница 5 из 182

Далее »

Открыть в Telegram