@hadoopusers

Страница 5 из 182
ptchol
07.03.2017
13:05:19
мы вобще в нашем микрокластере пришли к решению, когда manage сервисы всех решений крутятся на 2-3 выделенных нодах, а весь компьют\сторадж ровно размазан по остальным нодам.

KrivdaTheTriewe
07.03.2017
16:53:19
https://www.safaribooksonline.com/library/view/spark-the-definitive/9781491912201/

Akceptor
10.03.2017
13:32:46
Нам надо сделать приложение, работающее с HDFS\Hive но нужно поддерживать несколько дистрибутивов (Hortonworks\Cloudera\IBM) и стоит вопрос как избежать jar hell работая с либьами самого хадупа в кластере. Есть какие-то best practise? Посоветуйте

KrivdaTheTriewe
11.03.2017
11:07:48
https://www.coursera.org/learn/scala-spark-big-data Вышел

Google
KrivdaTheTriewe
19.03.2017
12:38:54
как же она быстро говорит в курсе по спарку

еще очень обидело, что скриншоты не обноыили под актуальные данные

Sergey
19.03.2017
15:46:38
есть в монге коллекция на 100миллионов записей, если юзать агрегатор монги то это занимает вечность и сама база в это время в окололежачем состоянии. на сколько есть смысл юзать спарк чтобы сделать агрегации?

Grigory
19.03.2017
20:42:12
Ты это в Спарк будешь загружать вечно)
Можно как то паралeлизацию выгрузки сдeлать попробовать, можeт и норм будeт да

Монга упрeтся вочтонить и всe

https://github.com/mongodb/mongo-hadoop

Sergey
20.03.2017
08:10:58
через коннектор вроде оно быстро выгружает в bson, так что не должно быть с этим проблем

Akceptor
20.03.2017
14:45:07
Может кто-то помочь с Ambari UI? http://stackoverflow.com/questions/42906503/add-a-combo-box-for-custom-service-in-ambari-ui

Grigory
22.03.2017
07:02:54
посоны а никто не зиповал / гзиповал директории на хдфс? надо руками писать мр джобу? готового ничего нет?

Boris
22.03.2017
07:04:42
Ну можно не МР, а что-то более высокоуровневое. Например в хайве создать таблицу со сжатым стором и переложить. Или пигом.

Google
Grigory
22.03.2017
07:04:58
да, это видел

Nick
22.03.2017
07:05:27
А у компрешин кодека ничего нет?

Grigory
22.03.2017
07:07:50
ну, по файлово можно им, думаю)

Boris
22.03.2017
07:08:18
Пигом 3 строчки по идее.

Demidov
22.03.2017
07:24:54
Как вариант можно использовать HAR (Hadoop ARchives), пример команды sudo -u hdfs hadoop archive -archiveName files.har -p /user/spark -r3

Nick
22.03.2017
07:47:51
ну, по файлово можно им, думаю)
Ну эт ж 3 строчки кода

Grigory
22.03.2017
07:53:57
да я наверное пофайлово и сделаю; у меня стрим байтов есть; очень удобно будет сразу гзиповано файл записать

KrivdaTheTriewe
22.03.2017
09:38:20
как вы логируете шелл скрипты запущенные в оззи?

Pavel
03.04.2017
11:19:06
Дорогие друзья! Мы строили-строили и, наконец, построили. 27 апреля собираем практиков и энтузиастов Apache Spark у себя на Мансарде! Расскажем, как перевели (почти) все наши ETL и ML пайплайны на Spark и как переехали на вторую версию. Познакомимся и пообщаемся! https://rambler-co-e-org.timepad.ru/event/470664/

?Ivan
03.04.2017
12:38:23
Pavel
03.04.2017
12:38:32
?

KrivdaTheTriewe
10.04.2017
11:27:57
Кто-нибудь занимался обновлением broadcast values в стриминге апачевском, есть какие-нибудь библиотеки ?

Hey, спаркисты, скажите пожалуйста, как вы хендлите ошибки при обработке rddшек , map в Try заворачиваете, ведете ли лог ошибок парсинга ?

Dmitry
10.04.2017
13:06:45
Через Try, но он иногда поднимаен на верх нетот exp.

KrivdaTheTriewe
10.04.2017
13:07:22
каким образом подымаете?

Dmitry
10.04.2017
13:10:07
Try, Failure(e), но бывает, что в лог выводится, "table not found exception", хотя на самом деле свалилось с другим ex'м. Пока не решали не как.

А какой еще опыт есть?

Grigory
10.04.2017
13:12:42
try не монадный; и эксепшоны кидать не помню где но с монадой кде-то было не удобно.

Google
KrivdaTheTriewe
10.04.2017
13:13:06
Ну Failure выплевывать в кафку и там уже какую-то обработку другой джобой делать может или еще что

Pavel
10.04.2017
13:41:41
Через Try, но он иногда поднимаен на верх нетот exp.
Да, это плата за ленивые вычисления

Ievgenii
18.04.2017
08:42:41
Тут зарелизили новую версию клаудеры: https://www.cloudera.com/documentation/enterprise/release-notes/topics/cdh_rn_new_in_cdh_511.html#cdh_new_in_511

Farruh
19.04.2017
09:47:54
Кто нибудь знает есть эл.книги по спарк?

KrivdaTheTriewe
19.04.2017
09:48:41
в сафари букс много, ну и официальная документация

Farruh
19.04.2017
09:54:23
Сафари?

KrivdaTheTriewe
19.04.2017
09:55:16
safaribooks

Farruh
19.04.2017
09:59:26
https://www.safaribooksonline.com/search/?query=spark Я правильно понял?

KrivdaTheTriewe
19.04.2017
09:59:33
да

Farruh
19.04.2017
10:01:11
выбор большой, какой именно будет полезен?

Pavel
19.04.2017
14:50:45
Рекомендую эту http://shop.oreilly.com/product/mobile/0636920028512.do

И эту http://shop.oreilly.com/product/mobile/0636920046967.do

Но вообще полезность целью измеряется

Ievgenii
19.04.2017
21:12:51
Первая очень сильно устарела

Farruh
20.04.2017
01:00:21
Но вообще полезность целью измеряется
Спасибо за ссылки. Цель изучить спарк (начинаю) для ML

Pavel
20.04.2017
02:38:09
Spark ml - это очень странная штука. Например gbm и rf др сих пор не умеют вероятности классов выдавать.

Farruh
20.04.2017
02:42:59
а если Spart ML + Spark R?

Pavel
20.04.2017
02:46:44
Тут скорее Spark для подготовки данных, R для локального обучения. Но там много граблей с сериализацией, скоростью, памятью

Google
Pavel
20.04.2017
02:47:12
В общем смотрите трансляцию с нашего митапа по спарку, про многое расскажем

Страница 5 из 182