ptchol
07.03.2017
13:05:19
мы вобще в нашем микрокластере пришли к решению, когда manage сервисы всех решений крутятся на 2-3 выделенных нодах, а весь компьют\сторадж ровно размазан по остальным нодам.
KrivdaTheTriewe
07.03.2017
16:53:19
https://www.safaribooksonline.com/library/view/spark-the-definitive/9781491912201/
Akceptor
10.03.2017
13:32:46
Нам надо сделать приложение, работающее с HDFS\Hive но нужно поддерживать несколько дистрибутивов (Hortonworks\Cloudera\IBM) и стоит вопрос как избежать jar hell работая с либьами самого хадупа в кластере. Есть какие-то best practise? Посоветуйте
KrivdaTheTriewe
11.03.2017
11:07:48
https://www.coursera.org/learn/scala-spark-big-data
Вышел
Google
KrivdaTheTriewe
19.03.2017
12:38:54
как же она быстро говорит в курсе по спарку
еще очень обидело, что скриншоты не обноыили под актуальные данные
Sergey
19.03.2017
15:46:38
есть в монге коллекция на 100миллионов записей, если юзать агрегатор монги то это занимает вечность и сама база в это время в окололежачем состоянии. на сколько есть смысл юзать спарк чтобы сделать агрегации?
Nick
19.03.2017
20:06:16
Но попробовать нужно
Grigory
19.03.2017
20:42:12
Монга упрeтся вочтонить и всe
https://github.com/mongodb/mongo-hadoop
Sergey
20.03.2017
08:10:58
через коннектор вроде оно быстро выгружает в bson, так что не должно быть с этим проблем
Nick
20.03.2017
08:17:12
Akceptor
20.03.2017
14:45:07
Может кто-то помочь с Ambari UI? http://stackoverflow.com/questions/42906503/add-a-combo-box-for-custom-service-in-ambari-ui
Grigory
22.03.2017
07:02:54
посоны а никто не зиповал / гзиповал директории на хдфс?
надо руками писать мр джобу? готового ничего нет?
Boris
22.03.2017
07:04:42
Ну можно не МР, а что-то более высокоуровневое. Например в хайве создать таблицу со сжатым стором и переложить.
Или пигом.
Google
Grigory
22.03.2017
07:04:58
да, это видел
Nick
22.03.2017
07:05:27
А у компрешин кодека ничего нет?
Grigory
22.03.2017
07:07:50
ну, по файлово можно им, думаю)
Boris
22.03.2017
07:08:18
Пигом 3 строчки по идее.
Demidov
22.03.2017
07:24:54
Как вариант можно использовать HAR (Hadoop ARchives), пример команды sudo -u hdfs hadoop archive -archiveName files.har -p /user/spark -r3
Nick
22.03.2017
07:47:51
Grigory
22.03.2017
07:53:57
да я наверное пофайлово и сделаю; у меня стрим байтов есть; очень удобно будет сразу гзиповано файл записать
KrivdaTheTriewe
22.03.2017
09:38:20
как вы логируете шелл скрипты запущенные в оззи?
Pavel
03.04.2017
11:19:06
Дорогие друзья! Мы строили-строили и, наконец, построили. 27 апреля собираем практиков и энтузиастов Apache Spark у себя на Мансарде!
Расскажем, как перевели (почти) все наши ETL и ML пайплайны на Spark и как переехали на вторую версию. Познакомимся и пообщаемся! https://rambler-co-e-org.timepad.ru/event/470664/
KrivdaTheTriewe
03.04.2017
11:33:24
спасибо
?Ivan
03.04.2017
12:38:23
Pavel
03.04.2017
12:38:32
?
KrivdaTheTriewe
10.04.2017
11:27:57
Кто-нибудь занимался обновлением broadcast values в стриминге апачевском, есть какие-нибудь библиотеки ?
Hey, спаркисты, скажите пожалуйста, как вы хендлите ошибки при обработке rddшек , map в Try заворачиваете, ведете ли лог ошибок парсинга ?
Dmitry
10.04.2017
13:06:45
Через Try, но он иногда поднимаен на верх нетот exp.
KrivdaTheTriewe
10.04.2017
13:07:22
каким образом подымаете?
Dmitry
10.04.2017
13:10:07
Try, Failure(e), но бывает, что в лог выводится, "table not found exception", хотя на самом деле свалилось с другим ex'м. Пока не решали не как.
А какой еще опыт есть?
Grigory
10.04.2017
13:12:42
try не монадный; и эксепшоны кидать
не помню где но с монадой кде-то было не удобно.
Google
KrivdaTheTriewe
10.04.2017
13:13:06
Ну Failure выплевывать в кафку и там уже какую-то обработку другой джобой делать может или еще что
Pavel
10.04.2017
13:41:41
Ievgenii
18.04.2017
08:42:41
Тут зарелизили новую версию клаудеры:
https://www.cloudera.com/documentation/enterprise/release-notes/topics/cdh_rn_new_in_cdh_511.html#cdh_new_in_511
KrivdaTheTriewe
18.04.2017
08:55:15
а HDF кто в проде использует?
Farruh
19.04.2017
09:47:54
Кто нибудь знает есть эл.книги по спарк?
KrivdaTheTriewe
19.04.2017
09:48:41
в сафари букс много, ну и официальная документация
Farruh
19.04.2017
09:54:23
Сафари?
KrivdaTheTriewe
19.04.2017
09:55:16
safaribooks
Farruh
19.04.2017
09:59:26
https://www.safaribooksonline.com/search/?query=spark
Я правильно понял?
KrivdaTheTriewe
19.04.2017
09:59:33
да
Farruh
19.04.2017
10:01:11
выбор большой, какой именно будет полезен?
Pavel
19.04.2017
14:50:45
Рекомендую эту http://shop.oreilly.com/product/mobile/0636920028512.do
И эту http://shop.oreilly.com/product/mobile/0636920046967.do
Но вообще полезность целью измеряется
Ievgenii
19.04.2017
21:12:51
Первая очень сильно устарела
Farruh
20.04.2017
01:00:21
Pavel
20.04.2017
02:38:09
Spark ml - это очень странная штука. Например gbm и rf др сих пор не умеют вероятности классов выдавать.
Farruh
20.04.2017
02:42:59
а если Spart ML + Spark R?
Pavel
20.04.2017
02:46:44
Тут скорее Spark для подготовки данных, R для локального обучения. Но там много граблей с сериализацией, скоростью, памятью
Google
Pavel
20.04.2017
02:47:12
В общем смотрите трансляцию с нашего митапа по спарку, про многое расскажем