@hadoopusers

Страница 104 из 182
Alexey
29.05.2018
09:29:45
когда москва уже сгорит.

Илья
30.05.2018
07:03:34
Добрый день! Пробуем свои силы во внедрении Hadoop. Дистрибьютив от Clouder’ы 5.10.х на железе от Oracle(6нод). Подскажите, пожалуйста, у кого есть опыт установки и использование брокера Kafka, куда лучше его ставить, на ноды кластера или отдельные тачки разворачивать)

Vladislav
30.05.2018
07:04:56
Куда душа лежит. Вопрос количества данных и его срок хранения

Google
Nick
30.05.2018
07:10:41
Кафку рекомендую читать

Alexander
30.05.2018
07:13:53
If you do not have a tremendous amount of streaming and use a distribution like CDH or HDP it's reasonable to install Kafka on cluster nodes because of centralized resource management and security. But you should at least have separate disks for it.

Илья
30.05.2018
07:20:44
боссы сэкономили на сопровождении, и мы без тестовой среды, всё на горячую. Интересует ещё вопрос минимальности, в условии установки на выделенные ноды, одной тачкой под брокер можно обойтись, если рассматривать совсем тестовый вариант

Alexander
30.05.2018
07:22:11
Там ещё Кафка не любит , когда много ио операций соседних
HDP / HDF separation is intended on building separate clusters. If budget is enough.

Там ещё Кафка не любит , когда много ио операций соседних
Ah sorry misunderstood the question. You should build the common cluster but if you can use separate broker nodes it's very good. If you use a cloud instances it's somehow unclear because your VMs are cutted from physical instances somehow.

Grigory
30.05.2018
07:44:06
Просто интересно - почему ты пишешь по-английски?
вообще у мя был опыт такой ж по работе

но конечно весьма комично, согласен

и кстати ответ на "почему" я не получил, и мне интересен ответ на этот вопрос

Alexander
30.05.2018
07:55:42
? Так сложилось, что говорю и пишу на английском чуть ли не чаще, чем на русском. Да и для многонационального канала зачастую служит хорошим тоном.

Dmitry
30.05.2018
07:57:22
Но я бы не сказал что он интернациональный

Grigory
30.05.2018
07:57:44
ну тут бывают вопросы на других языках

Google
Dmitry
30.05.2018
07:57:56
На них и отвечаем

Жи

Но так-то все таки по рузге

Alexander
30.05.2018
07:59:09
Ну если вы так настаиваете, господа ?

Tsh
30.05.2018
08:08:10
Ну если вы так настаиваете, господа ?
"отбиваешься от коллектива"

Stanislav
30.05.2018
08:20:57
Да все равно все понимают, какая разница

Katerina
30.05.2018
08:48:00
Привет. Есть две таблицы и спикок полей по которым их надо джоинить, список меняется от запуска к запуску. Делаю что-то вроде params.foldLeft[Dataframe](table1){(table, param) table.join(table2, table(param)===table2("some_column")) } только там еще много разной дополнительной обработки внутри. после чего я вижу как запускается run at ThreadPoolExecutor.java:1149, по колличеству параметров, и происходит много всякого не интересного шафла. А при некоторых перестановках слогаемых все просто виснет и отсыхает (очень похоже на какой то странны дедлок внутри - но это не точно, по крайней мере в логах конкретная причина не обнаружена). В общем очень много памяти выжирается, все очень медленно. все очень не счастливы. вопросы следующие - fold для dataframe это вообще легально(я еще что то подобное делала для withColumn, когда их тоже надо было много добавить)? там же внутри видимо плодится много не нужных сущностей которые не очень чистятся? есть какие то способы сделать это более эффективно и элегантно? есть шансы что дело не в фолде а во внутренней обработке, но я бы хотела сначала разобраться с этой конструкцией, потому что она меня смущает. Как вы вообще учились-разбирались с этим всем перформансом? может есть какие то супер книжки-блоги-курсы-явная последовательность действий... которую все знают, а я нет) В общем буду благодарна за ответы и советы.

Grigory
30.05.2018
08:49:20
Если подозрение в дедлоке - залезь на любую ноду которая висит конкретно в настоящий момент и посмотри жава стек

Katerina
30.05.2018
08:51:20
мм. варианта! спасибо. но это частный случай всей проблемы

я имею ввиду когда оно вообще помирает. обычно тянется но адски медленно

Grigory
30.05.2018
08:52:23
залезь во время любой влятоекущей задачи на особо вялтоекущую ноду и посмотри стек

ты видишь колво паркингов и тп с именами тредов

или не уивдишь

ну и тогда станет ясно дело в коде или нет

просто ситуация может быть реально в дедлоке который просто все замедляет а в крит ситуации все просто замирает (не везет когда сильно)

Katerina
30.05.2018
08:54:31
мне пока что не очень понятно на что именно смотреть. но значит покопаю в этом направлении! спасибо за наводку. сама конструкция с фолдом не смущает?

Grigory
30.05.2018
08:54:46
свертка легальна конечно, но надо помнить что все на драйвер полетит

а у тебя тут сверкта чегото другого

да нормально все

ну ты и стек драйвера посмотри

Google
Grigory
30.05.2018
08:55:45
важно чтоб не было много эвейтов или блоков и тп

и с течением времени их колво не росло если они и есть (а они будут; синх нод и тп или чтото в этом роде)

Katerina
30.05.2018
08:57:44
так, ну то что сам принцип окей - это конечно радует. значит буду смотреть стек и что по мелочи можно улучшить.

у меня есть еще один глупый вопрос. на который я четкого ответа так и не нашла. я часто встречаю мнение о том что несколько машин помельче лучше чем одна жирная. почему? там же всякий транспорт и тд

и еще встречала мнение что больше 30 гб не менеджатся джвм. гарбадж коллектор в шоке и все медленно умирает. это так? у нас как бы все не правильно все еще - одна жирная. около 300 гб оперативной

Евгений
30.05.2018
09:08:18
Делай экзекуторы 4vcore/16gb (можно больше оперативы на ядро, если кластер позволяет)

Машины поменьше нужны, когда 3 петабайта хдфс - скорость чтения с дисков будет выше, если самих дисков будет больше) А вообще нет - только по два 18-ядерных ксеона и 768гб оперативы на ноду - мы ж хранилище не для хранилища строим, а для расчётов)

Katerina
30.05.2018
09:13:14
экзекьютеры в рамках одной машины пробовали делать поменьше. вообще все к чертям валится. а вот на разных машинах по каким то причинам не пробовали.

но я все еще не могу понять почему так полезнее

Евгений
30.05.2018
09:13:53
А оно может валиться из-за плохого распределения ключей?

У нас была такая фигня - джойнили пустую строку с пустой строкой, данные занимали 6 гигов, в итоге 4/16 не валилось, а 1/4 валилось

Одна и та же партиция

Katerina
30.05.2018
09:16:18
ну я пробовала сделать .repartition("key_use_to_join")

не помогло

Grigory
30.05.2018
09:34:52
если много машин то можно и кучу ехекуторов по 80гб - у датабрикс была статья как они тюнили гц

Евгений
30.05.2018
09:47:32
ну я пробовала сделать .repartition("key_use_to_join")
Попробуйте посчитать groupBy("key").agg(count(lit(1)).alias("cnt")).orderBy(desc("cnt"))

В обеих таблицах

Потом поджойнить и перемножить счётчики один на другой

Если увидите триллионы - то надо думать над ключами

Google
Andrey
30.05.2018
15:35:59
Привет

Кто нибудь сталкивался с такой хренью - [uber-SubtaskRunner] ERROR org.apache.sqoop.tool.ImportTool - Encountered IOException running import job: java.io.IOException: Cannot run program "psql": error=2, No such file or directory

это в oozie

sqoop action

выходит скупу нужен psql ? на каждой ноде хадупа?

Grigory
30.05.2018
15:45:43
да, конечно

иначе как он вызывать будет ее на случайной ноде

Andrey
30.05.2018
15:59:14
ок

тогда еще один вопрос, можно ли workflow.xml распилить на файлы с action?

без sub workflow

Alexander
30.05.2018
17:15:52
тогда еще один вопрос, можно ли workflow.xml распилить на файлы с action?
С какой целью? Можно сделать несколько workflow. Это запускаемая единица.

Andrey
30.05.2018
17:16:57
мне нужен 1 воркфлоу, но с кучей акшенов - редактировать партянку в несколько тысяц строк не удобно

хотелось бы вынести акшены в отдельные файлы

Alexander
30.05.2018
17:19:51
мне нужен 1 воркфлоу, но с кучей акшенов - редактировать партянку в несколько тысяц строк не удобно
Но чтобы они логически были последовательными? Можно сделать несколько workflow с условиями запуска (resource-based), за счет чего выстроить chain.

Konstantin
31.05.2018
03:15:56
Kira
31.05.2018
10:50:40
#job #работа #офис #Спб Ищем Руководителя разработки/Архитектора (CTO, Machine Learning) Вилка от 150к на руки, м. Горьковская По требованиям: - Высшее техническое/физико-математическое образование, предполагающее фундаментальные знания в области математики, теории вероятности и математической статистики; - Уверенные знания и опыт разработки на Python, Java, C++ или Golang от 3х лет; - Опыт построения и оптимизации баз данных, уверенные знания SQL; - Опыт работы с key-value хранилищами; - Опыт работы с системами очередей. Подробное описание на хх: https://spb.hh.ru/vacancy/24780951

Alexander
31.05.2018
11:20:45
Cto machine learning на 2 тыс уе) остановите землю я сойду

Alexsey
31.05.2018
11:22:36
ничего, зато диплом пригодится

Andrew
31.05.2018
11:24:03
Cto machine learning на 2 тыс уе) остановите землю я сойду
как то немного для руководителя =))

Alexander
31.05.2018
11:26:30
Возможность роста! Интересные задачи!

Google
Grigory
31.05.2018
11:29:40
вот рибята, то у вас предложений нет, то предложения есть и они не те.

KrivdaAllStars
31.05.2018
11:29:57
Ну зарплатные ожидания обсудить лично можно, что вы все нос воротите

Alexander
31.05.2018
11:34:12
Я не ворочу, я иронизирую. Можно писать 'от 20к' и тоже обсуждать

KrivdaAllStars
31.05.2018
11:39:44
Я не ворочу, я иронизирую. Можно писать 'от 20к' и тоже обсуждать
Руководители разные бывают, может там опционы, может ещё что.

Bhavesh
01.06.2018
12:44:00
Check out "BigData Interview Guide" https://play.google.com/store/apps/details?id=com.software.navnath.bigdatainterviewquestionbank

Alexander
01.06.2018
12:50:02
Thanks now I know which ones I won't ask on interviews ?

Страница 104 из 182