@hadoopusers

« Назад

Страница 104 из 182

Далее »

Alexey

29.05.2018
09:29:45

когда москва уже сгорит.

Илья

30.05.2018
07:03:34

Добрый день! Пробуем свои силы во внедрении Hadoop. Дистрибьютив от Clouder’ы 5.10.х на железе от Oracle(6нод). Подскажите, пожалуйста, у кого есть опыт установки и использование брокера Kafka, куда лучше его ставить, на ноды кластера или отдельные тачки разворачивать)

Vladislav

30.05.2018
07:04:56

Куда душа лежит. Вопрос количества данных и его срок хранения

KrivdaAllStars

30.05.2018
07:09:52

Добрый день! Пробуем свои силы во внедрении Hadoop. Дистрибьютив от Clouder’ы 5.10.х на железе от Oracle(6нод). Подскажите, пожалуйста, у кого есть опыт установки и использование брокера Kafka, куда лучше его ставить, на ноды кластера или отдельные тачки разворачивать)

Кафку рекомендуют ставить отдельно , чтобы ей ничего не мешало , если поток данных большой

Google

Nick

30.05.2018
07:10:41

Кафку рекомендую читать

Alexander

30.05.2018
07:13:53

If you do not have a tremendous amount of streaming and use a distribution like CDH or HDP it's reasonable to install Kafka on cluster nodes because of centralized resource management and security. But you should at least have separate disks for it.

KrivdaAllStars

30.05.2018
07:16:55

If you do not have a tremendous amount of streaming and use a distribution like CDH or HDP it's reasonable to install Kafka on cluster nodes because of centralized resource management and security. But you should at least have separate disks for it.

Там ещё Кафка не любит , когда много ио операций соседних

Илья

30.05.2018
07:20:44

боссы сэкономили на сопровождении, и мы без тестовой среды, всё на горячую. Интересует ещё вопрос минимальности, в условии установки на выделенные ноды, одной тачкой под брокер можно обойтись, если рассматривать совсем тестовый вариант

Alexander

30.05.2018
07:22:11

Там ещё Кафка не любит , когда много ио операций соседних

HDP / HDF separation is intended on building separate clusters. If budget is enough.

Там ещё Кафка не любит , когда много ио операций соседних

Ah sorry misunderstood the question. You should build the common cluster but if you can use separate broker nodes it's very good. If you use a cloud instances it's somehow unclear because your VMs are cutted from physical instances somehow.

Юрий

30.05.2018
07:41:22

Ah sorry misunderstood the question. You should build the common cluster but if you can use separate broker nodes it's very good. If you use a cloud instances it's somehow unclear because your VMs are cutted from physical instances somehow.

Просто интересно - почему ты пишешь по-английски?

Grigory

30.05.2018
07:44:06

Просто интересно - почему ты пишешь по-английски?

вообще у мя был опыт такой ж по работе

но конечно весьма комично, согласен

и кстати ответ на "почему" я не получил, и мне интересен ответ на этот вопрос

Alexander

30.05.2018
07:55:42

? Так сложилось, что говорю и пишу на английском чуть ли не чаще, чем на русском. Да и для многонационального канала зачастую служит хорошим тоном.

Dmitry

30.05.2018
07:57:22

Но я бы не сказал что он интернациональный

Grigory

30.05.2018
07:57:44

ну тут бывают вопросы на других языках

Google

Dmitry

30.05.2018
07:57:56

На них и отвечаем

Жи

Но так-то все таки по рузге

Alexander

30.05.2018
07:59:09

Ну если вы так настаиваете, господа ?

Tsh

30.05.2018
08:08:10

Ну если вы так настаиваете, господа ?

"отбиваешься от коллектива"

Stanislav

30.05.2018
08:20:57

Да все равно все понимают, какая разница

Katerina

30.05.2018
08:48:00

Привет. Есть две таблицы и спикок полей по которым их надо джоинить, список меняется от запуска к запуску. Делаю что-то вроде params.foldLeft[Dataframe](table1){(table, param) table.join(table2, table(param)===table2("some_column")) } только там еще много разной дополнительной обработки внутри. после чего я вижу как запускается run at ThreadPoolExecutor.java:1149, по колличеству параметров, и происходит много всякого не интересного шафла. А при некоторых перестановках слогаемых все просто виснет и отсыхает (очень похоже на какой то странны дедлок внутри - но это не точно, по крайней мере в логах конкретная причина не обнаружена). В общем очень много памяти выжирается, все очень медленно. все очень не счастливы. вопросы следующие - fold для dataframe это вообще легально(я еще что то подобное делала для withColumn, когда их тоже надо было много добавить)? там же внутри видимо плодится много не нужных сущностей которые не очень чистятся? есть какие то способы сделать это более эффективно и элегантно? есть шансы что дело не в фолде а во внутренней обработке, но я бы хотела сначала разобраться с этой конструкцией, потому что она меня смущает. Как вы вообще учились-разбирались с этим всем перформансом? может есть какие то супер книжки-блоги-курсы-явная последовательность действий... которую все знают, а я нет) В общем буду благодарна за ответы и советы.

Grigory

30.05.2018
08:49:20

Если подозрение в дедлоке - залезь на любую ноду которая висит конкретно в настоящий момент и посмотри жава стек

Katerina

30.05.2018
08:51:20

мм. варианта! спасибо. но это частный случай всей проблемы

я имею ввиду когда оно вообще помирает. обычно тянется но адски медленно

Grigory

30.05.2018
08:52:23

залезь во время любой влятоекущей задачи на особо вялтоекущую ноду и посмотри стек

ты видишь колво паркингов и тп с именами тредов

или не уивдишь

ну и тогда станет ясно дело в коде или нет

просто ситуация может быть реально в дедлоке который просто все замедляет а в крит ситуации все просто замирает (не везет когда сильно)

Katerina

30.05.2018
08:54:31

мне пока что не очень понятно на что именно смотреть. но значит покопаю в этом направлении! спасибо за наводку. сама конструкция с фолдом не смущает?

Grigory

30.05.2018
08:54:46

свертка легальна конечно, но надо помнить что все на драйвер полетит

а у тебя тут сверкта чегото другого

да нормально все

ну ты и стек драйвера посмотри

Google

Grigory

30.05.2018
08:55:45

важно чтоб не было много эвейтов или блоков и тп

и с течением времени их колво не росло если они и есть (а они будут; синх нод и тп или чтото в этом роде)

Katerina

30.05.2018
08:57:44

так, ну то что сам принцип окей - это конечно радует. значит буду смотреть стек и что по мелочи можно улучшить.

у меня есть еще один глупый вопрос. на который я четкого ответа так и не нашла. я часто встречаю мнение о том что несколько машин помельче лучше чем одна жирная. почему? там же всякий транспорт и тд

и еще встречала мнение что больше 30 гб не менеджатся джвм. гарбадж коллектор в шоке и все медленно умирает. это так? у нас как бы все не правильно все еще - одна жирная. около 300 гб оперативной

Евгений

30.05.2018
09:08:18

Делай экзекуторы 4vcore/16gb (можно больше оперативы на ядро, если кластер позволяет)

Машины поменьше нужны, когда 3 петабайта хдфс - скорость чтения с дисков будет выше, если самих дисков будет больше) А вообще нет - только по два 18-ядерных ксеона и 768гб оперативы на ноду - мы ж хранилище не для хранилища строим, а для расчётов)

Katerina

30.05.2018
09:13:14

экзекьютеры в рамках одной машины пробовали делать поменьше. вообще все к чертям валится. а вот на разных машинах по каким то причинам не пробовали.

но я все еще не могу понять почему так полезнее

Евгений

30.05.2018
09:13:53

А оно может валиться из-за плохого распределения ключей?

У нас была такая фигня - джойнили пустую строку с пустой строкой, данные занимали 6 гигов, в итоге 4/16 не валилось, а 1/4 валилось

Одна и та же партиция

Katerina

30.05.2018
09:16:18

ну я пробовала сделать .repartition("key_use_to_join")

не помогло

Grigory

30.05.2018
09:34:52

у меня есть еще один глупый вопрос. на который я четкого ответа так и не нашла. я часто встречаю мнение о том что несколько машин помельче лучше чем одна жирная. почему? там же всякий транспорт и тд

лучше с гц; проще понимать и контролировать паралельность

если много машин то можно и кучу ехекуторов по 80гб - у датабрикс была статья как они тюнили гц

Евгений

30.05.2018
09:47:32

ну я пробовала сделать .repartition("key_use_to_join")

Попробуйте посчитать groupBy("key").agg(count(lit(1)).alias("cnt")).orderBy(desc("cnt"))

В обеих таблицах

Потом поджойнить и перемножить счётчики один на другой

Если увидите триллионы - то надо думать над ключами

Google

Andrey

30.05.2018
15:35:59

Привет

Кто нибудь сталкивался с такой хренью - [uber-SubtaskRunner] ERROR org.apache.sqoop.tool.ImportTool - Encountered IOException running import job: java.io.IOException: Cannot run program "psql": error=2, No such file or directory

это в oozie

sqoop action

выходит скупу нужен psql ? на каждой ноде хадупа?

Grigory

30.05.2018
15:45:43

да, конечно

иначе как он вызывать будет ее на случайной ноде

Andrey

30.05.2018
15:59:14

ок

тогда еще один вопрос, можно ли workflow.xml распилить на файлы с action?

без sub workflow

Alexander

30.05.2018
17:15:52

тогда еще один вопрос, можно ли workflow.xml распилить на файлы с action?

С какой целью? Можно сделать несколько workflow. Это запускаемая единица.

Andrey

30.05.2018
17:16:57

мне нужен 1 воркфлоу, но с кучей акшенов - редактировать партянку в несколько тысяц строк не удобно

хотелось бы вынести акшены в отдельные файлы

Alexander

30.05.2018
17:19:51

мне нужен 1 воркфлоу, но с кучей акшенов - редактировать партянку в несколько тысяц строк не удобно

Но чтобы они логически были последовательными? Можно сделать несколько workflow с условиями запуска (resource-based), за счет чего выстроить chain.

Konstantin

31.05.2018
03:15:56

Добрый день! Пробуем свои силы во внедрении Hadoop. Дистрибьютив от Clouder’ы 5.10.х на железе от Oracle(6нод). Подскажите, пожалуйста, у кого есть опыт установки и использование брокера Kafka, куда лучше его ставить, на ноды кластера или отдельные тачки разворачивать)

В новых оракловых нодах даже есть специальные флэш диски под кафку. Я про x7-2l. По этому вопрос достаточно широкий. Зависит от оборудования и объемов данных

Kira

31.05.2018
10:50:40

#job #работа #офис #Спб Ищем Руководителя разработки/Архитектора (CTO, Machine Learning) Вилка от 150к на руки, м. Горьковская По требованиям: - Высшее техническое/физико-математическое образование, предполагающее фундаментальные знания в области математики, теории вероятности и математической статистики; - Уверенные знания и опыт разработки на Python, Java, C++ или Golang от 3х лет; - Опыт построения и оптимизации баз данных, уверенные знания SQL; - Опыт работы с key-value хранилищами; - Опыт работы с системами очередей. Подробное описание на хх: https://spb.hh.ru/vacancy/24780951

Alexander