
Daniel
12.04.2018
21:26:25

Grigory
12.04.2018
21:31:55
мишаню
он зашел в 4 или 5 чатов
и везде плюнул спамом)

Google

Андрей
12.04.2018
21:59:26
да оно еще и под разными никами бегало

Alexander
12.04.2018
22:11:35
Ok, feel free to ask because it could be tricky somehow depends on the pipeline you build...

Павел
13.04.2018
13:44:07
Всем привет, кто как метрики со Спарк Джоб снимает? Есть ли что-то готовое(листенер написанный) который это все собирает и умеет сохранять в бд или же просто в файл?
Я нашёл один проект - sparkMeasure, который не заводится что то:)

Nick
13.04.2018
13:58:51
какие тебя метрики интересуют?

Павел
13.04.2018
14:02:04
cpuTime / memory
искать в хистори не хочу :(

Alexander
13.04.2018
14:04:03
If you run YARN-mode you could use Resource Manager monitoring because it's YARN-controlled running...you could check reserved containers parameters. From the application perspective these metrics could be collected via YARN REST API.

Павел
13.04.2018
14:15:47
Unfortunately, it is not running in yarn mode)

Andrey
13.04.2018
14:28:43
Там если конфиг метрик подкрутить, то можно в графит
А в графит формате уже много кто умеет, мы принимали графит -> telegraf ->datadog
https://github.com/apache/spark/blob/master/conf/metrics.properties.template

Павел
13.04.2018
14:51:12
окей, спасибо

Google

looper
16.04.2018
03:54:20
。

Oleg
17.04.2018
10:26:27
привет. Приземлённый вопрос. Есть куча датанод на старом хадупчике, там диски забились, к ним добавили еще несколько рядом. Хочу хоть чуть чуть сбалансировать данные, чтобы погасить мониторинг.
Внутри датаноды ребаланс он еще не умеет. Пытаюсь установить лимит dfs.datanode.du.reserved - ничего не меняется.
Он, получается, не будет диски расчищать до значения reserverd, просто будет предотвращать запись на них?

sherzod
17.04.2018
10:30:56
На клаудере всё время приходилось ребаланс кластера запускать руками, несмотря ни на какие настройки. Был какой-то баг, уже не помню ссылку, так что если хадуп <2.7 то надо руками или крончик.

Oleg
17.04.2018
10:54:13
ребаланс hdfs работает , всё ок. Имею ввиду ребаланс данных на дисках в рамках одной датаноды. Когда у тебя один диск на 99% используется, а другой на 1%. В 3.0 есть diskbalancer, а тут похоже, дропать их по одному нужно, ждать когда не будет нереплицированных блоков и дропать следующий
dfs.datanode.du.reserved только для новых блоков
нашел в доке

Dmitry
17.04.2018
10:54:56
а много таких нод?
если не очень - то может сделать тупо? stop HDFS, rm -rf /dfs, start HDFS ? :)

Oleg
17.04.2018
10:55:40
нет, 7 штук по 4 диска. на каждой из них 2 забито, 2 свободно
иначе видимо нельзя, но пожалуй я не буду, проще триггеры вырубить ))
чёт ссыкотно
там фактор еще 2

Dmitry
17.04.2018
10:56:38
слушай, мне вот было бы более сыкотно жить, если один из дисков на 99% забит
а смерть одной ноды он переживает вполне нормально кстати
уже не раз проверял :)

Oleg
17.04.2018
10:56:57
если там тупо хдфс, то это не опасно
нодменеджер не пишет больше туда и все

Dmitry
17.04.2018
10:57:11
так что это практически штатный механизм, можно сказать :)

Oleg
17.04.2018
10:58:39
ну это конечно заложено в архитектуру , но репликация мала слишком. думал найти какие-то другие способы)
спасибо

Google

Dmitry
17.04.2018
10:59:28
а есть место поднять временно RF до 3ки ?
можно поднять, подождать, пока он отреплицируется, и дальше - как я выше написал :)

Oleg
17.04.2018
11:01:08
да, как вариант, посмотрю что там с местом.спасибо

Olga
17.04.2018
11:47:59
Привет! Приходите в четверг к нам на Big Data meetup https://grid-dynamics.timepad.ru/event/703266/

Danis
17.04.2018
11:55:27

Olga
17.04.2018
12:23:41

Grigory
17.04.2018
12:48:17
Поздновато аннонс)

Alexander
17.04.2018
19:07:17
Приветствую. Здесь разрешается постить вакансии?

Daniel
17.04.2018
19:08:03
ту вакансию здесь можно, но там лучше убрать


Alexander
17.04.2018
19:11:07
#job #вакансия #москва
Всем доброго времени суток.
Я руковожу подразделением professional services в компании CleverDATA.
Ищу себе в команду Java-инженера в Москве.
От кандидата ожидаю:
- компетенции в Java, Hadoop, Spark, Kafka
- можно и просто Java, главное желание развиваться
- высокую отдачу, ответственность, желание изучать технологии, желание делать “хорошо”
- умение работать в команде и писать читаемый код
Что могу дать взамен:
- интересные и сложные задачи по параллельной обработке больших массивов данных, вычислении в реальном времени, разработке высоконагруженных и отказоустойчивых сервисов
- возможность принимать самостоятельные решения в части реализации
- дружную команду, которая любит свое дело, технологии и своих клиентов
- возможность участвовать в релевантных конференциях (в т.ч. за пределами России)
- гибкий рабочий график и возможность один день в неделю работать удаленно
- белую зп от 140 до 250
Немного о компании:
Трудовые будни команды CleverDATA - это создание продуктов для обработки терабайт данных в день и сотен тысяч запросов в секунду. Это разработка предиктивных моделей для повышения эффективности бизнеса на миллионы рублей в месяц. Это участие в качестве экспертов на конференциях и вебинарах по технологиям.
Если вам это интересно или появились вопросы, пожалуйста, пишите в личку.
Спасибо!


Darya
18.04.2018
14:36:30
#вакансия #Москва #офис
Всем привет!
Я представляю рекрутинговую компанию Marksman. В работе есть вакансия Hadoop администратор: возможно среди вас кого-то заинтересует, или у вас есть коллеги/знакомые, решающие подобные задачи.
Вакансия открыта в подразделении крупного вендора, которое разрабатывает собственную аналитическую платформу и предоставляет своим клиентам интеграционные технологии и консультационные услуги по анализу больших данных. Международная команда специалистов по Data Engineering и Data Science cоздают системы, с помощью которых успешно собираются, хранятся, интегрируются и анализируются огромные массивы самых разных данных.
*Hadoop администратор*
Обязанности:
-мониторинг промышленного кластера Hadoop
-рекомендации по оптимизации
-расследование инцидентов на кластере
-архитектурный консалтинг в части построения и оптимизации высоконагруженных и отказоустойчивых систем
-составление регулярной отчетности
Требования:
-глубокие знания unix
-опыт администрирования экосистем Hadoop
-хорошие знания sql и реляционных баз данных
Буду рада рекомендациям!
Подробнее о вакансии и компании в лс.


Andrey
18.04.2018
17:15:54
Привет
народ, кто нибудь использует hive2.0+ вместе с oozie? нет проблем?

Konstantin
18.04.2018
17:20:21

Andrey
18.04.2018
18:09:51
Тоже из-за разных версий hive в oozie и метастора ?

Svyatoslav
18.04.2018
18:58:56
Привет. Коллеги, может быть оффтоп, но кто работал с Apache Flink?

Daniel
18.04.2018
18:59:38
привет, сова
эт не офтоп, но начинай сразу с интересующего вопроса


Svyatoslav
18.04.2018
19:04:58
Ок. Есть 5 стриминговых задач, которые запускаются в flink standalone(кластера нет). Задачки забирают определенную информацию из Kafka, обрабатывает и отдает обратно в другой топик. Но после запуска 4-5 задачи они падают
Caused by: akka.pattern.AskTimeoutException: Ask timed out on [Actor[akka.tcp://
, а потом все задачи уходят почему-то в рестарт, с записью, что у таскменеджера нет свободных слотов, хотя они есть.
Кто-то сталкивался с подобным?
org.apache.flink.runtime.jobmanager.scheduler.NoResourceAvailableException: Not enough free slots available to run the job. You can decrease the operator parallelism or increase the number of slots per TaskManager in the configuration. Task to schedule: < Attempt #130 (Source: Custom Source -> Map -> Filter -> Map (1/1)) @ (unassigned) - [SCHEDULED] > with groupID < cbc357ccb763df2852fee8c4fc7d55f2 > in sharing group < SlotSharingGroup [4925de6ecf34e85bb28d958659d9c37b, 106916e868ac6e48dacc2fe23a377649, 2963852293169ba90d9d1e7d6308db5c, 086f6e123b547f6c18cc0b70ef23267e, 0def966c0444b5fa22b593be249d37f8, 6cdc5bb954874d922eaee11a8e7b5dd5, cbc357ccb763df2852fee8c4fc7d55f2] >. Resources available to scheduler: Number of instances=0, total number of slots=0, available slots=0


Daniel
18.04.2018
19:14:02
хм, в логе написано что их 0 доступно

Google

Svyatoslav
18.04.2018
19:56:13
По факту 20. Почему лог такое пишет- черт знает

Daniel
18.04.2018
20:10:51
ну почему понятно, но это следствие
как гипотеза, рестарты идут уже к моменту запуска 4-5 джоба, но по какой-то причине ресурсы не освобождаются
я бы порылся детальнее в логах
необязательно ошибки, ворнинги и даже инфо могут быть с инфой

Konstantin
19.04.2018
06:46:41

Grigory
19.04.2018
14:24:55
Лайв, как обычно, искать здесь https://www.facebook.com/afishamansarda/