@hadoopusers

« Назад

Страница 94 из 182

Далее »

Daniel

12.04.2018
21:26:25

я в баню вечную отправил его

пардон, а кого именно? спам убрал я, передо мной оставался коммент на спам, но от нормального человека

Grigory

12.04.2018
21:31:55

мишаню

он зашел в 4 или 5 чатов

и везде плюнул спамом)

Google

Андрей

12.04.2018
21:59:26

да оно еще и под разными никами бегало

Alexander

12.04.2018
22:11:35

Ok, feel free to ask because it could be tricky somehow depends on the pipeline you build...

Павел

13.04.2018
13:44:07

Всем привет, кто как метрики со Спарк Джоб снимает? Есть ли что-то готовое(листенер написанный) который это все собирает и умеет сохранять в бд или же просто в файл?

Я нашёл один проект - sparkMeasure, который не заводится что то:)

Nick

13.04.2018
13:58:51

какие тебя метрики интересуют?

Павел

13.04.2018
14:02:04

cpuTime / memory

искать в хистори не хочу :(

Alexander

13.04.2018
14:04:03

If you run YARN-mode you could use Resource Manager monitoring because it's YARN-controlled running...you could check reserved containers parameters. From the application perspective these metrics could be collected via YARN REST API.

Павел

13.04.2018
14:15:47

Unfortunately, it is not running in yarn mode)

Andrey

13.04.2018
14:28:43

Там если конфиг метрик подкрутить, то можно в графит

А в графит формате уже много кто умеет, мы принимали графит -> telegraf ->datadog

https://github.com/apache/spark/blob/master/conf/metrics.properties.template

Павел

13.04.2018
14:51:12

окей, спасибо

Google

looper

16.04.2018
03:54:20

。

Oleg

17.04.2018
10:26:27

привет. Приземлённый вопрос. Есть куча датанод на старом хадупчике, там диски забились, к ним добавили еще несколько рядом. Хочу хоть чуть чуть сбалансировать данные, чтобы погасить мониторинг. Внутри датаноды ребаланс он еще не умеет. Пытаюсь установить лимит dfs.datanode.du.reserved - ничего не меняется. Он, получается, не будет диски расчищать до значения reserverd, просто будет предотвращать запись на них?

sherzod

17.04.2018
10:30:56

На клаудере всё время приходилось ребаланс кластера запускать руками, несмотря ни на какие настройки. Был какой-то баг, уже не помню ссылку, так что если хадуп <2.7 то надо руками или крончик.

Oleg

17.04.2018
10:54:13

ребаланс hdfs работает , всё ок. Имею ввиду ребаланс данных на дисках в рамках одной датаноды. Когда у тебя один диск на 99% используется, а другой на 1%. В 3.0 есть diskbalancer, а тут похоже, дропать их по одному нужно, ждать когда не будет нереплицированных блоков и дропать следующий

dfs.datanode.du.reserved только для новых блоков

нашел в доке

Dmitry

17.04.2018
10:54:56

а много таких нод?

если не очень - то может сделать тупо? stop HDFS, rm -rf /dfs, start HDFS ? :)

Oleg

17.04.2018
10:55:40

нет, 7 штук по 4 диска. на каждой из них 2 забито, 2 свободно

иначе видимо нельзя, но пожалуй я не буду, проще триггеры вырубить ))

чёт ссыкотно

там фактор еще 2

Dmitry

17.04.2018
10:56:38

слушай, мне вот было бы более сыкотно жить, если один из дисков на 99% забит

а смерть одной ноды он переживает вполне нормально кстати

уже не раз проверял :)

Oleg

17.04.2018
10:56:57

если там тупо хдфс, то это не опасно

нодменеджер не пишет больше туда и все

Dmitry

17.04.2018
10:57:11

так что это практически штатный механизм, можно сказать :)

Oleg

17.04.2018
10:58:39

ну это конечно заложено в архитектуру , но репликация мала слишком. думал найти какие-то другие способы)

спасибо

Google

Dmitry

17.04.2018
10:59:28

а есть место поднять временно RF до 3ки ?

можно поднять, подождать, пока он отреплицируется, и дальше - как я выше написал :)

Oleg

17.04.2018
11:01:08

да, как вариант, посмотрю что там с местом.спасибо

Olga

17.04.2018
11:47:59

Привет! Приходите в четверг к нам на Big Data meetup https://grid-dynamics.timepad.ru/event/703266/

Danis

17.04.2018
11:55:27

Привет! Приходите в четверг к нам на Big Data meetup https://grid-dynamics.timepad.ru/event/703266/

Питер.

Olga

17.04.2018
12:23:41

Питер.

Да :)

Grigory

17.04.2018
12:48:17

Поздновато аннонс)

Alexander

17.04.2018
19:07:17

Приветствую. Здесь разрешается постить вакансии?

Daniel

17.04.2018
19:08:03

ту вакансию здесь можно, но там лучше убрать

Alexander

17.04.2018
19:11:07

#job #вакансия #москва Всем доброго времени суток. Я руковожу подразделением professional services в компании CleverDATA. Ищу себе в команду Java-инженера в Москве. От кандидата ожидаю: - компетенции в Java, Hadoop, Spark, Kafka - можно и просто Java, главное желание развиваться - высокую отдачу, ответственность, желание изучать технологии, желание делать “хорошо” - умение работать в команде и писать читаемый код Что могу дать взамен: - интересные и сложные задачи по параллельной обработке больших массивов данных, вычислении в реальном времени, разработке высоконагруженных и отказоустойчивых сервисов - возможность принимать самостоятельные решения в части реализации - дружную команду, которая любит свое дело, технологии и своих клиентов - возможность участвовать в релевантных конференциях (в т.ч. за пределами России) - гибкий рабочий график и возможность один день в неделю работать удаленно - белую зп от 140 до 250 Немного о компании: Трудовые будни команды CleverDATA - это создание продуктов для обработки терабайт данных в день и сотен тысяч запросов в секунду. Это разработка предиктивных моделей для повышения эффективности бизнеса на миллионы рублей в месяц. Это участие в качестве экспертов на конференциях и вебинарах по технологиям. Если вам это интересно или появились вопросы, пожалуйста, пишите в личку. Спасибо!

Darya

18.04.2018
14:36:30

#вакансия #Москва #офис Всем привет! Я представляю рекрутинговую компанию Marksman. В работе есть вакансия Hadoop администратор: возможно среди вас кого-то заинтересует, или у вас есть коллеги/знакомые, решающие подобные задачи. Вакансия открыта в подразделении крупного вендора, которое разрабатывает собственную аналитическую платформу и предоставляет своим клиентам интеграционные технологии и консультационные услуги по анализу больших данных. Международная команда специалистов по Data Engineering и Data Science cоздают системы, с помощью которых успешно собираются, хранятся, интегрируются и анализируются огромные массивы самых разных данных. *Hadoop администратор* Обязанности: -мониторинг промышленного кластера Hadoop -рекомендации по оптимизации -расследование инцидентов на кластере -архитектурный консалтинг в части построения и оптимизации высоконагруженных и отказоустойчивых систем -составление регулярной отчетности Требования: -глубокие знания unix -опыт администрирования экосистем Hadoop -хорошие знания sql и реляционных баз данных Буду рада рекомендациям! Подробнее о вакансии и компании в лс.

Andrey

18.04.2018
17:15:54

Привет

народ, кто нибудь использует hive2.0+ вместе с oozie? нет проблем?

Konstantin

18.04.2018
17:20:21

народ, кто нибудь использует hive2.0+ вместе с oozie? нет проблем?

Есть проблема. Пока решить не получилось

Andrey

18.04.2018
18:09:51

Тоже из-за разных версий hive в oozie и метастора ?

Svyatoslav

18.04.2018
18:58:56

Привет. Коллеги, может быть оффтоп, но кто работал с Apache Flink?

Daniel

18.04.2018
18:59:38

привет, сова эт не офтоп, но начинай сразу с интересующего вопроса

Svyatoslav

18.04.2018
19:04:58

Ок. Есть 5 стриминговых задач, которые запускаются в flink standalone(кластера нет). Задачки забирают определенную информацию из Kafka, обрабатывает и отдает обратно в другой топик. Но после запуска 4-5 задачи они падают Caused by: akka.pattern.AskTimeoutException: Ask timed out on [Actor[akka.tcp:// , а потом все задачи уходят почему-то в рестарт, с записью, что у таскменеджера нет свободных слотов, хотя они есть.

Кто-то сталкивался с подобным? org.apache.flink.runtime.jobmanager.scheduler.NoResourceAvailableException: Not enough free slots available to run the job. You can decrease the operator parallelism or increase the number of slots per TaskManager in the configuration. Task to schedule: < Attempt #130 (Source: Custom Source -> Map -> Filter -> Map (1/1)) @ (unassigned) - [SCHEDULED] > with groupID < cbc357ccb763df2852fee8c4fc7d55f2 > in sharing group < SlotSharingGroup [4925de6ecf34e85bb28d958659d9c37b, 106916e868ac6e48dacc2fe23a377649, 2963852293169ba90d9d1e7d6308db5c, 086f6e123b547f6c18cc0b70ef23267e, 0def966c0444b5fa22b593be249d37f8, 6cdc5bb954874d922eaee11a8e7b5dd5, cbc357ccb763df2852fee8c4fc7d55f2] >. Resources available to scheduler: Number of instances=0, total number of slots=0, available slots=0

Daniel

18.04.2018
19:14:02

хм, в логе написано что их 0 доступно

Google

Svyatoslav

18.04.2018
19:56:13

По факту 20. Почему лог такое пишет- черт знает

хм, в логе написано что их 0 доступно

Интереснее почему таймаут пришел. Ноль это про баг при рестарте. Флинк не всегда умеет рестартить джобы. Где-то был репорт об этом

Daniel

18.04.2018
20:10:51

ну почему понятно, но это следствие