@hadoopusers

Страница 108 из 182
The mirror
16.06.2018
09:50:06
Еще есть вопрос: если запустить Spark приложение и, если не хватает ядер на машине, то приложение может просто не работать. Как это вообще возможно? Я думал, что ОС должна просто schedule'ить CPU на треды, перескакивая с одного на другой

Ведь в JVM нету thread afiinity

Mark
16.06.2018
10:00:22
Можно запускать несколько java процессов с указанием affinity.

The mirror
16.06.2018
10:03:55
Можно запускать несколько java процессов с указанием affinity.
И тогда может быть жесткий starvation CPU? Например, мы стартанули процесс, указали ему affinity CPU и, наверное (я не спец), задали ему 100% использование этими CPU. Тогда эти ядра просто исключаются для других процессов?

Google
The mirror
16.06.2018
10:27:50
И есть ли у роли EMR права на чтение из kineses
Вроде давал, сейчас проверю

Если запускать с local[*], то все нормально. Есть подозрение, что я создаю слишком много Kinesis receiver'ов. AWS советует создавать кратное количество количеству slave инстансов, вроде

https://aws.amazon.com/blogs/big-data/optimize-spark-streaming-to-efficiently-process-amazon-kinesis-streams/

Sergey
16.06.2018
10:42:55
А на yarn приложение вообще запускается? Может быть не в kinesis дело ?

The mirror
16.06.2018
10:48:01
А на yarn приложение вообще запускается? Может быть не в kinesis дело ?
Ну смотря что понимать под "запускается". По крайней мере я способен открыть Spark Web UI и отслеживать прогресс (которого нету) у джобов. Я планирую пересоздать кластер с машинами по 4 ядра и проверить на нем разное количество Kinesis Receiver.

Да, проблема действительно была из-за большого количества Kinesis receiver'ов, которые заняли все слоты

Я так понимаю, что аллокацию и использование слотов делает YARN, и именно он отвечает за то, что, если я займу слишком большое число слотов, то начнется starvation?

Anton
16.06.2018
11:53:40
Игнайт не оч и кривой :( его ни один банк - не разработчик. , я думаю к себе не подпустит
сбербанк использует игнайт. Иди его платную версию. Они где то хвастались что задонатили в компанию которая разрабатывает этот инмемори.

Старый
16.06.2018
11:54:38
KrivdaAllStars
16.06.2018
11:54:56
Игнайт не оч и кривой :( его ни один банк - не разработчик. , я думаю к себе не подпустит

Так они и разрабатывают

Google
? ? ? ? ?
16.06.2018
12:49:18
Vamshi: Vamshi: I have paired RDD of type RDD[(String, String)] and has content as below (1, 2 5) (2, 1 1) (3, 2 4 5 5) (5, 1) (6,) (4, 5 1) (7,) (8,) I want to split value part and create new rdd as (1,2) (1,5) (2,1) (2,1) (3,2) (3,5) (3,5) (5,1) (6, ) (4,5) (4,1) (7, ) (8 ,)

? ? ? ? ?
16.06.2018
13:07:03
Старый
16.06.2018
13:10:36
Долларов?
рублей вроде бы

Stanislav
16.06.2018
13:13:55
рублей вроде бы
2 стойки железа с натяжкой

Darya
18.06.2018
10:14:29
#вакансия #москва #работа #офис Добрый день! Открыта вакансия, возможно кто-то заинтересуется или сможет порекомендовать специалиста. Заранее спасибо! Hadoop Admin Вакансия открыта в подразделении крупного вендора, которое разрабатывает собственную аналитическую платформу и предоставляет своим клиентам интеграционные технологии и консультационные услуги по анализу больших данных. Международная команда специалистов по Data Engineering и Data Science cоздают системы, с помощью которых успешно собираются, хранятся, интегрируются и анализируются огромные массивы самых разных данных. Обязанности: -Мониторинг промышленного кластера Hadoop (всех компонент, входящих в дистрибутив), Informatica(ibdm); -Рекомендации по оптимизации производительности всех компонентов; -Расследование инцидентов на кластере; -Общение с заказчиком\технической поддержкой вендоров по инцидентам; -Архитектурный консалтинг в части построения и оптимизации высоконагруженных и отказоустойчивых систем на платформе Hadoop; -Составление регулярной отчетности по health статусу системы Требования: -Глубокие знания Unix; -Четкое понимание принципов работы сетей; -Обязательно практический опыт администрирования экосистем Hadoop (CDH, Hortonworks); -Практический опыт дизайна высоконагруженных, отказоустойчивых систем Hadoop и оптимизации их производительности; -Понимание принципов работы систем управление конфигурациями; -Хорошие знания реляционных баз данных; -Хорошее знание SQL, способность анализировать чужой код; -Большим плюсом будет опыт работы в крупных проектах и умение решать архитектурные вопросы Условия: -Трудоустройство по ТК, белая з/п -Фиксированный оклад (170-200 фикс плюс бонус 20% от годового дохода, 2 раза в год), хороший социальный пакет -Неформальная корп. культура, график 5/2 (гибкое начало раб.дня) -Командировки для внутренних мероприятий, обмена опытом с коллегами (Европа) -Практика англ. языка -Офис на м. Бауманская Контакты: Дарья, dariak@marksmans.ru Или в лс.

Эшер
18.06.2018
11:57:24
#вакансия #москва #работа #офис Добрый день! Открыта вакансия, возможно кто-то заинтересуется или сможет порекомендовать специалиста. Заранее спасибо! Hadoop Admin Вакансия открыта в подразделении крупного вендора, которое разрабатывает собственную аналитическую платформу и предоставляет своим клиентам интеграционные технологии и консультационные услуги по анализу больших данных. Международная команда специалистов по Data Engineering и Data Science cоздают системы, с помощью которых успешно собираются, хранятся, интегрируются и анализируются огромные массивы самых разных данных. Обязанности: -Мониторинг промышленного кластера Hadoop (всех компонент, входящих в дистрибутив), Informatica(ibdm); -Рекомендации по оптимизации производительности всех компонентов; -Расследование инцидентов на кластере; -Общение с заказчиком\технической поддержкой вендоров по инцидентам; -Архитектурный консалтинг в части построения и оптимизации высоконагруженных и отказоустойчивых систем на платформе Hadoop; -Составление регулярной отчетности по health статусу системы Требования: -Глубокие знания Unix; -Четкое понимание принципов работы сетей; -Обязательно практический опыт администрирования экосистем Hadoop (CDH, Hortonworks); -Практический опыт дизайна высоконагруженных, отказоустойчивых систем Hadoop и оптимизации их производительности; -Понимание принципов работы систем управление конфигурациями; -Хорошие знания реляционных баз данных; -Хорошее знание SQL, способность анализировать чужой код; -Большим плюсом будет опыт работы в крупных проектах и умение решать архитектурные вопросы Условия: -Трудоустройство по ТК, белая з/п -Фиксированный оклад (170-200 фикс плюс бонус 20% от годового дохода, 2 раза в год), хороший социальный пакет -Неформальная корп. культура, график 5/2 (гибкое начало раб.дня) -Командировки для внутренних мероприятий, обмена опытом с коллегами (Европа) -Практика англ. языка -Офис на м. Бауманская Контакты: Дарья, dariak@marksmans.ru Или в лс.
Выходит, за год сотрудник получит 40% от годового дохода? Неплохо.

Darya
18.06.2018
12:10:43
Нет) 20% от годового дохода, но выплата происходит 2 раза в год

KrivdaAllStars
19.06.2018
10:55:37
https://www.piter.com/collection/bestsellery-oreilly/product/effektivnyy-spark-masshtabirovanie-i-optimizatsiya

Александр
19.06.2018
10:56:02
KrivdaAllStars
19.06.2018
10:57:19
ты прям рекомендуешь ?
Почитать можно , тем более на русском

Александр
19.06.2018
11:02:56
ок, скинул hr ждем теперь как купят

Stanislav
20.06.2018
10:02:28
Никто не тестировал разные способы загрузки данных из файлов в хайв? На наборе csv тестировал 2 способа: 1) конвертация в orc, потом объявление файла внешней таблицей и инсерт селектом нужных данных. 2) лоад csv во временную таблицу, потом инсерт селектом из этой временной таблицы. Вариант 1 проиграл по скорости от 3 до 4 раз второму в двух тестированиях на одинаковом наборе данных. Может кто-то объяснить почему?, по моей логике должно быть наоборот. Может это какой то баг.

Евгений
20.06.2018
10:13:36
А чем конвертировали в орк-то?

Stanislav
20.06.2018
10:16:01
Время конвертации в расчет не беру, дешёвая операция. Мерил только загрузку в хайв

Евгений
20.06.2018
10:16:35
Load csv в смысле load data inpath? Он просто переносит файлы в папку, это операция бесплатная, по идее

Евгений
20.06.2018
10:17:49
А вот время конвертации-то не маленькое, по идее, если колонок много

Google
Stanislav
20.06.2018
10:18:41
Узкое место на проде сейчас именно загрузка. Конвертацией занимается другая машинка - не захлебывается

Евгений
20.06.2018
10:20:48
По идее, лоад дата инпаф и экстернал не должны вообще время занимать

Stanislav
20.06.2018
10:20:54
Load csv в смысле load data inpath? Он просто переносит файлы в папку, это операция бесплатная, по идее
Если это так, то получается разница лишь в select из csv vs orc, и орц проигрывает

Евгений
20.06.2018
10:21:08
И это крайне странно)

Ну либо селект из экстернал таблицы проигрывает

Stanislav
20.06.2018
10:21:46
4 часа гонял тесты, сам не верил

Евгений
20.06.2018
10:25:09
А типы какие?

Stanislav
20.06.2018
10:28:10
Большей частью varchar мелкие + чуток примитивов

Евгений
20.06.2018
10:31:08
А посмотрите, во сколько мапперов он читает в 1 и 2 случае?

Stanislav
20.06.2018
10:32:39
Сказать не смогу. Используется тез, загрузка по ресурсам одинаковая

Roman
20.06.2018
10:33:11
Как будто орка у вас получается один файл, а csv - много, и мб он мапперов разное кол-во делает

Евгений
20.06.2018
10:34:02
А кстати какой размер? Если орк влез в 128 мегов, то как раз

Stanislav
20.06.2018
10:35:57
Нет, идея хороша, но размер csv укладывается в размер блока

Вернее даже сильно меньше

Евгений
20.06.2018
10:40:13
Хм, может он всё-таки сплитит, когда делает load data?

Можете в хдфс посмотреть, что оказалось в папке таблицы?

Stanislav
20.06.2018
10:41:58
Как правило один файл - одна партиция в итоговом файле. Иногда может быть несколько файлов в партиции

Поймать сам процесс сложно, скорость ) либо убрать временность таблицы, хм

Только руками потом вычищать

Евгений
20.06.2018
10:46:57
Стоп, а файлов csv много?

Google
Евгений
20.06.2018
10:47:03
Или один тоже?

Stanislav
20.06.2018
10:54:12
Много ) тестировал на выборке в 2000 файлов

На 2 выборках по 2000

Евгений
20.06.2018
11:19:22
Ну а в орк они могли запаковаться в один, 10 или 50

И в итоге сильно меньше мапперов

Stanislav
20.06.2018
11:27:30
Нет, по орку на каждый файл. Логика обработки осталась как с цсв, просто формат преобразовался

Там затраты по времени на каждый файл меньше секунды. 0,6-0,8 на временной таблице. Мне кажется, если бы он начал подстраиваться на маперы - вышло бы больше. Хайв на тезе для меня - черный ящик

Daniel
20.06.2018
12:18:42
@dos65 а есть дока по https://github.com/Hydrospheredata/hydro-serving ?

Grigory
20.06.2018
12:19:09
готовит вроде

ждите супер статью!

ах оно немного другое (он про свое готовит)

Daniel
20.06.2018
12:20:02
ну если не затянет, то мы мож затащим к себе и звздочек поставим

тогда не поставим =/

Vadim
20.06.2018
12:23:51
@dos65 а есть дока по https://github.com/Hydrospheredata/hydro-serving ?
дока прямо сейчас в процессе. вообще если есть интерес - залетайте в гиттер

вот его можно тыкать про сервинг - @b_lutfullin

Daniel
20.06.2018
12:26:00
квик старт бы какой-нить ну и у вас там много всего, хотелось бы понять что есть что (наприер, чем это отличается от mist)

Pavel
20.06.2018
12:28:55
Выглядит круто! Надо потыкать!

Может на mosow spark доклад?

Vadim
20.06.2018
12:29:18
mist - чисто придблуда под менеджемент спарк жоб serving - оно для сервинга различных мл моделей - туда просто делоишь бинарь и меты - тебе автоматом сервис с ней экспозится + всякая статистика и детектинг аномальных интпутов там

Grigory
20.06.2018
12:29:35
@dos65 рили приходите расскжаите про вашу сферу

Google
Grigory
20.06.2018
12:29:54
можно и целиком и можно по частям

Vadim
20.06.2018
12:30:46
можно - вы когда собираетесь?

Grigory
20.06.2018
12:30:49
после джоб сервера у многих неприятные могут быть ощущения от спарко приблуд таких; нам нужны брейкин факты

Pavel
20.06.2018
12:31:13
можно - вы когда собираетесь?
Чуть туплю из-за загруза, думаю конец июля.

Vadim
20.06.2018
12:33:43
Pavel
20.06.2018
12:34:00
?

Страница 108 из 182