
The mirror
16.06.2018
09:50:06
Еще есть вопрос:
если запустить Spark приложение и, если не хватает ядер на машине, то приложение может просто не работать. Как это вообще возможно? Я думал, что ОС должна просто schedule'ить CPU на треды, перескакивая с одного на другой
Ведь в JVM нету thread afiinity

Mark
16.06.2018
10:00:22
Можно запускать несколько java процессов с указанием affinity.

The mirror
16.06.2018
10:03:55

Google

Sergey
16.06.2018
10:19:21
И есть ли у роли EMR права на чтение из kineses

The mirror
16.06.2018
10:27:50
Если запускать с local[*], то все нормально. Есть подозрение, что я создаю слишком много Kinesis receiver'ов. AWS советует создавать кратное количество количеству slave инстансов, вроде
https://aws.amazon.com/blogs/big-data/optimize-spark-streaming-to-efficiently-process-amazon-kinesis-streams/

Sergey
16.06.2018
10:42:55
А на yarn приложение вообще запускается? Может быть не в kinesis дело ?

The mirror
16.06.2018
10:48:01
Да, проблема действительно была из-за большого количества Kinesis receiver'ов, которые заняли все слоты
Я так понимаю, что аллокацию и использование слотов делает YARN, и именно он отвечает за то, что, если я займу слишком большое число слотов, то начнется starvation?

Anton
16.06.2018
11:53:40

Старый
16.06.2018
11:54:38

KrivdaAllStars
16.06.2018
11:54:56
Игнайт не оч и кривой :( его ни один банк - не разработчик. , я думаю к себе не подпустит
Так они и разрабатывают

Google

Александр
16.06.2018
12:41:25

? ? ? ? ?
16.06.2018
12:49:18
Vamshi:
Vamshi:
I have paired RDD of type RDD[(String, String)] and has content as below
(1, 2 5)
(2, 1 1)
(3, 2 4 5 5)
(5, 1)
(6,)
(4, 5 1)
(7,)
(8,)
I want to split value part and create new rdd as
(1,2)
(1,5)
(2,1)
(2,1)
(3,2)
(3,5)
(3,5)
(5,1)
(6, )
(4,5)
(4,1)
(7, )
(8 ,)

Евгений
16.06.2018
12:53:45
Vamshi:
Vamshi:
I have paired RDD of type RDD[(String, String)] and has content as below
(1, 2 5)
(2, 1 1)
(3, 2 4 5 5)
(5, 1)
(6,)
(4, 5 1)
(7,)
(8,)
I want to split value part and create new rdd as
(1,2)
(1,5)
(2,1)
(2,1)
(3,2)
(3,5)
(3,5)
(5,1)
(6, )
(4,5)
(4,1)
(7, )
(8 ,)
rdd.flatMap(lambda x, y: [(x, z) for z in y.split(" ")])

? ? ? ? ?
16.06.2018
13:07:03

Stanislav
16.06.2018
13:10:19

Старый
16.06.2018
13:10:36

Stanislav
16.06.2018
13:13:55


Darya
18.06.2018
10:14:29
#вакансия #москва #работа #офис
Добрый день! Открыта вакансия, возможно кто-то заинтересуется или сможет порекомендовать специалиста.
Заранее спасибо!
Hadoop Admin
Вакансия открыта в подразделении крупного вендора, которое разрабатывает собственную аналитическую платформу и предоставляет своим клиентам интеграционные технологии и консультационные услуги по анализу больших данных. Международная команда специалистов по Data Engineering и Data Science cоздают системы, с помощью которых успешно собираются, хранятся, интегрируются и анализируются огромные массивы самых разных данных.
Обязанности:
-Мониторинг промышленного кластера Hadoop (всех компонент, входящих в дистрибутив), Informatica(ibdm);
-Рекомендации по оптимизации производительности всех компонентов;
-Расследование инцидентов на кластере;
-Общение с заказчиком\технической поддержкой вендоров по инцидентам;
-Архитектурный консалтинг в части построения и оптимизации высоконагруженных и отказоустойчивых систем на платформе Hadoop;
-Составление регулярной отчетности по health статусу системы
Требования:
-Глубокие знания Unix;
-Четкое понимание принципов работы сетей;
-Обязательно практический опыт администрирования экосистем Hadoop (CDH, Hortonworks);
-Практический опыт дизайна высоконагруженных, отказоустойчивых систем Hadoop и оптимизации их производительности;
-Понимание принципов работы систем управление конфигурациями;
-Хорошие знания реляционных баз данных;
-Хорошее знание SQL, способность анализировать чужой код;
-Большим плюсом будет опыт работы в крупных проектах и умение решать архитектурные вопросы
Условия:
-Трудоустройство по ТК, белая з/п
-Фиксированный оклад (170-200 фикс плюс бонус 20% от годового дохода, 2 раза в год), хороший социальный пакет
-Неформальная корп. культура, график 5/2 (гибкое начало раб.дня)
-Командировки для внутренних мероприятий, обмена опытом с коллегами (Европа)
-Практика англ. языка
-Офис на м. Бауманская
Контакты: Дарья, dariak@marksmans.ru
Или в лс.


Эшер
18.06.2018
11:57:24
#вакансия #москва #работа #офис
Добрый день! Открыта вакансия, возможно кто-то заинтересуется или сможет порекомендовать специалиста.
Заранее спасибо!
Hadoop Admin
Вакансия открыта в подразделении крупного вендора, которое разрабатывает собственную аналитическую платформу и предоставляет своим клиентам интеграционные технологии и консультационные услуги по анализу больших данных. Международная команда специалистов по Data Engineering и Data Science cоздают системы, с помощью которых успешно собираются, хранятся, интегрируются и анализируются огромные массивы самых разных данных.
Обязанности:
-Мониторинг промышленного кластера Hadoop (всех компонент, входящих в дистрибутив), Informatica(ibdm);
-Рекомендации по оптимизации производительности всех компонентов;
-Расследование инцидентов на кластере;
-Общение с заказчиком\технической поддержкой вендоров по инцидентам;
-Архитектурный консалтинг в части построения и оптимизации высоконагруженных и отказоустойчивых систем на платформе Hadoop;
-Составление регулярной отчетности по health статусу системы
Требования:
-Глубокие знания Unix;
-Четкое понимание принципов работы сетей;
-Обязательно практический опыт администрирования экосистем Hadoop (CDH, Hortonworks);
-Практический опыт дизайна высоконагруженных, отказоустойчивых систем Hadoop и оптимизации их производительности;
-Понимание принципов работы систем управление конфигурациями;
-Хорошие знания реляционных баз данных;
-Хорошее знание SQL, способность анализировать чужой код;
-Большим плюсом будет опыт работы в крупных проектах и умение решать архитектурные вопросы
Условия:
-Трудоустройство по ТК, белая з/п
-Фиксированный оклад (170-200 фикс плюс бонус 20% от годового дохода, 2 раза в год), хороший социальный пакет
-Неформальная корп. культура, график 5/2 (гибкое начало раб.дня)
-Командировки для внутренних мероприятий, обмена опытом с коллегами (Европа)
-Практика англ. языка
-Офис на м. Бауманская
Контакты: Дарья, dariak@marksmans.ru
Или в лс.
Выходит, за год сотрудник получит 40% от годового дохода? Неплохо.


Darya
18.06.2018
12:10:43
Нет)
20% от годового дохода, но выплата происходит 2 раза в год

KrivdaAllStars
19.06.2018
10:55:37
https://www.piter.com/collection/bestsellery-oreilly/product/effektivnyy-spark-masshtabirovanie-i-optimizatsiya

Александр
19.06.2018
10:56:02

KrivdaAllStars
19.06.2018
10:57:19

Александр
19.06.2018
11:02:56
ок, скинул hr ждем теперь как купят

Stanislav
20.06.2018
10:02:28
Никто не тестировал разные способы загрузки данных из файлов в хайв? На наборе csv тестировал 2 способа: 1) конвертация в orc, потом объявление файла внешней таблицей и инсерт селектом нужных данных. 2) лоад csv во временную таблицу, потом инсерт селектом из этой временной таблицы. Вариант 1 проиграл по скорости от 3 до 4 раз второму в двух тестированиях на одинаковом наборе данных. Может кто-то объяснить почему?, по моей логике должно быть наоборот. Может это какой то баг.

Евгений
20.06.2018
10:13:36
А чем конвертировали в орк-то?

Stanislav
20.06.2018
10:16:01
Время конвертации в расчет не беру, дешёвая операция. Мерил только загрузку в хайв

Евгений
20.06.2018
10:16:35
Load csv в смысле load data inpath? Он просто переносит файлы в папку, это операция бесплатная, по идее

Stanislav
20.06.2018
10:17:11

Евгений
20.06.2018
10:17:49
А вот время конвертации-то не маленькое, по идее, если колонок много

Google

Stanislav
20.06.2018
10:18:41
Узкое место на проде сейчас именно загрузка. Конвертацией занимается другая машинка - не захлебывается

Евгений
20.06.2018
10:20:48
По идее, лоад дата инпаф и экстернал не должны вообще время занимать

Stanislav
20.06.2018
10:20:54

Евгений
20.06.2018
10:21:08
И это крайне странно)
Ну либо селект из экстернал таблицы проигрывает

Stanislav
20.06.2018
10:21:46
4 часа гонял тесты, сам не верил

Евгений
20.06.2018
10:25:09
А типы какие?

Stanislav
20.06.2018
10:28:10
Большей частью varchar мелкие + чуток примитивов

Евгений
20.06.2018
10:31:08
А посмотрите, во сколько мапперов он читает в 1 и 2 случае?

Stanislav
20.06.2018
10:32:39
Сказать не смогу. Используется тез, загрузка по ресурсам одинаковая

Roman
20.06.2018
10:33:11
Как будто орка у вас получается один файл, а csv - много, и мб он мапперов разное кол-во делает

Евгений
20.06.2018
10:34:02
А кстати какой размер? Если орк влез в 128 мегов, то как раз

Stanislav
20.06.2018
10:35:57
Нет, идея хороша, но размер csv укладывается в размер блока
Вернее даже сильно меньше

Евгений
20.06.2018
10:40:13
Хм, может он всё-таки сплитит, когда делает load data?
Можете в хдфс посмотреть, что оказалось в папке таблицы?

Stanislav
20.06.2018
10:41:58
Как правило один файл - одна партиция в итоговом файле. Иногда может быть несколько файлов в партиции
Поймать сам процесс сложно, скорость ) либо убрать временность таблицы, хм
Только руками потом вычищать

Евгений
20.06.2018
10:46:57
Стоп, а файлов csv много?

Google

Евгений
20.06.2018
10:47:03
Или один тоже?

Stanislav
20.06.2018
10:54:12
Много ) тестировал на выборке в 2000 файлов
На 2 выборках по 2000

Евгений
20.06.2018
11:19:22
Ну а в орк они могли запаковаться в один, 10 или 50
И в итоге сильно меньше мапперов

Stanislav
20.06.2018
11:27:30
Нет, по орку на каждый файл. Логика обработки осталась как с цсв, просто формат преобразовался
Там затраты по времени на каждый файл меньше секунды. 0,6-0,8 на временной таблице. Мне кажется, если бы он начал подстраиваться на маперы - вышло бы больше. Хайв на тезе для меня - черный ящик

Daniel
20.06.2018
12:18:42
@dos65 а есть дока по https://github.com/Hydrospheredata/hydro-serving ?

Grigory
20.06.2018
12:19:09
готовит вроде
ждите супер статью!
ах оно немного другое (он про свое готовит)

Daniel
20.06.2018
12:20:02
ну если не затянет, то мы мож затащим к себе и звздочек поставим
тогда не поставим =/

Vadim
20.06.2018
12:23:51
вот его можно тыкать про сервинг - @b_lutfullin

Daniel
20.06.2018
12:26:00
квик старт бы какой-нить
ну и у вас там много всего, хотелось бы понять что есть что (наприер, чем это отличается от mist)

Pavel
20.06.2018
12:28:55
Выглядит круто! Надо потыкать!
Может на mosow spark доклад?

Vadim
20.06.2018
12:29:18
mist - чисто придблуда под менеджемент спарк жоб
serving - оно для сервинга различных мл моделей - туда просто делоишь бинарь и меты - тебе автоматом сервис с ней экспозится + всякая статистика и детектинг аномальных интпутов там

Grigory
20.06.2018
12:29:35
@dos65 рили приходите расскжаите про вашу сферу

Google

Grigory
20.06.2018
12:29:54
можно и целиком и можно по частям

Vadim
20.06.2018
12:30:46
можно - вы когда собираетесь?

Grigory
20.06.2018
12:30:49
после джоб сервера у многих неприятные могут быть ощущения от спарко приблуд таких; нам нужны брейкин факты

Pavel
20.06.2018
12:31:13

Vadim
20.06.2018
12:33:43

Pavel
20.06.2018
12:34:00
?