@hadoopusers

Страница 144 из 182
Oleksandr
12.09.2018
17:39:38
Grigory
12.09.2018
17:39:56
да батч юзают в сыром виде и все

Oleksandr
12.09.2018
17:40:32
а, ну вот у меня тоже, и небольшой велосипед для удобства поверху

Grigory
12.09.2018
17:40:37
да

Google
Oleksandr
12.09.2018
17:40:39
а так 80% батч

это, вы не сталкивались с лимитом для job queues / compute envs? он там 18/20, что выглядит как искусственное ограничение, и сильно не вписывается в установившийся форкфлоу (по 2 штуки на сатаниста, чтобы за ресурсы не так сильно конкурировали) в саппорте послали ждать, но у нас не прем, хз

Igor
12.09.2018
20:30:54
Чёт не понял, где этот лимит?

Dan
12.09.2018
23:22:21
коллеги, я тут демку/бенчмарк хочу построить, нужен очень большой датасет в свободном доступе, и типовые, но при этом сложные и тяжелые запросы по нему. Все это под кассандру. Никто такое не делал?

Артем
13.09.2018
04:51:39
коллеги, я тут демку/бенчмарк хочу построить, нужен очень большой датасет в свободном доступе, и типовые, но при этом сложные и тяжелые запросы по нему. Все это под кассандру. Никто такое не делал?
Есть известный датасет о поездках такси. Один парень упоролся и прогнал 4 одинаковых запроса разной степени сложности по куче БД начиная от SQLite до MapD. http://tech.marksblogg.com/benchmarks.html

Nikolay
13.09.2018
06:55:00
Коллеги, привет! Может кто поделиться опытом использования merge в hive для обновления таблиц фактов?

Xman
14.09.2018
08:52:39
привет, кто посоветует иснтрумент чем можно читать из кафки и потом в s3 складывать для бекапа и последующей батч обработки?

Stanislav
14.09.2018
08:59:55
А в чем сильны? Вариантов вроде вагон

Anton
14.09.2018
09:00:58
привет, кто посоветует иснтрумент чем можно читать из кафки и потом в s3 складывать для бекапа и последующей батч обработки?
Можно Kafka connect подцепить, там есть синк в s3, но там много подводных камней появляется на масштабах.

Xman
14.09.2018
09:01:03
варианты да,но интересует експиренс

Eduard
14.09.2018
09:07:00
Мы юзаем конфлюентовский синк

Anton
14.09.2018
09:07:04
У нас сильно завязано все на Confluent, с ванильной не знаю будет работать или нет, но вроде коннекту только брокеры нужны

Google
Daniel
14.09.2018
09:32:59
а он может работать с ванильной кафкой? или ток c confluent?
нет разницы между этими кафками, разница в обвязках вокруг них

Юрий
14.09.2018
09:37:17
@dos65 можешь заяснить про мист? Есть какая табличка со сравнением со spark job server? И есть ли какой-нибудь мануал по миграции?

Eduard
14.09.2018
11:39:20
Ребята, подскажите плз куда смотреть, в YARN кластере работало 2 Spark приложения, одно завершилось и YARN выделил другому приложению новые контейнеры, но Spark UI показывает что новых executors не появилось и он по-прежнему работает только в старых.

Grigory
14.09.2018
11:47:48
вообще интересный эксперимент конечно, а там точно просиходит форс репартишн +шафл после того как первое вырубается?

Eduard
14.09.2018
12:25:50
динамика нет как я понимаю

Grigory
14.09.2018
12:26:55
а если динамика нет, то даже шансов не будет; я не уверен может ли ярн выдавать новые ресурсы по их осовбождению, но как минимум надо пробовать с динамик аллокацией ; т.к. на статик аллокации он выделает ресы ток раз по старту

Eduard
14.09.2018
12:28:30
Окей, меня просто очень смущает что я вижу что число ярн контейнеров увелчилось, но новые простаивают

зачем тогда ярн ресурсы занимает? :)

Grigory
14.09.2018
12:29:31
не могу посмотреть что у тебя там происходит; попробуй по старту первой рестартануть ее

мне кажется она норм стартанет

Eduard
14.09.2018
12:30:08
ну после рестарта то все четко

я уже это сделал

Eduard
14.09.2018
12:36:02
ну не, с этим все ок

Stanislav
14.09.2018
12:37:29
Тебя смущает, что старые контейнеры висят от законченного процесса или новые стоящие?

Eduard
14.09.2018
12:42:55
новые простаивают

старый завершился и все освободил

Stanislav
14.09.2018
12:43:43
И долго стоят?

Grigory
14.09.2018
12:44:06
я так понял в течении всег овремени активности второго джоба

Google
Stanislav
14.09.2018
12:44:31
Как же исполняется тогда джоба?

Зайди в лог контейнера да посмотри

Чем он занят

Eduard
14.09.2018
12:47:28
лог пуст

смортри

было x контейнеров у одной джобы и y у второй

первая завершила и освободила X

Grigory
14.09.2018
12:48:11
^ ты про джобы или таски ^

Eduard
14.09.2018
12:49:10
вторая через минуту с Y контейнеров увеличилась до X+Y

Stanislav
14.09.2018
12:49:25
Контейнеры создаются же при старте таски. Джобы не влияют на создание

Eduard
14.09.2018
12:49:41
но Spark App ui по прежнему показывает что джоб выполняется в Y экзекуторах

Stanislav
14.09.2018
12:52:19
И по окончанию обоих исчезают все х+у?

Eduard
14.09.2018
12:53:14
ага, освобождается

Stanislav
14.09.2018
12:53:57
А где ты смотришь, что их стало х+у? В ярне?

Eduard
14.09.2018
12:53:58
я щас попробую повторить и наделать скринов



вот тут

но это другое приложение

Если что это все Amazon EMR, все по дефолту

Я похоже разобрался

Google
Eduard
14.09.2018
14:39:21
спарк подхватил контейнеры как только поменялся стейдж



Vadim
14.09.2018
16:41:53
@dos65 можешь заяснить про мист? Есть какая табличка со сравнением со spark job server? И есть ли какой-нибудь мануал по миграции?
актуальной нету. есл не пользуешься у них localrdd или как у них назыается это, то миграция крайне простая - завернул вызов спарк кода в наше апи, да в конфиги контекста перенес и явно добавил spark.master

Юрий
14.09.2018
17:29:13
актуальной нету. есл не пользуешься у них localrdd или как у них назыается это, то миграция крайне простая - завернул вызов спарк кода в наше апи, да в конфиги контекста перенес и явно добавил spark.master
Ну вот есть у меня пачка джоб на апи сжс. Их нужно будет ручками все мигрировать? И ещё я использую рест апи самого сжс, типа "запусти вот такую джобу вот с такими параметрами". С этим как?

Vadim
14.09.2018
17:32:19
ну мист это же не новая версия жобсервера - конечно ручками. если больно поменять формат вызовов можно руками глупую проксю поставить, чтобы формат закпроса переделывала

Юрий
14.09.2018
17:33:52
Вот кто-нибудь запилил бы скалафикс миграцию ;)

Просто скоро обновляться на новый сжс, и я думаю, может проще мист воткнуть, если миграция не сложная

Vadim
14.09.2018
17:40:08
ну тут уровень сложности переезда == смене http dsl и чутка запросы подмандить - сложность не тянет на скалафиксы)

ну и как бы можешь саму логику завернуть и в мистовую и сжс джобу, потом плавно перектишься

Юрий
14.09.2018
17:57:08
ну тут уровень сложности переезда == смене http dsl и чутка запросы подмандить - сложность не тянет на скалафиксы)
Так в этом и соль скалафикса - убрать необходимость ручного переписывания, когда можно автоматом все конвертнуть

Спасибо за ответы

Grigory
14.09.2018
19:58:29
> подмандить Интересный термин жцпо
это кз термины, сова, нам далеко до них

Александр
14.09.2018
23:10:00
Глупый вопрос, у меня есть унаследованный код. Господин коллега считывает файлы которые нужно обработать, потом делает foreach{ создал sparkContext обработал что нужно закрыл sparkContext }

не правильно ли будет ? создать sc files.foreach{ process(_) } закрыть sc

Евгений
14.09.2018
23:11:21
правильнее всего будет sc.parallelize(files).map(process)?

Grigory
14.09.2018
23:11:31
))

ну и не ясна цель зачем он открывает и закрывает контексты

Евгений
14.09.2018
23:11:50
как-то по-спарковски)

Александр
14.09.2018
23:11:58
мне тоже, мне тоже

Google
Александр
14.09.2018
23:12:08
файлы мы из hdfs берем, кстати

Grigory
14.09.2018
23:12:19
а что за файлы

csv чую...

Александр
14.09.2018
23:12:51
ДА

Евгений
14.09.2018
23:12:54
не правильно ли будет ? создать sc files.foreach{ process(_) } закрыть sc
хотя есть надежда на то, что если форич будет параллельный, а внутри сессии будет фаир шедулер, то будет всё нормас разрулено даже таким методом

Александр
14.09.2018
23:13:01
но я сейчас на паркет все перекладываю

вроде феир

Grigory
14.09.2018
23:13:34
тогда он таким макаром паралелил видать все

Александр
14.09.2018
23:13:39
на самом деле не все, а только новое будет на паркете, вот и думаю сразу по-красоте сделать

Евгений
14.09.2018
23:14:05
а потом говорят "чё-то спарк хреново работает, давайте обратно на платные етл говнотулзы переходить")

Grigory
14.09.2018
23:14:08
ну да, вообще возьми имена распаралель и считай их на разных машинах и потом запроцессь

Александр
14.09.2018
23:15:03

Страница 144 из 182