
Oleksandr
12.09.2018
17:39:38

Grigory
12.09.2018
17:39:56
да батч юзают в сыром виде и все

Oleksandr
12.09.2018
17:40:32
а, ну вот у меня тоже, и небольшой велосипед для удобства поверху

Grigory
12.09.2018
17:40:37
да

Google

Oleksandr
12.09.2018
17:40:39
а так 80% батч
это, вы не сталкивались с лимитом для job queues / compute envs?
он там 18/20, что выглядит как искусственное ограничение, и сильно не вписывается в установившийся форкфлоу (по 2 штуки на сатаниста, чтобы за ресурсы не так сильно конкурировали)
в саппорте послали ждать, но у нас не прем, хз

Igor
12.09.2018
20:30:54
Чёт не понял, где этот лимит?

Dan
12.09.2018
23:22:21
коллеги, я тут демку/бенчмарк хочу построить, нужен очень большой датасет в свободном доступе, и типовые, но при этом сложные и тяжелые запросы по нему. Все это под кассандру. Никто такое не делал?

Артем
13.09.2018
04:51:39

Nikolay
13.09.2018
06:55:00
Коллеги, привет! Может кто поделиться опытом использования merge в hive для обновления таблиц фактов?

Xman
14.09.2018
08:52:39
привет, кто посоветует иснтрумент чем можно читать из кафки и потом в s3 складывать для бекапа и последующей батч обработки?

Stanislav
14.09.2018
08:59:55
А в чем сильны? Вариантов вроде вагон

Anton
14.09.2018
09:00:58

Xman
14.09.2018
09:01:03
варианты да,но интересует експиренс

Eduard
14.09.2018
09:07:00
Мы юзаем конфлюентовский синк

Anton
14.09.2018
09:07:04
У нас сильно завязано все на Confluent, с ванильной не знаю будет работать или нет, но вроде коннекту только брокеры нужны

Google

Daniel
14.09.2018
09:32:59

Юрий
14.09.2018
09:37:17
@dos65 можешь заяснить про мист? Есть какая табличка со сравнением со spark job server? И есть ли какой-нибудь мануал по миграции?

Eduard
14.09.2018
11:39:20
Ребята, подскажите плз куда смотреть,
в YARN кластере работало 2 Spark приложения, одно завершилось и YARN выделил другому приложению новые контейнеры, но Spark UI показывает что новых executors не появилось и он по-прежнему работает только в старых.

Grigory
14.09.2018
11:47:48
вообще интересный эксперимент конечно, а там точно просиходит форс репартишн +шафл после того как первое вырубается?

Eduard
14.09.2018
12:25:50
динамика нет как я понимаю

Grigory
14.09.2018
12:26:55
а если динамика нет, то даже шансов не будет; я не уверен может ли ярн выдавать новые ресурсы по их осовбождению, но как минимум надо пробовать с динамик аллокацией ; т.к. на статик аллокации он выделает ресы ток раз по старту

Eduard
14.09.2018
12:28:30
Окей, меня просто очень смущает что я вижу что число ярн контейнеров увелчилось, но новые простаивают
зачем тогда ярн ресурсы занимает? :)

Grigory
14.09.2018
12:29:31
не могу посмотреть что у тебя там происходит;
попробуй по старту первой рестартануть ее
мне кажется она норм стартанет

Eduard
14.09.2018
12:30:08
ну после рестарта то все четко
я уже это сделал

Stanislav
14.09.2018
12:35:22

Eduard
14.09.2018
12:36:02
ну не, с этим все ок

Stanislav
14.09.2018
12:37:29
Тебя смущает, что старые контейнеры висят от законченного процесса или новые стоящие?

Eduard
14.09.2018
12:42:55
новые простаивают
старый завершился и все освободил

Stanislav
14.09.2018
12:43:43
И долго стоят?

Grigory
14.09.2018
12:44:06
я так понял в течении всег овремени активности второго джоба

Google

Stanislav
14.09.2018
12:44:31
Как же исполняется тогда джоба?
Зайди в лог контейнера да посмотри
Чем он занят

Eduard
14.09.2018
12:47:28
лог пуст
смортри
было x контейнеров у одной джобы и y у второй
первая завершила и освободила X

Grigory
14.09.2018
12:48:11
^ ты про джобы или таски ^

Eduard
14.09.2018
12:49:10
вторая через минуту с Y контейнеров увеличилась до X+Y

Stanislav
14.09.2018
12:49:25
Контейнеры создаются же при старте таски. Джобы не влияют на создание

Eduard
14.09.2018
12:49:41
но Spark App ui по прежнему показывает что джоб выполняется в Y экзекуторах

Stanislav
14.09.2018
12:52:19
И по окончанию обоих исчезают все х+у?

Eduard
14.09.2018
12:53:14
ага, освобождается

Stanislav
14.09.2018
12:53:57
А где ты смотришь, что их стало х+у? В ярне?

Eduard
14.09.2018
12:53:58
я щас попробую повторить и наделать скринов
вот тут
но это другое приложение
Если что это все Amazon EMR, все по дефолту
Я похоже разобрался

Google

Eduard
14.09.2018
14:39:21
спарк подхватил контейнеры как только поменялся стейдж

Vadim
14.09.2018
16:41:53

Юрий
14.09.2018
17:29:13

Vadim
14.09.2018
17:32:19
ну мист это же не новая версия жобсервера - конечно ручками.
если больно поменять формат вызовов можно руками глупую проксю поставить, чтобы формат закпроса переделывала

Юрий
14.09.2018
17:33:52
Вот кто-нибудь запилил бы скалафикс миграцию ;)
Просто скоро обновляться на новый сжс, и я думаю, может проще мист воткнуть, если миграция не сложная

Vadim
14.09.2018
17:40:08
ну тут уровень сложности переезда == смене http dsl и чутка запросы подмандить - сложность не тянет на скалафиксы)
ну и как бы можешь саму логику завернуть и в мистовую и сжс джобу, потом плавно перектишься

Daniel
14.09.2018
17:41:23

Юрий
14.09.2018
17:57:08
Спасибо за ответы

Grigory
14.09.2018
19:58:29

Александр
14.09.2018
23:10:00
Глупый вопрос, у меня есть унаследованный код.
Господин коллега считывает файлы которые нужно обработать, потом делает
foreach{
создал sparkContext
обработал что нужно
закрыл sparkContext
}
не правильно ли будет ?
создать sc
files.foreach{
process(_)
}
закрыть sc

Евгений
14.09.2018
23:11:21
правильнее всего будет sc.parallelize(files).map(process)?

Grigory
14.09.2018
23:11:31
))
ну и не ясна цель зачем он открывает и закрывает контексты

Евгений
14.09.2018
23:11:50
как-то по-спарковски)

Александр
14.09.2018
23:11:58
мне тоже, мне тоже

Google

Александр
14.09.2018
23:12:08
файлы мы из hdfs берем, кстати

Grigory
14.09.2018
23:12:19
а что за файлы
csv чую...

Александр
14.09.2018
23:12:51
ДА

Евгений
14.09.2018
23:12:54

Александр
14.09.2018
23:13:01
но я сейчас на паркет все перекладываю
вроде феир

Grigory
14.09.2018
23:13:34
тогда он таким макаром паралелил видать все

Александр
14.09.2018
23:13:39
на самом деле не все, а только новое будет на паркете, вот и думаю сразу по-красоте сделать

Евгений
14.09.2018
23:14:05
а потом говорят "чё-то спарк хреново работает, давайте обратно на платные етл говнотулзы переходить")

Grigory
14.09.2018
23:14:08
ну да, вообще возьми имена распаралель и считай их на разных машинах и потом запроцессь

Александр
14.09.2018
23:15:03