
Olga
28.07.2017
09:50:56
вообще странно
например если в амбари менять настройки в Advanced spark2-env, то они не подцепляются

Andrew
28.07.2017
09:56:10
даже после рестарта? (извините за капитанство)

Olga
28.07.2017
09:56:34

Alexander
28.07.2017
10:29:29
а точно подхватываются настройки от spark2? на кластере старый spark отключен?

Google

Olga
28.07.2017
10:30:39

Alexander
28.07.2017
10:33:43
вопрос снимается, посмотрел вывод переменных запуска, которые кидали выше, там параметры явно от spark2, например каталог для истории, порт history server. так что да, явно берется праивльная версия (

Olga
28.07.2017
12:06:00
впрочем настройки, которые задаются через SparkSession.builder тоже игнорятся

Nick
30.07.2017
07:56:36
@optician_owl ты дописал свою хрень?
@pomadchin

Grigory
30.07.2017
07:57:16
Спасибо; везде потер

Nick
30.07.2017
07:57:28
а в скала чате/

Grigory
30.07.2017
07:57:32
Тож

Nick
30.07.2017
07:57:37
а, видимо лаг
вся надежда на @optician_owl

Grigory
30.07.2017
08:11:09
ненавязчиво ник просит бота

Nick
30.07.2017
08:23:22
бог просит бота

Google

Daniel
30.07.2017
13:15:06
в коллекцию спама

Grigory
30.07.2017
18:20:08
Спасиб господа
ток до интернетов добрался

Andrey
30.07.2017
18:39:19
какое название у скала-чата?

Grigory
30.07.2017
18:44:02
Scala User Group
https://t.me/scala_ru

Nick
30.07.2017
18:58:57

Grigory
30.07.2017
20:02:30

Iaroslav
31.07.2017
20:38:56
Никому не приходилось решать задачи ETL для хадуп и не-хадуп одновременно, и так чтобы с одной код базой. Короче говоря, кто-нибудь делал свою абстракцию над Spark DataFrame, чтоб работало одинаково неплохо на распределенном и обычном датастете? Просто локал мод Спарка похоже привнесет кучу оверхеда, в сравнении с обычным стримминг подходом.
да и вообще локал спарк для всего, кроме тестов - такое себе решение

Grigory
31.07.2017
21:03:32
я думаю заняться схожей задачей
но пока решение реализовать просто параллельно второе апи которое будет работать поверх коллекций
проблема что рдд слишком специфичная коллекция и мы рискуем потерять ее фичи и свойства при попытке написать абстракцию, но мне кажется это выполнимо; просто надо заняться и задизайнить хорошую абстракцию
в общем в настоящий момент у меня два апи
с дата фреймами все несоко сложнее может быть; они же дата сеты специального типа; но все решаемо, думаю

Iaroslav
31.07.2017
21:19:03

Grigory
31.07.2017
21:19:33
а; а у меня наоборот типизировано все строго

Google

Iaroslav
31.07.2017
21:20:21
так я вот думал, может есть какие SQL энжин либы хорошие. Просто из того, что нашел - ничего доверия не вызвало

Grigory
31.07.2017
21:24:21
есть CQL // org.geotools.filter.text.cql2.CQL
годная штука; можешь попробовать)

Iaroslav
31.07.2017
21:33:03

Grigory
31.07.2017
21:33:32

Iaroslav
31.07.2017
21:34:03
ага, так и поступлю

Jury
01.08.2017
05:33:32
pentaho data integration не подойдет в качестве абстракции?

Andrey
03.08.2017
11:51:59
Как можно контролировать аптайм каждого executor'а в стриминге в коде?

Grigory
03.08.2017
17:04:32

Andrey
03.08.2017
17:07:54
в идеале чтобы executor первые пол часа после запуска делал одно, а после другое