Grigory
25.01.2017
17:23:10
только это накладывает ограничения на размеры файлов как видишь
но чем больше файлов и чем они меньше тем лучше для спарка
KrivdaTheTriewe
25.01.2017
17:24:25
Grigory
25.01.2017
17:24:54
попробуй coalesce с и без шафла
Google
Grigory
25.01.2017
17:25:28
еще можешь кастомный партишонер исопльзовать; должно работать)) я про partitionBy
KrivdaTheTriewe
25.01.2017
17:25:30
попробовали
про коализ
я думаю забьем
Но хайвом это решается)
Grigory
25.01.2017
17:26:16
ну репартишн должен рабоать
у меня работало reaprtition(1).saveAsTextFile
в один писал
KrivdaTheTriewe
25.01.2017
17:29:06
а вот если 2 сделать)
Akceptor
27.01.2017
13:52:36
Подскажите плиз. Spark, Java: есть такой вот Dataset<Row> sample (структура внутри неизвестна и может меняться). Нужно получить JSON представление сего дейтасета.
Grigory
27.01.2017
14:13:44
https://github.com/apache/spark/pull/15354
но тут кк бы все равно ограничения есть; хз твой контекст)
Alexander
27.01.2017
14:15:10
Зачем сообщения удалять?
Google
Grigory
27.01.2017
14:15:24
а кто удалял что?
Alexander
27.01.2017
14:15:59
Извините, один и тот же вопрос был задан в двух чатах
Спутал
Akceptor
27.01.2017
14:19:28
спс, посмотрю. неохота итерировать и парсить самому
Grigory
27.01.2017
14:23:05
это со спарка 2.1
KrivdaTheTriewe
27.01.2017
15:51:29
вы уже используете?
я что-то погрузился в дебри стриминга и никак не вылезу , тут , что 1.6, что 2.02
Grigory
27.01.2017
16:03:31
emr 5.3.0
KrivdaTheTriewe
27.01.2017
16:05:50
хочу уехать в облако, чтобы там всё хорошо разворачивалось и не было проблем
Grigory
27.01.2017
16:11:34
а как у вас разворачивается?
я не смог придумать общего решения пока
ну вернее оно есть) но за этим надо сидеть чтоб сделать удобным
KrivdaTheTriewe
27.01.2017
16:14:46
вообще
кучу версий спарка в паралель
одна джоба на одной версии,другая на другой
Grigory
27.01.2017
16:15:10
у меня (полу) готовое решение докером
KrivdaTheTriewe
27.01.2017
16:15:24
а что там за половина?
мы генерируем шелл скрипты для каждой джобы, и шельник запускаем оззи
Grigory
27.01.2017
16:16:08
https://github.com/geotrellis/geodocker-cluster
ну и отрефактореная версия (я только уже следил за рефакторингом):
https://github.com/geodocker/geodocker
Google
Grigory
27.01.2017
16:16:31
ну я не про токак джобы запускюатся а про то как окружение обновляется и стартует?
KrivdaTheTriewe
27.01.2017
16:17:30
амбари есть и паппет
Grigory
27.01.2017
16:18:04
а мне амбари показался не очень нужным оверхедом
вдруг те нужен кастомный билд спарка или хадупа; там все удобно будет?
KrivdaTheTriewe
27.01.2017
16:18:58
не будет удобно
Амбари вообще, штука хорошая
ptchol
06.02.2017
11:36:46
Всем привет.
по каким причинам у hbase может быть data locality 36% всего после major compaction ?
Grigory
06.02.2017
17:12:32
сплит по причине превышения максайза у регинов?
http://hbase.apache.org/book.html#disable.splitting
ТЕРЯЕМ ЛЮДЕЙ
KrivdaTheTriewe
07.02.2017
00:02:34
Admin
KrivdaTheTriewe
07.02.2017
00:03:10
лучше паперы читать про фримонады и про то, что монады больше не нужны
ptchol
07.02.2017
12:16:25
Grigory
07.02.2017
12:16:53
будь я хбейз яб ребалансил все и хранил максимально сбалансировано
но я не хбейз
каждый сплит я думаю потеницально может вести к обмену данными; это лишь догадка
проверить просто увеличить размер сплита и не допускать сплита посмотреть что будет с параметром локалити
ptchol
07.02.2017
12:18:05
A major compaction ensures that all data that is owned by a region server is local to that server.
Grigory
07.02.2017
12:18:40
ну это догадка не надо мне доку тыкать я знаю спс
Google
Grigory
07.02.2017
12:18:55
и это не 100% правда
она пытаться будет
ptchol
07.02.2017
12:18:59
так там данных не так много льётся чтобы после компакта мы тут же насплитили 60% данных
Grigory
07.02.2017
12:19:08
а какой размер сплита?
ptchol
07.02.2017
12:19:24
region file size ? 1g
Grigory
07.02.2017
12:20:54
ммм ну вы запускаете компакцию
и все кусочки локально
однако там ходит демон который ребалансирует все
ptchol
07.02.2017
12:22:37
там не демон
это мастер может запускать ребаланс регионв по каким то причинам
или периодически
Grigory
07.02.2017
12:23:47
каждые 5 минут он зпускает стохастический лоад балансер
ну проблем не будет если размер файла региона увеличить
ptchol
07.02.2017
12:28:07
Только он их не смержит же сам вроде как
KrivdaTheTriewe
10.02.2017
04:17:47
Где - то ссылку добавили
Farruh
10.02.2017
06:21:33
https://geektimes.ru/post/285704/ кажется здеьс