@hadoopusers

Страница 2 из 182
Grigory
25.01.2017
17:23:10
только это накладывает ограничения на размеры файлов как видишь

но чем больше файлов и чем они меньше тем лучше для спарка

Grigory
25.01.2017
17:24:54
попробуй coalesce с и без шафла

Google
Grigory
25.01.2017
17:25:28
еще можешь кастомный партишонер исопльзовать; должно работать)) я про partitionBy

KrivdaTheTriewe
25.01.2017
17:25:30
попробовали

про коализ

я думаю забьем

Но хайвом это решается)

Grigory
25.01.2017
17:26:16
ну репартишн должен рабоать

у меня работало reaprtition(1).saveAsTextFile

в один писал

KrivdaTheTriewe
25.01.2017
17:29:06
а вот если 2 сделать)

Akceptor
27.01.2017
13:52:36
Подскажите плиз. Spark, Java: есть такой вот Dataset<Row> sample (структура внутри неизвестна и может меняться). Нужно получить JSON представление сего дейтасета.

Grigory
27.01.2017
14:13:44
https://github.com/apache/spark/pull/15354

но тут кк бы все равно ограничения есть; хз твой контекст)

Alexander
27.01.2017
14:15:10
Зачем сообщения удалять?

Google
Grigory
27.01.2017
14:15:24
а кто удалял что?

Alexander
27.01.2017
14:15:59
Извините, один и тот же вопрос был задан в двух чатах

Спутал

Akceptor
27.01.2017
14:19:28
спс, посмотрю. неохота итерировать и парсить самому

Grigory
27.01.2017
14:23:05
это со спарка 2.1

KrivdaTheTriewe
27.01.2017
15:51:29
вы уже используете?

я что-то погрузился в дебри стриминга и никак не вылезу , тут , что 1.6, что 2.02

Grigory
27.01.2017
16:03:31
emr 5.3.0

KrivdaTheTriewe
27.01.2017
16:05:50
хочу уехать в облако, чтобы там всё хорошо разворачивалось и не было проблем

Grigory
27.01.2017
16:11:34
а как у вас разворачивается?

я не смог придумать общего решения пока

ну вернее оно есть) но за этим надо сидеть чтоб сделать удобным

KrivdaTheTriewe
27.01.2017
16:14:46
вообще

кучу версий спарка в паралель

одна джоба на одной версии,другая на другой

Grigory
27.01.2017
16:15:10
у меня (полу) готовое решение докером

KrivdaTheTriewe
27.01.2017
16:15:24
а что там за половина?

мы генерируем шелл скрипты для каждой джобы, и шельник запускаем оззи

Grigory
27.01.2017
16:16:08
https://github.com/geotrellis/geodocker-cluster ну и отрефактореная версия (я только уже следил за рефакторингом): https://github.com/geodocker/geodocker

Google
Grigory
27.01.2017
16:16:31
ну я не про токак джобы запускюатся а про то как окружение обновляется и стартует?

KrivdaTheTriewe
27.01.2017
16:17:30
амбари есть и паппет

Grigory
27.01.2017
16:18:04
а мне амбари показался не очень нужным оверхедом

вдруг те нужен кастомный билд спарка или хадупа; там все удобно будет?

KrivdaTheTriewe
27.01.2017
16:18:58
не будет удобно

Амбари вообще, штука хорошая

ptchol
06.02.2017
11:36:46
Всем привет.

по каким причинам у hbase может быть data locality 36% всего после major compaction ?

Grigory
06.02.2017
17:12:32
сплит по причине превышения максайза у регинов?

http://hbase.apache.org/book.html#disable.splitting

ТЕРЯЕМ ЛЮДЕЙ

KrivdaTheTriewe
07.02.2017
00:02:34
ТЕРЯЕМ ЛЮДЕЙ
профессия датаинженера не в почёте

Admin


KrivdaTheTriewe
07.02.2017
00:03:10
лучше паперы читать про фримонады и про то, что монады больше не нужны

ptchol
07.02.2017
12:16:25
сплит по причине превышения максайза у регинов?
а как это влияет на локалити ? ну сплитнуло, но могут же на одной ноде лежать.

Grigory
07.02.2017
12:16:53
будь я хбейз яб ребалансил все и хранил максимально сбалансировано

но я не хбейз

каждый сплит я думаю потеницально может вести к обмену данными; это лишь догадка проверить просто увеличить размер сплита и не допускать сплита посмотреть что будет с параметром локалити

ptchol
07.02.2017
12:18:05
A major compaction ensures that all data that is owned by a region server is local to that server.

Grigory
07.02.2017
12:18:40
ну это догадка не надо мне доку тыкать я знаю спс

Google
Grigory
07.02.2017
12:18:55
и это не 100% правда

она пытаться будет

ptchol
07.02.2017
12:18:59
так там данных не так много льётся чтобы после компакта мы тут же насплитили 60% данных

Grigory
07.02.2017
12:19:08
а какой размер сплита?

ptchol
07.02.2017
12:19:24
region file size ? 1g

Grigory
07.02.2017
12:20:54
ммм ну вы запускаете компакцию

и все кусочки локально

однако там ходит демон который ребалансирует все

ptchol
07.02.2017
12:22:37
там не демон

это мастер может запускать ребаланс регионв по каким то причинам

или периодически

Grigory
07.02.2017
12:23:47
каждые 5 минут он зпускает стохастический лоад балансер

ну проблем не будет если размер файла региона увеличить

ptchol
07.02.2017
12:28:07
Только он их не смержит же сам вроде как

KrivdaTheTriewe
10.02.2017
04:17:47
Где - то ссылку добавили

Farruh
10.02.2017
06:21:33
https://geektimes.ru/post/285704/ кажется здеьс

Страница 2 из 182