@hadoopusers

« Назад

Страница 68 из 182

Далее »

Grigory

24.01.2018
14:55:03

думаю Дмитрий справится

KrivdaAllStars

24.01.2018
14:55:04

ну кешем лечется

или не лечится

ag0n1k

24.01.2018
14:55:09

хотелось бы как раз понять как рассчитать необходимую

калькулятора нет. Надо делать оценку и масштабировать

KrivdaAllStars

24.01.2018
14:55:18

концептуально разбить на две джобы

Google

Dmitry

24.01.2018
14:55:36

ну есть варик тупо через каку

а там в кафку сгрузить

Grigory

24.01.2018
14:55:52

да ты сравни

KrivdaAllStars

24.01.2018
14:55:54

ну если ходить повторно по апи допустимо, то все ок

Grigory

24.01.2018
14:56:08

но но суть что это нормально паралелить все как хочешь

Dmitry

24.01.2018
14:56:12

ну если ходить повторно по апи допустимо, то все ок

норм, пока не критикал

спасибо, еще раз

Shazo

24.01.2018
15:01:36

калькулятора нет. Надо делать оценку и масштабировать

по каким то параметрам же делают оценку и примерное понимание, как маштабировать? не методом тыка же

ag0n1k

24.01.2018
15:03:18

по каким то параметрам же делают оценку и примерное понимание, как маштабировать? не методом тыка же

семпл данных, движок, форматы хранения, типовые задачи, нагрузка и отчеты

Alexey

24.01.2018
15:07:49

чят, а может подскажете. есть какой-нибудь вменяемый способ засосать в rdd несколько миллионов строк из постгрёвой таблички? так чтобы и параллельно было, и вообще не криво. а то и spark-sql, и jdbcrdd предлагают указывать колонку с монотонными id, upper и lower bound, кол-во партиций, и потом на каждом воркере тупо селект пускают с (колонка>a AND колонка<=b). а у меня в общем-то и колонки такой нету, чтобы монотонно возрастала. уж думаю на стороне базы тупо выгрузку в csv делать и его уже спарку кормить.

Grigory

24.01.2018
15:08:27

@zuynew кстати осторожнее с ванила фучами, там иногда косяки вылезают, особенно если вложенными будешь делать или делать бэкоффы, имеет смысл рассмотреть таски, но скорее всего мои клешни слишком кривы

и у меня это проявилось именно в спарке

Andrew

24.01.2018
16:04:25

Всем привет Может кто сталкивался На амазоне можно программно стартануть кластер с разными типами инстансов для мастер ноды и слейвов, например m3.large и m3.small соответственно. Но я не могу проделать то же самое через AWS Console, там предлагается выбрать один и тот же тип инстансов и для мастера и для слейвов. Никто не знает, почему Амазон не позволяет так делать в консоли и будет ли работать нормально кластер с разными типами инстансов?

Google

Grigory

24.01.2018
16:05:57

Всем привет Может кто сталкивался На амазоне можно программно стартануть кластер с разными типами инстансов для мастер ноды и слейвов, например m3.large и m3.small соответственно. Но я не могу проделать то же самое через AWS Console, там предлагается выбрать один и тот же тип инстансов и для мастера и для слейвов. Никто не знает, почему Амазон не позволяет так делать в консоли и будет ли работать нормально кластер с разными типами инстансов?

имеешь ввиду через ui как делать это?

._. честно я ток через cli пускаю все

Andrew

24.01.2018
16:06:39

имеешь ввиду через ui как делать это?

Я не могу сделать это через UI и могу программно, например RunJobFlowRequest request = new RunJobFlowRequest() .withMasterInstanceType("m3.large") .withSlaveInstanceType("m3.xlarge")

Вопрос, чем вызвано то, что так через юай нельзя сделать

Alexey

24.01.2018
16:16:28

всё зя, почему нельзя?

Oleg

24.01.2018
21:15:36

Возможно глупый вопрос, но у меня есть большой файл на 2 тб, он в формате json вида {a:1, b:{c:2}, ...}. Как сделать по нему селект по полю "c"? Я читаю его так : spark.read.json("path"). Мне нужно сделать две операции, провести селект по полю(предыдущий вопрос) и откинуть лишние поля, правильно я понимаю, что сначала нужно сделать селект по полю, если он сильно уменьшает размер данных или это не имеет значения?

KrivdaAllStars

24.01.2018
21:20:11

Возможно глупый вопрос, но у меня есть большой файл на 2 тб, он в формате json вида {a:1, b:{c:2}, ...}. Как сделать по нему селект по полю "c"? Я читаю его так : spark.read.json("path"). Мне нужно сделать две операции, провести селект по полю(предыдущий вопрос) и откинуть лишние поля, правильно я понимаю, что сначала нужно сделать селект по полю, если он сильно уменьшает размер данных или это не имеет значения?

если используешь датафреймы ( последний спарк) , то ты можешь написать всю логику нормально без оптимизаций и сделать эксплейн для физического плана запроса

посмотреть какие поля он в итоге выберет, еще я слышал, что для оптимизации можно заранее схему задать

Oleg

24.01.2018
21:29:21

@krivdaallstars что такое эксплейн для физического плана запроса? можешь дать ссылки на эту тему, я чето даже загуглить не смог

KrivdaAllStars

24.01.2018
21:32:49

@krivdaallstars что такое эксплейн для физического плана запроса? можешь дать ссылки на эту тему, я чето даже загуглить не смог

https://dzone.com/articles/understanding-optimized-logical-plan-in-spark

Oleg

24.01.2018
21:33:27

@krivdaallstars Спасибо!?

Ammadeus

24.01.2018
22:40:51

Лучший новостной-инсайдерский канал в Telegram! ? https://t.me/SharkCIA Там Вы найдете: ? Ежедневный поток полезной информации. ? Аналитические статьи. ? Интересные факты. ? И многое другое! ? Целый путеводитель к успеху в вашем телефоне. ▪️Присоединяйся к каналу: ▪️https://t.me/SharkCIA

Andrew

25.01.2018
05:28:18

Спасибо)

Aleksandr

25.01.2018
12:06:50

Кто-то уже пробовал hadoop 3.0?

KrivdaAllStars

28.01.2018
23:37:38

https://medium.com/@joecrobak/five-years-of-hadoop-weekly-7aa8994f140b

Посовещается

Sergey

29.01.2018
08:01:32

всем приветики! кто-нибудь тут устанавливал Oracle BigDataSQL?

Dmitriy

29.01.2018
08:11:31

Привет. Ребятушки, может быть знает кто-нибудь решение, позволяющее легко и просто построить мониторинг над данными? E.g. "есть ли партиция в определенное время" или "долетела ли она вообще" или "не сильно ли размер отличается".

Sergey

29.01.2018
17:25:58

Народ, а кто имеет что сказать за accumulo vs hbase с точки зрения личного опыта и эксплуатации?

Google

Grigory

29.01.2018
19:24:03

Народ, а кто имеет что сказать за accumulo vs hbase с точки зрения личного опыта и эксплуатации?

Зависит от предметной области

Идентичны, по большому счету разница в секурности на уровне ячеек и у акумоло ячейка до экзобайта

Ну и коломн фэмили нормальные а не как в хбейз (просто как столбец а не как ‘столбцы под каждый коломн фамили’) мне лично акумуло больше нравится

Sergey

29.01.2018
20:14:44

вот да, и отзывы за ops - в пользу accumulo, а боль в том, что экосистема вокруг hbase поболе

Grigory

29.01.2018
21:06:43

самая боль аккьюмулы в том, что нету док и экосистемы

если у вас ГИС то аккумуло почму-то там везде используется, в этом случае не стоит боятся

однак конечно отсуствие док это никто не восполнит

Sergey

30.01.2018
00:44:54

немножко есть, хоть и не так богато, как для hbase https://accumulo.apache.org/1.8/accumulo_user_manual.html https://www.youtube.com/channel/UCwz1XqzxO6EAVknldrwEn8A

Oleksandr

30.01.2018
12:05:49

а есть способ в spark.read.json задать, что такое-то поле может отсутствовать?

Dmitry

30.01.2018
12:06:46

а есть способ в spark.read.json задать, что такое-то поле может отсутствовать?

так он же сам это всё понимает.. нет?

Dmitry

30.01.2018
12:06:58

Schema nullable?

Oleksandr

30.01.2018
12:12:09

так он же сам это всё понимает.. нет?

* @param nullable Indicates if values of this field can be `null values.` я же хочу, чтобы он не падал при полном отсутствии этого поля

Dmitry

30.01.2018
12:13:43

по моим эксперементам - он работает в 2 этапа.. сначала просматривает данные, что бы понять схему, и потом - когда ты запускаешь какие то расчет - парсит... и если в просмотренных данных не будет поля - то он сам поймет, что поле - nullable, и сам по тихому всё это обернет

или ты ему сам схему задаешь?

Oleksandr

30.01.2018
12:16:30

у меня есть несколько джсонов с почти одинаковой схемой (но некоторые поля в других файлах отсутствуют) я хочу это все собрать в один датафрейм и потом читать содержимое (getAs) не задавая схему, спарк падает с "Unable to infer schema for JSON at . It must be specified manually" при встрече файла с другой схемой (что, в целом, понятно) в итоге, я сейчас хочу задать схему-"общий знаменатель"

Dmitry

30.01.2018
12:17:24

попробуй сделать так: spark.read.json("/bla/bla/bla/*")

ну то есть не по одиночке вытаскивать файлы, а сразу скопом

Oleksandr

30.01.2018
12:18:37

сейчас попробую, спасибо

попробуй сделать так: spark.read.json("/bla/bla/bla/*")

помогло, спасибо)

Hristo

30.01.2018
20:57:15

This channel might be useful for you - @datascienceworld