@hadoopusers

Страница 68 из 182
Grigory
24.01.2018
14:55:03
думаю Дмитрий справится

KrivdaAllStars
24.01.2018
14:55:04
ну кешем лечется
или не лечится

ag0n1k
24.01.2018
14:55:09
хотелось бы как раз понять как рассчитать необходимую
калькулятора нет. Надо делать оценку и масштабировать

KrivdaAllStars
24.01.2018
14:55:18
концептуально разбить на две джобы

Google
Dmitry
24.01.2018
14:55:36
ну есть варик тупо через каку

а там в кафку сгрузить

Grigory
24.01.2018
14:55:52
да ты сравни

KrivdaAllStars
24.01.2018
14:55:54
ну если ходить повторно по апи допустимо, то все ок

Grigory
24.01.2018
14:56:08
но но суть что это нормально паралелить все как хочешь

Dmitry
24.01.2018
14:56:12
спасибо, еще раз

Shazo
24.01.2018
15:01:36
калькулятора нет. Надо делать оценку и масштабировать
по каким то параметрам же делают оценку и примерное понимание, как маштабировать? не методом тыка же

ag0n1k
24.01.2018
15:03:18
по каким то параметрам же делают оценку и примерное понимание, как маштабировать? не методом тыка же
семпл данных, движок, форматы хранения, типовые задачи, нагрузка и отчеты

Alexey
24.01.2018
15:07:49
чят, а может подскажете. есть какой-нибудь вменяемый способ засосать в rdd несколько миллионов строк из постгрёвой таблички? так чтобы и параллельно было, и вообще не криво. а то и spark-sql, и jdbcrdd предлагают указывать колонку с монотонными id, upper и lower bound, кол-во партиций, и потом на каждом воркере тупо селект пускают с (колонка>a AND колонка<=b). а у меня в общем-то и колонки такой нету, чтобы монотонно возрастала. уж думаю на стороне базы тупо выгрузку в csv делать и его уже спарку кормить.

Grigory
24.01.2018
15:08:27
@zuynew кстати осторожнее с ванила фучами, там иногда косяки вылезают, особенно если вложенными будешь делать или делать бэкоффы, имеет смысл рассмотреть таски, но скорее всего мои клешни слишком кривы

и у меня это проявилось именно в спарке

Andrew
24.01.2018
16:04:25
Всем привет Может кто сталкивался На амазоне можно программно стартануть кластер с разными типами инстансов для мастер ноды и слейвов, например m3.large и m3.small соответственно. Но я не могу проделать то же самое через AWS Console, там предлагается выбрать один и тот же тип инстансов и для мастера и для слейвов. Никто не знает, почему Амазон не позволяет так делать в консоли и будет ли работать нормально кластер с разными типами инстансов?

Google
Andrew
24.01.2018
16:06:39
имеешь ввиду через ui как делать это?
Я не могу сделать это через UI и могу программно, например RunJobFlowRequest request = new RunJobFlowRequest() .withMasterInstanceType("m3.large") .withSlaveInstanceType("m3.xlarge")

Вопрос, чем вызвано то, что так через юай нельзя сделать

Alexey
24.01.2018
16:16:28
всё зя, почему нельзя?



Oleg
24.01.2018
21:15:36
Возможно глупый вопрос, но у меня есть большой файл на 2 тб, он в формате json вида {a:1, b:{c:2}, ...}. Как сделать по нему селект по полю "c"? Я читаю его так : spark.read.json("path"). Мне нужно сделать две операции, провести селект по полю(предыдущий вопрос) и откинуть лишние поля, правильно я понимаю, что сначала нужно сделать селект по полю, если он сильно уменьшает размер данных или это не имеет значения?

KrivdaAllStars
24.01.2018
21:20:11
посмотреть какие поля он в итоге выберет, еще я слышал, что для оптимизации можно заранее схему задать

Oleg
24.01.2018
21:29:21
@krivdaallstars что такое эксплейн для физического плана запроса? можешь дать ссылки на эту тему, я чето даже загуглить не смог

Oleg
24.01.2018
21:33:27
@krivdaallstars Спасибо!?

Ammadeus
24.01.2018
22:40:51
Лучший новостной-инсайдерский канал в Telegram! ? https://t.me/SharkCIA Там Вы найдете: ? Ежедневный поток полезной информации. ? Аналитические статьи. ? Интересные факты. ? И многое другое! ? Целый путеводитель к успеху в вашем телефоне. ▪️Присоединяйся к каналу: ▪️https://t.me/SharkCIA

Andrew
25.01.2018
05:28:18
Спасибо)

Aleksandr
25.01.2018
12:06:50
Кто-то уже пробовал hadoop 3.0?

KrivdaAllStars
28.01.2018
23:37:38
https://medium.com/@joecrobak/five-years-of-hadoop-weekly-7aa8994f140b

Посовещается

Sergey
29.01.2018
08:01:32
всем приветики! кто-нибудь тут устанавливал Oracle BigDataSQL?

Dmitriy
29.01.2018
08:11:31
Привет. Ребятушки, может быть знает кто-нибудь решение, позволяющее легко и просто построить мониторинг над данными? E.g. "есть ли партиция в определенное время" или "долетела ли она вообще" или "не сильно ли размер отличается".

Sergey
29.01.2018
17:25:58
Народ, а кто имеет что сказать за accumulo vs hbase с точки зрения личного опыта и эксплуатации?

Google
Grigory
29.01.2018
19:24:03
Идентичны, по большому счету разница в секурности на уровне ячеек и у акумоло ячейка до экзобайта

Ну и коломн фэмили нормальные а не как в хбейз (просто как столбец а не как ‘столбцы под каждый коломн фамили’) мне лично акумуло больше нравится

Sergey
29.01.2018
20:14:44
вот да, и отзывы за ops - в пользу accumulo, а боль в том, что экосистема вокруг hbase поболе

Grigory
29.01.2018
21:06:43
самая боль аккьюмулы в том, что нету док и экосистемы

если у вас ГИС то аккумуло почму-то там везде используется, в этом случае не стоит боятся

однак конечно отсуствие док это никто не восполнит

Sergey
30.01.2018
00:44:54
немножко есть, хоть и не так богато, как для hbase https://accumulo.apache.org/1.8/accumulo_user_manual.html https://www.youtube.com/channel/UCwz1XqzxO6EAVknldrwEn8A

Oleksandr
30.01.2018
12:05:49
а есть способ в spark.read.json задать, что такое-то поле может отсутствовать?

Dmitry
30.01.2018
12:06:46
Dmitry
30.01.2018
12:06:58
Schema nullable?

Oleksandr
30.01.2018
12:12:09
так он же сам это всё понимает.. нет?
* @param nullable Indicates if values of this field can be `null values.` я же хочу, чтобы он не падал при полном отсутствии этого поля

Dmitry
30.01.2018
12:13:43
по моим эксперементам - он работает в 2 этапа.. сначала просматривает данные, что бы понять схему, и потом - когда ты запускаешь какие то расчет - парсит... и если в просмотренных данных не будет поля - то он сам поймет, что поле - nullable, и сам по тихому всё это обернет

или ты ему сам схему задаешь?

Oleksandr
30.01.2018
12:16:30
у меня есть несколько джсонов с почти одинаковой схемой (но некоторые поля в других файлах отсутствуют) я хочу это все собрать в один датафрейм и потом читать содержимое (getAs) не задавая схему, спарк падает с "Unable to infer schema for JSON at . It must be specified manually" при встрече файла с другой схемой (что, в целом, понятно) в итоге, я сейчас хочу задать схему-"общий знаменатель"

Dmitry
30.01.2018
12:17:24
попробуй сделать так: spark.read.json("/bla/bla/bla/*")

ну то есть не по одиночке вытаскивать файлы, а сразу скопом

Oleksandr
30.01.2018
12:18:37
сейчас попробую, спасибо

Hristo
30.01.2018
20:57:15
This channel might be useful for you - @datascienceworld

Google
Irina ?
31.01.2018
12:46:46
Привет! Может кто по hive проконсультировать? Какого фига он мне больше 2ух таблиц не джойнит?

Grigory
31.01.2018
12:48:28
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Joins#LanguageManualJoins-Examples

^

Irina ?
31.01.2018
12:48:46
А как вышодядит запрос ?
Select ... from A inner join B on ... inner join C on ... where ...

Irina ?
31.01.2018
12:49:08
KrivdaAllStars
31.01.2018
12:49:45
Не помогло :(
А что пишет то

Какая ошибка

Irina ?
31.01.2018
12:50:04
Никакая

Налл выводит, а если джойнить отдельно, то все ок

KrivdaAllStars
31.01.2018
12:52:59
Налл выводит, а если джойнить отдельно, то все ок
ну боюсь вкуривать что прислали выше https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Joins#LanguageManualJoins-Examples

посмотреть работает ли запрос в других базах

с тем же семплом данных

Grigory
31.01.2018
12:54:09
попробуй стримтейблом селект сделать

Irina ?
31.01.2018
12:56:28
Хм. Попробую

Спасибо

KrivdaAllStars
31.01.2018
13:11:34
Хм. Попробую
если получится, отпишите плез

Vera
31.01.2018
16:59:52


Google
Vera
31.01.2018
16:59:54
привет, сообщество! Где почитать Data Algorithms: Recipes for Scaling Up with Hadoop and Spark и перевели ли на русский?

купить/скачать

Pavel
31.01.2018
17:00:25
первая стрица гугла?

Vera
31.01.2018
17:00:32
как вам книга вообще?

Амазон долго

KrivdaAllStars
31.01.2018
17:04:10
Там две недели бесплатно

Страница 68 из 182