
Grigory
24.01.2018
14:55:03
думаю Дмитрий справится

KrivdaAllStars
24.01.2018
14:55:04

ag0n1k
24.01.2018
14:55:09

KrivdaAllStars
24.01.2018
14:55:18
концептуально разбить на две джобы

Google

Dmitry
24.01.2018
14:55:36
ну есть варик тупо через каку
а там в кафку сгрузить

Grigory
24.01.2018
14:55:52
да ты сравни

KrivdaAllStars
24.01.2018
14:55:54
ну если ходить повторно по апи допустимо, то все ок

Grigory
24.01.2018
14:56:08
но но суть что это нормально паралелить все как хочешь

Dmitry
24.01.2018
14:56:12
спасибо, еще раз

Shazo
24.01.2018
15:01:36

ag0n1k
24.01.2018
15:03:18

Alexey
24.01.2018
15:07:49
чят, а может подскажете.
есть какой-нибудь вменяемый способ засосать в rdd несколько миллионов строк из постгрёвой таблички? так чтобы и параллельно было, и вообще не криво. а то и spark-sql, и jdbcrdd предлагают указывать колонку с монотонными id, upper и lower bound, кол-во партиций, и потом на каждом воркере тупо селект пускают с (колонка>a AND колонка<=b). а у меня в общем-то и колонки такой нету, чтобы монотонно возрастала.
уж думаю на стороне базы тупо выгрузку в csv делать и его уже спарку кормить.

Grigory
24.01.2018
15:08:27
@zuynew кстати осторожнее с ванила фучами, там иногда косяки вылезают, особенно если вложенными будешь делать или делать бэкоффы, имеет смысл рассмотреть таски, но скорее всего мои клешни слишком кривы
и у меня это проявилось именно в спарке

Andrew
24.01.2018
16:04:25
Всем привет
Может кто сталкивался
На амазоне можно программно стартануть кластер с разными типами инстансов для мастер ноды и слейвов, например m3.large и m3.small соответственно. Но я не могу проделать то же самое через AWS Console, там предлагается выбрать один и тот же тип инстансов и для мастера и для слейвов.
Никто не знает, почему Амазон не позволяет так делать в консоли и будет ли работать нормально кластер с разными типами инстансов?

Google

Grigory
24.01.2018
16:05:57
._. честно я ток через cli пускаю все

Andrew
24.01.2018
16:06:39
имеешь ввиду через ui как делать это?
Я не могу сделать это через UI и могу программно, например
RunJobFlowRequest request = new RunJobFlowRequest()
.withMasterInstanceType("m3.large")
.withSlaveInstanceType("m3.xlarge")
Вопрос, чем вызвано то, что так через юай нельзя сделать

Alexey
24.01.2018
16:16:28
всё зя, почему нельзя?

Oleg
24.01.2018
21:15:36
Возможно глупый вопрос, но у меня есть большой файл на 2 тб, он в формате json вида {a:1, b:{c:2}, ...}. Как сделать по нему селект по полю "c"? Я читаю его так : spark.read.json("path"). Мне нужно сделать две операции, провести селект по полю(предыдущий вопрос) и откинуть лишние поля, правильно я понимаю, что сначала нужно сделать селект по полю, если он сильно уменьшает размер данных или это не имеет значения?

KrivdaAllStars
24.01.2018
21:20:11
посмотреть какие поля он в итоге выберет, еще я слышал, что для оптимизации можно заранее схему задать

Oleg
24.01.2018
21:29:21
@krivdaallstars что такое эксплейн для физического плана запроса? можешь дать ссылки на эту тему, я чето даже загуглить не смог

KrivdaAllStars
24.01.2018
21:32:49

Oleg
24.01.2018
21:33:27
@krivdaallstars Спасибо!?

Ammadeus
24.01.2018
22:40:51
Лучший новостной-инсайдерский канал в Telegram!
? https://t.me/SharkCIA
Там Вы найдете:
? Ежедневный поток полезной информации.
? Аналитические статьи.
? Интересные факты.
? И многое другое!
? Целый путеводитель к успеху в вашем телефоне.
▪️Присоединяйся к каналу:
▪️https://t.me/SharkCIA

Andrew
25.01.2018
05:28:18
Спасибо)

Aleksandr
25.01.2018
12:06:50
Кто-то уже пробовал hadoop 3.0?

KrivdaAllStars
28.01.2018
23:37:38
https://medium.com/@joecrobak/five-years-of-hadoop-weekly-7aa8994f140b
Посовещается

Sergey
29.01.2018
08:01:32
всем приветики!
кто-нибудь тут устанавливал Oracle BigDataSQL?

Dmitriy
29.01.2018
08:11:31
Привет. Ребятушки, может быть знает кто-нибудь решение, позволяющее легко и просто построить мониторинг над данными? E.g. "есть ли партиция в определенное время" или "долетела ли она вообще" или "не сильно ли размер отличается".

Sergey
29.01.2018
17:25:58
Народ, а кто имеет что сказать за accumulo vs hbase с точки зрения личного опыта и эксплуатации?

Google

Grigory
29.01.2018
19:24:03
Идентичны, по большому счету разница в секурности на уровне ячеек и у акумоло ячейка до экзобайта
Ну и коломн фэмили нормальные а не как в хбейз (просто как столбец а не как ‘столбцы под каждый коломн фамили’) мне лично акумуло больше нравится

Sergey
29.01.2018
20:14:44
вот да, и отзывы за ops - в пользу accumulo, а боль в том, что экосистема вокруг hbase поболе

Grigory
29.01.2018
21:06:43
самая боль аккьюмулы в том, что нету док и экосистемы
если у вас ГИС то аккумуло почму-то там везде используется, в этом случае не стоит боятся
однак конечно отсуствие док это никто не восполнит

Sergey
30.01.2018
00:44:54
немножко есть, хоть и не так богато, как для hbase
https://accumulo.apache.org/1.8/accumulo_user_manual.html
https://www.youtube.com/channel/UCwz1XqzxO6EAVknldrwEn8A

Oleksandr
30.01.2018
12:05:49
а есть способ в spark.read.json задать, что такое-то поле может отсутствовать?

Dmitry
30.01.2018
12:06:46

Dmitry
30.01.2018
12:06:58
Schema nullable?

Oleksandr
30.01.2018
12:12:09

Dmitry
30.01.2018
12:13:43
по моим эксперементам - он работает в 2 этапа..
сначала просматривает данные, что бы понять схему, и потом - когда ты запускаешь какие то расчет - парсит...
и если в просмотренных данных не будет поля - то он сам поймет, что поле - nullable, и сам по тихому всё это обернет
или ты ему сам схему задаешь?

Oleksandr
30.01.2018
12:16:30
у меня есть несколько джсонов с почти одинаковой схемой (но некоторые поля в других файлах отсутствуют)
я хочу это все собрать в один датафрейм и потом читать содержимое (getAs)
не задавая схему, спарк падает с "Unable to infer schema for JSON at . It must be specified manually" при встрече файла с другой схемой (что, в целом, понятно)
в итоге, я сейчас хочу задать схему-"общий знаменатель"

Dmitry
30.01.2018
12:17:24
попробуй сделать так: spark.read.json("/bla/bla/bla/*")
ну то есть не по одиночке вытаскивать файлы, а сразу скопом

Oleksandr
30.01.2018
12:18:37
сейчас попробую, спасибо

Hristo
30.01.2018
20:57:15
This channel might be useful for you - @datascienceworld

Google

Irina ?
31.01.2018
12:46:46
Привет! Может кто по hive проконсультировать? Какого фига он мне больше 2ух таблиц не джойнит?

KrivdaAllStars
31.01.2018
12:47:37

Grigory
31.01.2018
12:48:28
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Joins#LanguageManualJoins-Examples
^

Irina ?
31.01.2018
12:48:46

KrivdaAllStars
31.01.2018
12:48:58

Irina ?
31.01.2018
12:49:08

KrivdaAllStars
31.01.2018
12:49:45
Какая ошибка

Irina ?
31.01.2018
12:50:04
Никакая
Налл выводит, а если джойнить отдельно, то все ок

KrivdaAllStars
31.01.2018
12:52:59
посмотреть работает ли запрос в других базах
с тем же семплом данных

Grigory
31.01.2018
12:54:09
попробуй стримтейблом селект сделать

Irina ?
31.01.2018
12:56:28
Хм. Попробую
Спасибо

KrivdaAllStars
31.01.2018
13:11:34

Irina ?
31.01.2018
13:12:05

Vera
31.01.2018
16:59:52

Google

Vera
31.01.2018
16:59:54
привет, сообщество! Где почитать Data Algorithms: Recipes for Scaling Up with Hadoop and Spark и перевели ли на русский?
купить/скачать

Pavel
31.01.2018
17:00:25
первая стрица гугла?

Vera
31.01.2018
17:00:32
как вам книга вообще?
Амазон долго

KrivdaAllStars
31.01.2018
17:04:10
Там две недели бесплатно