
Nikita Blagodarnyy
24.10.2018
14:27:21
От пайплайна к прогнозу и обратно, кажется, так доклад назывался.

Alexander
24.10.2018
14:27:45
В целом, PIG зависит от engine. Например, Tez vs MR2

Ruslan
24.10.2018
14:28:08
Вот меня и смущает свинья на мр

Sergey
24.10.2018
14:37:42

Google

Andrey
24.10.2018
14:41:55

Sergey
24.10.2018
14:49:34
Udf я так понял со столбцами раьотает, тоесть мы разбиваем содержимое еа разные столбцы с ращлеоитеоем "; "?
Без названий колонок, просто какое-то количество?
Andrey Smirnov:
как-то так:
val udf_split = { (content: String) => это каждая строка выдачи перебирается?
Есть что-то на прочтение где хорошо пишут о SparkSql?
Обзорно с обьяснением основных принципов построения языка

Andrey
24.10.2018
14:56:42
мы преобразуем текст в колонке в массив строк, т.е. в колонке уже не текст, а массив строк,
потом explode расщипляет этот массив на строки в датафрайме, где одна строка в массиве будет одной строкой в датафрейме, плюс ты можешь указать колонки которые будут

Sergey
24.10.2018
14:57:38

Andrey
24.10.2018
14:57:45

Sergey
24.10.2018
14:59:49
в какую переменную?
Ну вот у нас вывод из z.show. Вот этот вывод с нужной частью лога и надо "прошерстить" на разделитель ";"

Google

Sergey
24.10.2018
15:01:26
Логично вывод присвоить сассиву
А как?

Andrey
24.10.2018
15:02:17
z.show это просто вывод в ноутбук

Sergey
24.10.2018
15:08:45
Ага.
val udf_split = { (content: String) => content.split(";")}
Т.е. тут мы что уже обработано попадает сюда и content: string какая-то глобальная функция в интерпретатор, которая выводит строки (каждую) и далее отправляет методом => в функцию content.split и там расщепляется на строки в колонки и отправляется в массив UDF_SPLIT ? ?

Alexander
24.10.2018
15:15:12

Sergey
24.10.2018
15:15:50
Я только не понимаю ф. select и почему там две колонки прописаны
И ругачку не пишет

Andrey
24.10.2018
15:23:45

Sergey
24.10.2018
15:27:55

Andrey
24.10.2018
15:28:44
select(explode(split(....

Nikita Blagodarnyy
24.10.2018
15:30:11

Andrey
24.10.2018
15:30:38
а я как написал?:)

KrivdaAllStars
24.10.2018
15:31:11
аааааааааааааааааааа

Nikita Blagodarnyy
24.10.2018
15:33:13

Andrey
24.10.2018
15:33:26
:)

Sergey
24.10.2018
15:35:54
Запустил.. Неа.. Ошибку не описывает, что интересно


Nadi
24.10.2018
15:36:02
Не в тему беседы, но все же) вдруг мы сможем найти друг друга?
#job
В поисках Senior Java Developer с уверенным опытом разработки приложений, используя компоненты экосистемы Hadoop.
Требования
· Опыт разработки на Java не менее 5 лет;
· Опыт работы с высоконагруженными ETL-решениями;
· Опыт работы с HDFS (HDFS Federation), HBase, Hive, Spark, Phoenix, Nifi;
· Опыт работы с SQL базами данных.
Позиция открыта в крупнейшем центре разработки и интеграции на российском рынке (ТОП-5). Так как поиск конфиденциален не могу озвучить название компании.
?Что касается мотивационной части:
-оформление по ТК, белая ЗП, социальный пакет;
-вилка широкая, но хотелось бы уложиться конечно до 300 000 gross/net;
-обучение, возможность профессионального и карьерного роста.
P.S Друзья! На вопросы, касаемые технологического стека, я не смогу Вам ответить (как бы не хотелось), по всем другим - welcome!
Благодарю за Ваше внимание!


Sergey
24.10.2018
15:38:51
Адрес вакансии село Слюдянка Бурятия? ?

Google

Sergey
24.10.2018
15:40:09
Там хорошо, Байкал, омуль и 300к. В России экономика процветает впереди всех стран ??


Nikita Blagodarnyy
24.10.2018
15:41:47
Не в тему беседы, но все же) вдруг мы сможем найти друг друга?
#job
В поисках Senior Java Developer с уверенным опытом разработки приложений, используя компоненты экосистемы Hadoop.
Требования
· Опыт разработки на Java не менее 5 лет;
· Опыт работы с высоконагруженными ETL-решениями;
· Опыт работы с HDFS (HDFS Federation), HBase, Hive, Spark, Phoenix, Nifi;
· Опыт работы с SQL базами данных.
Позиция открыта в крупнейшем центре разработки и интеграции на российском рынке (ТОП-5). Так как поиск конфиденциален не могу озвучить название компании.
?Что касается мотивационной части:
-оформление по ТК, белая ЗП, социальный пакет;
-вилка широкая, но хотелось бы уложиться конечно до 300 000 gross/net;
-обучение, возможность профессионального и карьерного роста.
P.S Друзья! На вопросы, касаемые технологического стека, я не смогу Вам ответить (как бы не хотелось), по всем другим - welcome!
Благодарю за Ваше внимание!
ETL-решения на Java?


Сергей
24.10.2018
15:43:17
Добрый вечер. Есть вопросик. Какого лешего при старте спарк джоба с использованием HiveContext я получаю sqlexception: Failed to create database '/var/lib/hive/metastore/metastore_db когда hive настроен на postgre?

Alexander
24.10.2018
15:43:52

Sergey
24.10.2018
15:43:59
:)
В итоге:
val dfNew = df.select(explode(split('lala,"; ") .alias("lala")))


Alexander
24.10.2018
15:45:11
Не в тему беседы, но все же) вдруг мы сможем найти друг друга?
#job
В поисках Senior Java Developer с уверенным опытом разработки приложений, используя компоненты экосистемы Hadoop.
Требования
· Опыт разработки на Java не менее 5 лет;
· Опыт работы с высоконагруженными ETL-решениями;
· Опыт работы с HDFS (HDFS Federation), HBase, Hive, Spark, Phoenix, Nifi;
· Опыт работы с SQL базами данных.
Позиция открыта в крупнейшем центре разработки и интеграции на российском рынке (ТОП-5). Так как поиск конфиденциален не могу озвучить название компании.
?Что касается мотивационной части:
-оформление по ТК, белая ЗП, социальный пакет;
-вилка широкая, но хотелось бы уложиться конечно до 300 000 gross/net;
-обучение, возможность профессионального и карьерного роста.
P.S Друзья! На вопросы, касаемые технологического стека, я не смогу Вам ответить (как бы не хотелось), по всем другим - welcome!
Благодарю за Ваше внимание!
ФОРС? )

Sergey
24.10.2018
15:45:13

Mikhail
24.10.2018
15:47:14

Nikita Blagodarnyy
24.10.2018
15:48:15

Alexander
24.10.2018
15:49:01
Он так считает)

Sergey
24.10.2018
15:49:18
:)
Андрей, вот это прописал и так же не хочет.
val dfNew = df.select(explode(split('lala,"; ") .alias("lala")))

Nikita Blagodarnyy
24.10.2018
15:51:57

Sergey
24.10.2018
15:52:26
А я там был в 2003 последний раз проездом
Меня когда первый раз на станции вышел т5тка надула ?
Сказала, что омуль, потом соседи по купе оььяснили что мне селёлку впарили ?

Andrey
24.10.2018
15:54:04

Sergey
24.10.2018
15:54:57
ПоменЛся с ними на омуль и обаллел. Офигитеоьно вкусный копчёный омуль, просто сказка ??
Прошу прошение за ошибки, с телефона строчу

Google

Sergey
24.10.2018
15:57:49

Andrey
24.10.2018
15:58:45

Sergey
24.10.2018
16:03:03
Просто не знаю, что указать и в чём выборка лежит
Ни к какой переменной то что внутри z.show не привязано получается

Andrey
24.10.2018
16:11:53
z.show это вывод, если надо сохранить, то делать val newDf = и т.д.
и уже окончательный результат вызывай для отображения в z.show

Sergey
24.10.2018
16:13:21
z.select?
Всё что я не писал в место z.select zeppelin обругал
тут что вы написали уверен работает, вот только данные как направить на ваши коды? ?
Точнее что нужно, что бы заработало ?

Pavel
25.10.2018
09:12:11
Йоу, ребят, а кто-то структурным стриммингом из rdbms читал? В идеале было бы круто ещё интегрировать источник с триггерами на insert. Есть опыт?

Renarde
25.10.2018
09:45:02
но тут все зависит от того, откуда читаешь - если это Oracle/Postgres - то там можно читать из потока апдейтов БД
Вот для Postgres - https://www.confluent.io/connector/debezium-postgresql-cdc-connector/
А для Oracle это будет GoldenGate за чемодан денег)

Daniel
25.10.2018
09:49:43

Sergey
25.10.2018
10:08:32
у кого-то реально потоковая репликация с Оракла в Хадуп/кафку работает? голден гейт? ;)

Daniel
25.10.2018
10:09:31

Google

Pavel
25.10.2018
10:11:33
Да не, мне спарком надо

Sergey
25.10.2018
10:11:40

Daniel
25.10.2018
10:12:12
в кафку, а куда из кафки это уже пофиг (в частности это не хбейз был)

_
25.10.2018
10:37:15

Alexey
25.10.2018
11:36:41
коллеги, а подскажите, что сейчас модно использовать в качестве key-value storage.
чтобы нормально работало на объёмах в пару миллиардов ключей, и позволяло делать пару сотен запросов в секунду продолжительное время.
и желательно не стоило бешеных денег.

Daniel
25.10.2018
11:37:35

Alexey
25.10.2018
11:42:13
ну, амазоновское DynamoDB например обойдётся в нехилую копеечку
монгу придётся загонять в кластер, одной ноды будет явно мало
а чё ещё есть, чтобы взять и юзать?

KrivdaAllStars
25.10.2018
11:42:33
Кассандру глянь

Daniel
25.10.2018
11:42:35
Aerospike

KrivdaAllStars
25.10.2018
11:42:39

Daniel
25.10.2018
11:42:55
Don't touch blind oracle

KrivdaAllStars
25.10.2018
11:43:19

Stanislav
25.10.2018
11:45:19

Daniel
25.10.2018
11:46:25
Да там все в описании небольшое, поэтому ответ любое недорогое.

Alexey
25.10.2018
11:47:26
ну ок, тогда вопрос какое удобнее всего будет завести в авсе чтобы без геморроя
а то динамо реально стоит конских денег

Sergey
25.10.2018
11:47:58
одна госпожа?