@hadoopusers

« Назад

Страница 176 из 182

Далее »

Nikita Blagodarnyy

24.10.2018
14:27:21

От пайплайна к прогнозу и обратно, кажется, так доклад назывался.

Alexander

24.10.2018
14:27:45

В целом, PIG зависит от engine. Например, Tez vs MR2

Ruslan

24.10.2018
14:28:08

Вот меня и смущает свинья на мр

Sergey

24.10.2018
14:37:42

как-то так: val udf_split = { (content: String) => content.split(";")} df.withColumn("tmp_column", udf_split('content)).select('column_1, 'column_2, explode('tmp_column))

Андрей, не понял, что с этим делать, прописал ниже и ну перестал что либо выдавать, где кнопка и статус там Error

Google

Andrey

24.10.2018
14:41:55

Андрей, не понял, что с этим делать, прописал ниже и ну перестал что либо выдавать, где кнопка и статус там Error

предлагаю все таки не идти путем script kids, а почитать хотя бы базовые вещи про спарк, про udf: https://jaceklaskowski.gitbooks.io/mastering-spark-sql/spark-sql-udfs.html можно не использовать udf, а как предлагали использовать встроенные функции split

Sergey

24.10.2018
14:49:34

Udf я так понял со столбцами раьотает, тоесть мы разбиваем содержимое еа разные столбцы с ращлеоитеоем "; "?

Без названий колонок, просто какое-то количество?

Andrey Smirnov: как-то так: val udf_split = { (content: String) => это каждая строка выдачи перебирается?

предлагаю все таки не идти путем script kids, а почитать хотя бы базовые вещи про спарк, про udf: https://jaceklaskowski.gitbooks.io/mastering-spark-sql/spark-sql-udfs.html можно не использовать udf, а как предлагали использовать встроенные функции split

Почитать мне надо ужж как! Спасибо!

Есть что-то на прочтение где хорошо пишут о SparkSql?

Обзорно с обьяснением основных принципов построения языка

Andrey

24.10.2018
14:56:42

мы преобразуем текст в колонке в массив строк, т.е. в колонке уже не текст, а массив строк, потом explode расщипляет этот массив на строки в датафрайме, где одна строка в массиве будет одной строкой в датафрейме, плюс ты можешь указать колонки которые будут

Sergey

24.10.2018
14:57:38

можно так еще df.select(split('lala, ";").alias("lala"))

Это не пошло, так как не понятно, как в переменную вывод обработки отправить

Andrey

24.10.2018
14:57:45

Обзорно с обьяснением основных принципов построения языка

я уже привел тебе ссылку https://jaceklaskowski.gitbooks.io/mastering-spark-sql/spark-sql.html

Это не пошло, так как не понятно, как в переменную вывод обработки отправить

в какую переменную?

Sergey

24.10.2018
14:59:49

я уже привел тебе ссылку https://jaceklaskowski.gitbooks.io/mastering-spark-sql/spark-sql.html

Ок, я просто udf только увидел, подумал, что о нём статья

в какую переменную?

Ну вот у нас вывод из z.show. Вот этот вывод с нужной частью лога и надо "прошерстить" на разделитель ";"

Google

Sergey

24.10.2018
15:01:26

Логично вывод присвоить сассиву

А как?

Andrey

24.10.2018
15:02:17

z.show это просто вывод в ноутбук

Sergey

24.10.2018
15:08:45

Ага. val udf_split = { (content: String) => content.split(";")} Т.е. тут мы что уже обработано попадает сюда и content: string какая-то глобальная функция в интерпретатор, которая выводит строки (каждую) и далее отправляет методом => в функцию content.split и там расщепляется на строки в колонки и отправляется в массив UDF_SPLIT ? ?

z.show это просто вывод в ноутбук

DF это датафрэйм, я так понимаю область памяти просто куда мы построчно текст вгоняем

Alexander

24.10.2018
15:15:12

DF это датафрэйм, я так понимаю область памяти просто куда мы построчно текст вгоняем

Выше предлагали почитать документацию, заодно про lazy evaluation можно посмотреть.

Sergey

24.10.2018
15:15:50

Я только не понимаю ф. select и почему там две колонки прописаны

Выше предлагали почитать документацию, заодно про lazy evaluation можно посмотреть.

Да, я завтра с неё своё утро начну ? Просто тут выполнено всё получается но почему млять еррор выдала

И ругачку не пишет

Andrey

24.10.2018
15:23:45

Это не пошло, так как не понятно, как в переменную вывод обработки отправить

val dfNew = df.select(...)

Sergey

24.10.2018
15:27:55

val dfNew = df.select(...)

А потом axplode?

Andrey

24.10.2018
15:28:44

select(explode(split(....

Nikita Blagodarnyy

24.10.2018
15:30:11

select(explode(split(....

Может, сначала сплит, потом эксплод?

Andrey

24.10.2018
15:30:38

а я как написал?:)

KrivdaAllStars

24.10.2018
15:31:11

аааааааааааааааааааа

Nikita Blagodarnyy

24.10.2018
15:33:13

а я как написал?:)

Блин, скобочки же, сорян, с точками перепутал.

Andrey

24.10.2018
15:33:26

:)

Sergey

24.10.2018
15:35:54

Запустил.. Неа.. Ошибку не описывает, что интересно

Nadi

24.10.2018
15:36:02

Не в тему беседы, но все же) вдруг мы сможем найти друг друга? #job В поисках Senior Java Developer с уверенным опытом разработки приложений, используя компоненты экосистемы Hadoop. Требования · Опыт разработки на Java не менее 5 лет; · Опыт работы с высоконагруженными ETL-решениями; · Опыт работы с HDFS (HDFS Federation), HBase, Hive, Spark, Phoenix, Nifi; · Опыт работы с SQL базами данных. Позиция открыта в крупнейшем центре разработки и интеграции на российском рынке (ТОП-5). Так как поиск конфиденциален не могу озвучить название компании. ?Что касается мотивационной части: -оформление по ТК, белая ЗП, социальный пакет; -вилка широкая, но хотелось бы уложиться конечно до 300 000 gross/net; -обучение, возможность профессионального и карьерного роста. P.S Друзья! На вопросы, касаемые технологического стека, я не смогу Вам ответить (как бы не хотелось), по всем другим - welcome! Благодарю за Ваше внимание!

Sergey

24.10.2018
15:38:51

Адрес вакансии село Слюдянка Бурятия? ?

Google

Sergey

24.10.2018
15:40:09

Там хорошо, Байкал, омуль и 300к. В России экономика процветает впереди всех стран ??

Nikita Blagodarnyy

24.10.2018
15:41:47

Не в тему беседы, но все же) вдруг мы сможем найти друг друга? #job В поисках Senior Java Developer с уверенным опытом разработки приложений, используя компоненты экосистемы Hadoop. Требования · Опыт разработки на Java не менее 5 лет; · Опыт работы с высоконагруженными ETL-решениями; · Опыт работы с HDFS (HDFS Federation), HBase, Hive, Spark, Phoenix, Nifi; · Опыт работы с SQL базами данных. Позиция открыта в крупнейшем центре разработки и интеграции на российском рынке (ТОП-5). Так как поиск конфиденциален не могу озвучить название компании. ?Что касается мотивационной части: -оформление по ТК, белая ЗП, социальный пакет; -вилка широкая, но хотелось бы уложиться конечно до 300 000 gross/net; -обучение, возможность профессионального и карьерного роста. P.S Друзья! На вопросы, касаемые технологического стека, я не смогу Вам ответить (как бы не хотелось), по всем другим - welcome! Благодарю за Ваше внимание!

ETL-решения на Java?

Адрес вакансии село Слюдянка Бурятия? ?

Это Иркутская область :)

Сергей

24.10.2018
15:43:17

Добрый вечер. Есть вопросик. Какого лешего при старте спарк джоба с использованием HiveContext я получаю sqlexception: Failed to create database '/var/lib/hive/metastore/metastore_db когда hive настроен на postgre?

Alexander

24.10.2018
15:43:52

Запустил.. Неа.. Ошибку не описывает, что интересно

Используемый интерпретатор (spark, livy)?

Sergey

24.10.2018
15:43:59

:)

В итоге: val dfNew = df.select(explode(split('lala,"; ") .alias("lala")))

Alexander

24.10.2018
15:45:11

Не в тему беседы, но все же) вдруг мы сможем найти друг друга? #job В поисках Senior Java Developer с уверенным опытом разработки приложений, используя компоненты экосистемы Hadoop. Требования · Опыт разработки на Java не менее 5 лет; · Опыт работы с высоконагруженными ETL-решениями; · Опыт работы с HDFS (HDFS Federation), HBase, Hive, Spark, Phoenix, Nifi; · Опыт работы с SQL базами данных. Позиция открыта в крупнейшем центре разработки и интеграции на российском рынке (ТОП-5). Так как поиск конфиденциален не могу озвучить название компании. ?Что касается мотивационной части: -оформление по ТК, белая ЗП, социальный пакет; -вилка широкая, но хотелось бы уложиться конечно до 300 000 gross/net; -обучение, возможность профессионального и карьерного роста. P.S Друзья! На вопросы, касаемые технологического стека, я не смогу Вам ответить (как бы не хотелось), по всем другим - welcome! Благодарю за Ваше внимание!

ФОРС? )

Sergey

24.10.2018
15:45:13

Это Иркутская область :)

По моему Бурятия так как ближе у правому краю Байкала

Используемый интерпретатор (spark, livy)?

Там ..выделены все, а так я понимаю что это SparkSql

Mikhail

24.10.2018
15:47:14

Добрый вечер. Есть вопросик. Какого лешего при старте спарк джоба с использованием HiveContext я получаю sqlexception: Failed to create database '/var/lib/hive/metastore/metastore_db когда hive настроен на postgre?

покажите hive-site.xml, выглядит так что postgresql там не указан

Nikita Blagodarnyy

24.10.2018
15:48:15

ФОРС? )

А он что, ТОП-5? Давно?

Alexander

24.10.2018
15:49:01

Он так считает)

Sergey

24.10.2018
15:49:18

Это Иркутская область :)

Посмотрел по карте, да Иркутская .. Но всё рядом ?

:)

Андрей, вот это прописал и так же не хочет. val dfNew = df.select(explode(split('lala,"; ") .alias("lala")))

Nikita Blagodarnyy

24.10.2018
15:51:57

Посмотрел по карте, да Иркутская .. Но всё рядом ?

Там вокзал красивый.

Sergey

24.10.2018
15:52:26

А я там был в 2003 последний раз проездом

Меня когда первый раз на станции вышел т5тка надула ? Сказала, что омуль, потом соседи по купе оььяснили что мне селёлку впарили ?

Andrey

24.10.2018
15:54:04

В итоге: val dfNew = df.select(explode(split('lala,"; ") .alias("lala")))

import org.apache.spark.sql.functions._ val dfNew = df.select(explode(split('lala,"; ")).alias("lala"))

Sergey

24.10.2018
15:54:57

ПоменЛся с ними на омуль и обаллел. Офигитеоьно вкусный копчёный омуль, просто сказка ??

Прошу прошение за ошибки, с телефона строчу

Google

Sergey

24.10.2018
15:57:49

import org.apache.spark.sql.functions._ val dfNew = df.select(explode(split('lala,"; ")).alias("lala"))

Неа.. И import не помог

Andrey

24.10.2018
15:58:45

Неа.. И import не помог

а у ты поменял df и lala на то, что тебе надо?

Sergey

24.10.2018
16:03:03

а у ты поменял df и lala на то, что тебе надо?

Я 'time прописал и не то?

Просто не знаю, что указать и в чём выборка лежит

а у ты поменял df и lala на то, что тебе надо?

Фишка то в том, что это идёт на вывод stdout И как его перехватить тут и направить на дальнейшую обработку?

Ни к какой переменной то что внутри z.show не привязано получается

Andrey

24.10.2018
16:11:53

z.show это вывод, если надо сохранить, то делать val newDf = и т.д. и уже окончательный результат вызывай для отображения в z.show

Sergey

24.10.2018
16:13:21

z.show это вывод, если надо сохранить, то делать val newDf = и т.д. и уже окончательный результат вызывай для отображения в z.show

Так вот в ч5м проблема, я чем заменб z.show?

z.select?

Всё что я не писал в место z.select zeppelin обругал

тут что вы написали уверен работает, вот только данные как направить на ваши коды? ?

а у ты поменял df и lala на то, что тебе надо?

Утро доброе. А что туда можно подставить?

Точнее что нужно, что бы заработало ?

Pavel

25.10.2018
09:12:11

Йоу, ребят, а кто-то структурным стриммингом из rdbms читал? В идеале было бы круто ещё интегрировать источник с триггерами на insert. Есть опыт?

Renarde

25.10.2018
09:45:02

Йоу, ребят, а кто-то структурным стриммингом из rdbms читал? В идеале было бы круто ещё интегрировать источник с триггерами на insert. Есть опыт?

kafka-confluent имеет несколько решений для разных БД

но тут все зависит от того, откуда читаешь - если это Oracle/Postgres - то там можно читать из потока апдейтов БД

Вот для Postgres - https://www.confluent.io/connector/debezium-postgresql-cdc-connector/ А для Oracle это будет GoldenGate за чемодан денег)

Daniel

25.10.2018
09:49:43

Вот для Postgres - https://www.confluent.io/connector/debezium-postgresql-cdc-connector/ А для Oracle это будет GoldenGate за чемодан денег)

там все очень не очень месяц назад баги с утечками висели все еще

Sergey

25.10.2018
10:08:32

у кого-то реально потоковая репликация с Оракла в Хадуп/кафку работает? голден гейт? ;)

Daniel

25.10.2018
10:09:31

у кого-то реально потоковая репликация с Оракла в Хадуп/кафку работает? голден гейт? ;)

коллеги такое пробовали, жалоб не слышал, но и не распрашивал

Google

Pavel

25.10.2018
10:11:33

Да не, мне спарком надо

Sergey

25.10.2018
10:11:40

коллеги такое пробовали, жалоб не слышал, но и не распрашивал

ГГ? в кафку, потом в hbase?

Daniel

25.10.2018
10:12:12

в кафку, а куда из кафки это уже пофиг (в частности это не хбейз был)

_

25.10.2018
10:37:15

Йоу, ребят, а кто-то структурным стриммингом из rdbms читал? В идеале было бы круто ещё интегрировать источник с триггерами на insert. Есть опыт?

можно в poll режиме - kafka connector jdbc-source через sql интеграция будет

Alexey

25.10.2018
11:36:41

коллеги, а подскажите, что сейчас модно использовать в качестве key-value storage. чтобы нормально работало на объёмах в пару миллиардов ключей, и позволяло делать пару сотен запросов в секунду продолжительное время. и желательно не стоило бешеных денег.

Daniel

25.10.2018
11:37:35

коллеги, а подскажите, что сейчас модно использовать в качестве key-value storage. чтобы нормально работало на объёмах в пару миллиардов ключей, и позволяло делать пару сотен запросов в секунду продолжительное время. и желательно не стоило бешеных денег.

Любое KV : price < beshenye dengi

Alexey

25.10.2018
11:42:13

ну, амазоновское DynamoDB например обойдётся в нехилую копеечку монгу придётся загонять в кластер, одной ноды будет явно мало а чё ещё есть, чтобы взять и юзать?

KrivdaAllStars

25.10.2018
11:42:33

Кассандру глянь

Daniel

25.10.2018
11:42:35

Aerospike

KrivdaAllStars

25.10.2018
11:42:39