@hadoopusers

Страница 176 из 182
Nikita Blagodarnyy
24.10.2018
14:27:21
От пайплайна к прогнозу и обратно, кажется, так доклад назывался.

Alexander
24.10.2018
14:27:45
В целом, PIG зависит от engine. Например, Tez vs MR2

Ruslan
24.10.2018
14:28:08
Вот меня и смущает свинья на мр

Sergey
24.10.2018
14:37:42
как-то так: val udf_split = { (content: String) => content.split(";")} df.withColumn("tmp_column", udf_split('content)).select('column_1, 'column_2, explode('tmp_column))
Андрей, не понял, что с этим делать, прописал ниже и ну перестал что либо выдавать, где кнопка и статус там Error

Google
Andrey
24.10.2018
14:41:55
Андрей, не понял, что с этим делать, прописал ниже и ну перестал что либо выдавать, где кнопка и статус там Error
предлагаю все таки не идти путем script kids, а почитать хотя бы базовые вещи про спарк, про udf: https://jaceklaskowski.gitbooks.io/mastering-spark-sql/spark-sql-udfs.html можно не использовать udf, а как предлагали использовать встроенные функции split

Sergey
24.10.2018
14:49:34
Udf я так понял со столбцами раьотает, тоесть мы разбиваем содержимое еа разные столбцы с ращлеоитеоем "; "?

Без названий колонок, просто какое-то количество?

Andrey Smirnov: как-то так: val udf_split = { (content: String) => это каждая строка выдачи перебирается?

Есть что-то на прочтение где хорошо пишут о SparkSql?

Обзорно с обьяснением основных принципов построения языка

Andrey
24.10.2018
14:56:42
мы преобразуем текст в колонке в массив строк, т.е. в колонке уже не текст, а массив строк, потом explode расщипляет этот массив на строки в датафрайме, где одна строка в массиве будет одной строкой в датафрейме, плюс ты можешь указать колонки которые будут

Sergey
24.10.2018
14:57:38
можно так еще df.select(split('lala, ";").alias("lala"))
Это не пошло, так как не понятно, как в переменную вывод обработки отправить

Andrey
24.10.2018
14:57:45
Обзорно с обьяснением основных принципов построения языка
я уже привел тебе ссылку https://jaceklaskowski.gitbooks.io/mastering-spark-sql/spark-sql.html

Sergey
24.10.2018
14:59:49
я уже привел тебе ссылку https://jaceklaskowski.gitbooks.io/mastering-spark-sql/spark-sql.html
Ок, я просто udf только увидел, подумал, что о нём статья

в какую переменную?
Ну вот у нас вывод из z.show. Вот этот вывод с нужной частью лога и надо "прошерстить" на разделитель ";"

Google
Sergey
24.10.2018
15:01:26
Логично вывод присвоить сассиву

А как?

Andrey
24.10.2018
15:02:17
z.show это просто вывод в ноутбук

Sergey
24.10.2018
15:08:45
Ага. val udf_split = { (content: String) => content.split(";")} Т.е. тут мы что уже обработано попадает сюда и content: string какая-то глобальная функция в интерпретатор, которая выводит строки (каждую) и далее отправляет методом => в функцию content.split и там расщепляется на строки в колонки и отправляется в массив UDF_SPLIT ? ?

z.show это просто вывод в ноутбук
DF это датафрэйм, я так понимаю область памяти просто куда мы построчно текст вгоняем

Alexander
24.10.2018
15:15:12
DF это датафрэйм, я так понимаю область памяти просто куда мы построчно текст вгоняем
Выше предлагали почитать документацию, заодно про lazy evaluation можно посмотреть.

Sergey
24.10.2018
15:15:50
Я только не понимаю ф. select и почему там две колонки прописаны

Выше предлагали почитать документацию, заодно про lazy evaluation можно посмотреть.
Да, я завтра с неё своё утро начну ? Просто тут выполнено всё получается но почему млять еррор выдала

И ругачку не пишет

Sergey
24.10.2018
15:27:55
val dfNew = df.select(...)
А потом axplode?

Andrey
24.10.2018
15:28:44
select(explode(split(....

Nikita Blagodarnyy
24.10.2018
15:30:11
select(explode(split(....
Может, сначала сплит, потом эксплод?

Andrey
24.10.2018
15:30:38
а я как написал?:)

KrivdaAllStars
24.10.2018
15:31:11
аааааааааааааааааааа

Nikita Blagodarnyy
24.10.2018
15:33:13
а я как написал?:)
Блин, скобочки же, сорян, с точками перепутал.

Andrey
24.10.2018
15:33:26
:)

Sergey
24.10.2018
15:35:54
Запустил.. Неа.. Ошибку не описывает, что интересно

Nadi
24.10.2018
15:36:02
Не в тему беседы, но все же) вдруг мы сможем найти друг друга? #job В поисках Senior Java Developer с уверенным опытом разработки приложений, используя компоненты экосистемы Hadoop. Требования · Опыт разработки на Java не менее 5 лет; · Опыт работы с высоконагруженными ETL-решениями; · Опыт работы с HDFS (HDFS Federation), HBase, Hive, Spark, Phoenix, Nifi; · Опыт работы с SQL базами данных. Позиция открыта в крупнейшем центре разработки и интеграции на российском рынке (ТОП-5). Так как поиск конфиденциален не могу озвучить название компании. ?Что касается мотивационной части: -оформление по ТК, белая ЗП, социальный пакет; -вилка широкая, но хотелось бы уложиться конечно до 300 000 gross/net; -обучение, возможность профессионального и карьерного роста. P.S Друзья! На вопросы, касаемые технологического стека, я не смогу Вам ответить (как бы не хотелось), по всем другим - welcome! Благодарю за Ваше внимание!

Sergey
24.10.2018
15:38:51
Адрес вакансии село Слюдянка Бурятия? ?

Google
Sergey
24.10.2018
15:40:09
Там хорошо, Байкал, омуль и 300к. В России экономика процветает впереди всех стран ??

Nikita Blagodarnyy
24.10.2018
15:41:47
Не в тему беседы, но все же) вдруг мы сможем найти друг друга? #job В поисках Senior Java Developer с уверенным опытом разработки приложений, используя компоненты экосистемы Hadoop. Требования · Опыт разработки на Java не менее 5 лет; · Опыт работы с высоконагруженными ETL-решениями; · Опыт работы с HDFS (HDFS Federation), HBase, Hive, Spark, Phoenix, Nifi; · Опыт работы с SQL базами данных. Позиция открыта в крупнейшем центре разработки и интеграции на российском рынке (ТОП-5). Так как поиск конфиденциален не могу озвучить название компании. ?Что касается мотивационной части: -оформление по ТК, белая ЗП, социальный пакет; -вилка широкая, но хотелось бы уложиться конечно до 300 000 gross/net; -обучение, возможность профессионального и карьерного роста. P.S Друзья! На вопросы, касаемые технологического стека, я не смогу Вам ответить (как бы не хотелось), по всем другим - welcome! Благодарю за Ваше внимание!
ETL-решения на Java?

Сергей
24.10.2018
15:43:17
Добрый вечер. Есть вопросик. Какого лешего при старте спарк джоба с использованием HiveContext я получаю sqlexception: Failed to create database '/var/lib/hive/metastore/metastore_db когда hive настроен на postgre?

Alexander
24.10.2018
15:43:52
Запустил.. Неа.. Ошибку не описывает, что интересно
Используемый интерпретатор (spark, livy)?

Sergey
24.10.2018
15:43:59
:)
В итоге: val dfNew = df.select(explode(split('lala,"; ") .alias("lala")))

Alexander
24.10.2018
15:45:11
Не в тему беседы, но все же) вдруг мы сможем найти друг друга? #job В поисках Senior Java Developer с уверенным опытом разработки приложений, используя компоненты экосистемы Hadoop. Требования · Опыт разработки на Java не менее 5 лет; · Опыт работы с высоконагруженными ETL-решениями; · Опыт работы с HDFS (HDFS Federation), HBase, Hive, Spark, Phoenix, Nifi; · Опыт работы с SQL базами данных. Позиция открыта в крупнейшем центре разработки и интеграции на российском рынке (ТОП-5). Так как поиск конфиденциален не могу озвучить название компании. ?Что касается мотивационной части: -оформление по ТК, белая ЗП, социальный пакет; -вилка широкая, но хотелось бы уложиться конечно до 300 000 gross/net; -обучение, возможность профессионального и карьерного роста. P.S Друзья! На вопросы, касаемые технологического стека, я не смогу Вам ответить (как бы не хотелось), по всем другим - welcome! Благодарю за Ваше внимание!
ФОРС? )

Sergey
24.10.2018
15:45:13
Это Иркутская область :)
По моему Бурятия так как ближе у правому краю Байкала

Используемый интерпретатор (spark, livy)?
Там ..выделены все, а так я понимаю что это SparkSql

Nikita Blagodarnyy
24.10.2018
15:48:15
ФОРС? )
А он что, ТОП-5? Давно?

Alexander
24.10.2018
15:49:01
Он так считает)

Sergey
24.10.2018
15:49:18
Это Иркутская область :)
Посмотрел по карте, да Иркутская .. Но всё рядом ?

:)
Андрей, вот это прописал и так же не хочет. val dfNew = df.select(explode(split('lala,"; ") .alias("lala")))

Nikita Blagodarnyy
24.10.2018
15:51:57
Sergey
24.10.2018
15:52:26
А я там был в 2003 последний раз проездом

Меня когда первый раз на станции вышел т5тка надула ? Сказала, что омуль, потом соседи по купе оььяснили что мне селёлку впарили ?

Andrey
24.10.2018
15:54:04
В итоге: val dfNew = df.select(explode(split('lala,"; ") .alias("lala")))
import org.apache.spark.sql.functions._ val dfNew = df.select(explode(split('lala,"; ")).alias("lala"))

Sergey
24.10.2018
15:54:57
ПоменЛся с ними на омуль и обаллел. Офигитеоьно вкусный копчёный омуль, просто сказка ??

Прошу прошение за ошибки, с телефона строчу

Google
Andrey
24.10.2018
15:58:45
Неа.. И import не помог
а у ты поменял df и lala на то, что тебе надо?

Sergey
24.10.2018
16:03:03
Просто не знаю, что указать и в чём выборка лежит

а у ты поменял df и lala на то, что тебе надо?
Фишка то в том, что это идёт на вывод stdout И как его перехватить тут и направить на дальнейшую обработку?

Ни к какой переменной то что внутри z.show не привязано получается

Andrey
24.10.2018
16:11:53
z.show это вывод, если надо сохранить, то делать val newDf = и т.д. и уже окончательный результат вызывай для отображения в z.show

Sergey
24.10.2018
16:13:21
z.select?

Всё что я не писал в место z.select zeppelin обругал

тут что вы написали уверен работает, вот только данные как направить на ваши коды? ?

а у ты поменял df и lala на то, что тебе надо?
Утро доброе. А что туда можно подставить?

Точнее что нужно, что бы заработало ?

Pavel
25.10.2018
09:12:11
Йоу, ребят, а кто-то структурным стриммингом из rdbms читал? В идеале было бы круто ещё интегрировать источник с триггерами на insert. Есть опыт?

Renarde
25.10.2018
09:45:02
но тут все зависит от того, откуда читаешь - если это Oracle/Postgres - то там можно читать из потока апдейтов БД

Вот для Postgres - https://www.confluent.io/connector/debezium-postgresql-cdc-connector/ А для Oracle это будет GoldenGate за чемодан денег)

Daniel
25.10.2018
09:49:43
Вот для Postgres - https://www.confluent.io/connector/debezium-postgresql-cdc-connector/ А для Oracle это будет GoldenGate за чемодан денег)
там все очень не очень месяц назад баги с утечками висели все еще

Sergey
25.10.2018
10:08:32
у кого-то реально потоковая репликация с Оракла в Хадуп/кафку работает? голден гейт? ;)

Daniel
25.10.2018
10:09:31
у кого-то реально потоковая репликация с Оракла в Хадуп/кафку работает? голден гейт? ;)
коллеги такое пробовали, жалоб не слышал, но и не распрашивал

Google
Pavel
25.10.2018
10:11:33
Да не, мне спарком надо

Daniel
25.10.2018
10:12:12
в кафку, а куда из кафки это уже пофиг (в частности это не хбейз был)

Alexey
25.10.2018
11:36:41
коллеги, а подскажите, что сейчас модно использовать в качестве key-value storage. чтобы нормально работало на объёмах в пару миллиардов ключей, и позволяло делать пару сотен запросов в секунду продолжительное время. и желательно не стоило бешеных денег.

Alexey
25.10.2018
11:42:13
ну, амазоновское DynamoDB например обойдётся в нехилую копеечку монгу придётся загонять в кластер, одной ноды будет явно мало а чё ещё есть, чтобы взять и юзать?

KrivdaAllStars
25.10.2018
11:42:33
Кассандру глянь

Daniel
25.10.2018
11:42:35
Aerospike

KrivdaAllStars
25.10.2018
11:42:39


Daniel
25.10.2018
11:42:55
Don't touch blind oracle

Daniel
25.10.2018
11:46:25
Да там все в описании небольшое, поэтому ответ любое недорогое.

Alexey
25.10.2018
11:47:26
ну ок, тогда вопрос какое удобнее всего будет завести в авсе чтобы без геморроя

а то динамо реально стоит конских денег

Sergey
25.10.2018
11:47:58
одна госпожа?

Страница 176 из 182