
sherzod
24.12.2017
18:03:49
ну тесты же)) просто)
а так норм, почему нет, сами данные вынести в volume

Grigory
24.12.2017
18:03:49
а где косяк будет? сеть мапишь на тачку, датаноды и неймнода фолдеры мапишь на фс внешнюю (если волюм коробит)

Andrey
24.12.2017
18:21:53

Nick
24.12.2017
18:33:52

Google

sherzod
24.12.2017
18:34:36
подкатили задачку по настройке security. вот и решили заодно на новой версии это опробовать

Nick
24.12.2017
18:34:55
оу
а там завезли сесурити?

sherzod
24.12.2017
18:35:21
её давно завезли вроде)) с 2.7 более менее все было
судя по докам

Nick
24.12.2017
18:36:43
а данные энкриптит?

Andrey
24.12.2017
18:37:10
сесурити в 2.7 же вроде ок
шифрование в 2.7 тоже есть емнип

sherzod
24.12.2017
18:37:34
да

Andrey
24.12.2017
18:38:11
у нас все кроме шифрования включено на бою, в целом все хорошо

Nick
24.12.2017
18:38:32
а чем шифрует?
охереть как много мимо меня прошло)

sherzod
24.12.2017
18:39:07

Google

Andrey
24.12.2017
18:40:42

sherzod
24.12.2017
18:41:06
круто. а хадупчик ванильный?

Andrey
24.12.2017
18:41:16
а чем шифрует?
вот это я не подскажу, тк не крутил - но врядли что то особенное
обычное блочное шифрование наверное

sherzod
24.12.2017
18:42:12
ranger норм работает?

Andrey
24.12.2017
18:42:55
ну нам точнее больше нравится

sherzod
24.12.2017
18:43:37
о круто. вот собираюсь как раз его поднимать. только на ваниле
то гляжу, даже бинарей нет, мавеном собирать, думал сырой ещё

Andrey
24.12.2017
18:46:08
ну из того, с чем придется повоевать - это конфиги кербероса
по началу то тикеты не обновляются, то еще чего :)

sherzod
24.12.2017
18:47:34
а он в хортоне сразу идёт, или все равно надо руками собирать и ставить?

Andrey
24.12.2017
18:47:58

Nick
24.12.2017
18:48:30
Блин, у дцосном универсе версия старая

sherzod
24.12.2017
18:50:04

Nick
24.12.2017
19:06:36
А самому пр делать лень

Eugene
25.12.2017
08:07:08
Всем привет! Компания Propzmedia ищет опытного Spark Data Engineer.
Мы создаем продукт автоматизации маркетинга в ритейле. Проект интересный и разноплановый, используем современные практики создания софта, постоянно работаем над качеством. Стек технологий: Apache Spark, Scala, Apache Zeppelin, Amazon EMR, Docker.
Работа полностью удаленная, в интернациональной команде, язык общения с зарубежными коллегами - английский.
Я (выступая в роли CTO) радею за максимально человеческое отношение к сотрудникам: спокойный рабочий график, оплачиваемый отпуск и национальные праздники, другая помощь в работе.
Для хорошего специалиста мы с радостью сделаем интересное предложение материальной компенсации. Конечно, обсуждение конкретных условий ведется индивидуально, по результатам собеседования.
Буду рад ответить на вопросы! Описание вакансии: https://goo.gl/eWh7Gb
#работа #удаленка #job #remote #remoteOk


Sergey
25.12.2017
09:14:06
Всем привет. Может ли кто-то подсказать вменяемую тулзу для дата-профайлинга? Входные данные - json-файлы с достаточно замороченной иерархической структурой.

Alexey
25.12.2017
09:18:24
jq ?

Google

Sergey
25.12.2017
09:30:57
Это немного не то, что хотелось)

Grigory
25.12.2017
09:31:10
а что хочется то?)
из описания jq отлично подходит

Евгений
25.12.2017
09:34:01
И по скорости работы отлично себя показывает

Sergey
25.12.2017
09:37:01
А, дело в том, что этим должны аналитики пользоваться

Дмитрий
25.12.2017
09:38:02

Daniel
25.12.2017
09:40:28
drill

Andrey
25.12.2017
09:46:05
sqlContext.read.json

Sergey
25.12.2017
10:08:58
На входе куча файлов с частично известной структурой. От файла к файлу набор полей отличается. Необходимо выяснить что же там содержится и некоторый анализ из разряда: referentail integrity, unique key check, pattern finder, standartization, value distribution и т.д. Если известна структура того, что падает на вход, то всё это реализуется за 2 шага - привести к нужному формату и скормить на вход Ataccama/Talend и им подобным. Хочется дать инструмент аналитикам, с помощью которого они смогут самостоятельно (без разработчиков) исследовать такие данные.

sherzod
25.12.2017
16:02:11
Нубовской такой девопс-вопрос, просветите.
В клаудере, надо просто ставить дистр парселсы и все поднимается. Как все это устроено в хортоне? Или ткните на точку входа, пожалуйста. Имею в виду с чего начать разворачивать кластер.

Dmitry
25.12.2017
16:09:02
Ambari ж
https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.6.3/index.html

Andrey
25.12.2017
16:11:10
амбари разверни на виртуалке и дальше сам все поймешь)

sherzod
25.12.2017
16:12:41
ага, спасибо, так и сделаю
еще один упреждающий вопросец))
его же достаточно на одной ноде поставить? дальше уже из него?

Andrey
25.12.2017
16:15:19
его на отдельную виртуалку можно
и даже нужно)

sherzod
25.12.2017
16:16:05
понял, спасибо)

Dmitry
25.12.2017
16:49:38
присоединясь к коллеге
кто как диски делит

Google

Dmitry
25.12.2017
16:49:51
master/slave

Ilia
26.12.2017
11:33:38
Всем привет, сейчас над такой задачей работаю: вытаскиваю парсинг файлов в scala модуль из питончика чтобы работало побыстрее. Столкнулся с такой проблемой, что изнутри скалы не могу подключиться к уже существующему контексту pyspark, пишет ошибку ERROR XSDB6: Another instance of Derby may have already booted the database. Ок, но как создать датафрейм внутри скалы в таком случае? Сейчас делаю так:
spark = SparkSession.builder.getOrCreate()
// тут получаю RDD[Row]
val rows = spark.sparkContext.makeRDD(lines.map(buildRow))
// пытаюсь использовать этот RDD для создания датафрейма
val df = spark.createDataFrame(rows, <StructType(...)>)

Grigory
26.12.2017
11:34:49
кильни все процессы не нужные) где-то ты занял просто все

Ilia
26.12.2017
11:34:53
Запускаю потом это всё через pyspark —jars my.scala.module.jar ну и обращаюсь через spark._jvm.
Хм, может быть конечно и так

Grigory
26.12.2017
11:36:56
а если не в случайных процессах дело то гдето на стыке питона и жвм ?

Ilia
26.12.2017
11:44:52
Ломается причём на моменте createDataFrame, что-то я там упускаю

Andrey
26.12.2017
12:12:12
а в чем идея запуска джарника писпарком?
попробуй для начала spark.emptyDataFrame.show
>spark = SparkSession.builder.getOrCreate()
ты при копировании ошибся или у тебя spark mutable ?

Ilia
26.12.2017
12:36:35
а в чем идея запуска джарника писпарком?
Основной код на питоне, джарник нужен чтобы избежать избыточной сериализации при парсинге файлов - т.е. базовая операция получения датафрейма из кучи файлов переносится в скалу

Andrey
26.12.2017
12:38:54
а в коде ты один раз контекст спарка создаешь?
мб в этом как раз причина?

Ilia
26.12.2017
12:39:44
https://spark.apache.org/docs/2.2.0/sql-programming-guide.html#starting-point-sparksession Я его вообще не создаю, просто получаю сессию как в доке

Andrey
26.12.2017
12:40:25
там val spark = ..

Ilia
26.12.2017
12:40:27
Внутри pyspark как я понимаю делается то же самое
А, сорри, у меня тоже val
Я не сразу понял о чём речь

Andrey
26.12.2017
12:41:00
?

Google

Andrey
26.12.2017
12:41:22
попробуй емптидатафрейм

Ilia
26.12.2017
12:41:31
Пробую
Всё так же с ептидатафрейм
Может хайву как-то указать можно использовать уже существующий metastore?..

Andrey
26.12.2017
12:55:59
а ты где то включаешь поддержку хайва в коде?

Ilia
26.12.2017
12:57:05
Не включаю, но metastore создаётся всё равно

Andrey
26.12.2017
12:57:13
странно

Ilia
26.12.2017
12:57:21
У меня Spark 2.2.0, может имеет значение

Andrey
26.12.2017
12:58:00
мб во вторых версиях что то поменяли, но в 1.6 sqlContext прекрасно живет без хайва

Ilia
26.12.2017
12:58:15
Мне он в принципе и не нужен, но похоже что внутри где-то используется

Andrey
26.12.2017
13:01:36
вообще, если ты не используешь .enableHiveSupport, он не должен создаваться
в 1.6 сам контекст создается как new .. HiveContext(sc)
а где ты это все запускаешь?