@hadoopusers

Страница 58 из 182
sherzod
24.12.2017
18:03:49
ну тесты же)) просто) а так норм, почему нет, сами данные вынести в volume

Grigory
24.12.2017
18:03:49
а где косяк будет? сеть мапишь на тачку, датаноды и неймнода фолдеры мапишь на фс внешнюю (если волюм коробит)

Andrey
24.12.2017
18:21:53
а в hdfs много изменений ?
тиеринг вроде, ребалансировка данных между дисками внутри одной ноды

Nick
24.12.2017
18:33:52
ну тесты же)) просто) а так норм, почему нет, сами данные вынести в volume
тесты чего? ты там наверное на ридврайте ничего так времени теряешь)

Google
sherzod
24.12.2017
18:34:36
подкатили задачку по настройке security. вот и решили заодно на новой версии это опробовать

Nick
24.12.2017
18:34:55
оу

а там завезли сесурити?

sherzod
24.12.2017
18:35:21
её давно завезли вроде)) с 2.7 более менее все было

судя по докам

Nick
24.12.2017
18:36:43
а данные энкриптит?

Andrey
24.12.2017
18:37:10
сесурити в 2.7 же вроде ок

шифрование в 2.7 тоже есть емнип

sherzod
24.12.2017
18:37:34
да

Andrey
24.12.2017
18:38:11
у нас все кроме шифрования включено на бою, в целом все хорошо

Nick
24.12.2017
18:38:32
а чем шифрует?

охереть как много мимо меня прошло)

Google
sherzod
24.12.2017
18:41:06
круто. а хадупчик ванильный?

Andrey
24.12.2017
18:41:16
а чем шифрует?
вот это я не подскажу, тк не крутил - но врядли что то особенное

обычное блочное шифрование наверное

sherzod
24.12.2017
18:42:12
ranger норм работает?

Andrey
24.12.2017
18:42:55
ranger норм работает?
да, причем удобнее сделан, чем сентри в клаудере

ну нам точнее больше нравится

sherzod
24.12.2017
18:43:37
о круто. вот собираюсь как раз его поднимать. только на ваниле

то гляжу, даже бинарей нет, мавеном собирать, думал сырой ещё

Andrey
24.12.2017
18:46:08
ну из того, с чем придется повоевать - это конфиги кербероса

по началу то тикеты не обновляются, то еще чего :)

sherzod
24.12.2017
18:47:34
а он в хортоне сразу идёт, или все равно надо руками собирать и ставить?

Andrey
24.12.2017
18:47:58
Nick
24.12.2017
18:48:30
Блин, у дцосном универсе версия старая

Nick
24.12.2017
19:06:36
А самому пр делать лень

Eugene
25.12.2017
08:07:08
Всем привет! Компания Propzmedia ищет опытного Spark Data Engineer. Мы создаем продукт автоматизации маркетинга в ритейле. Проект интересный и разноплановый, используем современные практики создания софта, постоянно работаем над качеством. Стек технологий: Apache Spark, Scala, Apache Zeppelin, Amazon EMR, Docker. Работа полностью удаленная, в интернациональной команде, язык общения с зарубежными коллегами - английский. Я (выступая в роли CTO) радею за максимально человеческое отношение к сотрудникам: спокойный рабочий график, оплачиваемый отпуск и национальные праздники, другая помощь в работе. Для хорошего специалиста мы с радостью сделаем интересное предложение материальной компенсации. Конечно, обсуждение конкретных условий ведется индивидуально, по результатам собеседования. Буду рад ответить на вопросы! Описание вакансии: https://goo.gl/eWh7Gb #работа #удаленка #job #remote #remoteOk

Sergey
25.12.2017
09:14:06
Всем привет. Может ли кто-то подсказать вменяемую тулзу для дата-профайлинга? Входные данные - json-файлы с достаточно замороченной иерархической структурой.

Alexey
25.12.2017
09:18:24
jq ?

Google
Sergey
25.12.2017
09:30:57
Это немного не то, что хотелось)

Grigory
25.12.2017
09:31:10
а что хочется то?)

из описания jq отлично подходит

Евгений
25.12.2017
09:34:01
И по скорости работы отлично себя показывает

Sergey
25.12.2017
09:37:01
А, дело в том, что этим должны аналитики пользоваться

Daniel
25.12.2017
09:40:28
drill

Andrey
25.12.2017
09:46:05
sqlContext.read.json

Sergey
25.12.2017
10:08:58
На входе куча файлов с частично известной структурой. От файла к файлу набор полей отличается. Необходимо выяснить что же там содержится и некоторый анализ из разряда: referentail integrity, unique key check, pattern finder, standartization, value distribution и т.д. Если известна структура того, что падает на вход, то всё это реализуется за 2 шага - привести к нужному формату и скормить на вход Ataccama/Talend и им подобным. Хочется дать инструмент аналитикам, с помощью которого они смогут самостоятельно (без разработчиков) исследовать такие данные.

sherzod
25.12.2017
16:02:11
Нубовской такой девопс-вопрос, просветите. В клаудере, надо просто ставить дистр парселсы и все поднимается. Как все это устроено в хортоне? Или ткните на точку входа, пожалуйста. Имею в виду с чего начать разворачивать кластер.

Dmitry
25.12.2017
16:09:02
Ambari ж

https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.6.3/index.html

Andrey
25.12.2017
16:11:10
амбари разверни на виртуалке и дальше сам все поймешь)

sherzod
25.12.2017
16:12:41
ага, спасибо, так и сделаю

еще один упреждающий вопросец)) его же достаточно на одной ноде поставить? дальше уже из него?

Andrey
25.12.2017
16:15:19
его на отдельную виртуалку можно

и даже нужно)

sherzod
25.12.2017
16:16:05
понял, спасибо)

Dmitry
25.12.2017
16:49:38
присоединясь к коллеге

кто как диски делит

Google
Dmitry
25.12.2017
16:49:51
master/slave

Ilia
26.12.2017
11:33:38
Всем привет, сейчас над такой задачей работаю: вытаскиваю парсинг файлов в scala модуль из питончика чтобы работало побыстрее. Столкнулся с такой проблемой, что изнутри скалы не могу подключиться к уже существующему контексту pyspark, пишет ошибку ERROR XSDB6: Another instance of Derby may have already booted the database. Ок, но как создать датафрейм внутри скалы в таком случае? Сейчас делаю так: spark = SparkSession.builder.getOrCreate() // тут получаю RDD[Row] val rows = spark.sparkContext.makeRDD(lines.map(buildRow)) // пытаюсь использовать этот RDD для создания датафрейма val df = spark.createDataFrame(rows, <StructType(...)>)

Grigory
26.12.2017
11:34:49
кильни все процессы не нужные) где-то ты занял просто все

Ilia
26.12.2017
11:34:53
Запускаю потом это всё через pyspark —jars my.scala.module.jar ну и обращаюсь через spark._jvm.

Хм, может быть конечно и так

Grigory
26.12.2017
11:36:56
а если не в случайных процессах дело то гдето на стыке питона и жвм ?

Ilia
26.12.2017
11:44:52
Ломается причём на моменте createDataFrame, что-то я там упускаю

Andrey
26.12.2017
12:12:12
а в чем идея запуска джарника писпарком?

попробуй для начала spark.emptyDataFrame.show

>spark = SparkSession.builder.getOrCreate() ты при копировании ошибся или у тебя spark mutable ?

Ilia
26.12.2017
12:36:35
а в чем идея запуска джарника писпарком?
Основной код на питоне, джарник нужен чтобы избежать избыточной сериализации при парсинге файлов - т.е. базовая операция получения датафрейма из кучи файлов переносится в скалу

Andrey
26.12.2017
12:38:54
а в коде ты один раз контекст спарка создаешь?

мб в этом как раз причина?

Ilia
26.12.2017
12:39:44
https://spark.apache.org/docs/2.2.0/sql-programming-guide.html#starting-point-sparksession Я его вообще не создаю, просто получаю сессию как в доке

Andrey
26.12.2017
12:40:25
там val spark = ..

Ilia
26.12.2017
12:40:27
Внутри pyspark как я понимаю делается то же самое

А, сорри, у меня тоже val

Я не сразу понял о чём речь

Andrey
26.12.2017
12:41:00
?

Google
Andrey
26.12.2017
12:41:22
попробуй емптидатафрейм

Ilia
26.12.2017
12:41:31
Пробую

Всё так же с ептидатафрейм

Может хайву как-то указать можно использовать уже существующий metastore?..

Andrey
26.12.2017
12:55:59
а ты где то включаешь поддержку хайва в коде?

Ilia
26.12.2017
12:57:05
Не включаю, но metastore создаётся всё равно

Andrey
26.12.2017
12:57:13
странно

Ilia
26.12.2017
12:57:21
У меня Spark 2.2.0, может имеет значение

Andrey
26.12.2017
12:58:00
мб во вторых версиях что то поменяли, но в 1.6 sqlContext прекрасно живет без хайва

Ilia
26.12.2017
12:58:15
Мне он в принципе и не нужен, но похоже что внутри где-то используется

Andrey
26.12.2017
13:01:36
вообще, если ты не используешь .enableHiveSupport, он не должен создаваться

в 1.6 сам контекст создается как new .. HiveContext(sc)

а где ты это все запускаешь?

Страница 58 из 182