@hadoopusers

« Назад

Страница 58 из 182

Далее »

sherzod

24.12.2017
18:03:49

ну тесты же)) просто) а так норм, почему нет, сами данные вынести в volume

Grigory

24.12.2017
18:03:49

а где косяк будет? сеть мапишь на тачку, датаноды и неймнода фолдеры мапишь на фс внешнюю (если волюм коробит)

Andrey

24.12.2017
18:21:53

а в hdfs много изменений ?

тиеринг вроде, ребалансировка данных между дисками внутри одной ноды

Nick

24.12.2017
18:33:52

ну тесты же)) просто) а так норм, почему нет, сами данные вынести в volume

тесты чего? ты там наверное на ридврайте ничего так времени теряешь)

Google

sherzod

24.12.2017
18:34:36

подкатили задачку по настройке security. вот и решили заодно на новой версии это опробовать

Nick

24.12.2017
18:34:55

оу

а там завезли сесурити?

sherzod

24.12.2017
18:35:21

её давно завезли вроде)) с 2.7 более менее все было

судя по докам

Nick

24.12.2017
18:36:43

а данные энкриптит?

Andrey

24.12.2017
18:37:10

сесурити в 2.7 же вроде ок

шифрование в 2.7 тоже есть емнип

sherzod

24.12.2017
18:37:34

да

Andrey

24.12.2017
18:38:11

у нас все кроме шифрования включено на бою, в целом все хорошо

Nick

24.12.2017
18:38:32

а чем шифрует?

охереть как много мимо меня прошло)

sherzod

24.12.2017
18:39:07

у нас все кроме шифрования включено на бою, в целом все хорошо

sasl между нодами тоже есть?

Google

Andrey

24.12.2017
18:40:42

sasl между нодами тоже есть?

да

sherzod

24.12.2017
18:41:06

круто. а хадупчик ванильный?

Andrey

24.12.2017
18:41:16

а чем шифрует?

вот это я не подскажу, тк не крутил - но врядли что то особенное

обычное блочное шифрование наверное

круто. а хадупчик ванильный?

не, хортон)

sherzod

24.12.2017
18:42:12

ranger норм работает?

Andrey

24.12.2017
18:42:55

ranger норм работает?

да, причем удобнее сделан, чем сентри в клаудере

ну нам точнее больше нравится

sherzod

24.12.2017
18:43:37

о круто. вот собираюсь как раз его поднимать. только на ваниле

то гляжу, даже бинарей нет, мавеном собирать, думал сырой ещё

Andrey

24.12.2017
18:46:08

ну из того, с чем придется повоевать - это конфиги кербероса

по началу то тикеты не обновляются, то еще чего :)

sherzod

24.12.2017
18:47:34

а он в хортоне сразу идёт, или все равно надо руками собирать и ставить?

Andrey

24.12.2017
18:47:58

а он в хортоне сразу идёт, или все равно надо руками собирать и ставить?

идет сразу, нужно ток включить и настроить

Nick

24.12.2017
18:48:30

Блин, у дцосном универсе версия старая

sherzod

24.12.2017
18:50:04

идет сразу, нужно ток включить и настроить

круто

Nick

24.12.2017
19:06:36

А самому пр делать лень

Eugene

25.12.2017
08:07:08

Всем привет! Компания Propzmedia ищет опытного Spark Data Engineer. Мы создаем продукт автоматизации маркетинга в ритейле. Проект интересный и разноплановый, используем современные практики создания софта, постоянно работаем над качеством. Стек технологий: Apache Spark, Scala, Apache Zeppelin, Amazon EMR, Docker. Работа полностью удаленная, в интернациональной команде, язык общения с зарубежными коллегами - английский. Я (выступая в роли CTO) радею за максимально человеческое отношение к сотрудникам: спокойный рабочий график, оплачиваемый отпуск и национальные праздники, другая помощь в работе. Для хорошего специалиста мы с радостью сделаем интересное предложение материальной компенсации. Конечно, обсуждение конкретных условий ведется индивидуально, по результатам собеседования. Буду рад ответить на вопросы! Описание вакансии: https://goo.gl/eWh7Gb #работа #удаленка #job #remote #remoteOk

Sergey

25.12.2017
09:14:06

Всем привет. Может ли кто-то подсказать вменяемую тулзу для дата-профайлинга? Входные данные - json-файлы с достаточно замороченной иерархической структурой.

Alexey

25.12.2017
09:18:24

jq ?

Google

Sergey

25.12.2017
09:30:57

Это немного не то, что хотелось)

Grigory

25.12.2017
09:31:10

а что хочется то?)

из описания jq отлично подходит

Евгений

25.12.2017
09:34:01

И по скорости работы отлично себя показывает

Sergey

25.12.2017
09:37:01

А, дело в том, что этим должны аналитики пользоваться

Дмитрий

25.12.2017
09:38:02

А, дело в том, что этим должны аналитики пользоваться

NiFi?

Daniel

25.12.2017
09:40:28

drill

Andrey

25.12.2017
09:46:05

sqlContext.read.json

Sergey

25.12.2017
10:08:58

На входе куча файлов с частично известной структурой. От файла к файлу набор полей отличается. Необходимо выяснить что же там содержится и некоторый анализ из разряда: referentail integrity, unique key check, pattern finder, standartization, value distribution и т.д. Если известна структура того, что падает на вход, то всё это реализуется за 2 шага - привести к нужному формату и скормить на вход Ataccama/Talend и им подобным. Хочется дать инструмент аналитикам, с помощью которого они смогут самостоятельно (без разработчиков) исследовать такие данные.

sherzod

25.12.2017
16:02:11

Нубовской такой девопс-вопрос, просветите. В клаудере, надо просто ставить дистр парселсы и все поднимается. Как все это устроено в хортоне? Или ткните на точку входа, пожалуйста. Имею в виду с чего начать разворачивать кластер.

Dmitry

25.12.2017
16:09:02

Ambari ж

https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.6.3/index.html

Andrey

25.12.2017
16:11:10

амбари разверни на виртуалке и дальше сам все поймешь)

sherzod

25.12.2017
16:12:41

ага, спасибо, так и сделаю

еще один упреждающий вопросец)) его же достаточно на одной ноде поставить? дальше уже из него?

Andrey

25.12.2017
16:15:19

его на отдельную виртуалку можно

и даже нужно)

sherzod

25.12.2017
16:16:05

понял, спасибо)

Dmitry

25.12.2017
16:49:38

присоединясь к коллеге

кто как диски делит

Google

Dmitry

25.12.2017
16:49:51

master/slave

Ilia

26.12.2017
11:33:38

Всем привет, сейчас над такой задачей работаю: вытаскиваю парсинг файлов в scala модуль из питончика чтобы работало побыстрее. Столкнулся с такой проблемой, что изнутри скалы не могу подключиться к уже существующему контексту pyspark, пишет ошибку ERROR XSDB6: Another instance of Derby may have already booted the database. Ок, но как создать датафрейм внутри скалы в таком случае? Сейчас делаю так: spark = SparkSession.builder.getOrCreate() // тут получаю RDD[Row] val rows = spark.sparkContext.makeRDD(lines.map(buildRow)) // пытаюсь использовать этот RDD для создания датафрейма val df = spark.createDataFrame(rows, <StructType(...)>)

Grigory

26.12.2017
11:34:49

кильни все процессы не нужные) где-то ты занял просто все

Ilia

26.12.2017
11:34:53

Запускаю потом это всё через pyspark —jars my.scala.module.jar ну и обращаюсь через spark._jvm.

Хм, может быть конечно и так

Grigory

26.12.2017
11:36:56

а если не в случайных процессах дело то гдето на стыке питона и жвм ?

Ilia

26.12.2017
11:44:52

Ломается причём на моменте createDataFrame, что-то я там упускаю

Andrey

26.12.2017
12:12:12

а в чем идея запуска джарника писпарком?

попробуй для начала spark.emptyDataFrame.show

>spark = SparkSession.builder.getOrCreate() ты при копировании ошибся или у тебя spark mutable ?

Ilia

26.12.2017
12:36:35

а в чем идея запуска джарника писпарком?

Основной код на питоне, джарник нужен чтобы избежать избыточной сериализации при парсинге файлов - т.е. базовая операция получения датафрейма из кучи файлов переносится в скалу

>spark = SparkSession.builder.getOrCreate() ты при копировании ошибся или у тебя spark mutable ?

Не ошибся, всё так

Andrey

26.12.2017
12:38:54

а в коде ты один раз контекст спарка создаешь?

мб в этом как раз причина?

Ilia

26.12.2017
12:39:44

https://spark.apache.org/docs/2.2.0/sql-programming-guide.html#starting-point-sparksession Я его вообще не создаю, просто получаю сессию как в доке

Andrey

26.12.2017
12:40:25

там val spark = ..

Ilia

26.12.2017
12:40:27

Внутри pyspark как я понимаю делается то же самое

А, сорри, у меня тоже val

Я не сразу понял о чём речь

Andrey

26.12.2017
12:41:00

?

Google

Andrey

26.12.2017
12:41:22

попробуй емптидатафрейм

Ilia

26.12.2017
12:41:31

Пробую

Всё так же с ептидатафрейм

Может хайву как-то указать можно использовать уже существующий metastore?..

Andrey

26.12.2017
12:55:59

а ты где то включаешь поддержку хайва в коде?

Ilia

26.12.2017
12:57:05

Не включаю, но metastore создаётся всё равно

Andrey

26.12.2017
12:57:13

странно

Ilia

26.12.2017
12:57:21

У меня Spark 2.2.0, может имеет значение

Andrey

26.12.2017
12:58:00

мб во вторых версиях что то поменяли, но в 1.6 sqlContext прекрасно живет без хайва

Ilia

26.12.2017
12:58:15

Мне он в принципе и не нужен, но похоже что внутри где-то используется

Andrey

26.12.2017
13:01:36

вообще, если ты не используешь .enableHiveSupport, он не должен создаваться

в 1.6 сам контекст создается как new .. HiveContext(sc)

а где ты это все запускаешь?

« Назад

Страница 58 из 182

Далее »

Открыть в Telegram