@hadoopusers

« Назад

Страница 62 из 182

Далее »

Grigory

02.01.2018
17:52:19

Да!

У а вообще просто надо писать в правильный формат данных выходных, не в файл обычный)

а то репартишн дорого, и много

Ну или файлы индексировать как то и писать отдельно конечно по партициям

Google

Alex

02.01.2018
17:57:31

он его сохранит в каталожик, а внутри будут файлы part-xxx

так а есть возможность сохранить его в нормальный формат csv?

Ну или может в скале есть возможность матрицу записать в файл

Andrey

02.01.2018
17:58:28

так а есть возможность сохранить его в нормальный формат csv?

не совсем понимаю, чем .mkString(",") плохой формат csv

Alex

02.01.2018
17:58:31

из Array[Array[Double]]

не совсем понимаю, чем .mkString(",") плохой формат csv

тем что он не сохраняет как csv. Там part.crc

Andrey

02.01.2018
17:59:38

ну внутри то обычные текстовые строки

данные, разделенные запятыми и т д

Alex

02.01.2018
18:00:57

не

Andrey

02.01.2018
18:02:05

значит где то закралась ошибка

rdd.map { x => x.toArray :+ model.predict(x) }.map { x => x.mkString(",")}.first покажи

rdd - RDD[Vector] же?

Alex

02.01.2018
18:03:20

да

Google

Andrey

02.01.2018
18:03:59

тогда посмотри .first

Alex

02.01.2018
18:04:43

Так что нормально

Andrey

02.01.2018
18:06:02

rdd.map { x => x.toArray :+ model.predict(x) }.map { x => x.mkString(",")}.saveAsTextFile("output.csv") val newRDD = sc.textFile("output.csv")

что в newRDD.first ?

Alex

02.01.2018
18:10:40

что в newRDD.first ?

Если читать в спарке опять то все окей. А в обычный не перевести?

Andrey

02.01.2018
18:11:26

он обычный, у тебя что то с редактором просто

давай попробуем теперь hdfs dfs -head output.csv/*

из шелла

что выводит?

Alex

02.01.2018
18:15:37

что выводит?

И правда все нормально. В питоне pandas нормально читает его. Что-то с редактором действительно. спасибо)

Andrey

02.01.2018
18:15:50

незачто)

Nikolai

03.01.2018
09:44:52

У кого-то есть опыт использования спарковских моделей в structured streaming на пайспарке?

Вопрос таков У меня есть такой стрим df = spark \ .readStream \ .format("kinesis") \ .option("streamName", kinesisStreamName) \ .option("initialPosition", "latest") \ .option("region", "us-east-2") \ .option("awsAccessKey", awsAccessKeyId) \ .option("awsSecretKey", awsSecretKey) \ .load()

Я сначало делаю с ним кучу разных агрегаций

А потом пытаюсь запихнуть его в пайплан

Который до этого зафитил

Но на сколько я понимаю этот стрим не является датафреймом и мне с ним нужно что-то сделать перед тем как пихать в пайплайн?

Ну короче если кому интересно, в спарке 2.2.0 VectorAssembler фейлится в Structured Streaming. Пофиксили в 2.3.0 https://issues.apache.org/jira/browse/SPARK-22346

sherzod

03.01.2018
17:18:09

У кого-нить есть успешный опыт установки и эксплуатации Ambari под непривилегированным пользователем? При установке позволяет такого выбрать, но при этом не может ничего сделать. Судя по гуглу требует какие-то страшные настройки sudoers.

Google

sherzod

03.01.2018
17:18:47

Установка конечно под рутом запускается, просто имею в виду сами агенты.

Вообще не понимаю этих ребят. Ни из клаудеры ни из хортона. Установка (даже сама установка) не под рутом куда более управляемая и легкая. Почему пошли таким путём, непонятно. Ставились бы просто в sandbox папку пользователя.

Alexander

04.01.2018
16:56:28

Вообще не понимаю этих ребят. Ни из клаудеры ни из хортона. Установка (даже сама установка) не под рутом куда более управляемая и легкая. Почему пошли таким путём, непонятно. Ставились бы просто в sandbox папку пользователя.

Устанавливал клаудеру не под рутом. На каждом узле создали пользователя с одинаковми правами, установка прошла успешно, но потом вылезли проблемы из-за того, что имя пользователя было одинаковым, а вот id на каждом узле разный.

sherzod

04.01.2018
16:58:43

интересно..

У меня норм тож прошла установка, там дело было в другом (ставил в докере, натыкалось на ulimit)

Saydiolim Ganiev

04.01.2018
17:12:19

Устанавливал клаудеру не под рутом. На каждом узле создали пользователя с одинаковми правами, установка прошла успешно, но потом вылезли проблемы из-за того, что имя пользователя было одинаковым, а вот id на каждом узле разный.

Toje rabotayu na klaudere. Problem mnogo, no kajdaya reshaema.

sherzod

04.01.2018
18:16:45

По идее Ambari должен был сгенерировать keystore для SSL для служб. Ставлю Zeppelin в Ambari и в папке куда он смотрит за ключами пусто. Кто-нить сталкивалася ?

Alexander

04.01.2018
19:07:49

Toje rabotayu na klaudere. Problem mnogo, no kajdaya reshaema.

Кто ж спорит, всё решаемо.

Vishal

05.01.2018
07:16:34

hey guys

can you help me solve this ...im stuck with hive partition

the data is not getting loaded

Grigory

05.01.2018
07:32:21

the data is not getting loaded

try to specify partitions: https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML#LanguageManualDML-Loadingfilesintotables

Nick

06.01.2018
07:29:20

Apache ignite делают интеграцию со spark df

sherzod

06.01.2018
11:00:19

Настраиваю аутентификацию в Zeppelin через Knox. Что-то не пойму как Knox проверяет валидность пользователя. Ну то есть вижу что он может искать в LDAP, но не вижу как он может проверить валидность пароля. Подскажите кто настраивал

Проблема сейчас в том что KNOX просто прокидывает до стартовой страницы Zeppelin ничего не запрашивая. В zeppelin ввожу указанные в конфиге admin:admin и вхожу нормально. В admin-topology Knox указал Shiro, настроил доступ к LDAP и поставил <param> <name>main.ldapRealm.contextFactory.authenticationMechanism</name> <value>simple</value> </param>

Nick

07.01.2018
06:00:45

Настраиваю аутентификацию в Zeppelin через Knox. Что-то не пойму как Knox проверяет валидность пользователя. Ну то есть вижу что он может искать в LDAP, но не вижу как он может проверить валидность пароля. Подскажите кто настраивал

Я настраивал через shiro ldap авторизацию. Там конечно все через жопу они написали

sherzod

07.01.2018
06:03:00

В самом zeppelin shiro ldap сработал. Но вот никак не получается настроить так чтобы пользователь аутентифицировался в knox (просто чтобы окошко http аутентификации в браузере вылезло) и при вводе верных данных перекинуло в zeppelin. Чёт уже сомневаюсь что такое возможно.

Nick

07.01.2018
06:04:18

Из самого Knox? Это ж Sso и там должен быть callback url

Нужно с зеплина идти

sherzod

07.01.2018
06:05:24

Это как. Мы же на адрес knox-а заходим. https://knoxhost:knoxport/gateway/admin/zeppelin

Google

sherzod

07.01.2018
06:05:45

и попадаем на страницу зепы

Nick

07.01.2018
06:06:46

Ну так и должно быть, что не работает то)

sherzod

07.01.2018
06:07:20

типа так и должно просто перекидывать на zeppelin а в нём уже вводим пользователя и пароль?

тогда зачем knox..

Nick

07.01.2018
06:09:53

Наоборот

Ты должен заходить в зеплин и кидать на Knox , а он уже обратно)

Вроде как так

sherzod

07.01.2018
06:10:28

в моём представлении должно быть так: заходим на вышеуказанный адрес, у нас выплывает окошко http auth вводим имя пароль попадаем в зепу (причём уже входить не нужно), сразу залогинены под нужным пользователем.

Ты должен заходить в зеплин и кидать на Knox , а он уже обратно)

интересно... вроде в туториалах везде написано что надо на адрес knox заходить. ок покурю такой вариант тоже..

Nick

07.01.2018
06:12:22

Прост он знает где у тебя zeppelin

И прост делает редирект

sherzod

07.01.2018
06:12:48

ну да это работает

если сюда заходить https://knoxhost:knoxport/gateway/admin/zeppelin

Ilya

08.01.2018
12:21:50

Парни, а не подскажете нормальное введение в Spark, чтобы мозг в нужную семантику поворачивало, а не для мартышек

sherzod

08.01.2018
12:22:18

в смысле что-нить более глубокое или наоборот?

Ilya

08.01.2018
12:23:13

Не слишком, чтобы сначала азы про что это и почему такие вещи можно, а такие нельзя

А потом что-нибудь вроде

На одной машине мы привыкли так, но в spark надо вот так эти типовые задачи делать

sherzod

08.01.2018
12:28:39

По книжкам для начинающих не подскажу. Мы (вся группа на работе) учили по документашке. Могу лишь следующее подсказать: Он очень простой по своей сути, главное ухватить основные элементы и установить хотя бы на двух тачках и на примерах учить.

Потом вот эту читали: https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/ ну это как бы для немного знакомых

Google

Ilya

08.01.2018
12:30:34

Я в оглавлении про dataframe не видел

Поэтому прошел мимо этой книжки

Я просто хочу с pandas соскочить на spark

И понять что из кода примерно так и останется, а что точно надо адаптировать

Например пробежаться по всем строкам по порядку

Как я понимаю, не получится

Grigory

08.01.2018
12:33:09

конечно простой а потом Task serialization exception ... not enough memory ... runtime class is not avaible... partition size is larger that 2gbs ...

« Назад

Страница 62 из 182

Далее »

Открыть в Telegram