@hadoopusers

Страница 62 из 182
Grigory
02.01.2018
17:52:19
Да!

У а вообще просто надо писать в правильный формат данных выходных, не в файл обычный)

а то репартишн дорого, и много

Ну или файлы индексировать как то и писать отдельно конечно по партициям

Google
Alex
02.01.2018
17:57:31
он его сохранит в каталожик, а внутри будут файлы part-xxx
так а есть возможность сохранить его в нормальный формат csv?

Ну или может в скале есть возможность матрицу записать в файл

Andrey
02.01.2018
17:58:28
так а есть возможность сохранить его в нормальный формат csv?
не совсем понимаю, чем .mkString(",") плохой формат csv

Alex
02.01.2018
17:58:31
из Array[Array[Double]]

не совсем понимаю, чем .mkString(",") плохой формат csv
тем что он не сохраняет как csv. Там part.crc

Andrey
02.01.2018
17:59:38
ну внутри то обычные текстовые строки

данные, разделенные запятыми и т д

Alex
02.01.2018
18:00:57
не



Andrey
02.01.2018
18:02:05
значит где то закралась ошибка

rdd.map { x => x.toArray :+ model.predict(x) }.map { x => x.mkString(",")}.first покажи

rdd - RDD[Vector] же?

Alex
02.01.2018
18:03:20
да

Google
Andrey
02.01.2018
18:03:59
тогда посмотри .first

Alex
02.01.2018
18:04:43


Так что нормально

Andrey
02.01.2018
18:06:02
rdd.map { x => x.toArray :+ model.predict(x) }.map { x => x.mkString(",")}.saveAsTextFile("output.csv") val newRDD = sc.textFile("output.csv")

что в newRDD.first ?

Alex
02.01.2018
18:10:40
что в newRDD.first ?
Если читать в спарке опять то все окей. А в обычный не перевести?

Andrey
02.01.2018
18:11:26
он обычный, у тебя что то с редактором просто

давай попробуем теперь hdfs dfs -head output.csv/*

из шелла

что выводит?

Alex
02.01.2018
18:15:37
что выводит?
И правда все нормально. В питоне pandas нормально читает его. Что-то с редактором действительно. спасибо)

Andrey
02.01.2018
18:15:50
незачто)

Nikolai
03.01.2018
09:44:52
У кого-то есть опыт использования спарковских моделей в structured streaming на пайспарке?

Вопрос таков У меня есть такой стрим df = spark \ .readStream \ .format("kinesis") \ .option("streamName", kinesisStreamName) \ .option("initialPosition", "latest") \ .option("region", "us-east-2") \ .option("awsAccessKey", awsAccessKeyId) \ .option("awsSecretKey", awsSecretKey) \ .load()

Я сначало делаю с ним кучу разных агрегаций

А потом пытаюсь запихнуть его в пайплан

Который до этого зафитил

Но на сколько я понимаю этот стрим не является датафреймом и мне с ним нужно что-то сделать перед тем как пихать в пайплайн?

Ну короче если кому интересно, в спарке 2.2.0 VectorAssembler фейлится в Structured Streaming. Пофиксили в 2.3.0 https://issues.apache.org/jira/browse/SPARK-22346

sherzod
03.01.2018
17:18:09
У кого-нить есть успешный опыт установки и эксплуатации Ambari под непривилегированным пользователем? При установке позволяет такого выбрать, но при этом не может ничего сделать. Судя по гуглу требует какие-то страшные настройки sudoers.

Google
sherzod
03.01.2018
17:18:47
Установка конечно под рутом запускается, просто имею в виду сами агенты.

Вообще не понимаю этих ребят. Ни из клаудеры ни из хортона. Установка (даже сама установка) не под рутом куда более управляемая и легкая. Почему пошли таким путём, непонятно. Ставились бы просто в sandbox папку пользователя.

Alexander
04.01.2018
16:56:28
Вообще не понимаю этих ребят. Ни из клаудеры ни из хортона. Установка (даже сама установка) не под рутом куда более управляемая и легкая. Почему пошли таким путём, непонятно. Ставились бы просто в sandbox папку пользователя.
Устанавливал клаудеру не под рутом. На каждом узле создали пользователя с одинаковми правами, установка прошла успешно, но потом вылезли проблемы из-за того, что имя пользователя было одинаковым, а вот id на каждом узле разный.

sherzod
04.01.2018
16:58:43
интересно..

У меня норм тож прошла установка, там дело было в другом (ставил в докере, натыкалось на ulimit)

sherzod
04.01.2018
18:16:45
По идее Ambari должен был сгенерировать keystore для SSL для служб. Ставлю Zeppelin в Ambari и в папке куда он смотрит за ключами пусто. Кто-нить сталкивалася ?

Alexander
04.01.2018
19:07:49
Toje rabotayu na klaudere. Problem mnogo, no kajdaya reshaema.
Кто ж спорит, всё решаемо.

Vishal
05.01.2018
07:16:34
hey guys

can you help me solve this ...im stuck with hive partition

the data is not getting loaded

Grigory
05.01.2018
07:32:21
the data is not getting loaded
try to specify partitions: https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML#LanguageManualDML-Loadingfilesintotables

Nick
06.01.2018
07:29:20
Apache ignite делают интеграцию со spark df

sherzod
06.01.2018
11:00:19
Настраиваю аутентификацию в Zeppelin через Knox. Что-то не пойму как Knox проверяет валидность пользователя. Ну то есть вижу что он может искать в LDAP, но не вижу как он может проверить валидность пароля. Подскажите кто настраивал

Проблема сейчас в том что KNOX просто прокидывает до стартовой страницы Zeppelin ничего не запрашивая. В zeppelin ввожу указанные в конфиге admin:admin и вхожу нормально. В admin-topology Knox указал Shiro, настроил доступ к LDAP и поставил <param> <name>main.ldapRealm.contextFactory.authenticationMechanism</name> <value>simple</value> </param>

sherzod
07.01.2018
06:03:00
В самом zeppelin shiro ldap сработал. Но вот никак не получается настроить так чтобы пользователь аутентифицировался в knox (просто чтобы окошко http аутентификации в браузере вылезло) и при вводе верных данных перекинуло в zeppelin. Чёт уже сомневаюсь что такое возможно.

Nick
07.01.2018
06:04:18
Из самого Knox? Это ж Sso и там должен быть callback url

Нужно с зеплина идти

sherzod
07.01.2018
06:05:24
Это как. Мы же на адрес knox-а заходим. https://knoxhost:knoxport/gateway/admin/zeppelin

Google
sherzod
07.01.2018
06:05:45
и попадаем на страницу зепы

Nick
07.01.2018
06:06:46
Ну так и должно быть, что не работает то)

sherzod
07.01.2018
06:07:20
типа так и должно просто перекидывать на zeppelin а в нём уже вводим пользователя и пароль?

тогда зачем knox..

Nick
07.01.2018
06:09:53
Наоборот

Ты должен заходить в зеплин и кидать на Knox , а он уже обратно)

Вроде как так

sherzod
07.01.2018
06:10:28
в моём представлении должно быть так: заходим на вышеуказанный адрес, у нас выплывает окошко http auth вводим имя пароль попадаем в зепу (причём уже входить не нужно), сразу залогинены под нужным пользователем.

Ты должен заходить в зеплин и кидать на Knox , а он уже обратно)
интересно... вроде в туториалах везде написано что надо на адрес knox заходить. ок покурю такой вариант тоже..

Nick
07.01.2018
06:12:22
Прост он знает где у тебя zeppelin

И прост делает редирект

sherzod
07.01.2018
06:12:48
ну да это работает

если сюда заходить https://knoxhost:knoxport/gateway/admin/zeppelin

Ilya
08.01.2018
12:21:50
Парни, а не подскажете нормальное введение в Spark, чтобы мозг в нужную семантику поворачивало, а не для мартышек

sherzod
08.01.2018
12:22:18
в смысле что-нить более глубокое или наоборот?

Ilya
08.01.2018
12:23:13
Не слишком, чтобы сначала азы про что это и почему такие вещи можно, а такие нельзя

А потом что-нибудь вроде

На одной машине мы привыкли так, но в spark надо вот так эти типовые задачи делать

sherzod
08.01.2018
12:28:39
По книжкам для начинающих не подскажу. Мы (вся группа на работе) учили по документашке. Могу лишь следующее подсказать: Он очень простой по своей сути, главное ухватить основные элементы и установить хотя бы на двух тачках и на примерах учить.

Потом вот эту читали: https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/ ну это как бы для немного знакомых

Google
Ilya
08.01.2018
12:30:34
Я в оглавлении про dataframe не видел

Поэтому прошел мимо этой книжки

Я просто хочу с pandas соскочить на spark

И понять что из кода примерно так и останется, а что точно надо адаптировать

Например пробежаться по всем строкам по порядку

Как я понимаю, не получится

Grigory
08.01.2018
12:33:09
конечно простой а потом Task serialization exception ... not enough memory ... runtime class is not avaible... partition size is larger that 2gbs ...

Страница 62 из 182