
Grigory
02.01.2018
17:52:19
Да!
У а вообще просто надо писать в правильный формат данных выходных, не в файл обычный)
а то репартишн дорого, и много
Ну или файлы индексировать как то и писать отдельно конечно по партициям

Google

Alex
02.01.2018
17:57:31
Ну или может в скале есть возможность матрицу записать в файл

Andrey
02.01.2018
17:58:28

Alex
02.01.2018
17:58:31
из Array[Array[Double]]

Andrey
02.01.2018
17:59:38
ну внутри то обычные текстовые строки
данные, разделенные запятыми и т д

Alex
02.01.2018
18:00:57
не

Andrey
02.01.2018
18:02:05
значит где то закралась ошибка
rdd.map { x => x.toArray :+ model.predict(x) }.map { x => x.mkString(",")}.first покажи
rdd - RDD[Vector] же?

Alex
02.01.2018
18:03:20
да

Google

Andrey
02.01.2018
18:03:59
тогда посмотри .first

Alex
02.01.2018
18:04:43
Так что нормально

Andrey
02.01.2018
18:06:02
rdd.map { x => x.toArray :+ model.predict(x) }.map { x => x.mkString(",")}.saveAsTextFile("output.csv")
val newRDD = sc.textFile("output.csv")
что в newRDD.first ?

Alex
02.01.2018
18:10:40

Andrey
02.01.2018
18:11:26
он обычный, у тебя что то с редактором просто
давай попробуем теперь hdfs dfs -head output.csv/*
из шелла
что выводит?

Alex
02.01.2018
18:15:37
что выводит?
И правда все нормально. В питоне pandas нормально читает его. Что-то с редактором действительно.
спасибо)

Andrey
02.01.2018
18:15:50
незачто)

Nikolai
03.01.2018
09:44:52
У кого-то есть опыт использования спарковских моделей в structured streaming на пайспарке?
Вопрос таков
У меня есть такой стрим
df = spark \
.readStream \
.format("kinesis") \
.option("streamName", kinesisStreamName) \
.option("initialPosition", "latest") \
.option("region", "us-east-2") \
.option("awsAccessKey", awsAccessKeyId) \
.option("awsSecretKey", awsSecretKey) \
.load()
Я сначало делаю с ним кучу разных агрегаций
А потом пытаюсь запихнуть его в пайплан
Который до этого зафитил
Но на сколько я понимаю этот стрим не является датафреймом и мне с ним нужно что-то сделать перед тем как пихать в пайплайн?
Ну короче если кому интересно, в спарке 2.2.0 VectorAssembler фейлится в Structured Streaming. Пофиксили в 2.3.0
https://issues.apache.org/jira/browse/SPARK-22346


sherzod
03.01.2018
17:18:09
У кого-нить есть успешный опыт установки и эксплуатации Ambari под непривилегированным пользователем? При установке позволяет такого выбрать, но при этом не может ничего сделать. Судя по гуглу требует какие-то страшные настройки sudoers.

Google

sherzod
03.01.2018
17:18:47
Установка конечно под рутом запускается, просто имею в виду сами агенты.
Вообще не понимаю этих ребят. Ни из клаудеры ни из хортона. Установка (даже сама установка) не под рутом куда более управляемая и легкая. Почему пошли таким путём, непонятно. Ставились бы просто в sandbox папку пользователя.

Alexander
04.01.2018
16:56:28

sherzod
04.01.2018
16:58:43
интересно..
У меня норм тож прошла установка, там дело было в другом (ставил в докере, натыкалось на ulimit)

Saydiolim Ganiev
04.01.2018
17:12:19

sherzod
04.01.2018
18:16:45
По идее Ambari должен был сгенерировать keystore для SSL для служб. Ставлю Zeppelin в Ambari и в папке куда он смотрит за ключами пусто. Кто-нить сталкивалася ?

Alexander
04.01.2018
19:07:49

Vishal
05.01.2018
07:16:34
hey guys
can you help me solve this ...im stuck with hive partition
the data is not getting loaded

Grigory
05.01.2018
07:32:21
the data is not getting loaded
try to specify partitions: https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML#LanguageManualDML-Loadingfilesintotables

Nick
06.01.2018
07:29:20
Apache ignite делают интеграцию со spark df

sherzod
06.01.2018
11:00:19
Настраиваю аутентификацию в Zeppelin через Knox. Что-то не пойму как Knox проверяет валидность пользователя. Ну то есть вижу что он может искать в LDAP, но не вижу как он может проверить валидность пароля. Подскажите кто настраивал
Проблема сейчас в том что KNOX просто прокидывает до стартовой страницы Zeppelin ничего не запрашивая. В zeppelin ввожу указанные в конфиге admin:admin и вхожу нормально. В admin-topology Knox указал Shiro, настроил доступ к LDAP и поставил
<param> <name>main.ldapRealm.contextFactory.authenticationMechanism</name>
<value>simple</value>
</param>

Nick
07.01.2018
06:00:45

sherzod
07.01.2018
06:03:00
В самом zeppelin shiro ldap сработал. Но вот никак не получается настроить так чтобы пользователь аутентифицировался в knox (просто чтобы окошко http аутентификации в браузере вылезло) и при вводе верных данных перекинуло в zeppelin. Чёт уже сомневаюсь что такое возможно.

Nick
07.01.2018
06:04:18
Из самого Knox? Это ж Sso и там должен быть callback url
Нужно с зеплина идти

sherzod
07.01.2018
06:05:24
Это как. Мы же на адрес knox-а заходим.
https://knoxhost:knoxport/gateway/admin/zeppelin

Google

sherzod
07.01.2018
06:05:45
и попадаем на страницу зепы

Nick
07.01.2018
06:06:46
Ну так и должно быть, что не работает то)

sherzod
07.01.2018
06:07:20
типа так и должно просто перекидывать на zeppelin а в нём уже вводим пользователя и пароль?
тогда зачем knox..

Nick
07.01.2018
06:09:53
Наоборот
Ты должен заходить в зеплин и кидать на Knox , а он уже обратно)
Вроде как так

sherzod
07.01.2018
06:10:28
в моём представлении должно быть так:
заходим на вышеуказанный адрес, у нас выплывает окошко http auth
вводим имя пароль
попадаем в зепу (причём уже входить не нужно), сразу залогинены под нужным пользователем.

Nick
07.01.2018
06:12:22
Прост он знает где у тебя zeppelin
И прост делает редирект

sherzod
07.01.2018
06:12:48
ну да это работает
если сюда заходить
https://knoxhost:knoxport/gateway/admin/zeppelin

Ilya
08.01.2018
12:21:50
Парни, а не подскажете нормальное введение в Spark, чтобы мозг в нужную семантику поворачивало, а не для мартышек

sherzod
08.01.2018
12:22:18
в смысле что-нить более глубокое или наоборот?

Ilya
08.01.2018
12:23:13
Не слишком, чтобы сначала азы про что это и почему такие вещи можно, а такие нельзя
А потом что-нибудь вроде
На одной машине мы привыкли так, но в spark надо вот так эти типовые задачи делать

sherzod
08.01.2018
12:28:39
По книжкам для начинающих не подскажу. Мы (вся группа на работе) учили по документашке.
Могу лишь следующее подсказать:
Он очень простой по своей сути, главное ухватить основные элементы и установить хотя бы на двух тачках и на примерах учить.
Потом вот эту читали:
https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/
ну это как бы для немного знакомых

Google

Ilya
08.01.2018
12:30:34
Я в оглавлении про dataframe не видел
Поэтому прошел мимо этой книжки
Я просто хочу с pandas соскочить на spark
И понять что из кода примерно так и останется, а что точно надо адаптировать
Например пробежаться по всем строкам по порядку
Как я понимаю, не получится

Grigory
08.01.2018
12:33:09
конечно простой а потом Task serialization exception ... not enough memory ... runtime class is not avaible... partition size is larger that 2gbs ...