
Andrey
02.10.2018
14:50:26
вообщем, спарк2 в упор не хочет жрать hive-site.xml в --files и от этого не знает ничего про существующий метастор
и это происходит на yarn-cluster. На yarn-client все ок

Alexey
02.10.2018
14:51:42
а он точно должен его жрать? вдруг в этом режиме он и не умеет?

Andrey
02.10.2018
14:52:00
на спарке 1 это было необходимым условием его работы

Google

Andrey
02.10.2018
14:52:11
при создании HiveContext подтягивались параметры из hive-site.xml
теперь с .enableHiveSupport наверное все по-другому стало
но факт - spark.catalog.listTables у меня пустой на yarn-cluster

Alexander
02.10.2018
14:55:29
--files /path/to/hive-site.xml#hive-site.xml при условии наличия на всех executor не помогает? spark-submit из CLI или Oozie и т.п.?

Andrey
02.10.2018
14:55:53
да, этот файл я как раз и скармливаю
из CLI

Alexey
02.10.2018
14:59:40
https://stackoverflow.com/questions/45477155/missing-hive-site-when-using-spark-submit-yarn-cluster-mode
это не оно?

Andrey
02.10.2018
15:00:46
пробовал, результат тот же ?

Alexey
02.10.2018
15:01:36
а если прямо все проперти в командную строку spark submit засунуть, подхватывает?

Andrey
02.10.2018
15:02:00
пропертизы хайва?

Alexander
02.10.2018
15:02:50

Andrey
02.10.2018
15:02:55
ага

Alexey
02.10.2018
15:03:54
ну, примерно так поступает livy, например. ему можно скормить через рест конфиги с классификаторами, а он уже формирует командную строку сабмита на десяток килобайт. и вроде hive-site тоже есть (я сам правда именно его не юзаю, но с другими компонентами нет проблем)

Google

Andrey
02.10.2018
15:28:21
разобрался
я conf создавал по старинке new SparkConf
и его скармливал при билде sparkSession

Alexander
02.10.2018
15:34:49
?

Alexey
02.10.2018
15:36:23
мде, классика. если что-то не работает, значит с вероятность 99% ошибка на стороне программиста...

Daniel
02.10.2018
15:40:01
Работающего с зе бест фреймворк еве.

Oleg
02.10.2018
16:30:56
Привет!
Вопрос насчёт Спарка.
Можно ли его использовать отдельно от хадупа и hdfs? Т.е. брать данные, например, из postgresql и писать туда же.

Андрей
02.10.2018
16:31:43

Oleg
02.10.2018
16:32:17
Можно
И это может быть именно кластер, а не в local моде?

Alexander
02.10.2018
16:33:16

Eduard
02.10.2018
16:33:21
без разницы
база будет узким местом скорее всего :)

Андрей
02.10.2018
16:34:06
Ну емана, RTFM :)
Именно

Alexander
02.10.2018
16:39:46

Oleg
02.10.2018
16:39:49
Спасибо большое!

Mironiken
02.10.2018
16:43:45
>Можно ли его использовать отдельно от хадупа и hdfs?
Был кейс ssh -> hbase

Oleg
02.10.2018
16:44:25
Mesos, Kubernetes, etc.
Т.е. на несколько серверов нужно поставить что-то типа mesos, ceph, kubernetnes и на виртуальном сервере запускать Спарк? А как с выделением ресурсов и прочих конфигов для executor'ов?

Google

Andrey
02.10.2018
16:46:08
ему только ZK надо для того, чтобы AM HA было

Oleg
02.10.2018
16:48:35
И насколько это всё удобно поддерживать/разрабатывать относительно хадупа?

Андрей
02.10.2018
16:55:06
Зависит от целей и архитектуры, тащемта. Таскать с собой хадуп ради одного только спарка - то еще удовольствие.
Вон, как правильно @tenKe заметил, можно по хардкору по ZK. Чуть больше думаешь о ресурсах, зато желтых слонов пасти не надо. Опсы поди счастливы будут.

Евгений
02.10.2018
18:09:50
Проще научить девопсов пасти зелёного слоника (hdp), чем поддерживать пайплайн rdbms->spark->rdbms
И это не из-за спарка)

Alexander
02.10.2018
18:36:09

Oleg
02.10.2018
18:37:44
У нас админы уже точно умеют пасти слонов. А вот насчёт остального - не знаю, есть вероятность, то нет.
Т.е. с одной стороны хочется облегчить систему. В том числе есть мнение, что хадуп - это не супер быстро)
Но, с другой стороны, не понятно, как разделять ресурсы, делать очереди и расставлять приоритеты.
Ну и как хранить - тоже вопрос.
Просто в parquet можно, но не очень удобно в формате ad-hoc посмотреть, что там лежит.

Eduard
02.10.2018
18:41:37
зепелинчика сверху положить и норм

Oleg
02.10.2018
18:41:47

Eduard
02.10.2018
18:43:28
ну дело привычки
у меня еще presto сверху есть, можно его, но там надо еще hive metastore будет

Oleg
02.10.2018
18:46:11
Ещё в ярне мне нравится мониторинг происходящего. Те же графики очереди, вкоров, памяти и т.п. Есть ли рм, которые можно поставить отдельно и в которых есть что-то подобное? Ну и возможность работы со Спарком + разделение ресурсов?
Или всё-таки не выпендриваться и поставить старый добрый хадуп?))

Андрей
03.10.2018
05:11:02

Oleg
03.10.2018
05:16:40
Дык а почему бы и не поставить, если опсы и архи не бунтуют?
Просто объем данных предполагается небольшой. Несколько террабайт. Но есть желание использовать spark ml для построения различных моделей. Есть вероятность, правда, что объем данных сильно вырастет, но все равно пока это все выглядит как одна-две датаноды. Не больше))

Google

Андрей
03.10.2018
05:17:32

Oleg
03.10.2018
05:22:14

Alexander
03.10.2018
05:26:18
Не рассматриваешь AWS? EMR, там YARN.

Oleg
03.10.2018
05:39:53

Jury
03.10.2018
06:19:46
всем доброго дня!
извиняюсь за ламерство - а что нужно установить и настроить, если на сервере нужен только kafka producer? все равно ставить все?

Старый
03.10.2018
06:52:11

Andrey
03.10.2018
06:52:15

Jury
03.10.2018
06:53:49
спасибо, ну то есть что бы воспользоваться на произвольном сервере клиентскими скриптами из kafka/bin/ не надо ничего более ставить?
или хотя бы java - нужно?

Andrey
03.10.2018
06:55:33
а, клиентскими скриптами
я думал ты про апи продюсера
В принципе сам брокер тебе не нужен, тебе понадобятся джава, джарники, которые юзаются в скриптах и сами скрипты. Но я бы не заморачивался и поставил весь пакет, чтобы потом не тратить время на поиск отсутствующих конфигов

Старый
03.10.2018
07:24:00

Jury
03.10.2018
08:06:02
понял, спасибо всем!
все сделал, все получилось

Старый
03.10.2018
12:46:58
ambari кто юзает?

Рамиль
03.10.2018
12:47:18
я думаю много кто
я юзаю например

Alexander
03.10.2018
12:47:40
+

Старый
03.10.2018
12:48:19
на этапе Customize Services нифига не происходит, ошибок не пишет

Google

Старый
03.10.2018
12:48:35
базы ему все создал в postgresql

Рамиль
03.10.2018
12:48:41
а красным сервисы не горят?

Старый
03.10.2018
12:48:42
всё подрубил
нет

Рамиль
03.10.2018
12:48:55
тогда проблема может быть с браузером
там довольно каприсны яваскрипт

Старый
03.10.2018
12:49:07
хром то ему чем не понравился

Рамиль
03.10.2018
12:49:23
хром должен быть норм
фаерфокс норм
у меня то, что ты описываешь было в ИЕ
и в старом файерфоксе
после обновления до последней версии все стало кокакола

Старый
03.10.2018
12:50:48
у меня Version 71.0.3559.6 (Official Build) dev (64-bit)
точно не старый

Рамиль
03.10.2018
12:51:28
ну я бы все равно в первую очередь попробовал бы другой браузер