@hadoopusers

« Назад

Страница 122 из 182

Далее »

Dmitry

31.07.2018
13:57:46

это CSD, там все скрипты..

Рамиль

31.07.2018
13:57:49

Как?

ну это если ты хочешь сам цепелин керберизовать

я думаю тебе это не нужно

если он не в кластере

Google

Pavel

31.07.2018
13:58:12

ну это если ты хочешь сам цепелин керберизовать

Ясно. Не думаю что в этом есть необходимость

Он не в кластере

Рамиль

31.07.2018
13:58:43

ну тогда забей попробуй для начала как я тебе скинул

Stan

31.07.2018
13:59:00

ща найду

Спасибо!

Рамиль

31.07.2018
13:59:05

ну разумеется сначала надо создать пользователя zeppelin в AD

да кстати команда для АД была

для мит керберос в гугле куча гайдов есть годных

Pavel

31.07.2018
14:00:05

Вроде уже нашел. У меня ad поэтому mit пока не нужен

Artyom

31.07.2018
15:00:53

Волна народу из Moscow Spark?

KrivdaAllStars

31.07.2018
15:02:59

Ой, скоро 700 человек

кто не знал

Срочно в номер! ? Apache Kafka 2.0 released! ?

Grigory

31.07.2018
18:40:59

Давай сводку апдуйтов

Google

Андрей

31.07.2018
20:02:12

Авиакомпаний

А кто нужен-то? Там всякие люди бывают :)

Pavel

01.08.2018
12:00:39

Привет. Подключить Zeppelin к Клуадера кластеру не получилось. Попробовал установить с юзером hdfs и его keytab. Что я сделал криво? Вот ошибки и скрин interpreter:

java.lang.ClassNotFoundException: org.apache.hadoop.security.UserGroupInformation$AuthenticationMethod at java.net.URLClassLoader.findClass(URLClassLoader.java:381) at java.lang.ClassLoader.loadClass(ClassLoader.java:424) at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:349) at java.lang.ClassLoader.loadClass(ClassLoader.java:357) at org.apache.zeppelin.jdbc.security.JDBCSecurityImpl.getAuthtype(JDBCSecurityImpl.java:73) at org.apache.zeppelin.jdbc.JDBCInterpreter.isKerboseEnabled(JDBCInterpreter.java:215) at org.apache.zeppelin.interpreter.KerberosInterpreter.open(KerberosInterpreter.java:64) at org.apache.zeppelin.jdbc.JDBCInterpreter.open(JDBCInterpreter.java:174) at org.apache.zeppelin.interpreter.LazyOpenInterpreter.open(LazyOpenInterpreter.java:69) at org.apache.zeppelin.interpreter.remote.RemoteInterpreterServer$InterpretJob.jobRun(RemoteInterpreterServer.java:617) at org.apache.zeppelin.scheduler.Job.run(Job.java:188) at org.apache.zeppelin.scheduler.ParallelScheduler$JobRunner.run(ParallelScheduler.java:162) at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511) at java.util.concurrent.FutureTask.run(FutureTask.java:266) at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$201(ScheduledThreadPoolExecutor.java:180) at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:293) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624) at java.lang.Thread.run(Thread.java:748)

Grigory

01.08.2018
12:14:30

гуглится оно, джарников не хватает в класспасе у тебя

Рамиль

01.08.2018
12:38:39

Так ты ведь вроде к спарку подключался, ты через JDBC туда коннектишься?

тогда у тебя скорее всего не хватает в цепелине библиотек под kerberos

Pavel

01.08.2018
12:39:05

Нет. К Импале

Рамиль

01.08.2018
12:42:18

но ты через JDBC идешь верно?

гуглится оно, джарников не хватает в класспасе у тебя

ну в общем да, Гриша прав. не хватает джарников в класпасе.

Pavel

01.08.2018
12:50:02

Через JDBC. Скачал последний драйвер клаудеры. Скопировал его в директорию Zeppelin .../jdbc. Может сам Цеппелин криво установлен (я его не устанаваливал)?

Рамиль

01.08.2018
12:52:46

Через JDBC. Скачал последний драйвер клаудеры. Скопировал его в директорию Zeppelin .../jdbc. Может сам Цеппелин криво установлен (я его не устанаваливал)?

класс про который ты пишешь, является классом hadoop'а в принципе, лежит обычно в папке hadoop-commons или как то так

там в общем для кербероса не один джарник нужен а порядка 10

Pavel

01.08.2018
12:54:32

Я в Цеппелин в interpreter записал в dependencies hadoop-common. В какую папку скопировать джары тогда?

Рамиль

01.08.2018
12:59:35

Я в Цеппелин в interpreter записал в dependencies hadoop-common. В какую папку скопировать джары тогда?

На вскидку не скажу, я так не делал. Я пользовал цепелин только в составе хортонворкса и давно.

Pavel

01.08.2018
13:00:34

То есть главная задача это прогуглить какие джары нужны для кербероса, а затес понять куда их скопировать?

Рамиль

01.08.2018
13:01:02

да

Pavel

01.08.2018
13:01:37

Есть какие то джары клаудеры? Я в документации не нашел

Sergey

01.08.2018
13:01:48

дяденьки, подскажите плз: если мне нужно в цеппелине вытащить данные по jdbc из той же импалы например и обработать в Питоне, то правильнее же все это делать внутри только питон- интерпретатора? если я задействую ещё и jdbc-интерпретатор, то памяти потрачу в 2 раза больше, верно?

Stanislav

01.08.2018
13:04:49

дяденьки, подскажите плз: если мне нужно в цеппелине вытащить данные по jdbc из той же импалы например и обработать в Питоне, то правильнее же все это делать внутри только питон- интерпретатора? если я задействую ещё и jdbc-интерпретатор, то памяти потрачу в 2 раза больше, верно?

Питоном это писпарком? Или данных очень мало?

Sergey

01.08.2018
13:06:49

много

Google

Sergey

01.08.2018
13:07:22

pyspark, pyodbc, cx_Oracle etc

иначе я буду тянуть все в jvm ноутбука, так?

Vladislav

01.08.2018
13:08:36

дяденьки, подскажите плз: если мне нужно в цеппелине вытащить данные по jdbc из той же импалы например и обработать в Питоне, то правильнее же все это делать внутри только питон- интерпретатора? если я задействую ещё и jdbc-интерпретатор, то памяти потрачу в 2 раза больше, верно?

питон с jdbc паршиво работает

хотя возможно я неправильно его готовил

Рамиль

01.08.2018
13:09:28

питон с jdbc паршиво работает

jdbc же вроде про яву вообще...

:)

Vladislav

01.08.2018
13:09:36

есть py4j

через него можно завести JDBC

Рамиль

01.08.2018
13:09:57

хотя там может быть какой нибудь jython

Vladislav

01.08.2018
13:10:10

я так хотел на оракл ходить, чтобы не зависить от клиента, в конечном счете плюнул и сделал через cx_Oracle

Alexander

01.08.2018
13:10:32

Python с JDBC сносно работает на не особо больших объемах, есть, как минимум, Py4J и JPype. В любом случае, этот или иной вариант реализации middleware связки Python и Java.

Stanislav

01.08.2018
13:12:11

А зачем в импалу так странно ходить вообще?

Sergey

01.08.2018
13:18:26

а как ходить в нее не странно?

Stanislav

01.08.2018
13:40:11

SparkContext/HiveContext, не?

Интересно, что быстрее

Sergey

01.08.2018
13:41:44

а если мои аналитики работают с питоном и его sclearn? где тут место спарку?

Андрей

01.08.2018
13:42:34

udf, например

ну или toPandas(), лол

Grigory

01.08.2018
13:43:33

ну или toPandas(), лол

по краю ходишь

Sergey

01.08.2018
13:43:41

поясните, пожалуйста

Google

Андрей

01.08.2018
13:43:46

по крайней плоти, можно сказать

Stanislav

01.08.2018
13:57:38

а если мои аналитики работают с питоном и его sclearn? где тут место спарку?

Так данных много или нет? )

Sergey

01.08.2018
13:57:59

ну, гигабайт 10 в виде пикла

в память питон-процесса влезает для локальной обработки

Stanislav

01.08.2018
13:59:15

Ясно. Тогда вопросов нет

Sergey

01.08.2018
13:59:49

прикольно... задал вопрос называется

не бейте, лучше обоссыте (с)

Alexander

01.08.2018
14:05:10

Ну так прочитать при помощи PySpark, преобразовать из Spark Data Frame во что-то подходящее для коллег и дальше Python.

Andrey

01.08.2018
14:08:10

не бейте, лучше обоссыте (с)

если у вас данные помещаются на одной машине аналитика, то скорее всего вам не нужен спарк и т.д., хотя возможно использование его даст прирост по скорости (в сравнении с pandas) https://databricks.com/blog/2018/05/03/benchmarking-apache-spark-on-a-single-node-machine.html

Sergey

01.08.2018
14:10:48

если у вас данные помещаются на одной машине аналитика, то скорее всего вам не нужен спарк и т.д., хотя возможно использование его даст прирост по скорости (в сравнении с pandas) https://databricks.com/blog/2018/05/03/benchmarking-apache-spark-on-a-single-node-machine.html

спасибо!

Stanislav

01.08.2018
14:25:51

Ну так то для склена есть драйвер для спарка от датабрикса

Daler

01.08.2018
15:14:47

Ну так то для склена есть драйвер для спарка от датабрикса

Поподробнее можно?

Andrey