@hadoopusers

Страница 122 из 182
Dmitry
31.07.2018
13:57:46
это CSD, там все скрипты..

Рамиль
31.07.2018
13:57:49
Как?
ну это если ты хочешь сам цепелин керберизовать

я думаю тебе это не нужно

если он не в кластере

Google
Pavel
31.07.2018
13:58:12
ну это если ты хочешь сам цепелин керберизовать
Ясно. Не думаю что в этом есть необходимость

Он не в кластере

Рамиль
31.07.2018
13:58:43
ну тогда забей попробуй для начала как я тебе скинул

Stan
31.07.2018
13:59:00
ща найду
Спасибо!

Рамиль
31.07.2018
13:59:05
ну разумеется сначала надо создать пользователя zeppelin в AD

да кстати команда для АД была

для мит керберос в гугле куча гайдов есть годных

Pavel
31.07.2018
14:00:05
Вроде уже нашел. У меня ad поэтому mit пока не нужен

Artyom
31.07.2018
15:00:53
Волна народу из Moscow Spark?

KrivdaAllStars
31.07.2018
15:02:59
Ой, скоро 700 человек

кто не знал

Срочно в номер! ? Apache Kafka 2.0 released! ?

Grigory
31.07.2018
18:40:59
Давай сводку апдуйтов

Google
Андрей
31.07.2018
20:02:12
Авиакомпаний
А кто нужен-то? Там всякие люди бывают :)

Pavel
01.08.2018
12:00:39
Привет. Подключить Zeppelin к Клуадера кластеру не получилось. Попробовал установить с юзером hdfs и его keytab. Что я сделал криво? Вот ошибки и скрин interpreter:

java.lang.ClassNotFoundException: org.apache.hadoop.security.UserGroupInformation$AuthenticationMethod at java.net.URLClassLoader.findClass(URLClassLoader.java:381) at java.lang.ClassLoader.loadClass(ClassLoader.java:424) at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:349) at java.lang.ClassLoader.loadClass(ClassLoader.java:357) at org.apache.zeppelin.jdbc.security.JDBCSecurityImpl.getAuthtype(JDBCSecurityImpl.java:73) at org.apache.zeppelin.jdbc.JDBCInterpreter.isKerboseEnabled(JDBCInterpreter.java:215) at org.apache.zeppelin.interpreter.KerberosInterpreter.open(KerberosInterpreter.java:64) at org.apache.zeppelin.jdbc.JDBCInterpreter.open(JDBCInterpreter.java:174) at org.apache.zeppelin.interpreter.LazyOpenInterpreter.open(LazyOpenInterpreter.java:69) at org.apache.zeppelin.interpreter.remote.RemoteInterpreterServer$InterpretJob.jobRun(RemoteInterpreterServer.java:617) at org.apache.zeppelin.scheduler.Job.run(Job.java:188) at org.apache.zeppelin.scheduler.ParallelScheduler$JobRunner.run(ParallelScheduler.java:162) at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511) at java.util.concurrent.FutureTask.run(FutureTask.java:266) at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$201(ScheduledThreadPoolExecutor.java:180) at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:293) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624) at java.lang.Thread.run(Thread.java:748)

Grigory
01.08.2018
12:14:30
java.lang.ClassNotFoundException: org.apache.hadoop.security.UserGroupInformation$AuthenticationMethod at java.net.URLClassLoader.findClass(URLClassLoader.java:381) at java.lang.ClassLoader.loadClass(ClassLoader.java:424) at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:349) at java.lang.ClassLoader.loadClass(ClassLoader.java:357) at org.apache.zeppelin.jdbc.security.JDBCSecurityImpl.getAuthtype(JDBCSecurityImpl.java:73) at org.apache.zeppelin.jdbc.JDBCInterpreter.isKerboseEnabled(JDBCInterpreter.java:215) at org.apache.zeppelin.interpreter.KerberosInterpreter.open(KerberosInterpreter.java:64) at org.apache.zeppelin.jdbc.JDBCInterpreter.open(JDBCInterpreter.java:174) at org.apache.zeppelin.interpreter.LazyOpenInterpreter.open(LazyOpenInterpreter.java:69) at org.apache.zeppelin.interpreter.remote.RemoteInterpreterServer$InterpretJob.jobRun(RemoteInterpreterServer.java:617) at org.apache.zeppelin.scheduler.Job.run(Job.java:188) at org.apache.zeppelin.scheduler.ParallelScheduler$JobRunner.run(ParallelScheduler.java:162) at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511) at java.util.concurrent.FutureTask.run(FutureTask.java:266) at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$201(ScheduledThreadPoolExecutor.java:180) at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:293) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624) at java.lang.Thread.run(Thread.java:748)
гуглится оно, джарников не хватает в класспасе у тебя

Рамиль
01.08.2018
12:38:39
java.lang.ClassNotFoundException: org.apache.hadoop.security.UserGroupInformation$AuthenticationMethod at java.net.URLClassLoader.findClass(URLClassLoader.java:381) at java.lang.ClassLoader.loadClass(ClassLoader.java:424) at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:349) at java.lang.ClassLoader.loadClass(ClassLoader.java:357) at org.apache.zeppelin.jdbc.security.JDBCSecurityImpl.getAuthtype(JDBCSecurityImpl.java:73) at org.apache.zeppelin.jdbc.JDBCInterpreter.isKerboseEnabled(JDBCInterpreter.java:215) at org.apache.zeppelin.interpreter.KerberosInterpreter.open(KerberosInterpreter.java:64) at org.apache.zeppelin.jdbc.JDBCInterpreter.open(JDBCInterpreter.java:174) at org.apache.zeppelin.interpreter.LazyOpenInterpreter.open(LazyOpenInterpreter.java:69) at org.apache.zeppelin.interpreter.remote.RemoteInterpreterServer$InterpretJob.jobRun(RemoteInterpreterServer.java:617) at org.apache.zeppelin.scheduler.Job.run(Job.java:188) at org.apache.zeppelin.scheduler.ParallelScheduler$JobRunner.run(ParallelScheduler.java:162) at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511) at java.util.concurrent.FutureTask.run(FutureTask.java:266) at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$201(ScheduledThreadPoolExecutor.java:180) at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:293) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624) at java.lang.Thread.run(Thread.java:748)
Так ты ведь вроде к спарку подключался, ты через JDBC туда коннектишься?

тогда у тебя скорее всего не хватает в цепелине библиотек под kerberos

Pavel
01.08.2018
12:39:05
Нет. К Импале

Рамиль
01.08.2018
12:42:18
но ты через JDBC идешь верно?

гуглится оно, джарников не хватает в класспасе у тебя
ну в общем да, Гриша прав. не хватает джарников в класпасе.

Pavel
01.08.2018
12:50:02
Через JDBC. Скачал последний драйвер клаудеры. Скопировал его в директорию Zeppelin .../jdbc. Может сам Цеппелин криво установлен (я его не устанаваливал)?

Рамиль
01.08.2018
12:52:46
Через JDBC. Скачал последний драйвер клаудеры. Скопировал его в директорию Zeppelin .../jdbc. Может сам Цеппелин криво установлен (я его не устанаваливал)?
класс про который ты пишешь, является классом hadoop'а в принципе, лежит обычно в папке hadoop-commons или как то так

там в общем для кербероса не один джарник нужен а порядка 10

Pavel
01.08.2018
12:54:32
Я в Цеппелин в interpreter записал в dependencies hadoop-common. В какую папку скопировать джары тогда?

Рамиль
01.08.2018
12:59:35
Я в Цеппелин в interpreter записал в dependencies hadoop-common. В какую папку скопировать джары тогда?
На вскидку не скажу, я так не делал. Я пользовал цепелин только в составе хортонворкса и давно.

Pavel
01.08.2018
13:00:34
То есть главная задача это прогуглить какие джары нужны для кербероса, а затес понять куда их скопировать?

Рамиль
01.08.2018
13:01:02
да

Pavel
01.08.2018
13:01:37
Есть какие то джары клаудеры? Я в документации не нашел

Sergey
01.08.2018
13:01:48
дяденьки, подскажите плз: если мне нужно в цеппелине вытащить данные по jdbc из той же импалы например и обработать в Питоне, то правильнее же все это делать внутри только питон- интерпретатора? если я задействую ещё и jdbc-интерпретатор, то памяти потрачу в 2 раза больше, верно?

Sergey
01.08.2018
13:06:49
много

Google
Sergey
01.08.2018
13:07:22
pyspark, pyodbc, cx_Oracle etc

иначе я буду тянуть все в jvm ноутбука, так?

Рамиль
01.08.2018
13:09:28
питон с jdbc паршиво работает
jdbc же вроде про яву вообще...

:)

Vladislav
01.08.2018
13:09:36
есть py4j

через него можно завести JDBC

Рамиль
01.08.2018
13:09:57
хотя там может быть какой нибудь jython

Vladislav
01.08.2018
13:10:10
я так хотел на оракл ходить, чтобы не зависить от клиента, в конечном счете плюнул и сделал через cx_Oracle

Alexander
01.08.2018
13:10:32
Python с JDBC сносно работает на не особо больших объемах, есть, как минимум, Py4J и JPype. В любом случае, этот или иной вариант реализации middleware связки Python и Java.

Stanislav
01.08.2018
13:12:11
А зачем в импалу так странно ходить вообще?

Sergey
01.08.2018
13:18:26
а как ходить в нее не странно?

Stanislav
01.08.2018
13:40:11
SparkContext/HiveContext, не?

Интересно, что быстрее

Sergey
01.08.2018
13:41:44
а если мои аналитики работают с питоном и его sclearn? где тут место спарку?

Андрей
01.08.2018
13:42:34
udf, например

ну или toPandas(), лол

Grigory
01.08.2018
13:43:33
ну или toPandas(), лол
по краю ходишь

Sergey
01.08.2018
13:43:41
поясните, пожалуйста

Google
Андрей
01.08.2018
13:43:46
по крайней плоти, можно сказать

Sergey
01.08.2018
13:57:59
ну, гигабайт 10 в виде пикла

в память питон-процесса влезает для локальной обработки

Stanislav
01.08.2018
13:59:15
Ясно. Тогда вопросов нет

Sergey
01.08.2018
13:59:49
прикольно... задал вопрос называется

не бейте, лучше обоссыте (с)

Alexander
01.08.2018
14:05:10
Ну так прочитать при помощи PySpark, преобразовать из Spark Data Frame во что-то подходящее для коллег и дальше Python.

Andrey
01.08.2018
14:08:10
не бейте, лучше обоссыте (с)
если у вас данные помещаются на одной машине аналитика, то скорее всего вам не нужен спарк и т.д., хотя возможно использование его даст прирост по скорости (в сравнении с pandas) https://databricks.com/blog/2018/05/03/benchmarking-apache-spark-on-a-single-node-machine.html

Stanislav
01.08.2018
14:25:51
Ну так то для склена есть драйвер для спарка от датабрикса

Stanislav
01.08.2018
16:01:58
Поподробнее можно?
Google it. Первая ссылка

Андрей
01.08.2018
18:54:51
Andrey
01.08.2018
19:09:19
Евгений
01.08.2018
19:10:48
спарк - это не молоток, это швейцарский нож. Можно конечно таскать с собой чемодан с инструментами, но зачем)

Страница 122 из 182