
Dmitry
31.07.2018
13:57:46
это CSD, там все скрипты..

Рамиль
31.07.2018
13:57:49
Как?
ну это если ты хочешь сам цепелин керберизовать
я думаю тебе это не нужно
если он не в кластере

Google

Pavel
31.07.2018
13:58:12
Он не в кластере

Рамиль
31.07.2018
13:58:43
ну тогда забей попробуй для начала как я тебе скинул

Stan
31.07.2018
13:59:00

Рамиль
31.07.2018
13:59:05
ну разумеется сначала надо создать пользователя zeppelin в AD
да кстати команда для АД была
для мит керберос в гугле куча гайдов есть годных

Pavel
31.07.2018
14:00:05
Вроде уже нашел. У меня ad поэтому mit пока не нужен

Artyom
31.07.2018
15:00:53
Волна народу из Moscow Spark?

KrivdaAllStars
31.07.2018
15:02:59
Ой, скоро 700 человек
кто не знал
Срочно в номер!
? Apache Kafka 2.0 released! ?

Grigory
31.07.2018
18:40:59
Давай сводку апдуйтов

Google

Андрей
31.07.2018
20:02:12


Pavel
01.08.2018
12:00:39
Привет. Подключить Zeppelin к Клуадера кластеру не получилось. Попробовал установить с юзером hdfs и его keytab. Что я сделал криво? Вот ошибки и скрин interpreter:
java.lang.ClassNotFoundException: org.apache.hadoop.security.UserGroupInformation$AuthenticationMethod at java.net.URLClassLoader.findClass(URLClassLoader.java:381) at java.lang.ClassLoader.loadClass(ClassLoader.java:424) at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:349) at java.lang.ClassLoader.loadClass(ClassLoader.java:357) at org.apache.zeppelin.jdbc.security.JDBCSecurityImpl.getAuthtype(JDBCSecurityImpl.java:73) at org.apache.zeppelin.jdbc.JDBCInterpreter.isKerboseEnabled(JDBCInterpreter.java:215) at org.apache.zeppelin.interpreter.KerberosInterpreter.open(KerberosInterpreter.java:64) at org.apache.zeppelin.jdbc.JDBCInterpreter.open(JDBCInterpreter.java:174) at org.apache.zeppelin.interpreter.LazyOpenInterpreter.open(LazyOpenInterpreter.java:69) at org.apache.zeppelin.interpreter.remote.RemoteInterpreterServer$InterpretJob.jobRun(RemoteInterpreterServer.java:617) at org.apache.zeppelin.scheduler.Job.run(Job.java:188) at org.apache.zeppelin.scheduler.ParallelScheduler$JobRunner.run(ParallelScheduler.java:162) at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511) at java.util.concurrent.FutureTask.run(FutureTask.java:266) at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$201(ScheduledThreadPoolExecutor.java:180) at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:293) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624) at java.lang.Thread.run(Thread.java:748)


Grigory
01.08.2018
12:14:30


Рамиль
01.08.2018
12:38:39
тогда у тебя скорее всего не хватает в цепелине библиотек под kerberos


Pavel
01.08.2018
12:39:05
Нет. К Импале

Рамиль
01.08.2018
12:42:18
но ты через JDBC идешь верно?

Pavel
01.08.2018
12:50:02
Через JDBC. Скачал последний драйвер клаудеры. Скопировал его в директорию Zeppelin .../jdbc. Может сам Цеппелин криво установлен (я его не устанаваливал)?

Рамиль
01.08.2018
12:52:46
там в общем для кербероса не один джарник нужен а порядка 10

Pavel
01.08.2018
12:54:32
Я в Цеппелин в interpreter записал в dependencies hadoop-common. В какую папку скопировать джары тогда?

Рамиль
01.08.2018
12:59:35

Pavel
01.08.2018
13:00:34
То есть главная задача это прогуглить какие джары нужны для кербероса, а затес понять куда их скопировать?

Рамиль
01.08.2018
13:01:02
да

Pavel
01.08.2018
13:01:37
Есть какие то джары клаудеры? Я в документации не нашел

Sergey
01.08.2018
13:01:48
дяденьки, подскажите плз: если мне нужно в цеппелине вытащить данные по jdbc из той же импалы например и обработать в Питоне, то правильнее же все это делать внутри только питон- интерпретатора? если я задействую ещё и jdbc-интерпретатор, то памяти потрачу в 2 раза больше, верно?

Stanislav
01.08.2018
13:04:49

Sergey
01.08.2018
13:06:49
много

Google

Sergey
01.08.2018
13:07:22
pyspark, pyodbc, cx_Oracle etc
иначе я буду тянуть все в jvm ноутбука, так?

Vladislav
01.08.2018
13:08:36
хотя возможно я неправильно его готовил

Рамиль
01.08.2018
13:09:28
:)

Vladislav
01.08.2018
13:09:36
есть py4j
через него можно завести JDBC

Рамиль
01.08.2018
13:09:57
хотя там может быть какой нибудь jython

Vladislav
01.08.2018
13:10:10
я так хотел на оракл ходить, чтобы не зависить от клиента, в конечном счете плюнул и сделал через cx_Oracle

Alexander
01.08.2018
13:10:32
Python с JDBC сносно работает на не особо больших объемах, есть, как минимум, Py4J и JPype. В любом случае, этот или иной вариант реализации middleware связки Python и Java.

Stanislav
01.08.2018
13:12:11
А зачем в импалу так странно ходить вообще?

Sergey
01.08.2018
13:18:26
а как ходить в нее не странно?

Stanislav
01.08.2018
13:40:11
SparkContext/HiveContext, не?
Интересно, что быстрее

Sergey
01.08.2018
13:41:44
а если мои аналитики работают с питоном и его sclearn? где тут место спарку?

Андрей
01.08.2018
13:42:34
udf, например
ну или toPandas(), лол

Grigory
01.08.2018
13:43:33

Sergey
01.08.2018
13:43:41
поясните, пожалуйста

Google

Андрей
01.08.2018
13:43:46
по крайней плоти, можно сказать

Stanislav
01.08.2018
13:57:38

Sergey
01.08.2018
13:57:59
ну, гигабайт 10 в виде пикла
в память питон-процесса влезает для локальной обработки

Stanislav
01.08.2018
13:59:15
Ясно. Тогда вопросов нет

Sergey
01.08.2018
13:59:49
прикольно... задал вопрос называется
не бейте, лучше обоссыте (с)

Alexander
01.08.2018
14:05:10
Ну так прочитать при помощи PySpark, преобразовать из Spark Data Frame во что-то подходящее для коллег и дальше Python.

Andrey
01.08.2018
14:08:10
не бейте, лучше обоссыте (с)
если у вас данные помещаются на одной машине аналитика, то скорее всего вам не нужен спарк и т.д., хотя возможно использование его даст прирост по скорости (в сравнении с pandas)
https://databricks.com/blog/2018/05/03/benchmarking-apache-spark-on-a-single-node-machine.html

Sergey
01.08.2018
14:10:48

Stanislav
01.08.2018
14:25:51
Ну так то для склена есть драйвер для спарка от датабрикса

Daler
01.08.2018
15:14:47

Andrey
01.08.2018
15:33:50

Stanislav
01.08.2018
16:01:58

Андрей
01.08.2018
18:54:51

Евгений
01.08.2018
19:07:20

Andrey
01.08.2018
19:09:19

Евгений
01.08.2018
19:10:48
спарк - это не молоток, это швейцарский нож. Можно конечно таскать с собой чемодан с инструментами, но зачем)

Andrey
01.08.2018
19:17:58