@hadoopusers

« Назад

Страница 95 из 182

Далее »

Grigory

19.04.2018
14:25:50

%)

Danylo

21.04.2018
07:07:46

Добрый день. Нужен консультант с хорошим опытом по построению инфраструктуры по сбору и предобоботке данных. Оплата договорная. Писать в личку.

Akceptor

23.04.2018
06:47:07

Опять вопрос по скапку. Считаем медиану и всякую прочую статистику. Спарк 2.0.1 и скажем 2.1.1 считают по-разному как-то, на тех же данных результат отличается. В какую сторону копать? Добавили может какую-то пропертю. меняющую поведение по-умолчанию?

Grigory

23.04.2018
11:12:13

спарк 2.0 имел точно баги в функции approxQuantile

Google

Grigory

23.04.2018
11:12:18

он просто не правильно считал

хотя вроде то о чем я гоорвю было пофикшено в 2.0.1 какие точно функции не так ведут себя?

Tsh

23.04.2018
11:28:26

Известная проблема Спарк мл: они имплементируют какие то специфические реализации алгоритмов, частные случаи

Лучше копать в Мейл листе спаркп

Akceptor

23.04.2018
12:05:52

Лучше копать в Мейл листе спаркп

ок. спс.

хотя вроде то о чем я гоорвю было пофикшено в 2.0.1 какие точно функции не так ведут себя?

не уверен какие точно, попросили посмотреть почему после апдейта версии либ тесты упали. разбрираюсь )

Grigory

24.04.2018
11:01:00

Слайды с Moscow Spark #4 выложил сюда https://goo.gl/ah69v8 Запись доступна здесь https://www.facebook.com/afishamansarda/videos/1957501457607230/

? ? ? ? ?

25.04.2018
09:45:56

How to find top2 salary in hive using over clause In top2 I have duplicates too

ドミトリー・フランク

26.04.2018
04:00:06

Привет парни, у кого-нибудь был опыт работы с Minio и Spark пытаюсь выгрузить из спарка d.coalesce(1).write \ .mode('overwrite') \ .format('com.databricks.spark.avro') \ .save('s3a://export/out') получаю в логах Minio: API: HeadObject(bucket=export, object=out/_temporary/0) Time: 02:46:55 UTC 04/26/2018 RemoteHost: 172.17.0.3:32922 UserAgent: aws-sdk-java/1.7.4 Linux/4.4.0-119-generic OpenJDK_64-Bit_Server_VM/25.162-b12/1.8.0_162 Error: stat /data/export/out/_temporary/0: no such file or directory 1: cmd/fs-v1-helpers.go:166:cmd.fsStat() 2: cmd/fs-v1-helpers.go:218:cmd.fsStatDir() 3: cmd/fs-v1.go:528:cmd.(*FSObjects).getObjectInfo() в логах Spark: 18-04-26 03:42:50 INFO CodeGenerator:54 - Code generated in 34.28899 ms 2018-04-26 03:42:50 ERROR Utils:91 - Aborting task com.amazonaws.AmazonClientException: Unable to complete transfer: null at com.amazonaws.services.s3.transfer.internal.AbstractTransfer.unwrapExecutionException(AbstractTransfer.java:300) at com.amazonaws.services.s3.transfer.internal.AbstractTransfer.rethrowExecutionException(AbstractTransfer.java:284) at com.amazonaws.services.s3.transfer.internal.UploadImpl.waitForUploadResult(UploadImpl.java:70) at org.apache.hadoop.fs.s3a.S3AOutputStream.close(S3AOutputStream.java:131) at org.apache.hadoop.fs.FSDataOutputStream$PositionCache.close(FSDataOutputStream.java:72) at org.apache.hadoop.fs.FSDataOutputStream.close(FSDataOutputStream.java:106) at java.io.FilterOutputStream.close(FilterOutputStream.java:159) at java.io.FilterOutputStream.close(FilterOutputStream.java:159) at org.apache.avro.file.DataFileWriter.close(DataFileWriter.java:434) at org.apache.avro.mapreduce.AvroKeyRecordWriter.close(AvroKeyRecordWriter.java:83) at com.databricks.spark.avro.AvroOutputWriter.close(AvroOutputWriter.scala:84) at org.apache.spark.sql.execution.datasources.FileFormatWriter$SingleDirectoryWriteTask.releaseResources(FileFormatWriter.scala:405) at org.apache.spark.sql.execution.datasources.FileFormatWriter$SingleDirectoryWriteTask.execute(FileFormatWriter.scala:396) at org.apache.spark.sql.execution.datasources.FileFormatWriter$$anonfun$org$apache$spark$sql$execution$datasources$FileFormatWriter$$executeTask$3.apply(FileFormatWriter.scala:269) at org.apache.spark.sql.execution.datasources.FileFormatWriter$$anonfun$org$apache$spark$sql$execution$datasources$FileFormatWriter$$executeTask$3.apply(FileFormatWriter.scala:267) at org.apache.spark.util.Utils$.tryWithSafeFinallyAndFailureCallbacks(Utils.scala:1411) at org.apache.spark.sql.execution.datasources.FileFormatWriter$.org$apache$spark$sql$execution$datasources$FileFormatWriter$$executeTask(FileFormatWriter.scala:272) at org.apache.spark.sql.execution.datasources.FileFormatWriter$$anonfun$write$1.apply(FileFormatWriter.scala:197) at org.apache.spark.sql.execution.datasources.FileFormatWriter$$anonfun$write$1.apply(FileFormatWriter.scala:196) at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:87) at org.apache.spark.scheduler.Task.run(Task.scala:109) at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:345) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624) at java.lang.Thread.run(Thread.java:748) Caused by: java.lang.NullPointerException - все сервисы в докер контейнерах - для чистоты эксперимента написал скрипт с Python клиентом и записью в Minio - > Success - попробовал aws cli s3 tool и запись , чтение из/в Minio -> Success

Так запускаю: spark-submit --deploy-mode client --packages com.databricks:spark-avro_2.11:4.0.0,org.apache.hadoop:hadoop-aws:2.7.3,com.amazonaws:aws-java-sdk:1.7.4,com.amazonaws:aws-java-sdk-s3:1.11.317 --conf spark.eventLog.enabled=false --driver-memory 8g --num-executors 1 --executor-memory 8g $BASE_DIR/benchmark.py естественно на бакет выданы полиси на запись

KrivdaAllStars

26.04.2018
05:05:01

https://www.oreilly.com/ideas/how-to-run-a-custom-version-of-spark-on-hosted-kubernetes?utm_medium=email&utm_source=optin&utm_campaign=awareness&utm_content=20180425+data+nl&mkt_tok=eyJpIjoiTmpreFlqYzFZakU0WkdSaCIsInQiOiIzMEpFbXZVZ2g5Q3RGNlN1ZmRYazFFTzJtZHBxc1VMUG1wZGRrZ1RPQkMwUU92WTloUXMxV3E2SWtIem1JMnFHcFwvZDFMb2FHZ0Z4VG1TbERCc1Awd0pYd09JemNNclNPcEtvd0txMHlvUmZlYUZHT0hJVXpSYnRlMW1SY3RCcloifQ%3D%3D

Sergey

26.04.2018
12:08:09

коллеги! подскажите, кто использует Zeppelin для работы с данными? шибко сыро или уже можно отдать сатанистам в продуктив?

Eduard

26.04.2018
12:09:13

Работает себе

Google

Dmitry

26.04.2018
12:09:15

я использую

кривовато, косовато, требует правильный напильник, но в целом работает

Eduard

26.04.2018
12:09:56

А прод это кому? ) Они тебе из hdfs сотрут все)

Dmitry

26.04.2018
12:10:16

если будешь 1 работать - то всё хорошо.. если захочешь не один, и доменную авторизацию, и автоматические группы через ярн - то с напильником

Eduard

26.04.2018
12:10:55

Я пользую из комплекта EMR, все пучком, но без всякого разграничения доступа

Sergey

26.04.2018
12:11:47

А прод это кому? ) Они тебе из hdfs сотрут все)

привет! как ты там? ;) напрямую к HDFS не пускаю. через интерфейс в виде OracleBDS, внутри BDS прописаны права только на select

Eduard

26.04.2018
12:12:22

Я пучком, А в зепелине какой модуль хочешь? SQL?

Я его еще на локальной машинке для спарк разаработки в докере поднял

Sergey

26.04.2018
12:13:08

если будешь 1 работать - то всё хорошо.. если захочешь не один, и доменную авторизацию, и автоматические группы через ярн - то с напильником

не один, 7 человек минимум. авторизация через shiro с конкретными логинами-паролями. настроил изоляцию процессов для python-интерпрератора (у нас сатанисты только с питоном пока работают)

Eduard

26.04.2018
12:13:57

Ну я в такие дебри не лазил, извинити)

Sergey

26.04.2018
12:16:21

а может кто подскажет тогда: я впихнул Цеппелин как сервис внутрь Клаудеры, задал лимиты по памяти через cgroups когда ноутбук сатаниста выжирает лимит памяти - процесс питон-интерпретатора убивается т.к. для питон-интерпрератора настроен режим isolated - остальные ноутбуки и остальные сатанисты работают нормально но что делать с ноутбуком, чей процесс был убит? как рестартануть для него процесс не рестартуя весь интерпретатор???

Dmitry

26.04.2018
12:22:54

вот кстати хороший вопрос... насчет питона не уверен, я его там не настраивал, для спарка пришлось: 1. включить User Impersonate + per user + isolated 2. допилить скрипт, стартующий интерпреттер только тогда чтото начало работать, но и то, как то кривовато

Sergey

26.04.2018
12:23:41

что значит "начало работать"? как это в интерфейсе для пользователя выглядит?

Dmitry

26.04.2018
12:25:06

в интерфейсе - у каждого свой инстанс интерпреттера, в ярне у каждого свой пул, если я запускаю расчет - ктото еще тоже может его запустить паралельно, запустится 2-3-5-10 интерпреттеров, и соответствующее к-во джобов в ярне

но вот ПЕРЕЗАПУСК интерпреттера в случае какого то факапа - это боль

я еще не нашел как его красиво можно рестартануть...

хотя если честно - искал не сильно долго, всё времени не хватает

боль в плане - что он перезапускает интерпреттеры у всех юзеров...

Sergey

26.04.2018
12:26:26

во-во-во! этого-то и хочется избежать

воркэраунд с клонированием ноутбуков совсем нелепый

Google

Dmitry

26.04.2018
12:30:56

Sergey

26.04.2018
12:32:45

с удовольствием поглядел бы! в свою очередь могу поделиться своим CSD для Цеппелина с упором на python

Andrey

26.04.2018
14:09:04

@ShmyglevDmitry , @ssheremeta давайте делитесь

Dmitry

26.04.2018
14:09:42

@ShmyglevDmitry , @ssheremeta давайте делитесь

пожалуйста

только CSDшки требуют работы напильником, код так и не выверил

Andrey

26.04.2018
14:10:13

пожалуйста

Спасибо огромное!

Спасибо!

Polina

26.04.2018
15:25:32

Всем привет! Кто-то использует pig 16.0? Используете ли вы tez?

Alexander

26.04.2018
15:51:03

не один, 7 человек минимум. авторизация через shiro с конкретными логинами-паролями. настроил изоляцию процессов для python-интерпрератора (у нас сатанисты только с питоном пока работают)

+ if you plan to use Zeppelin in kerberized environment it may require Livy interpreter for user impersonation in front of the Spark. From the user perspective there are no differences because Livy's machinery is behind the scenes.

Sergey

26.04.2018
15:52:00

спасибо, мне пока хватает голого питона

Alexander

26.04.2018
16:05:54

+ if you plan to use Zeppelin in kerberized environment it may require Livy interpreter for user impersonation in front of the Spark. From the user perspective there are no differences because Livy's machinery is behind the scenes.

+ could be integrated with third-party LDAP for user management. It could be tricky if LDAP not complies with the Zeppelin requirements e.g. we had to make a proxy microservice to transform requests.

Sergei

26.04.2018
16:19:53

1) SSO не работает в Zeppelin 0.7.3, такая возможность появится в 0.8.0 2) Zeppelin может иметь проблемы при интеграции с корпоративным LDAP/AD, он использует либу Shiro и не всегда ее можно настроить корректно, особенно если LDAP DN не содержит идентификтора пользователя, с короым он логинится в веб-морду (такое бывает) 3) Для Zeppelin все же рекомендуется пользоваться Livy / Livy2, вместо прямого использования spark-интерпретатора, по крайней мере если дата-сайнтистов > 1, и хочется иметь какой-то impersonation.

Alexander

26.04.2018
16:25:00

1) SSO не работает в Zeppelin 0.7.3, такая возможность появится в 0.8.0 2) Zeppelin может иметь проблемы при интеграции с корпоративным LDAP/AD, он использует либу Shiro и не всегда ее можно настроить корректно, особенно если LDAP DN не содержит идентификтора пользователя, с короым он логинится в веб-морду (такое бывает) 3) Для Zeppelin все же рекомендуется пользоваться Livy / Livy2, вместо прямого использования spark-интерпретатора, по крайней мере если дата-сайнтистов > 1, и хочется иметь какой-то impersonation.

+ if have additional questions about Hadoop and external auth systems integration, ask this dude ?

sherzod