@hadoopusers

Страница 95 из 182
Grigory
19.04.2018
14:25:50
%)

Danylo
21.04.2018
07:07:46
Добрый день. Нужен консультант с хорошим опытом по построению инфраструктуры по сбору и предобоботке данных. Оплата договорная. Писать в личку.

Akceptor
23.04.2018
06:47:07
Опять вопрос по скапку. Считаем медиану и всякую прочую статистику. Спарк 2.0.1 и скажем 2.1.1 считают по-разному как-то, на тех же данных результат отличается. В какую сторону копать? Добавили может какую-то пропертю. меняющую поведение по-умолчанию?

Grigory
23.04.2018
11:12:13
спарк 2.0 имел точно баги в функции approxQuantile

Google
Grigory
23.04.2018
11:12:18
он просто не правильно считал

хотя вроде то о чем я гоорвю было пофикшено в 2.0.1 какие точно функции не так ведут себя?

Tsh
23.04.2018
11:28:26
Известная проблема Спарк мл: они имплементируют какие то специфические реализации алгоритмов, частные случаи

Лучше копать в Мейл листе спаркп

Akceptor
23.04.2018
12:05:52
хотя вроде то о чем я гоорвю было пофикшено в 2.0.1 какие точно функции не так ведут себя?
не уверен какие точно, попросили посмотреть почему после апдейта версии либ тесты упали. разбрираюсь )

Grigory
24.04.2018
11:01:00
Слайды с Moscow Spark #4 выложил сюда https://goo.gl/ah69v8 Запись доступна здесь https://www.facebook.com/afishamansarda/videos/1957501457607230/

? ? ? ? ?
25.04.2018
09:45:56
How to find top2 salary in hive using over clause In top2 I have duplicates too

ドミトリー・フランク
26.04.2018
04:00:06
Привет парни, у кого-нибудь был опыт работы с Minio и Spark пытаюсь выгрузить из спарка d.coalesce(1).write \ .mode('overwrite') \ .format('com.databricks.spark.avro') \ .save('s3a://export/out') получаю в логах Minio: API: HeadObject(bucket=export, object=out/_temporary/0) Time: 02:46:55 UTC 04/26/2018 RemoteHost: 172.17.0.3:32922 UserAgent: aws-sdk-java/1.7.4 Linux/4.4.0-119-generic OpenJDK_64-Bit_Server_VM/25.162-b12/1.8.0_162 Error: stat /data/export/out/_temporary/0: no such file or directory 1: cmd/fs-v1-helpers.go:166:cmd.fsStat() 2: cmd/fs-v1-helpers.go:218:cmd.fsStatDir() 3: cmd/fs-v1.go:528:cmd.(*FSObjects).getObjectInfo() в логах Spark: 18-04-26 03:42:50 INFO CodeGenerator:54 - Code generated in 34.28899 ms 2018-04-26 03:42:50 ERROR Utils:91 - Aborting task com.amazonaws.AmazonClientException: Unable to complete transfer: null at com.amazonaws.services.s3.transfer.internal.AbstractTransfer.unwrapExecutionException(AbstractTransfer.java:300) at com.amazonaws.services.s3.transfer.internal.AbstractTransfer.rethrowExecutionException(AbstractTransfer.java:284) at com.amazonaws.services.s3.transfer.internal.UploadImpl.waitForUploadResult(UploadImpl.java:70) at org.apache.hadoop.fs.s3a.S3AOutputStream.close(S3AOutputStream.java:131) at org.apache.hadoop.fs.FSDataOutputStream$PositionCache.close(FSDataOutputStream.java:72) at org.apache.hadoop.fs.FSDataOutputStream.close(FSDataOutputStream.java:106) at java.io.FilterOutputStream.close(FilterOutputStream.java:159) at java.io.FilterOutputStream.close(FilterOutputStream.java:159) at org.apache.avro.file.DataFileWriter.close(DataFileWriter.java:434) at org.apache.avro.mapreduce.AvroKeyRecordWriter.close(AvroKeyRecordWriter.java:83) at com.databricks.spark.avro.AvroOutputWriter.close(AvroOutputWriter.scala:84) at org.apache.spark.sql.execution.datasources.FileFormatWriter$SingleDirectoryWriteTask.releaseResources(FileFormatWriter.scala:405) at org.apache.spark.sql.execution.datasources.FileFormatWriter$SingleDirectoryWriteTask.execute(FileFormatWriter.scala:396) at org.apache.spark.sql.execution.datasources.FileFormatWriter$$anonfun$org$apache$spark$sql$execution$datasources$FileFormatWriter$$executeTask$3.apply(FileFormatWriter.scala:269) at org.apache.spark.sql.execution.datasources.FileFormatWriter$$anonfun$org$apache$spark$sql$execution$datasources$FileFormatWriter$$executeTask$3.apply(FileFormatWriter.scala:267) at org.apache.spark.util.Utils$.tryWithSafeFinallyAndFailureCallbacks(Utils.scala:1411) at org.apache.spark.sql.execution.datasources.FileFormatWriter$.org$apache$spark$sql$execution$datasources$FileFormatWriter$$executeTask(FileFormatWriter.scala:272) at org.apache.spark.sql.execution.datasources.FileFormatWriter$$anonfun$write$1.apply(FileFormatWriter.scala:197) at org.apache.spark.sql.execution.datasources.FileFormatWriter$$anonfun$write$1.apply(FileFormatWriter.scala:196) at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:87) at org.apache.spark.scheduler.Task.run(Task.scala:109) at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:345) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624) at java.lang.Thread.run(Thread.java:748) Caused by: java.lang.NullPointerException - все сервисы в докер контейнерах - для чистоты эксперимента написал скрипт с Python клиентом и записью в Minio - > Success - попробовал aws cli s3 tool и запись , чтение из/в Minio -> Success

Так запускаю: spark-submit --deploy-mode client --packages com.databricks:spark-avro_2.11:4.0.0,org.apache.hadoop:hadoop-aws:2.7.3,com.amazonaws:aws-java-sdk:1.7.4,com.amazonaws:aws-java-sdk-s3:1.11.317 --conf spark.eventLog.enabled=false --driver-memory 8g --num-executors 1 --executor-memory 8g $BASE_DIR/benchmark.py естественно на бакет выданы полиси на запись

KrivdaAllStars
26.04.2018
05:05:01
https://www.oreilly.com/ideas/how-to-run-a-custom-version-of-spark-on-hosted-kubernetes?utm_medium=email&utm_source=optin&utm_campaign=awareness&utm_content=20180425+data+nl&mkt_tok=eyJpIjoiTmpreFlqYzFZakU0WkdSaCIsInQiOiIzMEpFbXZVZ2g5Q3RGNlN1ZmRYazFFTzJtZHBxc1VMUG1wZGRrZ1RPQkMwUU92WTloUXMxV3E2SWtIem1JMnFHcFwvZDFMb2FHZ0Z4VG1TbERCc1Awd0pYd09JemNNclNPcEtvd0txMHlvUmZlYUZHT0hJVXpSYnRlMW1SY3RCcloifQ%3D%3D

Sergey
26.04.2018
12:08:09
коллеги! подскажите, кто использует Zeppelin для работы с данными? шибко сыро или уже можно отдать сатанистам в продуктив?

Eduard
26.04.2018
12:09:13
Работает себе

Google
Dmitry
26.04.2018
12:09:15
я использую

кривовато, косовато, требует правильный напильник, но в целом работает

Eduard
26.04.2018
12:09:56
А прод это кому? ) Они тебе из hdfs сотрут все)

Dmitry
26.04.2018
12:10:16
если будешь 1 работать - то всё хорошо.. если захочешь не один, и доменную авторизацию, и автоматические группы через ярн - то с напильником

Eduard
26.04.2018
12:10:55
Я пользую из комплекта EMR, все пучком, но без всякого разграничения доступа

Sergey
26.04.2018
12:11:47
А прод это кому? ) Они тебе из hdfs сотрут все)
привет! как ты там? ;) напрямую к HDFS не пускаю. через интерфейс в виде OracleBDS, внутри BDS прописаны права только на select

Eduard
26.04.2018
12:12:22
Я пучком, А в зепелине какой модуль хочешь? SQL?

Я его еще на локальной машинке для спарк разаработки в докере поднял

Sergey
26.04.2018
12:13:08
если будешь 1 работать - то всё хорошо.. если захочешь не один, и доменную авторизацию, и автоматические группы через ярн - то с напильником
не один, 7 человек минимум. авторизация через shiro с конкретными логинами-паролями. настроил изоляцию процессов для python-интерпрератора (у нас сатанисты только с питоном пока работают)

Eduard
26.04.2018
12:13:57
Ну я в такие дебри не лазил, извинити)

Sergey
26.04.2018
12:16:21
а может кто подскажет тогда: я впихнул Цеппелин как сервис внутрь Клаудеры, задал лимиты по памяти через cgroups когда ноутбук сатаниста выжирает лимит памяти - процесс питон-интерпретатора убивается т.к. для питон-интерпрератора настроен режим isolated - остальные ноутбуки и остальные сатанисты работают нормально но что делать с ноутбуком, чей процесс был убит? как рестартануть для него процесс не рестартуя весь интерпретатор???

Dmitry
26.04.2018
12:22:54
вот кстати хороший вопрос... насчет питона не уверен, я его там не настраивал, для спарка пришлось: 1. включить User Impersonate + per user + isolated 2. допилить скрипт, стартующий интерпреттер только тогда чтото начало работать, но и то, как то кривовато

Sergey
26.04.2018
12:23:41
что значит "начало работать"? как это в интерфейсе для пользователя выглядит?

Dmitry
26.04.2018
12:25:06
в интерфейсе - у каждого свой инстанс интерпреттера, в ярне у каждого свой пул, если я запускаю расчет - ктото еще тоже может его запустить паралельно, запустится 2-3-5-10 интерпреттеров, и соответствующее к-во джобов в ярне

но вот ПЕРЕЗАПУСК интерпреттера в случае какого то факапа - это боль

я еще не нашел как его красиво можно рестартануть...

хотя если честно - искал не сильно долго, всё времени не хватает

боль в плане - что он перезапускает интерпреттеры у всех юзеров...

Sergey
26.04.2018
12:26:26
во-во-во! этого-то и хочется избежать

воркэраунд с клонированием ноутбуков совсем нелепый

Google
Dmitry
26.04.2018
12:30:56


Sergey
26.04.2018
12:32:45
с удовольствием поглядел бы! в свою очередь могу поделиться своим CSD для Цеппелина с упором на python

Andrey
26.04.2018
14:09:04
@ShmyglevDmitry , @ssheremeta давайте делитесь

Dmitry
26.04.2018
14:09:42
только CSDшки требуют работы напильником, код так и не выверил

Andrey
26.04.2018
14:10:13
пожалуйста
Спасибо огромное!

Спасибо!

Polina
26.04.2018
15:25:32
Всем привет! Кто-то использует pig 16.0? Используете ли вы tez?

Alexander
26.04.2018
15:51:03
не один, 7 человек минимум. авторизация через shiro с конкретными логинами-паролями. настроил изоляцию процессов для python-интерпрератора (у нас сатанисты только с питоном пока работают)
+ if you plan to use Zeppelin in kerberized environment it may require Livy interpreter for user impersonation in front of the Spark. From the user perspective there are no differences because Livy's machinery is behind the scenes.

Sergey
26.04.2018
15:52:00
спасибо, мне пока хватает голого питона

Alexander
26.04.2018
16:05:54
+ if you plan to use Zeppelin in kerberized environment it may require Livy interpreter for user impersonation in front of the Spark. From the user perspective there are no differences because Livy's machinery is behind the scenes.
+ could be integrated with third-party LDAP for user management. It could be tricky if LDAP not complies with the Zeppelin requirements e.g. we had to make a proxy microservice to transform requests.

Sergei
26.04.2018
16:19:53
1) SSO не работает в Zeppelin 0.7.3, такая возможность появится в 0.8.0 2) Zeppelin может иметь проблемы при интеграции с корпоративным LDAP/AD, он использует либу Shiro и не всегда ее можно настроить корректно, особенно если LDAP DN не содержит идентификтора пользователя, с короым он логинится в веб-морду (такое бывает) 3) Для Zeppelin все же рекомендуется пользоваться Livy / Livy2, вместо прямого использования spark-интерпретатора, по крайней мере если дата-сайнтистов > 1, и хочется иметь какой-то impersonation.

sherzod
26.04.2018
17:24:05
Polina
26.04.2018
18:18:59
Понятно что он страшный)

Svyatoslav
26.04.2018
19:56:10
Коллеги, добрый вечер! Как бы получить heap dump приложения запущенного в hadoop через yarn?

Svyatoslav
26.04.2018
21:05:05
Зайти на конкретную ноду и jmap -dump.....?
Нет, наверное. История в том, что падают некоторые flink джобы в произвольный момент времени

Dmitry
26.04.2018
21:05:31
Падают с оом?

Или как?

Google
Svyatoslav
26.04.2018
21:06:15
java.lang.OutOfMemoryError: GC overhead limit exceeded

Например

Roman
26.04.2018
21:45:52
-XX:+HeapDumpOnOutOfMemoryError не поможет?

Svyatoslav
26.04.2018
21:58:17
Поможет, но вопрос как этот дамп закинуть в hdfs, чтоб потом оттуда забрать

Daniel
27.04.2018
03:49:26
руками, поэтому хдфс не нужен

сразу скачать с ноды

KrivdaAllStars
27.04.2018
06:28:20
Cron 2.0

Vasiliy
27.04.2018
09:41:35
Гайз

Need help

Гугл не очень помогает

При обращении через sql запрос к бд на кластере вылезает ошибка: an error occurred while calling o2853.showsrting



Вот запросик

Таблица есть, бд есть, через show tables видна все таблицы в ней. Какие-то удаётся поселектить

Страница 95 из 182