
Grigory
19.04.2018
14:25:50
%)

Danylo
21.04.2018
07:07:46
Добрый день. Нужен консультант с хорошим опытом по построению инфраструктуры по сбору и предобоботке данных. Оплата договорная. Писать в личку.

Akceptor
23.04.2018
06:47:07
Опять вопрос по скапку. Считаем медиану и всякую прочую статистику. Спарк 2.0.1 и скажем 2.1.1 считают по-разному как-то, на тех же данных результат отличается. В какую сторону копать? Добавили может какую-то пропертю. меняющую поведение по-умолчанию?

Grigory
23.04.2018
11:12:13
спарк 2.0 имел точно баги в функции approxQuantile

Google

Grigory
23.04.2018
11:12:18
он просто не правильно считал
хотя вроде то о чем я гоорвю было пофикшено в 2.0.1
какие точно функции не так ведут себя?

Tsh
23.04.2018
11:28:26
Известная проблема Спарк мл: они имплементируют какие то специфические реализации алгоритмов, частные случаи
Лучше копать в Мейл листе спаркп

Akceptor
23.04.2018
12:05:52

Grigory
24.04.2018
11:01:00
Слайды с Moscow Spark #4 выложил сюда https://goo.gl/ah69v8
Запись доступна здесь https://www.facebook.com/afishamansarda/videos/1957501457607230/

? ? ? ? ?
25.04.2018
09:45:56
How to find top2 salary in hive using over clause
In top2 I have duplicates too


ドミトリー・フランク
26.04.2018
04:00:06
Привет
парни, у кого-нибудь был опыт работы с Minio и Spark
пытаюсь выгрузить из спарка
d.coalesce(1).write \
.mode('overwrite') \
.format('com.databricks.spark.avro') \
.save('s3a://export/out')
получаю в логах Minio:
API: HeadObject(bucket=export, object=out/_temporary/0)
Time: 02:46:55 UTC 04/26/2018
RemoteHost: 172.17.0.3:32922
UserAgent: aws-sdk-java/1.7.4 Linux/4.4.0-119-generic OpenJDK_64-Bit_Server_VM/25.162-b12/1.8.0_162
Error: stat /data/export/out/_temporary/0: no such file or directory
1: cmd/fs-v1-helpers.go:166:cmd.fsStat()
2: cmd/fs-v1-helpers.go:218:cmd.fsStatDir()
3: cmd/fs-v1.go:528:cmd.(*FSObjects).getObjectInfo()
в логах Spark:
18-04-26 03:42:50 INFO CodeGenerator:54 - Code generated in 34.28899 ms
2018-04-26 03:42:50 ERROR Utils:91 - Aborting task
com.amazonaws.AmazonClientException: Unable to complete transfer: null
at com.amazonaws.services.s3.transfer.internal.AbstractTransfer.unwrapExecutionException(AbstractTransfer.java:300)
at com.amazonaws.services.s3.transfer.internal.AbstractTransfer.rethrowExecutionException(AbstractTransfer.java:284)
at com.amazonaws.services.s3.transfer.internal.UploadImpl.waitForUploadResult(UploadImpl.java:70)
at org.apache.hadoop.fs.s3a.S3AOutputStream.close(S3AOutputStream.java:131)
at org.apache.hadoop.fs.FSDataOutputStream$PositionCache.close(FSDataOutputStream.java:72)
at org.apache.hadoop.fs.FSDataOutputStream.close(FSDataOutputStream.java:106)
at java.io.FilterOutputStream.close(FilterOutputStream.java:159)
at java.io.FilterOutputStream.close(FilterOutputStream.java:159)
at org.apache.avro.file.DataFileWriter.close(DataFileWriter.java:434)
at org.apache.avro.mapreduce.AvroKeyRecordWriter.close(AvroKeyRecordWriter.java:83)
at com.databricks.spark.avro.AvroOutputWriter.close(AvroOutputWriter.scala:84)
at org.apache.spark.sql.execution.datasources.FileFormatWriter$SingleDirectoryWriteTask.releaseResources(FileFormatWriter.scala:405)
at org.apache.spark.sql.execution.datasources.FileFormatWriter$SingleDirectoryWriteTask.execute(FileFormatWriter.scala:396)
at org.apache.spark.sql.execution.datasources.FileFormatWriter$$anonfun$org$apache$spark$sql$execution$datasources$FileFormatWriter$$executeTask$3.apply(FileFormatWriter.scala:269)
at org.apache.spark.sql.execution.datasources.FileFormatWriter$$anonfun$org$apache$spark$sql$execution$datasources$FileFormatWriter$$executeTask$3.apply(FileFormatWriter.scala:267)
at org.apache.spark.util.Utils$.tryWithSafeFinallyAndFailureCallbacks(Utils.scala:1411)
at org.apache.spark.sql.execution.datasources.FileFormatWriter$.org$apache$spark$sql$execution$datasources$FileFormatWriter$$executeTask(FileFormatWriter.scala:272)
at org.apache.spark.sql.execution.datasources.FileFormatWriter$$anonfun$write$1.apply(FileFormatWriter.scala:197)
at org.apache.spark.sql.execution.datasources.FileFormatWriter$$anonfun$write$1.apply(FileFormatWriter.scala:196)
at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:87)
at org.apache.spark.scheduler.Task.run(Task.scala:109)
at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:345)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
at java.lang.Thread.run(Thread.java:748)
Caused by: java.lang.NullPointerException
- все сервисы в докер контейнерах
- для чистоты эксперимента написал скрипт с Python клиентом и записью в Minio - > Success
- попробовал aws cli s3 tool и запись , чтение из/в Minio -> Success
Так запускаю:
spark-submit --deploy-mode client --packages com.databricks:spark-avro_2.11:4.0.0,org.apache.hadoop:hadoop-aws:2.7.3,com.amazonaws:aws-java-sdk:1.7.4,com.amazonaws:aws-java-sdk-s3:1.11.317 --conf spark.eventLog.enabled=false --driver-memory 8g --num-executors 1 --executor-memory 8g $BASE_DIR/benchmark.py
естественно на бакет выданы полиси на запись


KrivdaAllStars
26.04.2018
05:05:01
https://www.oreilly.com/ideas/how-to-run-a-custom-version-of-spark-on-hosted-kubernetes?utm_medium=email&utm_source=optin&utm_campaign=awareness&utm_content=20180425+data+nl&mkt_tok=eyJpIjoiTmpreFlqYzFZakU0WkdSaCIsInQiOiIzMEpFbXZVZ2g5Q3RGNlN1ZmRYazFFTzJtZHBxc1VMUG1wZGRrZ1RPQkMwUU92WTloUXMxV3E2SWtIem1JMnFHcFwvZDFMb2FHZ0Z4VG1TbERCc1Awd0pYd09JemNNclNPcEtvd0txMHlvUmZlYUZHT0hJVXpSYnRlMW1SY3RCcloifQ%3D%3D

Sergey
26.04.2018
12:08:09
коллеги! подскажите, кто использует Zeppelin для работы с данными? шибко сыро или уже можно отдать сатанистам в продуктив?

Eduard
26.04.2018
12:09:13
Работает себе

Google

Dmitry
26.04.2018
12:09:15
я использую
кривовато, косовато, требует правильный напильник, но в целом работает

Eduard
26.04.2018
12:09:56
А прод это кому? ) Они тебе из hdfs сотрут все)

Dmitry
26.04.2018
12:10:16
если будешь 1 работать - то всё хорошо..
если захочешь не один, и доменную авторизацию, и автоматические группы через ярн - то с напильником

Eduard
26.04.2018
12:10:55
Я пользую из комплекта EMR, все пучком, но без всякого разграничения доступа

Sergey
26.04.2018
12:11:47

Eduard
26.04.2018
12:12:22
Я пучком,
А в зепелине какой модуль хочешь? SQL?
Я его еще на локальной машинке для спарк разаработки в докере поднял

Sergey
26.04.2018
12:13:08

Eduard
26.04.2018
12:13:57
Ну я в такие дебри не лазил, извинити)

Sergey
26.04.2018
12:16:21
а может кто подскажет тогда: я впихнул Цеппелин как сервис внутрь Клаудеры, задал лимиты по памяти через cgroups
когда ноутбук сатаниста выжирает лимит памяти - процесс питон-интерпретатора убивается
т.к. для питон-интерпрератора настроен режим isolated - остальные ноутбуки и остальные сатанисты работают нормально
но что делать с ноутбуком, чей процесс был убит? как рестартануть для него процесс не рестартуя весь интерпретатор???

Dmitry
26.04.2018
12:22:54
вот кстати хороший вопрос...
насчет питона не уверен, я его там не настраивал, для спарка пришлось:
1. включить User Impersonate + per user + isolated
2. допилить скрипт, стартующий интерпреттер
только тогда чтото начало работать, но и то, как то кривовато

Sergey
26.04.2018
12:23:41
что значит "начало работать"? как это в интерфейсе для пользователя выглядит?

Dmitry
26.04.2018
12:25:06
в интерфейсе - у каждого свой инстанс интерпреттера, в ярне у каждого свой пул, если я запускаю расчет - ктото еще тоже может его запустить паралельно, запустится 2-3-5-10 интерпреттеров, и соответствующее к-во джобов в ярне
но вот ПЕРЕЗАПУСК интерпреттера в случае какого то факапа - это боль
я еще не нашел как его красиво можно рестартануть...
хотя если честно - искал не сильно долго, всё времени не хватает
боль в плане - что он перезапускает интерпреттеры у всех юзеров...

Sergey
26.04.2018
12:26:26
во-во-во! этого-то и хочется избежать
воркэраунд с клонированием ноутбуков совсем нелепый

Google

Dmitry
26.04.2018
12:30:56

Sergey
26.04.2018
12:32:45
с удовольствием поглядел бы! в свою очередь могу поделиться своим CSD для Цеппелина с упором на python

Andrey
26.04.2018
14:09:04
@ShmyglevDmitry , @ssheremeta давайте делитесь

Dmitry
26.04.2018
14:09:42
только CSDшки требуют работы напильником, код так и не выверил

Andrey
26.04.2018
14:10:13
Спасибо!

Polina
26.04.2018
15:25:32
Всем привет! Кто-то использует pig 16.0? Используете ли вы tez?

Alexander
26.04.2018
15:51:03

Sergey
26.04.2018
15:52:00
спасибо, мне пока хватает голого питона

Alexander
26.04.2018
16:05:54


Sergei
26.04.2018
16:19:53
1) SSO не работает в Zeppelin 0.7.3, такая возможность появится в 0.8.0
2) Zeppelin может иметь проблемы при интеграции с корпоративным LDAP/AD, он использует либу Shiro и не всегда ее можно настроить корректно, особенно если LDAP DN не содержит идентификтора пользователя, с короым он логинится в веб-морду (такое бывает)
3) Для Zeppelin все же рекомендуется пользоваться Livy / Livy2, вместо прямого использования spark-интерпретатора, по крайней мере если дата-сайнтистов > 1, и хочется иметь какой-то impersonation.

Alexander
26.04.2018
16:25:00

sherzod
26.04.2018
17:24:05

Polina
26.04.2018
18:18:59
Понятно что он страшный)

Svyatoslav
26.04.2018
19:56:10
Коллеги, добрый вечер!
Как бы получить heap dump приложения запущенного в hadoop через yarn?

Dmitry
26.04.2018
21:04:10

Svyatoslav
26.04.2018
21:05:05

Dmitry
26.04.2018
21:05:31
Падают с оом?
Или как?

Google

Svyatoslav
26.04.2018
21:06:15
java.lang.OutOfMemoryError: GC overhead limit exceeded
Например

Roman
26.04.2018
21:45:52
-XX:+HeapDumpOnOutOfMemoryError не поможет?

Svyatoslav
26.04.2018
21:58:17
Поможет, но вопрос как этот дамп закинуть в hdfs, чтоб потом оттуда забрать

Daniel
27.04.2018
03:49:26
руками, поэтому хдфс не нужен
сразу скачать с ноды

Dmitry
27.04.2018
04:41:03

Dmitry
27.04.2018
06:27:46

KrivdaAllStars
27.04.2018
06:28:20
Cron 2.0

Vasiliy
27.04.2018
09:41:35
Гайз
Need help
Гугл не очень помогает
При обращении через sql запрос к бд на кластере вылезает ошибка: an error occurred while calling o2853.showsrting
Вот запросик
Таблица есть, бд есть, через show tables видна все таблицы в ней. Какие-то удаётся поселектить