
Dmitry
22.08.2018
08:34:04
приветствую! помогите с google dataproc, one node cluster, 8 vcpu. пытаюсь настроить thrift серврер под спарк
ставлю в /usr/lib/spark/conf/spark-defaults.conf
spark.dynamicAllocation.enabled false
spark.executor.cores 2
spark.executor.instances 3
рестартую thrift, вижу что spark sql через thrift запустил лишь 1 executor и тошнит лишь на 2 ядрах. ок, меняю
spark.executor.cores 6
spark.executor.instances 1
в spark ui вижу что 1 executor использовал 6 ядер, а в yarn ui Containers Running=2, VCores Used = 2. как так ? почему 2 vCores, если реально 6 ? и почему может не работать spark.executor.instances 3 ?

Евгений
22.08.2018
08:40:45
Может оперативы на второй и третий контейнеры не хватает?

Dmitry
22.08.2018
08:42:30
хорошая мысль. сейчас проверю. а почему ярн может считать что used 2 vcpu, а спарк уверен что у экзекутора 6 ?

Евгений
22.08.2018
08:42:50
Потому что не включён cpu scheduling

Google

Евгений
22.08.2018
08:42:54
В ярне
Он считает, как в хадупе, 1 контейнер - 1 ядро
Там всё разруливалось только размером оперативы
Почитайте про cgroups и всякую такую муть
В конфиге ярна есть несколько настроек, которые с этим связаны

Dmitry
22.08.2018
08:47:33
точно, памяти не хватало. вот спасибо. пойду читать про cgroups

Stanislav
22.08.2018
08:56:45
В зависимости от типа расчетов что-то может быть в приоритетах

Евгений
22.08.2018
09:03:24

Stanislav
22.08.2018
09:05:47
Да, но оно внутри там использует cgroups
Насколько я понимаю, нет. Есть отдельный конфиг использования контрольных групп. А есть просто расчет ресурсов под тачку исходя из количества текущих ресурсов. Грубо - есть 6 процессоров, больше 6 контейнеров по 1 цпу не даст планировщик.
В хортоне 2.6.4 это разные вещи, не смотря на наличие в конфиге включения сигрупп, они не работают ни в каком виде

Евгений
22.08.2018
09:07:24
У меня были некоторые проблемы с этими настройками из-за 7 версии редхата, был где-то баг репорт по этому поводу
Но наверно да, не связано друг с другом, просто баг на баге)

Google

Stanislav
22.08.2018
09:12:12
Аналогично. Для высоконагруженных кластеров игра наверное стоит свеч с цг. А так и ярн неплохо справляется

Andrey
22.08.2018
13:46:21
Что и куда надо скромить спарку 2.х, чтобы он писал хайвовые таблицы в кастомную директорию? spark.sql.warehouse.dir не помогает

Sergioss
22.08.2018
13:50:34

Mikhail
22.08.2018
13:51:27
Интересненько, можешь версии скинуть?

Sergioss
22.08.2018
13:51:41
можно вот так пофиксить,
<property>
<name>hbase.unsafe.stream.capability.enforce</name>
<value>false</value>
</property>
и потом новые траблы вылазят, но данный фейл пропадет)

Mikhail
22.08.2018
13:57:26
hadoop & hbase

Sergioss
22.08.2018
13:57:49
Ребята мож есть у кого книга по hadoop в fb2 ченить такое чтобы на мобилке удобно читать

Alexey
22.08.2018
16:23:51
Ну уж книгу в 2018 наверное как то получится в интернете найти. Интереснее было бы получить совет по поводу того какие книги норм, а какие слишком поверхностные/которые не рекомендуется читать по другой причине

Sergioss
22.08.2018
16:24:50
Примерно это я имел ввиду)

Stanislav
22.08.2018
16:44:18

Sergioss
22.08.2018
16:45:18
Я хочу понять как работает он) как раскладывает данные, как работает репликация, итд итп

Andrew
22.08.2018
16:49:19
Hadoop Definitive guide неплохая книжка

Sergioss
22.08.2018
16:49:58

Andrew
22.08.2018
16:50:12
Ну на вкус и цвет

Sergioss
22.08.2018
16:51:18
Угу, главное конечно формат для мобилы, но его видимо не найти

Stanislav
22.08.2018
16:52:32
Ты про hdfs? В документации есть. Очень хорошие статьи в блоге клаудеры

Sergioss
22.08.2018
16:54:08

Google

Sergioss
22.08.2018
16:54:50
Спасибо всем

Andrei
23.08.2018
06:06:53
https://www.piter.com/product/apache-kafka-potokovaya-obrabotka-i-analiz-dannyh
Утро в кафку датаны!
Кто-нибудь знает купит/скачать книгу в электрнонном виде не для google play (на сайте только такой вариант предлагает)?

Sergioss
23.08.2018
07:17:04

Andrei
23.08.2018
07:24:12

Sergioss
23.08.2018
07:24:37
Ну..в этой области не советчик=)

Andrei
23.08.2018
07:25:29
но на нем есть BlueStacks, как раз для подобных извращений

Sergioss
23.08.2018
07:27:41

Andrei
23.08.2018
07:28:34
и гейпадом

Sergioss
23.08.2018
07:28:55
Не смекнул сразу просто)

Oleksandr
23.08.2018
07:30:03

Sergey
23.08.2018
07:30:24
мне кажется, или стало много флуда?

Sergioss
23.08.2018
07:32:22

Oleksandr
23.08.2018
07:32:36
Не кажется.

Sergey
23.08.2018
07:34:29
в чате 717 человек, у многих этот чат не замьючен, подавляющее большинство - сутками вьебывает. и отвлекаться на какую-то ересь постоянно.... может будем уважительнее относиться к коллегам?

Andrey
23.08.2018
07:36:50
Товарищи, как в sbt test подпихнуть в спарк spark.driver.extraJavaOptions ?
хочется задать свой derby.system.home

Vadim
23.08.2018
08:30:00

Andrey
23.08.2018
08:32:26
javaOptions in Test +=..
пробовал, спарк ее гдето теряет во время работы. Решилось в итоге путем Test / javaOptions и Test / envVars одновременно

Google

Vadim
23.08.2018
08:32:50
а еще форк надо включить

Andrey
23.08.2018
08:33:11
да, форк включен тоже ?
спасибо

Sergey
23.08.2018
08:36:57
коллеги, поделитесь опытом - как сделать простенький CDC над Оракловыми таблицами в NiFi/MiNiFi ? первичных ключей нет, есть inserted_ts/updated_ts

agathis
23.08.2018
09:06:25

Sergey
23.08.2018
09:07:25
на выходе у меня будут FlowFile'ы с порциями оракловых данных в виде avro?

agathis
23.08.2018
09:13:20

Grigory
23.08.2018
09:24:19

Sergioss
23.08.2018
09:25:07

Stanislav
23.08.2018
09:45:57
Но есть стандартный конвертер авро-жсон

Mikhail
23.08.2018
10:38:03
а так писал) 3.1.1 hadoop 2.1.0 hbase
я удивился потому что в hdp hadoop 3.1.0 + hbase 2.0.1 всё работает https://docs.hortonworks.com/HDPDocuments/HDP3/HDP-3.0.0/release-notes/content/comp_versions.html

Sergioss
23.08.2018
10:39:24

Mikhail
23.08.2018
12:16:18
Привет, и сразу есть вопрос: почему в клаудере (5.15) для спарка не поднимается мастер порт (ставил спарк 2 из csd)? Или в не standalone моде он поднимается как-то иначе?
в доке не нашёл, в примерах написания приклада оно как бы есть
или теперь мой путь лежит в чатик по спарку?)

Grigory
23.08.2018
12:20:48
можешь конечно и там спросить но там теже рожи
тут были пользователи клаудеры, ответят

Google

Grigory
23.08.2018
12:23:33
но к слову я не припомню что бы у меня были пробелмы какието, правда я давно не пользовался клаудерой
что ты ожидаешь по 7077? не пингуется или что?
обычно через ярн пускается все там, на сколько понимаю
стартуешь джобы через ярн
тебе спарк кластер в привычном понимании стенделоун кластера вообще не нужен
сабмитишь все через ярн; ярн выделяет ресурсы

Mikhail
23.08.2018
12:25:48
ну оно без проблем разворачивает спарк, вешает на ноду роль history server, а вот больше я ничего с ним сделать не могу. Насколько я понял оно хочет жить исключительно через деплой приложения yarn'ом. Но это странно.

Grigory
23.08.2018
12:26:04
почему это странно? это продакшен мир спарка
стенделоун шедулером никто не пользуется обычно