
Andrey
24.09.2018
19:48:13

Ruslan
24.09.2018
20:02:56
Ты для чего json на hdfs кидаешь? И зачем вообще json кладёшь? Даже если ты спарком будешь что-то агрегировать, тебе в какой-то момент потребуется либо много памяти либо, скидывать промежуточный итог на hdfs.

Евгений
24.09.2018
20:12:49
кастомные партиции можно, индекс врядли
Ну, индекс можно и самому наколхозить - делаем репартишен по полю с кастомным индексом, кешируем, а дальше фильтруем where spark_partition_id = get_index(key)

Andrey
24.09.2018
20:18:36
наколхозить можно много чего, помню было пару раз использование блумфильтра в бродкасте

Google

Eldar
25.09.2018
08:55:37
Господа, доборый день, вопросы по kafka тут будут уместны?

Старый
25.09.2018
08:55:57

Eldar
25.09.2018
08:57:46
Отлично, вопрос следующий. Из кафки я получил сообщение, но не отправил ack. Пока я обрабатывал сообщение мне пришло новое сообщение с этим же ключем. Каковы в этом случае действия кафки?

_
25.09.2018
08:59:55
Для кафки это просто новое сообщение

Eldar
25.09.2018
09:00:27
почему? ведь там же есть механизм дедуплекации

_
25.09.2018
09:00:49
Ключ может использоваться твоим приложением и механизмом дедупликации

Oleksandr
25.09.2018
09:01:59

_
25.09.2018
09:02:10
Дедупликация - это опциональная настройка топика, по умолчанию не применяется

Eldar
25.09.2018
09:02:23
у меня она включена

_
25.09.2018
09:04:55

Старый
25.09.2018
09:05:43

Eldar
25.09.2018
09:06:06
ну потому что я сообщение из кафки должен записать в эластик

_
25.09.2018
09:06:12

Google

Eldar
25.09.2018
09:06:17
а в эластик оно может не записаться
через кафку приходят записи, которые были обновлены. Поэтому я хочу записывать только свежие сообщения. Для этого я использую дедупликацию. Но проблема в том, что если одна запись долго не записывается, а ack не послан, то в это время может прийти обновленная эта же запись и мне непонятно поведение кафки в этом случае.

Andrey
25.09.2018
09:11:08

Eldar
25.09.2018
09:11:39
Так же не понятно будет ли заблокирована партиция в которой лежало сообщение или же все партиции. Если только одна, то по идее в этом случае все последующие сообщения не будут закоммичены в рамках одной группы

_
25.09.2018
09:11:48

Andrey
25.09.2018
09:27:09

Eldar
25.09.2018
09:27:48

Oleg
25.09.2018
09:28:52
Примерно так. Здесь уже добавил repartition и cache

Andrey
25.09.2018
09:30:06
осталось теперь понять, где тормозит , на какой стадии, это не BatchPythonEvaluation?

_
25.09.2018
09:35:26

Oleg
25.09.2018
09:37:55

Andrey
25.09.2018
09:40:11
зависит от нагрузки, сколько ядер приходится, сколько данных (партиций) на экзекутере и т.д.
и хватит ли памяти на каждый экзекютер

Oleg
25.09.2018
10:52:04
я выделил 30 экзекъюторов по 6 гигов и 2 ядра
пошло побыстрее
В теории таких экзекъюторов можно сделать и 100+, но мне как-то стремно отъедать все ресурсы кластера на одну задачу.

Stanislav
25.09.2018
11:01:16

Nikita Blagodarnyy
25.09.2018
11:44:31

Alexander
25.09.2018
12:14:26

Google

Oleg
25.09.2018
12:16:52
Почему стремно?
ну это не самый важный процесс, есть другие более важные, которые в это время работают. Не хотелось бы их сильно ущимлять)

Alexander
25.09.2018
12:22:27

Oleg
25.09.2018
12:24:17
Yarn
в клиент моде

Alexander
25.09.2018
12:26:18
При запуске Spark можно указать конкретную очередь YARN, в рамках которой он будет выполняться. Остальные ресурсы в рамках остальных очередей будут доступны.

Oleg
25.09.2018
12:26:21
--master yarn --deploy-mode client --executor-memory 4g --executor-cores 2 --conf spark.ui.enabled=true --queue airflow-py-spark --conf spark.shuffle.service.enabled=true --conf spark.dynamicAllocation.enabled=true --conf spark.dynamicAllocation.maxExecutors=60
С такими опциями запускаю

Nikita Blagodarnyy
25.09.2018
12:28:21

Oleg
25.09.2018
12:29:52

Alexander
25.09.2018
12:31:06

Nikita Blagodarnyy
25.09.2018
12:32:26

Oleg
25.09.2018
12:33:51

Nikita Blagodarnyy
25.09.2018
12:34:04
Часто даже в ходе исполнения в очереди 1.

Stanislav
25.09.2018
12:36:00

Oleg
25.09.2018
12:36:18
без ограничения сверхну?

Stanislav
25.09.2018
12:37:00
Можно и без ограничения. Для отладки этого хватит
Смотри скорость выполнения кода. Может получится так, что увеличение контейнеров не даёт никакого эффекта. Тогда ты упёрся в драйаео
Драйвер

Alexander
25.09.2018
12:38:31

Google

Рамиль
25.09.2018
12:40:01

Nikita Blagodarnyy
25.09.2018
12:40:29
Wat
Почему не имеет смысла ?

Рамиль
25.09.2018
12:40:50
когда ты не можешь предсказать когда на какой очереди будет больше нагрузка…

Alexander
25.09.2018
12:46:40
когда ты не можешь предсказать когда на какой очереди будет больше нагрузка…
В данном случае ты хочешь гарантировать, что часть кластера останется кому-то еще. После этого Spark получает ресурсы в рамках очереди.
В общем случае, ты можешь выставишь повышающий коэффициент, как сказал Рамиль. Если ты хочешь дальше нарезать на вложенные очереди, то там пожалуйста. Хотя можно пользоваться эластичностью.

Oleg
25.09.2018
12:53:13

Старый
25.09.2018
15:04:10
E3-1230V6 под хадуп через blade кто пробовал?

Stanislav
25.09.2018
15:13:35

Старый
25.09.2018
15:17:23
я вот пытаюсь отговорить
как мне заявили у 8 1230v6 будет больше ядер и выше частота чем у gold 5120

Artem
25.09.2018
16:26:31
Ищу экспертов на образовательную программу по дата инжинирингу, которые могли бы рассказать, как готовить под разные кейсы следующие инструменты:
- Sphinx
- PostgreSQL
- Sqoop
- Druid
- Flink
- Lambda и kappa-архитектура (вводное занятие).
Может быть, здесь есть желающие. Преподавание оплачивается. Условия, подробности в личку.

Stanislav
25.09.2018
18:40:15

Старый
25.09.2018
18:41:41
программисты предлагают 64 гб оперативы 1230v6, и 2 hdd на 3,5 и 7200 на 10 тб
и это делать блейдами
сначала 4 тб хотят протестить а лучше сразу 10
я же говорю что это всё идиотизм, надо 2,5 сас диски по 10к рпм и 1,8 тб
с голдами 5120 и 256 гб оперативы

Google

Евгений
25.09.2018
20:27:55
V6 можно взять 20 штук за цену вашего голда одного)
Нужно БОЛЬШЕ VCORE
Я за программистов?
Фуфло эти сас диски, если всё упирается в то, что в ярне не хватает коров)
Единственный вопрос в том, что будет больше серверов, а значит больше стоек, но это не вопрос, если есть, куда ставить)

Andrey
25.09.2018
20:32:15
Тогда надо брать процы от амд

Евгений
25.09.2018
20:32:30
Не, ну не до такой же степени)
Хотя не, 2 диска по 10тб - это грустно, лучше хотя бы 6 дисков по 4тб

Andrey
25.09.2018
20:36:01
https://blog.selectel.com/amd-vs-intel-comparative-benchmarks/
тут по тестам не так все плохо у амд

Александр
25.09.2018
23:20:38

Евгений
25.09.2018
23:24:30
Жизненный опыт?
не, к сожалению, не довелось нигде пощупать серверные процы от амд, очень даже может быть, что они топчик, а все зря на них гонят