@hadoopusers

Страница 149 из 182
Ruslan
24.09.2018
20:02:56
Ты для чего json на hdfs кидаешь? И зачем вообще json кладёшь? Даже если ты спарком будешь что-то агрегировать, тебе в какой-то момент потребуется либо много памяти либо, скидывать промежуточный итог на hdfs.

Евгений
24.09.2018
20:12:49
кастомные партиции можно, индекс врядли
Ну, индекс можно и самому наколхозить - делаем репартишен по полю с кастомным индексом, кешируем, а дальше фильтруем where spark_partition_id = get_index(key)

Andrey
24.09.2018
20:18:36
наколхозить можно много чего, помню было пару раз использование блумфильтра в бродкасте

Google
Eldar
25.09.2018
08:55:37
Господа, доборый день, вопросы по kafka тут будут уместны?

Eldar
25.09.2018
08:57:46
Отлично, вопрос следующий. Из кафки я получил сообщение, но не отправил ack. Пока я обрабатывал сообщение мне пришло новое сообщение с этим же ключем. Каковы в этом случае действия кафки?

_
25.09.2018
08:59:55
Для кафки это просто новое сообщение

Eldar
25.09.2018
09:00:27
почему? ведь там же есть механизм дедуплекации

_
25.09.2018
09:00:49
Ключ может использоваться твоим приложением и механизмом дедупликации

_
25.09.2018
09:02:10
Дедупликация - это опциональная настройка топика, по умолчанию не применяется

Eldar
25.09.2018
09:02:23
у меня она включена

_
25.09.2018
09:04:55
у меня она включена
Процесс дедубликации не гарантирует отсутствия дубликатов

Eldar
25.09.2018
09:06:06
ну потому что я сообщение из кафки должен записать в эластик

_
25.09.2018
09:06:12
Google
Eldar
25.09.2018
09:06:17
а в эластик оно может не записаться

через кафку приходят записи, которые были обновлены. Поэтому я хочу записывать только свежие сообщения. Для этого я использую дедупликацию. Но проблема в том, что если одна запись долго не записывается, а ack не послан, то в это время может прийти обновленная эта же запись и мне непонятно поведение кафки в этом случае.

Andrey
25.09.2018
09:11:08
Eldar
25.09.2018
09:11:39
Так же не понятно будет ли заблокирована партиция в которой лежало сообщение или же все партиции. Если только одна, то по идее в этом случае все последующие сообщения не будут закоммичены в рамках одной группы

_
25.09.2018
09:11:48
хм, а что она тогда гарантирует?
Что с некоторой задержкой они будут подчищаться

Eldar
25.09.2018
09:27:48
Oleg
25.09.2018
09:28:52
Примерно так. Здесь уже добавил repartition и cache

Andrey
25.09.2018
09:30:06
осталось теперь понять, где тормозит , на какой стадии, это не BatchPythonEvaluation?

_
25.09.2018
09:35:26
а если включить exactly-once, он вроде как раз для этого и предназначен
Нет, он с логическими ключами не связан. Exactly once это доставка без дубликатов из одного топика в другой внутри кафки

Andrey
25.09.2018
09:40:11
Нет, он с логическими ключами не связан. Exactly once это доставка без дубликатов из одного топика в другой внутри кафки
нашел https://habr.com/company/badoo/blog/333046/ обсуждали это, пришли ко мнению что: Механизм exactly-once — он только для producer-ов, то есть если producer по какой-то причине не уверен, сохранилось ли сообщение в кафку (например разрыв соединения), он просто перепошлёт сообщение в кафку с тем же ID и механизм exactly-once гарантирует, что event не будет продублирован

зависит от нагрузки, сколько ядер приходится, сколько данных (партиций) на экзекутере и т.д.

и хватит ли памяти на каждый экзекютер

Oleg
25.09.2018
10:52:04
я выделил 30 экзекъюторов по 6 гигов и 2 ядра пошло побыстрее В теории таких экзекъюторов можно сделать и 100+, но мне как-то стремно отъедать все ресурсы кластера на одну задачу.

Google
Oleg
25.09.2018
12:16:52
Почему стремно?
ну это не самый важный процесс, есть другие более важные, которые в это время работают. Не хотелось бы их сильно ущимлять)

Alexander
25.09.2018
12:22:27
dynamic allocation в смысле?
Какой RM используется для выполнения? YARN, Mesos и т.п.

Oleg
25.09.2018
12:24:17
Yarn

в клиент моде

Alexander
25.09.2018
12:26:18
При запуске Spark можно указать конкретную очередь YARN, в рамках которой он будет выполняться. Остальные ресурсы в рамках остальных очередей будут доступны.

Oleg
25.09.2018
12:26:21
--master yarn --deploy-mode client --executor-memory 4g --executor-cores 2 --conf spark.ui.enabled=true --queue airflow-py-spark --conf spark.shuffle.service.enabled=true --conf spark.dynamicAllocation.enabled=true --conf spark.dynamicAllocation.maxExecutors=60 С такими опциями запускаю

Oleg
25.09.2018
12:29:52
При запуске Spark можно указать конкретную очередь YARN, в рамках которой он будет выполняться. Остальные ресурсы в рамках остальных очередей будут доступны.
А если ресурсы заняты другой очередью и в ней еще много pending applications, то, получается, задача из другой очереди запустится раньше, чем задачи в соседней очереди при освобождении ресурсов?

Alexander
25.09.2018
12:31:06
Очередь при этом может раздуваться, если остальные свободны
Для очереди ты задаешь квоты, чтобы она не отбирала у соседей ресурсы.

Nikita Blagodarnyy
25.09.2018
12:32:26
Oleg
25.09.2018
12:33:51
Попробуй сделать 60 по 2 гига
попробовал 4, уже на них падает с нехваткой памяти :(

Nikita Blagodarnyy
25.09.2018
12:34:04
Часто даже в ходе исполнения в очереди 1.

Stanislav
25.09.2018
12:36:00
попробовал 4, уже на них падает с нехваткой памяти :(
Так у тебя количество контейнеров вырастает. Ради интереса запусти с динамик аллок и посмотри что там выделится

Oleg
25.09.2018
12:36:18
без ограничения сверхну?

Stanislav
25.09.2018
12:37:00
Можно и без ограничения. Для отладки этого хватит

Смотри скорость выполнения кода. Может получится так, что увеличение контейнеров не даёт никакого эффекта. Тогда ты упёрся в драйаео

Драйвер

Alexander
25.09.2018
12:38:31
Ну max capacity то ты можешь задавать хоть 146%.
Смысла нет в такой настройке) Речь о том, как поделить кластер между нагрузками.

Google
Nikita Blagodarnyy
25.09.2018
12:40:29
Wat

Почему не имеет смысла ?

Рамиль
25.09.2018
12:40:50
когда ты не можешь предсказать когда на какой очереди будет больше нагрузка…

Alexander
25.09.2018
12:46:40
когда ты не можешь предсказать когда на какой очереди будет больше нагрузка…
В данном случае ты хочешь гарантировать, что часть кластера останется кому-то еще. После этого Spark получает ресурсы в рамках очереди. В общем случае, ты можешь выставишь повышающий коэффициент, как сказал Рамиль. Если ты хочешь дальше нарезать на вложенные очереди, то там пожалуйста. Хотя можно пользоваться эластичностью.

Oleg
25.09.2018
12:53:13




Старый
25.09.2018
15:04:10
E3-1230V6 под хадуп через blade кто пробовал?

Stanislav
25.09.2018
15:13:35
E3-1230V6 под хадуп через blade кто пробовал?
Ты делаешь херню с блейдами

Старый
25.09.2018
15:17:23
Ты делаешь херню с блейдами
это у меня программисты хотят сделать блейды с 2 hdd и типа рейзер вставить с m2 и процы 1230v6

я вот пытаюсь отговорить

как мне заявили у 8 1230v6 будет больше ядер и выше частота чем у gold 5120

Artem
25.09.2018
16:26:31
Ищу экспертов на образовательную программу по дата инжинирингу, которые могли бы рассказать, как готовить под разные кейсы следующие инструменты: - Sphinx - PostgreSQL - Sqoop - Druid - Flink - Lambda и kappa-архитектура (вводное занятие). Может быть, здесь есть желающие. Преподавание оплачивается. Условия, подробности в личку.

Stanislav
25.09.2018
18:40:15
как мне заявили у 8 1230v6 будет больше ядер и выше частота чем у gold 5120
Относительно чего, места в стойке, тысяч долларов, отношения ядер к гигабайту хранения?

Старый
25.09.2018
18:41:41
Относительно чего, места в стойке, тысяч долларов, отношения ядер к гигабайту хранения?
там просто довольно большая задача по аналитике и хранению данных для аналитики

программисты предлагают 64 гб оперативы 1230v6, и 2 hdd на 3,5 и 7200 на 10 тб

и это делать блейдами

сначала 4 тб хотят протестить а лучше сразу 10

я же говорю что это всё идиотизм, надо 2,5 сас диски по 10к рпм и 1,8 тб

с голдами 5120 и 256 гб оперативы

Google
Евгений
25.09.2018
20:27:55
V6 можно взять 20 штук за цену вашего голда одного)

Нужно БОЛЬШЕ VCORE

Я за программистов?

Фуфло эти сас диски, если всё упирается в то, что в ярне не хватает коров)

Единственный вопрос в том, что будет больше серверов, а значит больше стоек, но это не вопрос, если есть, куда ставить)

Andrey
25.09.2018
20:32:15
Тогда надо брать процы от амд

Евгений
25.09.2018
20:32:30
Не, ну не до такой же степени)

Хотя не, 2 диска по 10тб - это грустно, лучше хотя бы 6 дисков по 4тб

Andrey
25.09.2018
20:36:01
https://blog.selectel.com/amd-vs-intel-comparative-benchmarks/ тут по тестам не так все плохо у амд

Александр
25.09.2018
23:20:38
Евгений
25.09.2018
23:24:30
Жизненный опыт?
не, к сожалению, не довелось нигде пощупать серверные процы от амд, очень даже может быть, что они топчик, а все зря на них гонят

Страница 149 из 182