@hadoopusers

Страница 149 из 182

Andrey

24.09.2018
19:48:13

А еще глупый вопрос) но я искал и как-то не нашел Есть возможность в спарковском датафрейме сделать что-то типа индекса по полю или как-то партиционировать? Для более быстрой работы с одним/несколькими полями?

кастомные партиции можно, индекс врядли

Ruslan

24.09.2018
20:02:56

Ты для чего json на hdfs кидаешь? И зачем вообще json кладёшь? Даже если ты спарком будешь что-то агрегировать, тебе в какой-то момент потребуется либо много памяти либо, скидывать промежуточный итог на hdfs.

Евгений

24.09.2018
20:12:49

кастомные партиции можно, индекс врядли

Ну, индекс можно и самому наколхозить - делаем репартишен по полю с кастомным индексом, кешируем, а дальше фильтруем where spark_partition_id = get_index(key)

Andrey

24.09.2018
20:18:36

наколхозить можно много чего, помню было пару раз использование блумфильтра в бродкасте

Google

Eldar

25.09.2018
08:55:37

Господа, доборый день, вопросы по kafka тут будут уместны?

Старый

25.09.2018
08:55:57

Господа, доборый день, вопросы по kafka тут будут уместны?

да, задавай

Eldar

25.09.2018
08:57:46

Отлично, вопрос следующий. Из кафки я получил сообщение, но не отправил ack. Пока я обрабатывал сообщение мне пришло новое сообщение с этим же ключем. Каковы в этом случае действия кафки?

_

25.09.2018
08:59:55

Для кафки это просто новое сообщение

Eldar

25.09.2018
09:00:27

почему? ведь там же есть механизм дедуплекации

_

25.09.2018
09:00:49

Ключ может использоваться твоим приложением и механизмом дедупликации

Oleksandr

25.09.2018
09:01:59

Господа, доборый день, вопросы по kafka тут будут уместны?

@proKafka

_

25.09.2018
09:02:10

Дедупликация - это опциональная настройка топика, по умолчанию не применяется

Eldar

25.09.2018
09:02:23

у меня она включена

_

25.09.2018
09:04:55

у меня она включена

Процесс дедубликации не гарантирует отсутствия дубликатов

Старый

25.09.2018
09:05:43

Отлично, вопрос следующий. Из кафки я получил сообщение, но не отправил ack. Пока я обрабатывал сообщение мне пришло новое сообщение с этим же ключем. Каковы в этом случае действия кафки?

а почему у тебя консьюмер не ставит сразу на сообщение, что он его принял?

Eldar

25.09.2018
09:06:06

ну потому что я сообщение из кафки должен записать в эластик

_

25.09.2018
09:06:12

а почему у тебя консьюмер не ставит сразу на сообщение, что он его принял?

Потому что хочет обработать батч, например

Google

Eldar

25.09.2018
09:06:17

а в эластик оно может не записаться

через кафку приходят записи, которые были обновлены. Поэтому я хочу записывать только свежие сообщения. Для этого я использую дедупликацию. Но проблема в том, что если одна запись долго не записывается, а ack не послан, то в это время может прийти обновленная эта же запись и мне непонятно поведение кафки в этом случае.

Andrey

25.09.2018
09:11:08

Процесс дедубликации не гарантирует отсутствия дубликатов

хм, а что она тогда гарантирует?

Eldar

25.09.2018
09:11:39

Так же не понятно будет ли заблокирована партиция в которой лежало сообщение или же все партиции. Если только одна, то по идее в этом случае все последующие сообщения не будут закоммичены в рамках одной группы

_

25.09.2018
09:11:48

хм, а что она тогда гарантирует?

Что с некоторой задержкой они будут подчищаться

Andrey

25.09.2018
09:27:09

Отлично, вопрос следующий. Из кафки я получил сообщение, но не отправил ack. Пока я обрабатывал сообщение мне пришло новое сообщение с этим же ключем. Каковы в этом случае действия кафки?

а если включить exactly-once, он вроде как раз для этого и предназначен

Eldar

25.09.2018
09:27:48

а если включить exactly-once, он вроде как раз для этого и предназначен

хм, спасибо, сейчас гляну что это

Oleg

25.09.2018
09:28:52

а как выглядит DAG?

Примерно так. Здесь уже добавил repartition и cache

Andrey

25.09.2018
09:30:06

осталось теперь понять, где тормозит , на какой стадии, это не BatchPythonEvaluation?

_

25.09.2018
09:35:26

а если включить exactly-once, он вроде как раз для этого и предназначен

Нет, он с логическими ключами не связан. Exactly once это доставка без дубликатов из одного топика в другой внутри кафки

Oleg

25.09.2018
09:37:55

осталось теперь понять, где тормозит , на какой стадии, это не BatchPythonEvaluation?

Andrey

25.09.2018
09:40:11

Нет, он с логическими ключами не связан. Exactly once это доставка без дубликатов из одного топика в другой внутри кафки

нашел https://habr.com/company/badoo/blog/333046/ обсуждали это, пришли ко мнению что: Механизм exactly-once — он только для producer-ов, то есть если producer по какой-то причине не уверен, сохранилось ли сообщение в кафку (например разрыв соединения), он просто перепошлёт сообщение в кафку с тем же ID и механизм exactly-once гарантирует, что event не будет продублирован

зависит от нагрузки, сколько ядер приходится, сколько данных (партиций) на экзекутере и т.д.

и хватит ли памяти на каждый экзекютер

Oleg

25.09.2018
10:52:04

осталось теперь понять, где тормозит , на какой стадии, это не BatchPythonEvaluation?

я выделил 30 экзекъюторов по 6 гигов и 2 ядра пошло побыстрее В теории таких экзекъюторов можно сделать и 100+, но мне как-то стремно отъедать все ресурсы кластера на одну задачу.

Stanislav

25.09.2018
11:01:16

я выделил 30 экзекъюторов по 6 гигов и 2 ядра пошло побыстрее В теории таких экзекъюторов можно сделать и 100+, но мне как-то стремно отъедать все ресурсы кластера на одну задачу.

Попробуй сделать 60 по 2 гига

Nikita Blagodarnyy

25.09.2018
11:44:31

я выделил 30 экзекъюторов по 6 гигов и 2 ядра пошло побыстрее В теории таких экзекъюторов можно сделать и 100+, но мне как-то стремно отъедать все ресурсы кластера на одну задачу.

Почему стремно?

Alexander

25.09.2018
12:14:26

я выделил 30 экзекъюторов по 6 гигов и 2 ядра пошло побыстрее В теории таких экзекъюторов можно сделать и 100+, но мне как-то стремно отъедать все ресурсы кластера на одну задачу.

Используйте выделенную квоту и отдайте ее

Google

Oleg

25.09.2018
12:16:52

Почему стремно?

ну это не самый важный процесс, есть другие более важные, которые в это время работают. Не хотелось бы их сильно ущимлять)

Используйте выделенную квоту и отдайте ее

dynamic allocation в смысле?

Alexander

25.09.2018
12:22:27

dynamic allocation в смысле?

Какой RM используется для выполнения? YARN, Mesos и т.п.

Oleg

25.09.2018
12:24:17

Yarn

в клиент моде

Alexander

25.09.2018
12:26:18

При запуске Spark можно указать конкретную очередь YARN, в рамках которой он будет выполняться. Остальные ресурсы в рамках остальных очередей будут доступны.

Oleg

25.09.2018
12:26:21

--master yarn --deploy-mode client --executor-memory 4g --executor-cores 2 --conf spark.ui.enabled=true --queue airflow-py-spark --conf spark.shuffle.service.enabled=true --conf spark.dynamicAllocation.enabled=true --conf spark.dynamicAllocation.maxExecutors=60 С такими опциями запускаю

Nikita Blagodarnyy

25.09.2018
12:28:21

При запуске Spark можно указать конкретную очередь YARN, в рамках которой он будет выполняться. Остальные ресурсы в рамках остальных очередей будут доступны.

Очередь при этом может раздуваться, если остальные свободны

Oleg

25.09.2018
12:29:52

При запуске Spark можно указать конкретную очередь YARN, в рамках которой он будет выполняться. Остальные ресурсы в рамках остальных очередей будут доступны.

А если ресурсы заняты другой очередью и в ней еще много pending applications, то, получается, задача из другой очереди запустится раньше, чем задачи в соседней очереди при освобождении ресурсов?

Alexander

25.09.2018
12:31:06

Очередь при этом может раздуваться, если остальные свободны

Для очереди ты задаешь квоты, чтобы она не отбирала у соседей ресурсы.

Nikita Blagodarnyy

25.09.2018
12:32:26

Для очереди ты задаешь квоты, чтобы она не отбирала у соседей ресурсы.

Ну max capacity то ты можешь задавать хоть 146%.

Oleg

25.09.2018
12:33:51

Попробуй сделать 60 по 2 гига

попробовал 4, уже на них падает с нехваткой памяти :(

Nikita Blagodarnyy

25.09.2018
12:34:04

А если ресурсы заняты другой очередью и в ней еще много pending applications, то, получается, задача из другой очереди запустится раньше, чем задачи в соседней очереди при освобождении ресурсов?

Нет. Есть механизм preemption. Он отберёт ресурсы, чтобы обеспечить min capacity соседней очереди.

Часто даже в ходе исполнения в очереди 1.

Stanislav

25.09.2018
12:36:00

попробовал 4, уже на них падает с нехваткой памяти :(

Так у тебя количество контейнеров вырастает. Ради интереса запусти с динамик аллок и посмотри что там выделится

Oleg

25.09.2018
12:36:18

без ограничения сверхну?

Stanislav

25.09.2018
12:37:00

Можно и без ограничения. Для отладки этого хватит

Смотри скорость выполнения кода. Может получится так, что увеличение контейнеров не даёт никакого эффекта. Тогда ты упёрся в драйаео

Драйвер

Alexander

25.09.2018
12:38:31

Ну max capacity то ты можешь задавать хоть 146%.

Смысла нет в такой настройке) Речь о том, как поделить кластер между нагрузками.

Google

Рамиль

25.09.2018
12:40:01

Смысла нет в такой настройке) Речь о том, как поделить кластер между нагрузками.

вообще то имеет

Nikita Blagodarnyy

25.09.2018
12:40:29

Wat

Почему не имеет смысла ?

Рамиль

25.09.2018
12:40:50

когда ты не можешь предсказать когда на какой очереди будет больше нагрузка…

Alexander

25.09.2018
12:46:40

когда ты не можешь предсказать когда на какой очереди будет больше нагрузка…

В данном случае ты хочешь гарантировать, что часть кластера останется кому-то еще. После этого Spark получает ресурсы в рамках очереди. В общем случае, ты можешь выставишь повышающий коэффициент, как сказал Рамиль. Если ты хочешь дальше нарезать на вложенные очереди, то там пожалуйста. Хотя можно пользоваться эластичностью.

Oleg

25.09.2018
12:53:13

Старый

25.09.2018
15:04:10

E3-1230V6 под хадуп через blade кто пробовал?

Stanislav

25.09.2018
15:13:35

E3-1230V6 под хадуп через blade кто пробовал?

Ты делаешь херню с блейдами

Старый

25.09.2018
15:17:23

Ты делаешь херню с блейдами

это у меня программисты хотят сделать блейды с 2 hdd и типа рейзер вставить с m2 и процы 1230v6

я вот пытаюсь отговорить

как мне заявили у 8 1230v6 будет больше ядер и выше частота чем у gold 5120

Artem

25.09.2018
16:26:31

Ищу экспертов на образовательную программу по дата инжинирингу, которые могли бы рассказать, как готовить под разные кейсы следующие инструменты: - Sphinx - PostgreSQL - Sqoop - Druid - Flink - Lambda и kappa-архитектура (вводное занятие). Может быть, здесь есть желающие. Преподавание оплачивается. Условия, подробности в личку.

Stanislav

25.09.2018
18:40:15

как мне заявили у 8 1230v6 будет больше ядер и выше частота чем у gold 5120

Относительно чего, места в стойке, тысяч долларов, отношения ядер к гигабайту хранения?

Старый

25.09.2018
18:41:41

Относительно чего, места в стойке, тысяч долларов, отношения ядер к гигабайту хранения?

там просто довольно большая задача по аналитике и хранению данных для аналитики

программисты предлагают 64 гб оперативы 1230v6, и 2 hdd на 3,5 и 7200 на 10 тб

и это делать блейдами

сначала 4 тб хотят протестить а лучше сразу 10

я же говорю что это всё идиотизм, надо 2,5 сас диски по 10к рпм и 1,8 тб