
Daniel
03.08.2017
17:14:51
а можно кейс? очень необычное желание

Grigory
03.08.2017
17:16:09
да что-то не понятно как аптайм экзекутар к этоому относится

Nick
03.08.2017
17:20:46

Andrey
03.08.2017
17:20:49
мы пишем логи через nifi в hdfs в файлы, которые затем подцепляются файлстримом с onlyNewFiles = no, и он смотрит на некоторое время назад, на случай если спарк стриминг упал и логи не засасывались им. Но минус этого в том, что при рестарте стримера мы гарантированно получаем дубликат логов, по понятным причинам. Хочется сделать так, что если executor работает менее получаса, то он перед записью в orc будет делать df.except(orc_file), чтобы не было дубликатов

Google

Nick
03.08.2017
17:20:50
Отвичаю

Andrey
03.08.2017
17:21:20
а если более получаса - то писал без except, тк это дорогая операция и долго работать будет
ну а делать глобальное время на всю джобу по идее нельзя, тк при отвале одного executor'а в процессе работы джобы появится новый, который тогда не будет делать то чо надо)

KrivdaTheTriewe
03.08.2017
17:22:47

Grigory
03.08.2017
17:22:55
рили
потому что на первый вгляд это решает проблему

Andrey
03.08.2017
17:23:36
дык этож будет глобальное время старта джобы?
допустим работала джоба час
потом один хост отъехал
exectur переполз на другой хост

KrivdaTheTriewe
03.08.2017
17:23:58
броадкаст то не изменится
ты его на драйвере посчитал, потом это простой Long от него и пляши

Andrey
03.08.2017
17:24:52
не изменится, но в этом случае на каждом executor'е будет время старта джобы :)

Google

Andrey
03.08.2017
17:24:57
всей целиком
а мне надо старт джобы -> прошло 3 часа -> упал хост -> появился новый executor -> он понял что он новый и начал делать другой алгоритм

Grigory
03.08.2017
17:26:26
можно сделать так: фиксированое число экзекуторов; каждому дать ид; броадкастить коллекцию старта времени каждого экзекутора
а иначе не получится без фикс числа (макс числа)
конечно придется попялсать чтоб понять у кого какой номер
но вообще звучит как что-то не правильное

Andrey
03.08.2017
17:27:11
число фикс, да :)

Grigory
03.08.2017
17:27:24
да прост присвой каждому ид и все
коллизия возникнет когда сразу n упадет
но там +- одно и тоже время будет

Andrey
03.08.2017
17:27:51
ок, попробую :)
спасибо

KrivdaTheTriewe
03.08.2017
17:28:40
мне в голову приходит , что нужно сделать обёртку над некоторым объектом, как в шаред кафка продьюссере, который при инициализации имеет внутреннее поле со значением 0, после операции он должен иметь значение += 1
проверять на 0

Andrey
03.08.2017
17:29:29
кажется так должно сработать :)

KrivdaTheTriewe
03.08.2017
17:29:54
ток я не соображу сразу как такое сделать )

Nick
03.08.2017
17:31:47
Ребят
Зачем вы усложняете
В мезосе/дцос все так и сделано

KrivdaTheTriewe
03.08.2017
17:32:37
http://allegro.tech/2015/08/spark-kafka-integration.html

Google

KrivdaTheTriewe
03.08.2017
17:33:07
вот тип такого, но вместо объекта продьюсера какое-то поле , котрое проверяется

Daniel
03.08.2017
17:59:36
Если подытожить, то это кейс распределенного коммит лога. Всё сильно зависит от требования к уровню консистентности. В случаях средней тяжести и хуже, имхо, надо отдать предпочтение готовы решениям.

Nick
03.08.2017
18:00:24

Daniel
03.08.2017
18:01:39
Я бы посмеялся, но оракл и распределенный в одном предложении не смешно

Andrey
03.08.2017
18:02:40
а как жи рак
:)
оракл говорит это лучшее что еть на рынке распределенностей :D

Daniel
03.08.2017
18:07:01
Файл бд при этом один

Andrey
03.08.2017
18:07:23
это был сарказм >.>

Nick
03.08.2017
18:18:01
Или как его там
Он на самом деле хороший, только стоит как Аляска

Andrey
03.08.2017
18:19:52
как и обычный оракл
точнее, как и любой оракл :D

Daniel
03.08.2017
18:25:02

Nick
03.08.2017
18:26:42

Andrey
03.08.2017
18:27:37
эт кого?
ну если серьезно, то у нас дба уже 3й год сопротивляются цфт на рак переводить
видимо они что то знают

Nick
03.08.2017
18:35:55
ты из цфт чтоль?

Google

Andrey
03.08.2017
18:37:13
я? нет
я из банка

Grigory
03.08.2017
18:37:37
из банка?

Andrey
03.08.2017
18:37:49
из банка
:х
это плохо?

Daniel
03.08.2017
18:39:16
- рак поднимает n инстансов субд (оно по-моему лимитировано, но мог уже забыть)
- один из инстансов является мастером (балансер + еще какие-то вещи, возможно redo log, на его совести)
- файлы бд общие на все инстансы
благодаря достаточному числому синглпоинтов, перформанс у него по началу конечно растет
для примера 2 инстанса имеют производительность не выше х1.5
в какой то момент начнется даже падение удельной производительности
видел реалии и не очень довольные лица дба (российских и иностранных) высокой квалификации
но это все про 11ую версию, возможно в 12 произошло чудо и реновация ^^
к разговору выше, то я хз что там распределенного вообще есть)

Grigory
03.08.2017
18:41:34
реновация в мск
выселяют маргиналов на окраины

Daniel
03.08.2017
18:42:11
такой масштаб реноваций ораклу конечно не снился)

Grigory
03.08.2017
18:42:34
да; уж лучше пусть оракл будет такйо чем у него появятся новые тротуары
ну и всякое такое

Nick
03.08.2017
18:43:28
я вот хз, может он как постгрес xl работает)

KrivdaTheTriewe
03.08.2017
20:02:16

Nick
04.08.2017
06:21:29

KrivdaTheTriewe
04.08.2017
07:31:43

Nick
04.08.2017
07:31:54
С чего она падает

KrivdaTheTriewe
04.08.2017
07:41:12
С чего она падает
статья Яндекса про опыт эксплуатации я там описано , что убили половину год, а производительность выросла в двое

Google

Nick
04.08.2017
07:57:00
Там же клиент по ключу определяет куда кинуть значение

KrivdaTheTriewe
04.08.2017
07:57:57

Nick
04.08.2017
08:03:11
Ну Там не Яндекс, а яд
Чувак конечно красава, сдаётся мне что там не в количестве нод проблема, а в том что идёт репликация между дц

KrivdaTheTriewe
04.08.2017
08:18:11

Nick
04.08.2017
08:18:36
И что

Daniel
04.08.2017
08:20:07
у хз есть дц детектор?

Nick
04.08.2017
08:24:39
Витя ж ответил