@hadoopusers

Страница 181 из 182
Anton
25.10.2018
18:44:01
Гпу инстансы вообще грабеж среди бела дня

Если речь идёт о надёжности - да
Ну при хранении данных нам надежность не очень нужна, я тут согласен

Stanislav
25.10.2018
18:46:00
Я тут недавно как раз считал с3 против онпремиса локального на пятилетку. Мне сказали цену похожего размера хранения, там чото было около 15-20к зелёных в месяц

Anton
25.10.2018
18:46:07
Серьезно если то мы бывает поднимаем копию куда то в хдфс на эфемералах, но мастер всегда в S3

Google
Stanislav
25.10.2018
18:49:42
А сколько цодов в вашей конфе?
Так про то и речь. Амазон даёт большую стоимость, но и девяток там конечно больше как по доступности, так и по надёжности. Этим он выигрывает. Но в рамках даталейка...

Anton
25.10.2018
18:51:51
Все остальное можно пересчитать из даталейк

Но счёт на 10-15к за хранение это область 500+ терабайт

Vladislav
25.10.2018
18:53:31
Anton
25.10.2018
18:55:46
Он премис 500 тб это будет 1.5 пб после реплики, и с пустым местом это кластер на 2+ пб, это уже ОЧЕНЬ большие CAPEX инвестиции

Надежными должны быть источники, в первую очередь, ибо там весь бизнес ?
Они будут очень надежными, но историю обычно удаляют ;)

Google
Anton
25.10.2018
18:56:52
Плюс логи, которые сейчас бОльшая часть даталейка, а источники вообще не хранят

Почти на порядок меньше
Вы тогда чего-то не то сказали, может это цена не только ща хранение?

Уххх. Ребята из сапа, оракл и всяких АСУ ТП и ис ТП не согласны )
Судя по этим аббревиатурам мы могли с вами встречаться))

Stanislav
25.10.2018
19:57:31
Вы тогда чего-то не то сказали, может это цена не только ща хранение?
Да, слегка по объемам ошибся. Поднял переписку, 50 тбайт - 6к баксов. Суммарно за все они платили 20к. То есть 150-180тб

Anton
25.10.2018
21:21:29
Да, слегка по объемам ошибся. Поднял переписку, 50 тбайт - 6к баксов. Суммарно за все они платили 20к. То есть 150-180тб
хм, просто за хранение даже где-то во франкфурте нужно будет отдать 2.5к за 50 ТБ, а в штатах 1.5К, видимо это за что-то еще

Dan
26.10.2018
00:32:26
есть кто живой?

Stanislav
26.10.2018
01:07:59
+

Dan
26.10.2018
01:18:53
уже разобрался, спасибо

Ruslan
26.10.2018
02:46:43
В одной екомерс компании мне утверждали, что hyperthreading плохо сказывается на рилтайм компьютинг в hadoop и они его принудительно отключали. Это действительно так или это мамкины погромисты?

Dan
26.10.2018
03:09:14
и добавляет он, в лучшем случае процентов 20-30, а не 100 как нам всем хотелось бы.

Mikhail
26.10.2018
05:54:36
В одной екомерс компании мне утверждали, что hyperthreading плохо сказывается на рилтайм компьютинг в hadoop и они его принудительно отключали. Это действительно так или это мамкины погромисты?
Технология hyper-threading позволяет задействовать вычислительные блоки, которые простаивают внутри физического ядра. Ну или распараллелить ожидание данных из памяти. В реальности в большинстве случаев это может давать повышение производительности по throughput +30-40%, но, из-за большего contention на вычислительные блоки будет может давать +30-40% latency на сами операции внутри процессора. И дальше надо выбирать, что вам важнее, latency и near real-time или throughput и batch processing. Для hadoop верно второе. Выключать стоит только если вы реально понимаете что делаете, сделали сравнительные тесты, и, нарпример, понимание что из-за hyper-threading и бегущей аналитики с hbase / ignite / flink бегущими рядом получаете серьёзную просадку. Рулить hyper-threading считается bad practice, но, как мы видим, в новых процессорах от intel стали чаще его не делать:)

Nikita Blagodarnyy
26.10.2018
08:39:55
"только если вы реально понимаете, что делаете".

Мне кажется, это стоит сделать девизом группы.

Рамиль
26.10.2018
08:45:45
Евгений
26.10.2018
09:42:21
Как HT связан с IO?
Ну типа дисков-то больше не стало от гипертрединга, и если на один диск вместо 4 потоков пишут 8, будет очередь записи расти, вместо того, чтобы считаться быстрее, может даже медленнее посчитаться

Vladislav
26.10.2018
09:44:31
слишком косвенно

Старый
26.10.2018
10:16:59
слишком косвенно
ну я например на постгресе замечал, что без ht он даже лучше работает

Mikhail
26.10.2018
10:17:23
Ну типа дисков-то больше не стало от гипертрединга, и если на один диск вместо 4 потоков пишут 8, будет очередь записи расти, вместо того, чтобы считаться быстрее, может даже медленнее посчитаться
Да, но можно сделать наоборот. Если 4 ядра, включить HT, будет 8 ядер. Делаем 4 потока с дисками, и даже если они ушли в D-state и мучают ядра, то остальные 4 ht свободны по всем вычислительным блокам, и дают 100% производительности

Google
Andrey
26.10.2018
10:19:26
госпади, кто ж так программы пишет new FixedThreadPool(1000)
согласен, кто такие маленькие пулы выделяет

Mikhail
26.10.2018
10:23:15
пока один поток стоит, другой работает профит! дедова техника работает
это работает для interruptible states (сеть, некоторые примитивы синхронизации), при блокирующей работе с дисками это плохая практика.

Mikhail
26.10.2018
10:27:30
энтерпрайзно это сделать FixedThreadPool(1000) и надеяться на кеш дисковой полки?:)

Daniel
26.10.2018
10:29:18
энтерпрайзно это сделать FixedThreadPool(1000) и надеяться на кеш дисковой полки?:)
да, но! важно тесты гонять на правильном объеме перед внедрением, а то кэша может не хватить где нить

Mikhail
26.10.2018
10:29:45
да, но! важно тесты гонять на правильном объеме перед внедрением, а то кэша может не хватить где нить
Интересный у вас подход, а когда данных станет много и не влезают, что делать будем?:)

Daniel
26.10.2018
10:29:46
Mikhail
26.10.2018
10:29:51
Еще полочек закажем?:)

Artem
26.10.2018
11:11:12
/pyatnitsa

Nikita Blagodarnyy
26.10.2018
11:14:30
/pyatnitsa

Рамиль
26.10.2018
11:15:13
/pyatnitsa

Stanislav
26.10.2018
11:15:48
/pyatnitsa

Mikhail
26.10.2018
11:21:30
Пятничная перепись населения, не нажимайте на ссылку.

Andrey
26.10.2018
11:23:24
/pyatnitsa

Google
Mikhail
26.10.2018
11:27:30
why so serious?!
Тесты не проходят:(

Alex
26.10.2018
11:34:04
/pyatnitsa

Ilya
26.10.2018
11:35:34
/pyatnitsa

Vadim
26.10.2018
11:36:00
/pyatnitsa

Renarde
26.10.2018
11:38:16
всем привет и хорошей пятницы! расскажите пожалуйста, а как настроить опцию spark --packages смотреть на локальный maven репо? что-то не могу найти гайдов.

Vadim
26.10.2018
11:39:01
вроде как только через http урлы к нему явно указывать

Dan
26.10.2018
13:17:45
Да, но можно сделать наоборот. Если 4 ядра, включить HT, будет 8 ядер. Делаем 4 потока с дисками, и даже если они ушли в D-state и мучают ядра, то остальные 4 ht свободны по всем вычислительным блокам, и дают 100% производительности
я немного не так написал. когда IO bound и есть много IOwait то HT поможет, потенциально. То есть когда на хосте есть узкое место которое приводит к потенциальным iowait - диски, сеть. Когда iowait низкий, HT не пможет, а из-за дополнительных задержек на ротацию очередей, даже ухудшит производительность. Где то на сайте red hat должен быть подробный отчет на эту тему касательно производительности КVM с и без HT, я его писал в 2010-2011 где-то

Dan
26.10.2018
13:38:54
что за ротация очередей? Если iowait низкий — проц свободный, ht должен помочь на batch processing
чем? реально выполнять задачи может только одно ядро, вторая очередь на исполнение ничем не поможет

Mikhail
26.10.2018
13:40:35
>"Когда iowait низкий, HT не пможет, а из-за дополнительных задержек на ротацию очередей, даже ухудшит производительность. " Если iowait низкий, то задачи выполнять может любое число свободных ядер.

Если у нас 56 ядерная машина и одно ядро съело диск в полку, то iowait ~2%.

Остальные 55 ядер свободные, cpu bound может спокойно работать

iobound могут так же спокойно работать, если с другими дисками.

Dan
26.10.2018
13:41:58
вот касса в банк, к ней выстроилась толпа. Кто то просит что то быстрое, и получает услугу, уходит. Кто то внезапно чтоб птветить на вопрос кассира начинает лезть в телефон или ковыряться в сумке, в поисках бумаг например. HT это вторая очередь к тому же кассиру, и если кто то задерживается, кассир принимает другого из второй очереди чтоб не ждать. Чтоб было честно кассир принимает при все равны условиях людей из двух очередй поочередно. Если все с быстрыми запросами, двойная очередь только задержит исполнение. Если у многих тормоза с доставанием бумаг из сумок - вторая очередь помогает скорить общий процесс приема всей толпы

кассиров от этого больше не стало

Страница 181 из 182