@hadoopusers

« Назад

Страница 181 из 182

Далее »

Anton

25.10.2018
18:44:01

Гпу инстансы вообще грабеж среди бела дня

Если речь идёт о надёжности - да

Ну при хранении данных нам надежность не очень нужна, я тут согласен

Stanislav

25.10.2018
18:46:00

Я тут недавно как раз считал с3 против онпремиса локального на пятилетку. Мне сказали цену похожего размера хранения, там чото было около 15-20к зелёных в месяц

Anton

25.10.2018
18:46:07

Серьезно если то мы бывает поднимаем копию куда то в хдфс на эфемералах, но мастер всегда в S3

Google

Anton

25.10.2018
18:47:16

Я тут недавно как раз считал с3 против онпремиса локального на пятилетку. Мне сказали цену похожего размера хранения, там чото было около 15-20к зелёных в месяц

Да, есть кейсы когда Амазон кругом обдиралово, но их немного

Я тут недавно как раз считал с3 против онпремиса локального на пятилетку. Мне сказали цену похожего размера хранения, там чото было около 15-20к зелёных в месяц

А сколько цодов в вашей конфе?

KrivdaAllStars

25.10.2018
18:49:01

Ладно, вопрос довольно интересный, но сегодня релиз рдр2, поэтому обсудим это как-нибудь в другой раз, возможно даже лично

Нужно бы конфу какую собрать )

Stanislav

25.10.2018
18:49:42

А сколько цодов в вашей конфе?

Так про то и речь. Амазон даёт большую стоимость, но и девяток там конечно больше как по доступности, так и по надёжности. Этим он выигрывает. Но в рамках даталейка...

Daniel

25.10.2018
18:51:34

бизнесу надо чтобы работало, люди с новыми свистоперделками с непонятным профитом вообще не нужны

хех, лол

Anton

25.10.2018
18:51:51

Так про то и речь. Амазон даёт большую стоимость, но и девяток там конечно больше как по доступности, так и по надёжности. Этим он выигрывает. Но в рамках даталейка...

В обычной современной архитектуре даталейк это главное хранилище, поэтому его обычно строят очень надежным

Все остальное можно пересчитать из даталейк

Но счёт на 10-15к за хранение это область 500+ терабайт

Vladislav

25.10.2018
18:53:31

В обычной современной архитектуре даталейк это главное хранилище, поэтому его обычно строят очень надежным

Надежными должны быть источники, в первую очередь, ибо там весь бизнес ?

Stanislav

25.10.2018
18:54:14

В обычной современной архитектуре даталейк это главное хранилище, поэтому его обычно строят очень надежным

Уххх. Ребята из сапа, оракл и всяких АСУ ТП и ис ТП не согласны )

Но счёт на 10-15к за хранение это область 500+ терабайт

Почти на порядок меньше

Anton

25.10.2018
18:55:46

Он премис 500 тб это будет 1.5 пб после реплики, и с пустым местом это кластер на 2+ пб, это уже ОЧЕНЬ большие CAPEX инвестиции

Надежными должны быть источники, в первую очередь, ибо там весь бизнес ?

Они будут очень надежными, но историю обычно удаляют ;)

Google

Anton

25.10.2018
18:56:52

Плюс логи, которые сейчас бОльшая часть даталейка, а источники вообще не хранят

Почти на порядок меньше

Вы тогда чего-то не то сказали, может это цена не только ща хранение?

Уххх. Ребята из сапа, оракл и всяких АСУ ТП и ис ТП не согласны )

Судя по этим аббревиатурам мы могли с вами встречаться))

Stanislav

25.10.2018
19:57:31

Вы тогда чего-то не то сказали, может это цена не только ща хранение?

Да, слегка по объемам ошибся. Поднял переписку, 50 тбайт - 6к баксов. Суммарно за все они платили 20к. То есть 150-180тб

Anton

25.10.2018
21:21:29

Да, слегка по объемам ошибся. Поднял переписку, 50 тбайт - 6к баксов. Суммарно за все они платили 20к. То есть 150-180тб

хм, просто за хранение даже где-то во франкфурте нужно будет отдать 2.5к за 50 ТБ, а в штатах 1.5К, видимо это за что-то еще

Dan

26.10.2018
00:32:26

есть кто живой?

Stanislav

26.10.2018
01:07:59

+

Dan

26.10.2018
01:18:53

уже разобрался, спасибо

Ruslan

26.10.2018
02:46:43

В одной екомерс компании мне утверждали, что hyperthreading плохо сказывается на рилтайм компьютинг в hadoop и они его принудительно отключали. Это действительно так или это мамкины погромисты?

Dan

26.10.2018
03:09:14

В одной екомерс компании мне утверждали, что hyperthreading плохо сказывается на рилтайм компьютинг в hadoop и они его принудительно отключали. Это действительно так или это мамкины погромисты?

не знаю про хадуп, но HT может реально ударить по производительности, если нагрузка очень IO bound

и добавляет он, в лучшем случае процентов 20-30, а не 100 как нам всем хотелось бы.

Mikhail

26.10.2018
05:54:36

В одной екомерс компании мне утверждали, что hyperthreading плохо сказывается на рилтайм компьютинг в hadoop и они его принудительно отключали. Это действительно так или это мамкины погромисты?

Технология hyper-threading позволяет задействовать вычислительные блоки, которые простаивают внутри физического ядра. Ну или распараллелить ожидание данных из памяти. В реальности в большинстве случаев это может давать повышение производительности по throughput +30-40%, но, из-за большего contention на вычислительные блоки будет может давать +30-40% latency на сами операции внутри процессора. И дальше надо выбирать, что вам важнее, latency и near real-time или throughput и batch processing. Для hadoop верно второе. Выключать стоит только если вы реально понимаете что делаете, сделали сравнительные тесты, и, нарпример, понимание что из-за hyper-threading и бегущей аналитики с hbase / ignite / flink бегущими рядом получаете серьёзную просадку. Рулить hyper-threading считается bad practice, но, как мы видим, в новых процессорах от intel стали чаще его не делать:)

Nikita Blagodarnyy

26.10.2018
08:39:55

"только если вы реально понимаете, что делаете".

Мне кажется, это стоит сделать девизом группы.

Рамиль

26.10.2018
08:45:45

Мне кажется, это стоит сделать девизом группы.

лучше бы всего человечества

Mikhail

26.10.2018
09:20:43

не знаю про хадуп, но HT может реально ударить по производительности, если нагрузка очень IO bound

Как HT связан с IO?

Евгений

26.10.2018
09:42:21

Как HT связан с IO?

Ну типа дисков-то больше не стало от гипертрединга, и если на один диск вместо 4 потоков пишут 8, будет очередь записи расти, вместо того, чтобы считаться быстрее, может даже медленнее посчитаться

Vladislav

26.10.2018
09:44:31

слишком косвенно

Старый

26.10.2018
10:16:59

слишком косвенно

ну я например на постгресе замечал, что без ht он даже лучше работает

Mikhail

26.10.2018
10:17:23

Ну типа дисков-то больше не стало от гипертрединга, и если на один диск вместо 4 потоков пишут 8, будет очередь записи расти, вместо того, чтобы считаться быстрее, может даже медленнее посчитаться

Да, но можно сделать наоборот. Если 4 ядра, включить HT, будет 8 ядер. Делаем 4 потока с дисками, и даже если они ушли в D-state и мучают ядра, то остальные 4 ht свободны по всем вычислительным блокам, и дают 100% производительности

Google

Daniel

26.10.2018
10:18:34

Да, но можно сделать наоборот. Если 4 ядра, включить HT, будет 8 ядер. Делаем 4 потока с дисками, и даже если они ушли в D-state и мучают ядра, то остальные 4 ht свободны по всем вычислительным блокам, и дают 100% производительности

госпади, кто ж так программы пишет new FixedThreadPool(1000)

пока один поток стоит, другой работает профит! дедова техника работает

Andrey

26.10.2018
10:19:26

госпади, кто ж так программы пишет new FixedThreadPool(1000)

согласен, кто такие маленькие пулы выделяет

Mikhail

26.10.2018
10:23:15

пока один поток стоит, другой работает профит! дедова техника работает

это работает для interruptible states (сеть, некоторые примитивы синхронизации), при блокирующей работе с дисками это плохая практика.

Daniel

26.10.2018
10:25:45

это работает для interruptible states (сеть, некоторые примитивы синхронизации), при блокирующей работе с дисками это плохая практика.

прост у твоей стойки кэш маленький, не энтерпрайзно

Mikhail

26.10.2018
10:27:30

энтерпрайзно это сделать FixedThreadPool(1000) и надеяться на кеш дисковой полки?:)

Daniel

26.10.2018
10:29:18

энтерпрайзно это сделать FixedThreadPool(1000) и надеяться на кеш дисковой полки?:)

да, но! важно тесты гонять на правильном объеме перед внедрением, а то кэша может не хватить где нить

Mikhail

26.10.2018
10:29:45

да, но! важно тесты гонять на правильном объеме перед внедрением, а то кэша может не хватить где нить

Интересный у вас подход, а когда данных станет много и не влезают, что делать будем?:)

Daniel

26.10.2018
10:29:46

энтерпрайзно это сделать FixedThreadPool(1000) и надеяться на кеш дисковой полки?:)

прост ты рано свалил с аутсорса (я тупо завидую)

Mikhail

26.10.2018
10:29:51

Еще полочек закажем?:)

прост ты рано свалил с аутсорса (я тупо завидую)

ну так вали, кто держит:)

Daniel

26.10.2018
10:30:35

Интересный у вас подход, а когда данных станет много и не влезают, что делать будем?:)

/pyatnitsa

Admin

ERROR: S client not available

Daniel

26.10.2018
10:30:58

ну так вали, кто держит:)

давно, но шрамы остались

Artem

26.10.2018
11:11:12

/pyatnitsa

Nikita Blagodarnyy

26.10.2018
11:14:30

/pyatnitsa

Рамиль

26.10.2018
11:15:13

/pyatnitsa

Stanislav

26.10.2018
11:15:48

/pyatnitsa

Mikhail

26.10.2018
11:21:30

Пятничная перепись населения, не нажимайте на ссылку.

Andrey

26.10.2018
11:23:24

/pyatnitsa

Google

Daniel

26.10.2018
11:27:05

Пятничная перепись населения, не нажимайте на ссылку.

why so serious?!

Mikhail

26.10.2018
11:27:30

why so serious?!

Тесты не проходят:(

Alex

26.10.2018
11:34:04

/pyatnitsa

Ilya

26.10.2018
11:35:34

/pyatnitsa

Vadim

26.10.2018
11:36:00

/pyatnitsa

Renarde

26.10.2018
11:38:16

всем привет и хорошей пятницы! расскажите пожалуйста, а как настроить опцию spark --packages смотреть на локальный maven репо? что-то не могу найти гайдов.

Vadim

26.10.2018
11:39:01

вроде как только через http урлы к нему явно указывать

Dan

26.10.2018
13:17:45

Да, но можно сделать наоборот. Если 4 ядра, включить HT, будет 8 ядер. Делаем 4 потока с дисками, и даже если они ушли в D-state и мучают ядра, то остальные 4 ht свободны по всем вычислительным блокам, и дают 100% производительности

я немного не так написал. когда IO bound и есть много IOwait то HT поможет, потенциально. То есть когда на хосте есть узкое место которое приводит к потенциальным iowait - диски, сеть. Когда iowait низкий, HT не пможет, а из-за дополнительных задержек на ротацию очередей, даже ухудшит производительность. Где то на сайте red hat должен быть подробный отчет на эту тему касательно производительности КVM с и без HT, я его писал в 2010-2011 где-то

Mikhail

26.10.2018
13:19:01

я немного не так написал. когда IO bound и есть много IOwait то HT поможет, потенциально. То есть когда на хосте есть узкое место которое приводит к потенциальным iowait - диски, сеть. Когда iowait низкий, HT не пможет, а из-за дополнительных задержек на ротацию очередей, даже ухудшит производительность. Где то на сайте red hat должен быть подробный отчет на эту тему касательно производительности КVM с и без HT, я его писал в 2010-2011 где-то

что за ротация очередей? Если iowait низкий — проц свободный, ht должен помочь на batch processing

Dan

26.10.2018
13:38:54

что за ротация очередей? Если iowait низкий — проц свободный, ht должен помочь на batch processing

чем? реально выполнять задачи может только одно ядро, вторая очередь на исполнение ничем не поможет

Mikhail

26.10.2018
13:40:35

>"Когда iowait низкий, HT не пможет, а из-за дополнительных задержек на ротацию очередей, даже ухудшит производительность. " Если iowait низкий, то задачи выполнять может любое число свободных ядер.

Если у нас 56 ядерная машина и одно ядро съело диск в полку, то iowait ~2%.

Остальные 55 ядер свободные, cpu bound может спокойно работать

iobound могут так же спокойно работать, если с другими дисками.

Dan

26.10.2018
13:41:58

вот касса в банк, к ней выстроилась толпа. Кто то просит что то быстрое, и получает услугу, уходит. Кто то внезапно чтоб птветить на вопрос кассира начинает лезть в телефон или ковыряться в сумке, в поисках бумаг например. HT это вторая очередь к тому же кассиру, и если кто то задерживается, кассир принимает другого из второй очереди чтоб не ждать. Чтоб было честно кассир принимает при все равны условиях людей из двух очередй поочередно. Если все с быстрыми запросами, двойная очередь только задержит исполнение. Если у многих тормоза с доставанием бумаг из сумок - вторая очередь помогает скорить общий процесс приема всей толпы

Открыть в Telegram