Anton
25.10.2018
18:44:01
Гпу инстансы вообще грабеж среди бела дня
Stanislav
25.10.2018
18:46:00
Я тут недавно как раз считал с3 против онпремиса локального на пятилетку. Мне сказали цену похожего размера хранения, там чото было около 15-20к зелёных в месяц
Anton
25.10.2018
18:46:07
Серьезно если то мы бывает поднимаем копию куда то в хдфс на эфемералах, но мастер всегда в S3
Google
Anton
25.10.2018
18:47:16
KrivdaAllStars
25.10.2018
18:49:01
Stanislav
25.10.2018
18:49:42
А сколько цодов в вашей конфе?
Так про то и речь. Амазон даёт большую стоимость, но и девяток там конечно больше как по доступности, так и по надёжности. Этим он выигрывает. Но в рамках даталейка...
Daniel
25.10.2018
18:51:34
Anton
25.10.2018
18:51:51
Все остальное можно пересчитать из даталейк
Но счёт на 10-15к за хранение это область 500+ терабайт
Vladislav
25.10.2018
18:53:31
Stanislav
25.10.2018
18:54:14
Anton
25.10.2018
18:55:46
Он премис 500 тб это будет 1.5 пб после реплики, и с пустым местом это кластер на 2+ пб, это уже ОЧЕНЬ большие CAPEX инвестиции
Google
Anton
25.10.2018
18:56:52
Плюс логи, которые сейчас бОльшая часть даталейка, а источники вообще не хранят
Stanislav
25.10.2018
19:57:31
Anton
25.10.2018
21:21:29
Dan
26.10.2018
00:32:26
есть кто живой?
Stanislav
26.10.2018
01:07:59
+
Dan
26.10.2018
01:18:53
уже разобрался, спасибо
Ruslan
26.10.2018
02:46:43
В одной екомерс компании мне утверждали, что hyperthreading плохо сказывается на рилтайм компьютинг в hadoop и они его принудительно отключали. Это действительно так или это мамкины погромисты?
Dan
26.10.2018
03:09:14
и добавляет он, в лучшем случае процентов 20-30, а не 100 как нам всем хотелось бы.
Mikhail
26.10.2018
05:54:36
В одной екомерс компании мне утверждали, что hyperthreading плохо сказывается на рилтайм компьютинг в hadoop и они его принудительно отключали. Это действительно так или это мамкины погромисты?
Технология hyper-threading позволяет задействовать вычислительные блоки, которые простаивают внутри физического ядра. Ну или распараллелить ожидание данных из памяти. В реальности в большинстве случаев это может давать повышение производительности по throughput +30-40%, но, из-за большего contention на вычислительные блоки будет может давать +30-40% latency на сами операции внутри процессора.
И дальше надо выбирать, что вам важнее, latency и near real-time или throughput и batch processing. Для hadoop верно второе.
Выключать стоит только если вы реально понимаете что делаете, сделали сравнительные тесты, и, нарпример, понимание что из-за hyper-threading и бегущей аналитики с hbase / ignite / flink бегущими рядом получаете серьёзную просадку.
Рулить hyper-threading считается bad practice, но, как мы видим, в новых процессорах от intel стали чаще его не делать:)
Nikita Blagodarnyy
26.10.2018
08:39:55
"только если вы реально понимаете, что делаете".
Мне кажется, это стоит сделать девизом группы.
Рамиль
26.10.2018
08:45:45
Mikhail
26.10.2018
09:20:43
Евгений
26.10.2018
09:42:21
Как HT связан с IO?
Ну типа дисков-то больше не стало от гипертрединга, и если на один диск вместо 4 потоков пишут 8, будет очередь записи расти, вместо того, чтобы считаться быстрее, может даже медленнее посчитаться
Vladislav
26.10.2018
09:44:31
слишком косвенно
Старый
26.10.2018
10:16:59
слишком косвенно
ну я например на постгресе замечал, что без ht он даже лучше работает
Mikhail
26.10.2018
10:17:23
Ну типа дисков-то больше не стало от гипертрединга, и если на один диск вместо 4 потоков пишут 8, будет очередь записи расти, вместо того, чтобы считаться быстрее, может даже медленнее посчитаться
Да, но можно сделать наоборот. Если 4 ядра, включить HT, будет 8 ядер. Делаем 4 потока с дисками, и даже если они ушли в D-state и мучают ядра, то остальные 4 ht свободны по всем вычислительным блокам, и дают 100% производительности
Google
Daniel
26.10.2018
10:18:34
пока один поток стоит, другой работает
профит!
дедова техника работает
Andrey
26.10.2018
10:19:26
Mikhail
26.10.2018
10:23:15
Daniel
26.10.2018
10:25:45
Mikhail
26.10.2018
10:27:30
энтерпрайзно это сделать FixedThreadPool(1000) и надеяться на кеш дисковой полки?:)
Daniel
26.10.2018
10:29:18
Mikhail
26.10.2018
10:29:45
Daniel
26.10.2018
10:29:46
Mikhail
26.10.2018
10:29:51
Еще полочек закажем?:)
Daniel
26.10.2018
10:30:35
Artem
26.10.2018
11:11:12
/pyatnitsa
Nikita Blagodarnyy
26.10.2018
11:14:30
/pyatnitsa
Рамиль
26.10.2018
11:15:13
/pyatnitsa
Stanislav
26.10.2018
11:15:48
/pyatnitsa
Mikhail
26.10.2018
11:21:30
Пятничная перепись населения, не нажимайте на ссылку.
Andrey
26.10.2018
11:23:24
/pyatnitsa
Daniel
26.10.2018
11:27:05
Google
Mikhail
26.10.2018
11:27:30
Alex
26.10.2018
11:34:04
/pyatnitsa
Ilya
26.10.2018
11:35:34
/pyatnitsa
Vadim
26.10.2018
11:36:00
/pyatnitsa
Renarde
26.10.2018
11:38:16
всем привет и хорошей пятницы!
расскажите пожалуйста, а как настроить опцию spark --packages смотреть на локальный maven репо? что-то не могу найти гайдов.
Vadim
26.10.2018
11:39:01
вроде как только через http урлы к нему явно указывать
Dan
26.10.2018
13:17:45
Да, но можно сделать наоборот. Если 4 ядра, включить HT, будет 8 ядер. Делаем 4 потока с дисками, и даже если они ушли в D-state и мучают ядра, то остальные 4 ht свободны по всем вычислительным блокам, и дают 100% производительности
я немного не так написал. когда IO bound и есть много IOwait то HT поможет, потенциально. То есть когда на хосте есть узкое место которое приводит к потенциальным iowait - диски, сеть. Когда iowait низкий, HT не пможет, а из-за дополнительных задержек на ротацию очередей, даже ухудшит производительность. Где то на сайте red hat должен быть подробный отчет на эту тему касательно производительности КVM с и без HT, я его писал в 2010-2011 где-то
Mikhail
26.10.2018
13:19:01
Dan
26.10.2018
13:38:54
Mikhail
26.10.2018
13:40:35
>"Когда iowait низкий, HT не пможет, а из-за дополнительных задержек на ротацию очередей, даже ухудшит производительность. "
Если iowait низкий, то задачи выполнять может любое число свободных ядер.
Если у нас 56 ядерная машина и одно ядро съело диск в полку, то iowait ~2%.
Остальные 55 ядер свободные, cpu bound может спокойно работать
iobound могут так же спокойно работать, если с другими дисками.
Dan
26.10.2018
13:41:58
вот касса в банк, к ней выстроилась толпа. Кто то просит что то быстрое, и получает услугу, уходит. Кто то внезапно чтоб птветить на вопрос кассира начинает лезть в телефон или ковыряться в сумке, в поисках бумаг например. HT это вторая очередь к тому же кассиру, и если кто то задерживается, кассир принимает другого из второй очереди чтоб не ждать. Чтоб было честно кассир принимает при все равны условиях людей из двух очередй поочередно. Если все с быстрыми запросами, двойная очередь только задержит исполнение. Если у многих тормоза с доставанием бумаг из сумок - вторая очередь помогает скорить общий процесс приема всей толпы
кассиров от этого больше не стало