
Daniel
06.08.2018
07:26:01

Nick
06.08.2018
07:29:09
А, это просто очередь какая
А мезос чистый или всеж с dcos?

Daniel
06.08.2018
07:30:02
да пофиг, мне проблему решить надо, а чем вторично

Google

Alexander
06.08.2018
08:12:20

Grigory
06.08.2018
08:12:56

Alexander
06.08.2018
08:23:39
А, ну да. Замаппить ресурсы GPU на контейнер можно, а вот управление этими ресурсами в смысле шарить карту проблема, да и не в приоритете у разработчиков.

Anna
06.08.2018
10:12:20

Nikita
06.08.2018
12:11:01
Коллеги, попал в руки HDFS на SSD (~60TB)
Есть ли у кого-то идеи / советы как его потюнить, какие грабли обойти, какие фишки попробовать? Может полезная статейка есть под рукой? стандартный workload на нем - Spark + Hive + Streaming логов из кафки

Andrey
06.08.2018
12:16:21
и как, быстро работает?

Nikita
06.08.2018
12:19:58
пока сетапим

Andrey
06.08.2018
12:40:38
интересно, потом расскажите как спарк паркет или орк из ссд вычитывать будет)

Stanislav
06.08.2018
12:51:32
По идее должно хорошо работать на куче мелких партиций. Ииии, наверное все

Alexander
06.08.2018
13:03:10
С точки зрения $ для HDFS, которая оперирует большими блоками, зачастую выгоднее поставить много HDD, чем инвестировать в SSD. В AWS рекомендуется ставить throughtput optimized HDD. SSD выигрывает для большого объема random read/write, например, для RDBMS.

Zelmm
06.08.2018
13:04:15
Друзья можете подсказать такую вешчь: есть много виртуалок, котоыре ВМВарь может сама мигрировать при определенных случаях. Если у меня развернут хадуп и на нем спарк считает что-то, то в момент миграции с одной ноды на другую мне будет больно?

Stanislav
06.08.2018
13:10:15

Zelmm
06.08.2018
13:22:24

Google

Alexey
06.08.2018
13:56:49

Grigory
06.08.2018
13:57:14
Всем привет! Важная информация по завтрашнему мероприятию.
К сожалению, уже несколько дней я валяюсь с температурой, поэтому доклада про Deep Learning landscape не будет, он переносится на следующий раз. Вместо этого коллеги из Мегафона сделают доклад "Инструменты работы с Гео-данными на Spark.".
Кроме того, есть возможность посетить экскурсию по офису мегафона. Если кто-то хочет принять в ней участие, то приходите часам к 18.
Я постараюсь оклематься до завтра, но, если этого не произойдет, все будет хорошо. Moscow Spark состоится при любой температуре ))

Alexander
06.08.2018
14:28:58
https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/EBSVolumeTypes.html - рекомендации самого AWS

Андрей
06.08.2018
14:35:36

Alexey
06.08.2018
15:38:00

Grigory
06.08.2018
15:40:13

Alexey
06.08.2018
15:43:13
авс вообще отстой.
если б не хотелка заказчика, сидели бы на азуре. хдинсайт и удобнее, и предсказуемей, и костылей куда меньше, чем в емр

Grigory
06.08.2018
15:43:36
ох ты; у меня абсолютно наоборот опыт с ажурой
мне особенно нравятся ажуро доки с нерабочими примерами

Alexey
06.08.2018
15:44:39
а мне вот особенно, ну прям до дрожи в коленках нравятся всякие приблуды типа s3-dist-cp.

Grigory
06.08.2018
15:44:51
а зачем она нужна?
я прост вот ни разу не польовался)
с3 дист кп
хотя все на емр

Alexander
06.08.2018
15:45:21
а, ну-ну, калькулятор. спасибо, а то я не знаю...
херню на постном масле он показывает. с тем, что потом реально выходит в биллинге, вообще никак не бьётся.
Ну тут не смогу ничего добавить, потому что в нашем случае клиента калькулятор устраивает, а деньги он самостоятельно заносит, на Amazon не жаловался. Однако непосредственно соотношение цен дисков, неужели оно сильно расходится, а не вместе с поддержкой, спотами и т.п.?

Alexey
06.08.2018
15:45:25
у тебя исходное файло где лежит?

Grigory
06.08.2018
15:45:40
либо с3 либо хдфс

Alexey
06.08.2018
15:46:00
и в каком колчиестве. у нас вот мильён csv на сколько-то терабайтов

Grigory
06.08.2018
15:46:17
не нужны csv

Google

Alexey
06.08.2018
15:46:35
скормить без переноса в хдфс и слияния водин спарку это нереально

Grigory
06.08.2018
15:46:36
теры картинок;
слай не пользуемся

Alexey
06.08.2018
15:46:58
нужны или нет, но что даёт поставщик, то и есть.

Grigory
06.08.2018
15:47:13
ааа ну я думал эт вы кладете все в сисв
)))))
думаю у тебя какойто весбма специфичный кейс

Alexey
06.08.2018
15:48:41
какая разница во что выкладывать конечный результат, хотя, впрочем, та же хрень.

Grigory
06.08.2018
15:48:48
но мне кстати кажется обычная хадуп консоль кладет все на с3
типа hadoop fs cp и пути указываешь
могу проверить

Alexey
06.08.2018
15:49:20
с3 хорош до определённого объёма, а потом... потом они его троттлят
11 миллионов партов в бакете -- и усё. в бан за дудос.

Grigory
06.08.2018
15:49:45
ты партфайлы там хранишь?
это плохо работает
и медленно

Alexey
06.08.2018
15:50:15
на азуре же такое не карается ничем
просто бери и юзай как захочется. а с3 какашка.

Grigory
06.08.2018
15:50:57
мммм не сталкивался честно говоря, но я бы не советовал использовать этот хадупо конектор к с3
мы свое писали для четния и записи, и на больших объемах не заметил регрессии

Google

Grigory
06.08.2018
15:51:42
только на большом колве маленьких файлов она есть, очевидно
ну васб не плохая да

Alexey
06.08.2018
15:52:05
эта регрессия нигде не документирована

Grigory
06.08.2018
15:52:11
она документирована
у хадупа такая же
с3 просто хадуп прокачаный хзибитом

Alexey
06.08.2018
15:52:41
там есть заметка про eventual consistency но нигде не сказало про лимит в 11кк ключей на бакет

Grigory
06.08.2018
15:53:10
я думал гдет есть; но да) брось с3 лучше не использовать для мелких файлов
тут лучше хдфс и в ручную мапфайлы составлять и индексировать

Alexey
06.08.2018
15:55:52
хехех
уж что есть, с тем и работаем

Grigory
06.08.2018
15:56:31
но да, с3 такая ж хдфс, отсюда пробелмы хранения мелких файлов
я не думаю что ажура радикально лучше с этим работает, может просто убраны искусственные лимиты с3

Alexey
06.08.2018
15:57:16
эт откуда известно что с3 поверх хдфс?

Grigory
06.08.2018
15:57:23
она не поверх

Alexey
06.08.2018
15:58:08
ну просто плохо спроектирована значить

Alexander
06.08.2018
15:58:32

Grigory
06.08.2018
15:59:03
у хдфс есть апи для создания мапфайлов
получится что фактически не будет мелких файлов для хдфс и он будет норм работать

Google

Grigory
06.08.2018
15:59:32
все будет эффективно лежать
тут проблема ключа будет - она понимает тока лексиграфию как все большие таблицы
а почему тут такой дизайн @workales потому что такой дизайн у хдфс; ажура такая ж; ничо нового никто не придумал; сервисы с лучшим апи и под разные нужды делают

Alexey
06.08.2018
16:00:22
в авсе ещё сильно бесит маркет с торговлей на цене за время. в азуре такой дури нету, просто платишь и юзаешь. а тут то нужный тип инстанса занят, то в шесть америка просыпается и перекупает всё, что ты зааллоцировал в спотах

Grigory
06.08.2018
16:01:18
у меня мне кажется m3xlarge за 7 центов никто никогда не перекупал
вот 6 да
7 - не помню

Alexey
06.08.2018
16:02:26

Grigory
06.08.2018
16:02:59
или это не указано и работает ‘само собой’?
я бы и с васбом тоже не рекомедовал бы пользоваться через хадупо апи
у них своя либа есть и лучше ею

Alexey
06.08.2018
16:04:39

Grigory
06.08.2018
16:05:00
ну я прод на спотах не держу)

Oleksandr
06.08.2018
16:06:41

Grigory
06.08.2018
16:08:40
а так можно