@hadoopusers

Страница 126 из 182
Daniel
06.08.2018
07:26:01
А сам проверить не хочешь?
ну я ж говорю, отобрал ряд технологий для проверки в порядке приоритетов получилось slurm, yarn, mesos

Nick
06.08.2018
07:29:09
А, это просто очередь какая

А мезос чистый или всеж с dcos?

Daniel
06.08.2018
07:30:02
да пофиг, мне проблему решить надо, а чем вторично

Google
Alexander
06.08.2018
08:12:20
ну кстати мезос не тяжело сапортить вот кубер.
Есть управляемый AWS EKS для тех кто в облаке, там сопровождение проще.

Grigory
06.08.2018
08:12:56
Есть управляемый AWS EKS для тех кто в облаке, там сопровождение проще.
там стори читай; проблема не поднять кубер а ресурсы выделять

Alexander
06.08.2018
08:23:39
А, ну да. Замаппить ресурсы GPU на контейнер можно, а вот управление этими ресурсами в смысле шарить карту проблема, да и не в приоритете у разработчиков.

Anna
06.08.2018
10:12:20
А разве Х5 на Добрынинскую не переехал?
Часть офиса уехала на Добрынинскую, но ИТ остались на Волгоградском проспекте.

Nikita
06.08.2018
12:11:01
Коллеги, попал в руки HDFS на SSD (~60TB) Есть ли у кого-то идеи / советы как его потюнить, какие грабли обойти, какие фишки попробовать? Может полезная статейка есть под рукой? стандартный workload на нем - Spark + Hive + Streaming логов из кафки

Andrey
06.08.2018
12:16:21
и как, быстро работает?

Nikita
06.08.2018
12:19:58
пока сетапим

Andrey
06.08.2018
12:40:38
интересно, потом расскажите как спарк паркет или орк из ссд вычитывать будет)

Stanislav
06.08.2018
12:51:32
По идее должно хорошо работать на куче мелких партиций. Ииии, наверное все

Alexander
06.08.2018
13:03:10
С точки зрения $ для HDFS, которая оперирует большими блоками, зачастую выгоднее поставить много HDD, чем инвестировать в SSD. В AWS рекомендуется ставить throughtput optimized HDD. SSD выигрывает для большого объема random read/write, например, для RDBMS.

Zelmm
06.08.2018
13:04:15
Друзья можете подсказать такую вешчь: есть много виртуалок, котоыре ВМВарь может сама мигрировать при определенных случаях. Если у меня развернут хадуп и на нем спарк считает что-то, то в момент миграции с одной ноды на другую мне будет больно?

Stanislav
06.08.2018
13:10:15
Друзья можете подсказать такую вешчь: есть много виртуалок, котоыре ВМВарь может сама мигрировать при определенных случаях. Если у меня развернут хадуп и на нем спарк считает что-то, то в момент миграции с одной ноды на другую мне будет больно?
Нет. Возможно подтормаживание. Не знаю как в варе - по идее произойдет мапа опер памяти ос с одного сервера на другой. В случае быстрого изменения памяти процесс будет идти долго.

Google
Grigory
06.08.2018
13:57:14
Всем привет! Важная информация по завтрашнему мероприятию. К сожалению, уже несколько дней я валяюсь с температурой, поэтому доклада про Deep Learning landscape не будет, он переносится на следующий раз. Вместо этого коллеги из Мегафона сделают доклад "Инструменты работы с Гео-данными на Spark.". Кроме того, есть возможность посетить экскурсию по офису мегафона. Если кто-то хочет принять в ней участие, то приходите часам к 18. Я постараюсь оклематься до завтра, но, если этого не произойдет, все будет хорошо. Moscow Spark состоится при любой температуре ))

Alexander
06.08.2018
14:28:58
про AWS есть сравнение где-нибудь с конкретными цифирями?
https://calculator.s3.amazonaws.com/index.html ? Соотносишь характеристики и цену на различные EBS.

https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/EBSVolumeTypes.html - рекомендации самого AWS

Alexey
06.08.2018
15:38:00
https://calculator.s3.amazonaws.com/index.html ? Соотносишь характеристики и цену на различные EBS.
а, ну-ну, калькулятор. спасибо, а то я не знаю... херню на постном масле он показывает. с тем, что потом реально выходит в биллинге, вообще никак не бьётся.

Grigory
06.08.2018
15:40:13
а, ну-ну, калькулятор. спасибо, а то я не знаю... херню на постном масле он показывает. с тем, что потом реально выходит в биллинге, вообще никак не бьётся.
тебя судьба конечно не жалеет, туча прям угрюмая) // я по доброму если чо сча вижу уже строчите как толстые

Alexey
06.08.2018
15:43:13
авс вообще отстой. если б не хотелка заказчика, сидели бы на азуре. хдинсайт и удобнее, и предсказуемей, и костылей куда меньше, чем в емр

Grigory
06.08.2018
15:43:36
ох ты; у меня абсолютно наоборот опыт с ажурой

мне особенно нравятся ажуро доки с нерабочими примерами

Alexey
06.08.2018
15:44:39
а мне вот особенно, ну прям до дрожи в коленках нравятся всякие приблуды типа s3-dist-cp.

Grigory
06.08.2018
15:44:51
а зачем она нужна?

я прост вот ни разу не польовался)

с3 дист кп

хотя все на емр

Alexander
06.08.2018
15:45:21
а, ну-ну, калькулятор. спасибо, а то я не знаю... херню на постном масле он показывает. с тем, что потом реально выходит в биллинге, вообще никак не бьётся.
Ну тут не смогу ничего добавить, потому что в нашем случае клиента калькулятор устраивает, а деньги он самостоятельно заносит, на Amazon не жаловался. Однако непосредственно соотношение цен дисков, неужели оно сильно расходится, а не вместе с поддержкой, спотами и т.п.?

Alexey
06.08.2018
15:45:25
у тебя исходное файло где лежит?

Grigory
06.08.2018
15:45:40
либо с3 либо хдфс

Alexey
06.08.2018
15:46:00
и в каком колчиестве. у нас вот мильён csv на сколько-то терабайтов

Grigory
06.08.2018
15:46:17
не нужны csv

Google
Alexey
06.08.2018
15:46:35
скормить без переноса в хдфс и слияния водин спарку это нереально

Grigory
06.08.2018
15:46:36
теры картинок;

слай не пользуемся

Alexey
06.08.2018
15:46:58
нужны или нет, но что даёт поставщик, то и есть.

Grigory
06.08.2018
15:47:13
ааа ну я думал эт вы кладете все в сисв

)))))

думаю у тебя какойто весбма специфичный кейс

Alexey
06.08.2018
15:48:41
какая разница во что выкладывать конечный результат, хотя, впрочем, та же хрень.

Grigory
06.08.2018
15:48:48
но мне кстати кажется обычная хадуп консоль кладет все на с3

типа hadoop fs cp и пути указываешь

могу проверить

Alexey
06.08.2018
15:49:20
с3 хорош до определённого объёма, а потом... потом они его троттлят

11 миллионов партов в бакете -- и усё. в бан за дудос.

Grigory
06.08.2018
15:49:45
ты партфайлы там хранишь?

это плохо работает

и медленно

Alexey
06.08.2018
15:50:15
на азуре же такое не карается ничем

просто бери и юзай как захочется. а с3 какашка.

Grigory
06.08.2018
15:50:57
мммм не сталкивался честно говоря, но я бы не советовал использовать этот хадупо конектор к с3

мы свое писали для четния и записи, и на больших объемах не заметил регрессии

Google
Grigory
06.08.2018
15:51:42
только на большом колве маленьких файлов она есть, очевидно

ну васб не плохая да

Alexey
06.08.2018
15:52:05
эта регрессия нигде не документирована

Grigory
06.08.2018
15:52:11
она документирована

у хадупа такая же

с3 просто хадуп прокачаный хзибитом

Alexey
06.08.2018
15:52:41
там есть заметка про eventual consistency но нигде не сказало про лимит в 11кк ключей на бакет

Grigory
06.08.2018
15:53:10
я думал гдет есть; но да) брось с3 лучше не использовать для мелких файлов

тут лучше хдфс и в ручную мапфайлы составлять и индексировать

Alexey
06.08.2018
15:55:52
хехех

уж что есть, с тем и работаем

Grigory
06.08.2018
15:56:31
но да, с3 такая ж хдфс, отсюда пробелмы хранения мелких файлов

я не думаю что ажура радикально лучше с этим работает, может просто убраны искусственные лимиты с3

Alexey
06.08.2018
15:57:16
эт откуда известно что с3 поверх хдфс?

Grigory
06.08.2018
15:57:23
она не поверх

Alexey
06.08.2018
15:58:08
ну просто плохо спроектирована значить

Alexander
06.08.2018
15:58:32
но да, с3 такая ж хдфс, отсюда пробелмы хранения мелких файлов
Именно, поэтому если обработка многих мелких файлов (да еще и с произвольным доступом), не рассмотреть ли что-то отличное от HDFS / S3? ELK??

Grigory
06.08.2018
15:59:03
у хдфс есть апи для создания мапфайлов

получится что фактически не будет мелких файлов для хдфс и он будет норм работать

Google
Grigory
06.08.2018
15:59:32
все будет эффективно лежать

тут проблема ключа будет - она понимает тока лексиграфию как все большие таблицы

а почему тут такой дизайн @workales потому что такой дизайн у хдфс; ажура такая ж; ничо нового никто не придумал; сервисы с лучшим апи и под разные нужды делают

Alexey
06.08.2018
16:00:22
в авсе ещё сильно бесит маркет с торговлей на цене за время. в азуре такой дури нету, просто платишь и юзаешь. а тут то нужный тип инстанса занят, то в шесть америка просыпается и перекупает всё, что ты зааллоцировал в спотах

Grigory
06.08.2018
16:01:18
у меня мне кажется m3xlarge за 7 центов никто никогда не перекупал

вот 6 да

7 - не помню

Alexey
06.08.2018
16:02:26
а почему тут такой дизайн @workales потому что такой дизайн у хдфс; ажура такая ж; ничо нового никто не придумал; сервисы с лучшим апи и под разные нужды делают
нет, там несколько получше. судя по ихним докам, скейлинг у блобов хороший, а которые поверх adl (т.е. wasb2) вообще должны быть безразмерные

Grigory
06.08.2018
16:02:59
или это не указано и работает ‘само собой’?

я бы и с васбом тоже не рекомедовал бы пользоваться через хадупо апи

у них своя либа есть и лучше ею

Alexey
06.08.2018
16:04:39
у меня мне кажется m3xlarge за 7 центов никто никогда не перекупал
вот прям щас у нас крутится кластер на 20 штук m5.24xlarge — на флоте из сотен m3.xlarge оно считалось бы... ну я не знаю... пару лет.

Grigory
06.08.2018
16:05:00
ну я прод на спотах не держу)

Oleksandr
06.08.2018
16:06:41
ну я прод на спотах не держу)
кстати, а почему? теоретически, можно настроить всякие автобалансировки и перезапуски

Grigory
06.08.2018
16:08:40
а так можно

Страница 126 из 182