@hadoopusers

« Назад

Страница 84 из 182

Далее »

Grigory

14.03.2018
06:29:09

по иопсам и спу у нас особых ограчниений не было) большие жирные тачки ТАК ЧТО НЕЗНАЮ

Sergey

14.03.2018
06:29:16

а докер вы чем рулите-провижните?

Grigory

14.03.2018
06:29:47

тот про ктоорый говорю это прост набор скриптов, читай ансибл расикдывал все

из плюсов - цель этого всего - была возможность обновления безболезненного кластера и отсутвия жавы на хосте

Google

Grigory

14.03.2018
06:30:30

ну и действительно такая хдфс оч удобно и безболезненно обновляется

ах ну и да - железный оверхед все волюмы должны быть проброшены на диски

иначе не вывозит ):

ну и суть этого на самом деле не большоая - удобное обновление нод и только на самом деле

ну типа выглядит как горхнул контейнер поднял новый и все работает

Daniel

14.03.2018
06:32:27

бонусом геморрой и надежда на то, что докер поверх хадуповских проблем не подкинет своих

Grigory

14.03.2018
06:32:37

да не, уже 3 года работает

Daniel

14.03.2018
06:33:34

у нас кластер и без докера работает проблемы при миграциях чисто клаудеровские и хадуповские, что не решится контейнерами

Grigory

14.03.2018
06:33:41

конечно

Andrey

14.03.2018
06:33:52

ну и суть этого на самом деле не большоая - удобное обновление нод и только на самом деле

Сильно проще чем пакет раскатить?

Grigory

14.03.2018
06:34:44

конечно у нас свой хадуп был и свой класспас и хбейз со своими итераторами (или как оно называется) удобнее и чище прост поуилять контейнеры и новых поднять чем пакеты раскатывать и думать что класспасы засраны и всякое такое

да вообще это идеологический подход разницы особо нет яж уже написал что оверхед реально может быть

и вон Данил с подозрением относится) однак там все хорошо в докерах

Google

Daniel

14.03.2018
06:37:03

и вон Данил с подозрением относится) однак там все хорошо в докерах

это не подозрение я просто не вижу достаточного количества плюсов супротив усложнения комплекса

Grigory

14.03.2018
06:37:22

ну это выглядеть может как упрощение

апдуйтов

своих сборок

пакеты собирать предлагаешь и выкатывать их везде?

таж самая вафля

Daniel

14.03.2018
06:38:20

таж самая вафля

вот я про то и говорю, что тоже самое, но без доп пройслойки

Grigory

14.03.2018
06:38:26

да нетж

не тож самое ну) не оттестить надо ставить жаву на тачки апдейт жавы превращается в ад нет гарантии одинаковой версии жавы вдруг хочется поменять убунту на сентось

^ что и правда было

ну тип вот сча у нас требование компании Н делать пакеты и это не оч удобно в палне 3д пати зависимостей

Daniel

14.03.2018
06:39:58

про тесты согласен, контейнеры для этого удобны про смену оси не понял совсем

ptchol

14.03.2018
06:40:02

1) лишнее звено в системе повышает хрупкость системы в целом (особенно докер, сеть и прочее) 2) jvm до сих пор не умеет нормально в докеры (не видит лимиты) 3) единственный плюс докера для разворачивания перед набором скриптов (один фиг их делать что там что там) - скорость разворачивания 4) лимиты докера не распространяются на диски 5) как бы Помадчин кривуюрожу не постил, но лимиты на цпу вызывают дополнительные остановы при вычислениях.

1 схоластический аргумент ) 2 у РХ статейка есть с объяснением как, почему, и как жить. Вполне решаемо, все живут. 3 Нет, ещё большой плюс когда ты что то заменяешь в поставке CDH\HDP, с докером у тебя однообразие развертывания компонент и просто та их обновления. С менджментом от внешней сущности (cdh), либо 2 места, либо пиши блюпринты, либо страдай при апдейтах стека. 4 можно контейнеру ограничть иопсики по девайсам на рид \ врайт. Имхо в большинстве случаев достаточно. 5 имхо, если у вас не выделенный кластер, а на этих же машинах крутятся кроме ярна и штормы \ хбейзы, вы будете рулить сигруппами всё это дело и будет тож самое ну и про когерентность кеша цпу - он на вычислениях имхо не так заметен как скажем на выскоком сетевом ИО.

Grigory

14.03.2018
06:40:17

про тесты согласен, контейнеры для этого удобны про смену оси не понял совсем

ну калстер был на оси A стал на оси B

да не знаю - короче в целом у мя оч приятные ощущения от хадупа под докером были - может лаки бой конечно же

sherzod

14.03.2018
06:44:12

мне кажется докер имеет смысл только если есть оркестратор, куб например

Daniel

14.03.2018
06:44:13

1 схоластический аргумент ) 2 у РХ статейка есть с объяснением как, почему, и как жить. Вполне решаемо, все живут. 3 Нет, ещё большой плюс когда ты что то заменяешь в поставке CDH\HDP, с докером у тебя однообразие развертывания компонент и просто та их обновления. С менджментом от внешней сущности (cdh), либо 2 места, либо пиши блюпринты, либо страдай при апдейтах стека. 4 можно контейнеру ограничть иопсики по девайсам на рид \ врайт. Имхо в большинстве случаев достаточно. 5 имхо, если у вас не выделенный кластер, а на этих же машинах крутятся кроме ярна и штормы \ хбейзы, вы будете рулить сигруппами всё это дело и будет тож самое ну и про когерентность кеша цпу - он на вычислениях имхо не так заметен как скажем на выскоком сетевом ИО.

1) один из законов в инженерном деле 2) решаемо, живут выглядит как оправдание а не повод попробовать 3) не распарсил текст 5) наши админы забили рулить, "Вполне решаемо, все живут." (с) ? 6) Про ио и кэши согласен отчасти. Это может и должно ролять, если б не то как сейчас все сделано.

Grigory

14.03.2018
06:44:49

Да Данил, вообще докер выглядит как упощение (имхо) тут улосжнение ток потеницально стетевое и железное

ну и ранчер какойнить может менеджить всем вот правда я уже не занимался этим

ptchol

14.03.2018
06:45:44

2. Это экосистема которая сложилась годами, и случай с джавкой это эдж кейс. Его просто нужн оизучить, понять и жить припеваючи. 3. Ну, вы сказали что менеджить удобно и при помощи клаудеры \ хортона, я говорю что если вам какой нить компонент из стека не подходит, и его нужно привезти более свежей версии, начинаются пляски.

Google

Grigory

14.03.2018
06:46:19

мне кажется докер имеет смысл только если есть оркестратор, куб например

да не обязательно, у кубера свои пролемы могут быть (он на го же)

как и докер...

sherzod

14.03.2018
06:48:16

ну и если ставить ванильный хадупчик, но этой высокой цели в проде пока кажется никто не достиг

Grigory

14.03.2018
06:48:47

ну и если ставить ванильный хадупчик, но этой высокой цели в проде пока кажется никто не достиг

я ж вон писал)

по факту у меня и был ванила везде

ну и сейчас тоже

sherzod

14.03.2018
06:51:00

Прямо со всей инфраструктурой (hbase, hive, oozie, spark, zookeeper, security, и всё остальное) ?

Grigory

14.03.2018
06:51:28

секурити ток не было внутрь локалки запихано все и тачки в стойках рядом

hadoop, accumulo, spark, zookeeper потом спарк кикнут был и ярн раскинут и спаркожобы под ярном

ну и всяая лабуда потом типа кассандры была и МОНГИ (вот ее кстати я бы реокмендовал пихать в контейнеры, если уж так поклчилось что у вас есть этот дьявол)

sherzod

14.03.2018
06:53:22

ну эти службы да, возможно там проблемы возникают с безопасностью и некоторыми из окружения, например oozie так как нет бинарных сборок, а самому собирать там ад

ptchol

14.03.2018
07:01:13

у нас и то и другое, и в контейнерах живёт ок ))

sherzod

14.03.2018
07:26:27

@ptchol тоже ванильный? а как вы бинари для служб собираете?

ptchol

14.03.2018
08:08:46

я про кассандру с монгой говорил.

Akceptor

14.03.2018
08:25:38

Пробую достучаться к HdfsAdmin на Azure и постоянно бросает вот такое: java.lang.RuntimeException: java.lang.NoSuchMethodException: org.apache.hadoop.fs.azure.Wasb.<init?) at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:135) ~[jar:<stream>1521015453874:?] at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:3241) ~[jar:<stream>1521015453874:?] at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:121) ~[jar:<stream>1521015453874:?] at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:3291) ~[jar:<stream>1521015453874:?] at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:3259) ~[jar:<stream>1521015453874:?] at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:470) ~[jar:<stream>1521015453874:?] at org.apache.hadoop.hdfs.client.HdfsAdmin.<init?HdfsAdmin.java:78) ~[jar:<stream>1521015453874:?] hadoop-azure и azure-storage джарки на класспасе есть, чего ему еще надо?

Grigory

14.03.2018
08:27:18

клиентом? а чем стучишься?

всякие fs.wasb.impl засетапил?

и версии сдк может разные на клиенте / сервере

Akceptor

14.03.2018
08:30:55

всякие fs.wasb.impl засетапил?

вроде все засетапил, делаю так: admin = new HdfsAdmin(uri, hdfsConfiguration); сверю версии, спасибо

Artem

14.03.2018
09:32:57

дратути

Google

Artem

14.03.2018
09:34:48

интересует вопрос миграции HDFS (cloudera) с AWS на baremetal, в какой-нибудь OVH…

собственно, вычитал за Falcon, кто что скажет?

данных мало, ~50Tb

Daniel

14.03.2018
11:49:51

@krivdathetriewe ты говорил что в спарке появились метрики, можешь ткнуть мордой где смотреть?

KrivdaAllStars

14.03.2018
11:58:24

@krivdathetriewe ты говорил что в спарке появились метрики, можешь ткнуть мордой где смотреть?

https://spark.apache.org/docs/latest/monitoring.html#metrics

Это видел ?

Daniel

14.03.2018
12:08:28

неа, спасибо

это вообще для друга))

?Ivan

14.03.2018
12:13:27

https://spark.apache.org/docs/latest/monitoring.html#metrics

в 2.2.0 тоже самое, в итоге используем com.groupon.dse.spark-metrics для кастомных метрик

Oleg

14.03.2018
13:02:21

привет

а расскажите про capacity шедулер . Есть три очереди с капасити 60/30/10. Первая очередь пустует, очередям с капасити 30 и 10 отдаются все оставшиеся ресурсы (допустим что максимум капасити у обеих 95%). Как ресурсы распределятся в таком случае?

поровну раздадутся?

или больше достанется очереди с 30%

чёт не нагуглить

Stanislav

14.03.2018
13:29:02

В документации явно не оговорено. Но макс капасити даёт ресурсы, если есть. Если нет, то гарантируется капасити. Иными словами, первый пришел, первый забрал свободные ресурсы.

Andrey

14.03.2018
13:47:52

А шедуллер разве будет раздавать оставшиеся ресурсы?

Он не будет резервировать 60 процентов ресурсов?

Boris

14.03.2018
13:50:17

Это определяется ordering policy.

Для капасити есть fifo и fair

Stanislav

14.03.2018
13:51:54

Он не будет резервировать 60 процентов ресурсов?

Посмотри elasticity в доке на capacity scheduler

Google

Boris

14.03.2018
13:56:05

Вот пример доки https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.6.1/bk_yarn-resource-management/content/flexible_scheduling_policies.html ПО дефолту фифо, значит поведение должно быть как описал Станислав.

Kirill

14.03.2018
13:57:57

основные минусы: 1) репликация блоков HDFS на разные виртуальные узлы кластера может потенциально оказаться на одной физической машине. и при ее бабахе шанс потерять блок данных повышается (уже решено для HDFS, можно задать для виртуальных узлов группы) 2) запуск процедур обработки данных (mapreduce, spark) может отработать на одной физической машине

Можно поднимать виртуалки по 1 на хост)

Sergey

14.03.2018
14:00:56

Можно поднимать виртуалки по 1 на хост)

хмм. действительно! ))))

Oleg

14.03.2018
14:22:11

В документации явно не оговорено. Но макс капасити даёт ресурсы, если есть. Если нет, то гарантируется капасити. Иными словами, первый пришел, первый забрал свободные ресурсы.

так и думал, спасибо!

Boris

14.03.2018
14:30:49

так и думал, спасибо!

Да, только в документации явно оговорено.

Alexander

14.03.2018
14:47:38

#Job Коллеги, приветствую! Вброшу хорошую вакансию. В крупную российскую авиакомпанию S7 airlines (Москва, м. Тверская) активно ищем Data Engineer. Есть крупный отдел из 10+ Data Scientist'ов, сейчас они сами выполняю функции инженеров. Хотим разделить обязанности, для этого ищем хороших инженеров в штат. В задачах - организовывать витрины/дата сеты для аналитиков (с вас песочница, с аналитика - алгоритмы). Стек - Hive, Impala, AeroSpike -> Hadoop, Spark. Объемы - зависят от проекта. От 10гб до нескольких Тб. По деньгам - в рынке. Меня никак не ограничивали, будем обсуждать с каждым индивидуально. Белые, соцпакет, плюс очень дешевые билеты для своих. Если есть любые вопросы или хотите прислать резюме, то пишите в личку или на почту alavrov@star-staff.ru

Aleksey