@hadoopusers

Страница 163 из 182

Oleg

09.10.2018
14:30:19

вы данные хотите поместить в кубернетес?

ну его я пока как пример указал. Пока основной вариант для кластера - это месос или цеф.

ну и поначалу, скорее всего будет что-то типа одной ноды, а потом будут добавляться новые у хадупа это точно хорошо работает, как в остальных - не знаю) месос говорит, что у них тоже все очень просто))

Andrey

09.10.2018
14:31:37

месос хорошо работает со спарком из коробки, вопрос как вы эти терабайты распихнете по машинам

Oleg

09.10.2018
14:32:22

месос хорошо работает со спарком из коробки, вопрос как вы эти терабайты распихнете по машинам

для меня это тоже вопрос) а просто писать на диск, как в hdfs нельзя?

Google

Stanislav

09.10.2018
14:34:14

ну его я пока как пример указал. Пока основной вариант для кластера - это месос или цеф.

Откуда или то? Одно место хранения, второе управление ресурсами

Andrey

09.10.2018
14:34:21

для меня это тоже вопрос) а просто писать на диск, как в hdfs нельзя?

если диск/и на одной машинеhadoop как раз это и решает, честно не понятно зачем заморочки, hadoop поставить и настроить будет быстрее, тем более опыт у вас уже есть

Stanislav

09.10.2018
14:35:33

для меня это тоже вопрос) а просто писать на диск, как в hdfs нельзя?

Можно, через с3 драйвер для цефа. В итоге ты будешь хранить в уеые данные, запускать в мезосе Спарк. Поздравляю, ты построил хадуп )

Хотя даже ещё проще, воткнуть эти счётные ноды в текущий кластер хадуп и сделать метку на использование только в рамках этого проекта

В ярне

Oleg

09.10.2018
14:43:43

Хотя даже ещё проще, воткнуть эти счётные ноды в текущий кластер хадуп и сделать метку на использование только в рамках этого проекта

а вот это интересно Я такой вариант рассматривал, но мне сказали, что полностью изолировать ресурсы в хадупе нельзя. Ну и типа если с этим кластером произойдет "неудачный эксперимент оптимизации", то отдельный проект тоже пострадает. А там как раз все должно быть надежно именно по части обработки, а не хранения

Stanislav

09.10.2018
14:46:30

а вот это интересно Я такой вариант рассматривал, но мне сказали, что полностью изолировать ресурсы в хадупе нельзя. Ну и типа если с этим кластером произойдет "неудачный эксперимент оптимизации", то отдельный проект тоже пострадает. А там как раз все должно быть надежно именно по части обработки, а не хранения

Если будут именно выделенные счётные серверы, то можно. Но есть ещё нагрузка на хдфс и операция чтения/записи. Тут уж конечно не отгородиться. Но опять же, надо плясать от нагрузки, обычно ио не настолько тяжёлое по сравнению с расчетом (кроме вышеотписавшегося человека с кучей мелких файлов и ожиданием завершения действий с блоками)

Если обработки, то ваще пффф

Alexander

09.10.2018
14:50:58

ну для полного огораживания по ресурсам cpu/памяти можно либо yarn cgroups включить, либо использовать node labels для разграничения по машинам

Oleg

09.10.2018
15:13:33

Спасибо большое! Пойду подробнее читать))

Александр

09.10.2018
18:29:12

org.apache.spark.SparkException: Job 5 cancelled because SparkContext was shut down я правильно понял что сам себе буратино и положил контекст до того как закончилась вся работа ?

Alexey

09.10.2018
18:33:07

всё верно. никто не выжил

Александр

09.10.2018
19:50:29

У меня есть набор данных. Я делаю для него foreach(processingFlow); потом закрываю контекст

Google

Александр

09.10.2018
19:50:44

Смущает что до завершения flow контекст убился

Andrey

09.10.2018
20:04:21

Смущает что до завершения flow контекст убился

он мог умереть и по тому что на драйвере памяти не хватило... такое бывает, если даг большой... попробуй увеличить памяти на драйвере и драйвер мемори оверхед...

Александр

09.10.2018
20:06:24

Не, с памятью точно нет проблем. Когда из-за памяти он падает там ошибка другая, да и есть косвенное доказательство что не из-за памяти

Alexander

09.10.2018
20:48:43

org.apache.spark.SparkException: Job 5 cancelled because SparkContext was shut down я правильно понял что сам себе буратино и положил контекст до того как закончилась вся работа ?

В коде не используются Future и т.п.?

Старый

09.10.2018
21:24:26

кто пагинацию использует с hive, phoenix, yarn?

Jury

10.10.2018
07:33:33

всем доброго дня! нубский вопрос есть по Kafka, пока не очень понял, что нужно что бы сделать такое: вот есть у нас топик, в него кидаются данными, с десяток раз в минуту - скажем это записи, в каждой есть пара ключ-значение... хотелось бы строить простейшие агрегаты по этому потоку - видеть самое последнее значение по всем ключевым словам. Зачем? что бы потребители забирали данные когда им надо, а не по событию (так надо, специфика) понятно что это пишется в Kafka Table. А кто это делает? сама Kafka? или некий код на Java внутри Kafka? или самому - забирать поток да агрегировать его где угодно и чем угодно, сохраняя snapshot или же меняя значения пар ключ-значение? как-то не сложилось целостного понимания - кто делает агрегирование и запись в kafka table...

Stanislav

10.10.2018
07:40:42

всем доброго дня! нубский вопрос есть по Kafka, пока не очень понял, что нужно что бы сделать такое: вот есть у нас топик, в него кидаются данными, с десяток раз в минуту - скажем это записи, в каждой есть пара ключ-значение... хотелось бы строить простейшие агрегаты по этому потоку - видеть самое последнее значение по всем ключевым словам. Зачем? что бы потребители забирали данные когда им надо, а не по событию (так надо, специфика) понятно что это пишется в Kafka Table. А кто это делает? сама Kafka? или некий код на Java внутри Kafka? или самому - забирать поток да агрегировать его где угодно и чем угодно, сохраняя snapshot или же меняя значения пар ключ-значение? как-то не сложилось целостного понимания - кто делает агрегирование и запись в kafka table...

@proKafka кафке место в кафке

Jury

10.10.2018
07:41:26

спасибо

Ton

10.10.2018
07:49:05

@proKafka кафке место в кафке

Спасибо, в своё время не нашёл такой паблик

Александр

10.10.2018
07:59:31

В коде не используются Future и т.п.?

Нет.

Mironiken

10.10.2018
08:43:54

По поводу хайва на спарке, был опыт эксплуатации. Настройка этого дерьма - тихий ужас, а после ресурсов жрет какое-то немереное количество, в целом это ещё и вина аналитиков, которые запросы делают не подумав, но в итоге получается, что жалуются все. Либо остальные жители кластера - если хайва не огорожен, либо жители хайва потому что у них ресурсов нет

Потому что им выделили кусок кластера, в который только один запрос (на 750 гигов оперативы) влезает

Alexey

10.10.2018
08:48:47

По поводу хайва на спарке, был опыт эксплуатации. Настройка этого дерьма - тихий ужас, а после ресурсов жрет какое-то немереное количество, в целом это ещё и вина аналитиков, которые запросы делают не подумав, но в итоге получается, что жалуются все. Либо остальные жители кластера - если хайва не огорожен, либо жители хайва потому что у них ресурсов нет

сори за нубский вопрос, но зачем он нужен вообще, если есть spark sql?

Alexandr

10.10.2018
08:52:07

Здравствуйте, у кого был опыт установки hadoop на lxc ? Насколько сильно аффектит производительность работы hadoop в lxc ? Есть ли какие явные проблемы в таком решении?

Sergey

10.10.2018
08:56:00

это прям наркомания 100лвл что дальше хадуп в докере?

память будет шариться за ядро на хостовую тачку оно вам надо?)

Andrey

10.10.2018
08:57:17

сори за нубский вопрос, но зачем он нужен вообще, если есть spark sql?

наверное заморочки с пользователями и их правами

Eduard

10.10.2018
08:57:24

Хадуп по талонам

Stanislav

10.10.2018
08:57:43

сори за нубский вопрос, но зачем он нужен вообще, если есть spark sql?

Скул и ждбц против спарка

Grigory

10.10.2018
08:57:56

Здравствуйте, у кого был опыт установки hadoop на lxc ? Насколько сильно аффектит производительность работы hadoop в lxc ? Есть ли какие явные проблемы в таком решении?

нормально все было, не в lxc, в докер контейнерах жил с форвардом сети на тачку

Google

Grigory

10.10.2018
08:58:08

жил и до сих пор живет и все работает; на хетснере все в стойке

Alexandr

10.10.2018
08:58:13

нормально все было, не в lxc, в докер контейнерах жил с форвардом сети на тачку

docker?

какие объемы у вас?

Grigory

10.10.2018
08:58:31

там много тбов

да и все гонял спарк

Stanislav

10.10.2018
08:59:05

жил и до сих пор живет и все работает; на хетснере все в стойке

Кстати, а в чем заключалась цель, почему не целиковая железка?

Там же не к8

К8с?

Grigory

10.10.2018
08:59:24

Кстати, а в чем заключалась цель, почему не целиковая железка?

цель была в том что апдейтить такой кластер легко

нет не к8с

в то время когда все делалось к8с просто не работал

ну и там не только хадуп был с ярном, аккумуло как база с зукипером, полный набор

и тестовый нативный спарк кластер

из плюсов - все очень легко обновлять из минусов вонь девопсов и попытки доказать что где-то чтото просаживается

ну действительно просадки будут если волюмы не маунтить дата и неймнодные и маску не лепить на тачку

Stanislav

10.10.2018
09:03:07

А контейнеры - один без лимитов на железку?

Grigory

10.10.2018
09:03:16

без лимитов конечно

хотелось просто просто уметь разворачивать все барахло без привязки сильной к железкам

ну и все было ванила или сборки свои (чтонить из мастера черрипикнуть)

Stanislav

10.10.2018
09:06:10

А хецнер 10г сеть между серверами давал или 1? По идее единственное узкое место докера. Хотя если дисков мало на 1 железке, то и не критично

Google

Grigory

10.10.2018
09:07:11

А хецнер 10г сеть между серверами давал или 1? По идее единственное узкое место докера. Хотя если дисков мало на 1 железке, то и не критично

а я не помню что там было; все по локалке в одной стойке было) по максу чтоб была скорость, диски были ссды

Oleg

10.10.2018
09:08:20

на lxc в проксмоксах живут тестовые хадупчики. Норм работают.

Mironiken

10.10.2018
16:01:48

Аналитикам как правило нужен удобный интерфейс доступам

сори за нубский вопрос, но зачем он нужен вообще, если есть spark sql?

Старый

10.10.2018
16:02:33

А хецнер 10г сеть между серверами давал или 1? По идее единственное узкое место докера. Хотя если дисков мало на 1 железке, то и не критично

убить его создателя бы, этого докера....

какую только чушь от разрабов не слушаешь, он даже убирает требования в io у них

Uncel

10.10.2018
16:05:24

какую только чушь от разрабов не слушаешь, он даже убирает требования в io у них

Ну ты как инжонир можешь сделать тест И показать иную картину

Старый

10.10.2018
16:05:48

Ну ты как инжонир можешь сделать тест И показать иную картину

?скажут ты не правильно настроил, вон гитлаб переехал

Uncel

10.10.2018
16:06:14

?скажут ты не правильно настроил, вон гитлаб переехал

Показываешь прайс на азур/азурстек

Старый

10.10.2018
16:06:31

Показываешь прайс на азур/азурстек

они на гугл клауде

Stanislav

10.10.2018
16:16:08

убить его создателя бы, этого докера....

И в чем проблема? Докер хорош в тех задачах, для которых создан

Старый

10.10.2018
16:16:43

И в чем проблема? Докер хорош в тех задачах, для которых создан

например ухудшать качество кода))))

Stanislav

10.10.2018
16:21:07

Думал думал и не придумал, как инструмент опса может ухудшить код. Вот убрать чехарду с зависимостями - может, помочь собрать проект отличным от хост платформы тулчейном - тоже может, обновлять сервис без головняка - ок. А вот про код приложений - даже хз

Рамиль

10.10.2018
16:22:53

Думал думал и не придумал, как инструмент опса может ухудшить код. Вот убрать чехарду с зависимостями - может, помочь собрать проект отличным от хост платформы тулчейном - тоже может, обновлять сервис без головняка - ок. А вот про код приложений - даже хз

плюсую докер норм инструмент годами проверен

Старый

10.10.2018
16:24:17

Думал думал и не придумал, как инструмент опса может ухудшить код. Вот убрать чехарду с зависимостями - может, помочь собрать проект отличным от хост платформы тулчейном - тоже может, обновлять сервис без головняка - ок. А вот про код приложений - даже хз

легко, у нас течёт, плодятся зомби и тп процессы - не беда, консул+тераформ решит вашу проблему. у вас компоненты тупые и программист не может написать логику, не беда, компос. программист не способен придумать нормальную схему для продукта, не беда, берём кубер, делаем почти безсвязные вещи, и говорим девопсу - сделай из этого конфетку

Uncel

10.10.2018
16:26:43

они на гугл клауде

у гугл клауда есть онпремис в бете

камаз денег и он твой

Stanislav

10.10.2018
16:29:36

легко, у нас течёт, плодятся зомби и тп процессы - не беда, консул+тераформ решит вашу проблему. у вас компоненты тупые и программист не может написать логику, не беда, компос. программист не способен придумать нормальную схему для продукта, не беда, берём кубер, делаем почти безсвязные вещи, и говорим девопсу - сделай из этого конфетку

Инструмент плохой потому что он позволяет чуть покрыть баги в софте. Норм обосновал. Назад к мейнфрейму, водопаду и ручному тестированию

Ладно, офтоп

Старый

10.10.2018
16:29:56

Инструмент плохой потому что он позволяет чуть покрыть баги в софте. Норм обосновал. Назад к мейнфрейму, водопаду и ручному тестированию

да вот зачастую не хватает ручного тестирования

Google

Старый

10.10.2018
16:30:19

уже дошло до того, что многие конторы тестеров не нанимают, тк они кубер внедрили видетели

Рамиль

10.10.2018
16:35:55

Holly War

Alexey

10.10.2018
16:36:38

ну микрософт вон уволили всех тестеров, перевели всех разрабов на канари бранч, сделали инсайдер превью, и... обосрались с последним апдейтом винды по-полной.

стоит ли брать с них пример?

Рамиль

10.10.2018
16:37:08

xD

Старый

10.10.2018
16:39:16

ну микрософт вон уволили всех тестеров, перевели всех разрабов на канари бранч, сделали инсайдер превью, и... обосрались с последним апдейтом винды по-полной.

конечно, экономия же

Alexey

10.10.2018
16:39:56

тестировщик — лучший друг человека. (эт я в качестве перса, построившего процесс QA в одном выжившем стартапе, ответственно заявляю.)

Grigory

10.10.2018
17:25:33

например ухудшать качество кода))))

Как докер и код связан?

И зомби в контейнерах

Не правильное использование докера ж получается, сами поназапускают кучу процессов в докерах а потом жалуются что это не работает

и не должно

Andrey

10.10.2018
17:43:31

Не правильное использование докера ж получается, сами поназапускают кучу процессов в докерах а потом жалуются что это не работает

Если я правильно понял, то смысл в том, что мониторится докер, и если там дохрена процессов/зомби, то его просто перезапускают, так борятся с хреновым кодом

Grigory

10.10.2018
17:44:25

Если я правильно понял, то смысл в том, что мониторится докер, и если там дохрена процессов/зомби, то его просто перезапускают, так борятся с хреновым кодом

ну конечно тут проблема что килл контейнера с более чем одним процессом не гарантирует килл зомби / не главные процессы

Старый

10.10.2018
18:33:46

ну конечно тут проблема что килл контейнера с более чем одним процессом не гарантирует килл зомби / не главные процессы

так а тут и приходит кубер, сносится вся группа, и заново запускается

« Назад

Страница 163 из 182

Далее »

Открыть в Telegram