@hadoopusers

Страница 163 из 182
Oleg
09.10.2018
14:30:19
вы данные хотите поместить в кубернетес?
ну его я пока как пример указал. Пока основной вариант для кластера - это месос или цеф.

ну и поначалу, скорее всего будет что-то типа одной ноды, а потом будут добавляться новые у хадупа это точно хорошо работает, как в остальных - не знаю) месос говорит, что у них тоже все очень просто))

Andrey
09.10.2018
14:31:37
месос хорошо работает со спарком из коробки, вопрос как вы эти терабайты распихнете по машинам

Oleg
09.10.2018
14:32:22
месос хорошо работает со спарком из коробки, вопрос как вы эти терабайты распихнете по машинам
для меня это тоже вопрос) а просто писать на диск, как в hdfs нельзя?

Google
Stanislav
09.10.2018
14:34:14
ну его я пока как пример указал. Пока основной вариант для кластера - это месос или цеф.
Откуда или то? Одно место хранения, второе управление ресурсами

Andrey
09.10.2018
14:34:21
для меня это тоже вопрос) а просто писать на диск, как в hdfs нельзя?
если диск/и на одной машинеhadoop как раз это и решает, честно не понятно зачем заморочки, hadoop поставить и настроить будет быстрее, тем более опыт у вас уже есть

Stanislav
09.10.2018
14:35:33
для меня это тоже вопрос) а просто писать на диск, как в hdfs нельзя?
Можно, через с3 драйвер для цефа. В итоге ты будешь хранить в уеые данные, запускать в мезосе Спарк. Поздравляю, ты построил хадуп )

Хотя даже ещё проще, воткнуть эти счётные ноды в текущий кластер хадуп и сделать метку на использование только в рамках этого проекта

В ярне

Oleg
09.10.2018
14:43:43
Хотя даже ещё проще, воткнуть эти счётные ноды в текущий кластер хадуп и сделать метку на использование только в рамках этого проекта
а вот это интересно Я такой вариант рассматривал, но мне сказали, что полностью изолировать ресурсы в хадупе нельзя. Ну и типа если с этим кластером произойдет "неудачный эксперимент оптимизации", то отдельный проект тоже пострадает. А там как раз все должно быть надежно именно по части обработки, а не хранения

Stanislav
09.10.2018
14:46:30
а вот это интересно Я такой вариант рассматривал, но мне сказали, что полностью изолировать ресурсы в хадупе нельзя. Ну и типа если с этим кластером произойдет "неудачный эксперимент оптимизации", то отдельный проект тоже пострадает. А там как раз все должно быть надежно именно по части обработки, а не хранения
Если будут именно выделенные счётные серверы, то можно. Но есть ещё нагрузка на хдфс и операция чтения/записи. Тут уж конечно не отгородиться. Но опять же, надо плясать от нагрузки, обычно ио не настолько тяжёлое по сравнению с расчетом (кроме вышеотписавшегося человека с кучей мелких файлов и ожиданием завершения действий с блоками)

Если обработки, то ваще пффф

Alexander
09.10.2018
14:50:58
ну для полного огораживания по ресурсам cpu/памяти можно либо yarn cgroups включить, либо использовать node labels для разграничения по машинам

Oleg
09.10.2018
15:13:33
Спасибо большое! Пойду подробнее читать))

Александр
09.10.2018
18:29:12
org.apache.spark.SparkException: Job 5 cancelled because SparkContext was shut down я правильно понял что сам себе буратино и положил контекст до того как закончилась вся работа ?

Alexey
09.10.2018
18:33:07
всё верно. никто не выжил

Александр
09.10.2018
19:50:29
У меня есть набор данных. Я делаю для него foreach(processingFlow); потом закрываю контекст

Google
Александр
09.10.2018
19:50:44
Смущает что до завершения flow контекст убился

Andrey
09.10.2018
20:04:21
Смущает что до завершения flow контекст убился
он мог умереть и по тому что на драйвере памяти не хватило... такое бывает, если даг большой... попробуй увеличить памяти на драйвере и драйвер мемори оверхед...

Александр
09.10.2018
20:06:24
Не, с памятью точно нет проблем. Когда из-за памяти он падает там ошибка другая, да и есть косвенное доказательство что не из-за памяти

Старый
09.10.2018
21:24:26
кто пагинацию использует с hive, phoenix, yarn?

Jury
10.10.2018
07:33:33
всем доброго дня! нубский вопрос есть по Kafka, пока не очень понял, что нужно что бы сделать такое: вот есть у нас топик, в него кидаются данными, с десяток раз в минуту - скажем это записи, в каждой есть пара ключ-значение... хотелось бы строить простейшие агрегаты по этому потоку - видеть самое последнее значение по всем ключевым словам. Зачем? что бы потребители забирали данные когда им надо, а не по событию (так надо, специфика) понятно что это пишется в Kafka Table. А кто это делает? сама Kafka? или некий код на Java внутри Kafka? или самому - забирать поток да агрегировать его где угодно и чем угодно, сохраняя snapshot или же меняя значения пар ключ-значение? как-то не сложилось целостного понимания - кто делает агрегирование и запись в kafka table...

Jury
10.10.2018
07:41:26
спасибо

Ton
10.10.2018
07:49:05
@proKafka кафке место в кафке
Спасибо, в своё время не нашёл такой паблик

Александр
10.10.2018
07:59:31
Mironiken
10.10.2018
08:43:54
По поводу хайва на спарке, был опыт эксплуатации. Настройка этого дерьма - тихий ужас, а после ресурсов жрет какое-то немереное количество, в целом это ещё и вина аналитиков, которые запросы делают не подумав, но в итоге получается, что жалуются все. Либо остальные жители кластера - если хайва не огорожен, либо жители хайва потому что у них ресурсов нет

Потому что им выделили кусок кластера, в который только один запрос (на 750 гигов оперативы) влезает

Alexandr
10.10.2018
08:52:07
Здравствуйте, у кого был опыт установки hadoop на lxc ? Насколько сильно аффектит производительность работы hadoop в lxc ? Есть ли какие явные проблемы в таком решении?

Sergey
10.10.2018
08:56:00
это прям наркомания 100лвл что дальше хадуп в докере?

память будет шариться за ядро на хостовую тачку оно вам надо?)

Andrey
10.10.2018
08:57:17
сори за нубский вопрос, но зачем он нужен вообще, если есть spark sql?
наверное заморочки с пользователями и их правами

Eduard
10.10.2018
08:57:24
Хадуп по талонам

Google
Grigory
10.10.2018
08:58:08
жил и до сих пор живет и все работает; на хетснере все в стойке

Grigory
10.10.2018
08:58:31
там много тбов

да и все гонял спарк

Stanislav
10.10.2018
08:59:05
жил и до сих пор живет и все работает; на хетснере все в стойке
Кстати, а в чем заключалась цель, почему не целиковая железка?

Там же не к8

К8с?

Grigory
10.10.2018
08:59:24
Кстати, а в чем заключалась цель, почему не целиковая железка?
цель была в том что апдейтить такой кластер легко

нет не к8с

в то время когда все делалось к8с просто не работал

ну и там не только хадуп был с ярном, аккумуло как база с зукипером, полный набор

и тестовый нативный спарк кластер

из плюсов - все очень легко обновлять из минусов вонь девопсов и попытки доказать что где-то чтото просаживается

ну действительно просадки будут если волюмы не маунтить дата и неймнодные и маску не лепить на тачку

Stanislav
10.10.2018
09:03:07
А контейнеры - один без лимитов на железку?

Grigory
10.10.2018
09:03:16
без лимитов конечно

хотелось просто просто уметь разворачивать все барахло без привязки сильной к железкам

ну и все было ванила или сборки свои (чтонить из мастера черрипикнуть)

Stanislav
10.10.2018
09:06:10
А хецнер 10г сеть между серверами давал или 1? По идее единственное узкое место докера. Хотя если дисков мало на 1 железке, то и не критично

Google
Grigory
10.10.2018
09:07:11
А хецнер 10г сеть между серверами давал или 1? По идее единственное узкое место докера. Хотя если дисков мало на 1 железке, то и не критично
а я не помню что там было; все по локалке в одной стойке было) по максу чтоб была скорость, диски были ссды

Oleg
10.10.2018
09:08:20
на lxc в проксмоксах живут тестовые хадупчики. Норм работают.

Mironiken
10.10.2018
16:01:48
Аналитикам как правило нужен удобный интерфейс доступам

сори за нубский вопрос, но зачем он нужен вообще, если есть spark sql?

Старый
10.10.2018
16:02:33
какую только чушь от разрабов не слушаешь, он даже убирает требования в io у них

Uncel
10.10.2018
16:05:24
какую только чушь от разрабов не слушаешь, он даже убирает требования в io у них
Ну ты как инжонир можешь сделать тест И показать иную картину

Старый
10.10.2018
16:05:48
Ну ты как инжонир можешь сделать тест И показать иную картину
?скажут ты не правильно настроил, вон гитлаб переехал

Uncel
10.10.2018
16:06:14
Старый
10.10.2018
16:06:31
Stanislav
10.10.2018
16:16:08
убить его создателя бы, этого докера....
И в чем проблема? Докер хорош в тех задачах, для которых создан

Старый
10.10.2018
16:16:43
Stanislav
10.10.2018
16:21:07
Думал думал и не придумал, как инструмент опса может ухудшить код. Вот убрать чехарду с зависимостями - может, помочь собрать проект отличным от хост платформы тулчейном - тоже может, обновлять сервис без головняка - ок. А вот про код приложений - даже хз

Старый
10.10.2018
16:24:17
Думал думал и не придумал, как инструмент опса может ухудшить код. Вот убрать чехарду с зависимостями - может, помочь собрать проект отличным от хост платформы тулчейном - тоже может, обновлять сервис без головняка - ок. А вот про код приложений - даже хз
легко, у нас течёт, плодятся зомби и тп процессы - не беда, консул+тераформ решит вашу проблему. у вас компоненты тупые и программист не может написать логику, не беда, компос. программист не способен придумать нормальную схему для продукта, не беда, берём кубер, делаем почти безсвязные вещи, и говорим девопсу - сделай из этого конфетку

Uncel
10.10.2018
16:26:43
они на гугл клауде
у гугл клауда есть онпремис в бете

камаз денег и он твой

Google
Старый
10.10.2018
16:30:19
уже дошло до того, что многие конторы тестеров не нанимают, тк они кубер внедрили видетели

Рамиль
10.10.2018
16:35:55
Holly War

Alexey
10.10.2018
16:36:38
ну микрософт вон уволили всех тестеров, перевели всех разрабов на канари бранч, сделали инсайдер превью, и... обосрались с последним апдейтом винды по-полной.

стоит ли брать с них пример?

Рамиль
10.10.2018
16:37:08
xD

Alexey
10.10.2018
16:39:56
тестировщик — лучший друг человека. (эт я в качестве перса, построившего процесс QA в одном выжившем стартапе, ответственно заявляю.)

Grigory
10.10.2018
17:25:33
И зомби в контейнерах

Не правильное использование докера ж получается, сами поназапускают кучу процессов в докерах а потом жалуются что это не работает

и не должно

Andrey
10.10.2018
17:43:31
Не правильное использование докера ж получается, сами поназапускают кучу процессов в докерах а потом жалуются что это не работает
Если я правильно понял, то смысл в том, что мониторится докер, и если там дохрена процессов/зомби, то его просто перезапускают, так борятся с хреновым кодом

Grigory
10.10.2018
17:44:25
Если я правильно понял, то смысл в том, что мониторится докер, и если там дохрена процессов/зомби, то его просто перезапускают, так борятся с хреновым кодом
ну конечно тут проблема что килл контейнера с более чем одним процессом не гарантирует килл зомби / не главные процессы

Старый
10.10.2018
18:33:46

Страница 163 из 182