
Oleg
09.10.2018
14:30:19
ну и поначалу, скорее всего будет что-то типа одной ноды, а потом будут добавляться новые
у хадупа это точно хорошо работает, как в остальных - не знаю) месос говорит, что у них тоже все очень просто))

Andrey
09.10.2018
14:31:37
месос хорошо работает со спарком из коробки, вопрос как вы эти терабайты распихнете по машинам

Oleg
09.10.2018
14:32:22

Google

Stanislav
09.10.2018
14:34:14

Andrey
09.10.2018
14:34:21

Stanislav
09.10.2018
14:35:33
Хотя даже ещё проще, воткнуть эти счётные ноды в текущий кластер хадуп и сделать метку на использование только в рамках этого проекта
В ярне

Oleg
09.10.2018
14:43:43

Stanislav
09.10.2018
14:46:30
Если обработки, то ваще пффф

Alexander
09.10.2018
14:50:58
ну для полного огораживания по ресурсам cpu/памяти можно либо yarn cgroups включить, либо использовать node labels для разграничения по машинам

Oleg
09.10.2018
15:13:33
Спасибо большое! Пойду подробнее читать))

Александр
09.10.2018
18:29:12
org.apache.spark.SparkException: Job 5 cancelled because SparkContext was shut down
я правильно понял что сам себе буратино и положил контекст до того как закончилась вся работа ?

Alexey
09.10.2018
18:33:07
всё верно. никто не выжил

Александр
09.10.2018
19:50:29
У меня есть набор данных. Я делаю для него foreach(processingFlow); потом закрываю контекст

Google

Александр
09.10.2018
19:50:44
Смущает что до завершения flow контекст убился

Andrey
09.10.2018
20:04:21

Александр
09.10.2018
20:06:24
Не, с памятью точно нет проблем. Когда из-за памяти он падает там ошибка другая, да и есть косвенное доказательство что не из-за памяти

Alexander
09.10.2018
20:48:43

Старый
09.10.2018
21:24:26
кто пагинацию использует с hive, phoenix, yarn?

Jury
10.10.2018
07:33:33
всем доброго дня! нубский вопрос есть по Kafka, пока не очень понял, что нужно что бы сделать такое:
вот есть у нас топик, в него кидаются данными, с десяток раз в минуту - скажем это записи, в каждой есть пара ключ-значение... хотелось бы строить простейшие агрегаты по этому потоку - видеть самое последнее значение по всем ключевым словам. Зачем? что бы потребители забирали данные когда им надо, а не по событию (так надо, специфика)
понятно что это пишется в Kafka Table. А кто это делает? сама Kafka? или некий код на Java внутри Kafka? или самому - забирать поток да агрегировать его где угодно и чем угодно, сохраняя snapshot или же меняя значения пар ключ-значение?
как-то не сложилось целостного понимания - кто делает агрегирование и запись в kafka table...

Stanislav
10.10.2018
07:40:42

Jury
10.10.2018
07:41:26
спасибо

Ton
10.10.2018
07:49:05

Александр
10.10.2018
07:59:31

Mironiken
10.10.2018
08:43:54
По поводу хайва на спарке, был опыт эксплуатации. Настройка этого дерьма - тихий ужас, а после ресурсов жрет какое-то немереное количество, в целом это ещё и вина аналитиков, которые запросы делают не подумав, но в итоге получается, что жалуются все. Либо остальные жители кластера - если хайва не огорожен, либо жители хайва потому что у них ресурсов нет
Потому что им выделили кусок кластера, в который только один запрос (на 750 гигов оперативы) влезает

Alexey
10.10.2018
08:48:47

Alexandr
10.10.2018
08:52:07
Здравствуйте, у кого был опыт установки hadoop на lxc ? Насколько сильно аффектит производительность работы hadoop в lxc ? Есть ли какие явные проблемы в таком решении?

Sergey
10.10.2018
08:56:00
это прям наркомания 100лвл
что дальше
хадуп в докере?
память будет шариться за ядро на хостовую тачку
оно вам надо?)

Andrey
10.10.2018
08:57:17

Eduard
10.10.2018
08:57:24
Хадуп по талонам

Stanislav
10.10.2018
08:57:43

Grigory
10.10.2018
08:57:56

Google

Grigory
10.10.2018
08:58:08
жил и до сих пор живет и все работает; на хетснере все в стойке

Alexandr
10.10.2018
08:58:13
какие объемы у вас?

Grigory
10.10.2018
08:58:31
там много тбов
да и все гонял спарк

Stanislav
10.10.2018
08:59:05
Там же не к8
К8с?

Grigory
10.10.2018
08:59:24
нет не к8с
в то время когда все делалось к8с просто не работал
ну и там не только хадуп был с ярном, аккумуло как база с зукипером, полный набор
и тестовый нативный спарк кластер
из плюсов - все очень легко обновлять
из минусов вонь девопсов и попытки доказать что где-то чтото просаживается
ну действительно просадки будут если волюмы не маунтить дата и неймнодные и маску не лепить на тачку

Stanislav
10.10.2018
09:03:07
А контейнеры - один без лимитов на железку?

Grigory
10.10.2018
09:03:16
без лимитов конечно
хотелось просто просто уметь разворачивать все барахло без привязки сильной к железкам
ну и все было ванила или сборки свои (чтонить из мастера черрипикнуть)

Stanislav
10.10.2018
09:06:10
А хецнер 10г сеть между серверами давал или 1? По идее единственное узкое место докера. Хотя если дисков мало на 1 железке, то и не критично

Google

Grigory
10.10.2018
09:07:11

Oleg
10.10.2018
09:08:20
на lxc в проксмоксах живут тестовые хадупчики. Норм работают.

Mironiken
10.10.2018
16:01:48
Аналитикам как правило нужен удобный интерфейс доступам
сори за нубский вопрос, но зачем он нужен вообще, если есть spark sql?

Старый
10.10.2018
16:02:33
какую только чушь от разрабов не слушаешь, он даже убирает требования в io у них

Uncel
10.10.2018
16:05:24

Старый
10.10.2018
16:05:48

Uncel
10.10.2018
16:06:14

Старый
10.10.2018
16:06:31

Stanislav
10.10.2018
16:16:08

Старый
10.10.2018
16:16:43

Stanislav
10.10.2018
16:21:07
Думал думал и не придумал, как инструмент опса может ухудшить код. Вот убрать чехарду с зависимостями - может, помочь собрать проект отличным от хост платформы тулчейном - тоже может, обновлять сервис без головняка - ок. А вот про код приложений - даже хз

Рамиль
10.10.2018
16:22:53

Старый
10.10.2018
16:24:17
Думал думал и не придумал, как инструмент опса может ухудшить код. Вот убрать чехарду с зависимостями - может, помочь собрать проект отличным от хост платформы тулчейном - тоже может, обновлять сервис без головняка - ок. А вот про код приложений - даже хз
легко, у нас течёт, плодятся зомби и тп процессы - не беда, консул+тераформ решит вашу проблему. у вас компоненты тупые и программист не может написать логику, не беда, компос. программист не способен придумать нормальную схему для продукта, не беда, берём кубер, делаем почти безсвязные вещи, и говорим девопсу - сделай из этого конфетку

Uncel
10.10.2018
16:26:43
камаз денег и он твой

Stanislav
10.10.2018
16:29:36
легко, у нас течёт, плодятся зомби и тп процессы - не беда, консул+тераформ решит вашу проблему. у вас компоненты тупые и программист не может написать логику, не беда, компос. программист не способен придумать нормальную схему для продукта, не беда, берём кубер, делаем почти безсвязные вещи, и говорим девопсу - сделай из этого конфетку
Инструмент плохой потому что он позволяет чуть покрыть баги в софте. Норм обосновал. Назад к мейнфрейму, водопаду и ручному тестированию
Ладно, офтоп

Старый
10.10.2018
16:29:56

Google

Старый
10.10.2018
16:30:19
уже дошло до того, что многие конторы тестеров не нанимают, тк они кубер внедрили видетели

Рамиль
10.10.2018
16:35:55
Holly War

Alexey
10.10.2018
16:36:38
ну микрософт вон уволили всех тестеров, перевели всех разрабов на канари бранч, сделали инсайдер превью, и... обосрались с последним апдейтом винды по-полной.
стоит ли брать с них пример?

Рамиль
10.10.2018
16:37:08
xD

Старый
10.10.2018
16:39:16

Alexey
10.10.2018
16:39:56
тестировщик — лучший друг человека.
(эт я в качестве перса, построившего процесс QA в одном выжившем стартапе, ответственно заявляю.)

Grigory
10.10.2018
17:25:33
И зомби в контейнерах
Не правильное использование докера ж получается, сами поназапускают кучу процессов в докерах а потом жалуются что это не работает
и не должно

Andrey
10.10.2018
17:43:31

Grigory
10.10.2018
17:44:25

Старый
10.10.2018
18:33:46