@hadoopusers

Страница 82 из 182
Grigory
05.03.2018
08:19:43
да имеджей я тоже не нашел

Vadim
05.03.2018
08:21:36
когда я трогал форк там клаент мода не было вроде как

Grigory
05.03.2018
08:25:02
а наверн оно и всегда кластер мод

Google
Andrey
05.03.2018
11:12:52
Привет

Есть у кого нибудь опыт с apache slider?

Проблема возникла - в кофиге ресурсов выделяю 2 ядра ярна, но по факту контейнер запускается с 1

Kirill
06.03.2018
15:51:46
кто-нибудь ставил pydoop / hdfs3 ?

Grigory
06.03.2018
15:52:00
hadoop 3 да

Kirill
06.03.2018
15:52:15
hdfs3 — пайтоновская либа для работы с хадупом

Dmitry
06.03.2018
15:55:37
Hadoop сейчас используется только ради HDFS и YARN? Или кто-то до сих пор с MapReduce работает?

Grigory
06.03.2018
15:57:24
Hadoop сейчас используется только ради HDFS и YARN? Или кто-то до сих пор с MapReduce работает?
я мап редьюс последний раз гонял с скалдингом только на нем

и это было лет 7 назад

или 6-5

из моего опыта да, хдфс и ярн чтоб на ярне запустить спарк например

Andrey
06.03.2018
16:00:01
напомните, мэпредьюс появился до динозавров или после

Grigory
06.03.2018
16:00:21
4 год

Google
Andrey
06.03.2018
16:00:27
до нэ?

Grigory
06.03.2018
16:00:36
да

Andrey
06.03.2018
16:00:41
ок

Grigory
06.03.2018
16:00:42
наверное даже до скуля?

Andrey
06.03.2018
16:00:52
вероятно

еще древние греки...

Grigory
06.03.2018
16:01:32
пойду дальше кодить под кашэ

Alexander
06.03.2018
16:43:45
Sergey
06.03.2018
16:50:53
из моего опыта да, хдфс и ярн чтоб на ярне запустить спарк например
а что hive нынче тоже уже не в почете? и его вытеснили spark-и, Impala-ы, presto-ы и иже с ними?

Sergey
06.03.2018
16:56:54
кто-то использует Oracle BigDataSQL?

Dmitry
06.03.2018
16:57:00
че это?
Древняя объектно-ориентированная БД. Сам не видел, только название знаю.

Alexander
06.03.2018
16:57:36
Древняя объектно-ориентированная БД. Сам не видел, только название знаю.
а нафига она кому-то здесь? я просто знаю это говно

Древняя объектно-ориентированная БД. Сам не видел, только название знаю.
хотя она на вставку вроде сама быстрая ну и так производительная вообще

Dmitry
06.03.2018
17:12:29
а нафига она кому-то здесь? я просто знаю это говно
Не представляю. :-) Я думаю, она не имеет нормальной доли рынка уже.

Alexander
06.03.2018
17:13:09
Не представляю. :-) Я думаю, она не имеет нормальной доли рынка уже.
ну а она сидит в медицине потому еще что-то имеет

Vishal
06.03.2018
17:32:36
Guys can anybody talk in English?

Grigory
06.03.2018
17:32:57
KrivdaAllStars
06.03.2018
17:41:26
Guys can anybody talk in English?
Just ask the question , and I I'm sure that somebody can answer you

Vishal
06.03.2018
18:05:37
Thank God

Google
Vishal
06.03.2018
18:06:18
Il ask some other time when I'm stuck in an execution

Grigory
06.03.2018
18:06:59
you're welcome

Даниил
06.03.2018
23:30:13
привет кто-нибудь может подсказать, какая минимальная конфигурация нужна, чтобы можно было пощупать hadoop в учебных целях? хочу попроходить выложенный курс из яндексовского ШАДа, там-то для студентов есть учебный кластер, на котором они задания делают

KrivdaAllStars
06.03.2018
23:32:24
Можно взять Sandbox от клаудеры или хортонворкса

Но

Нужно гигов 10—12 на машине памяти

Смотря какие компоненты нужны

Даниил
06.03.2018
23:34:29
Нужно гигов 10—12 на машине памяти
я пока просто вообще не шарю, это не на один узел, а на всё вместе для минимально работающей системы с которой можно поиграться?

KrivdaAllStars
06.03.2018
23:34:54
Возьми hdp sandbox , самое простое будет для тебя

Даниил
06.03.2018
23:36:45
окей, спасибо большое

сейчас погуглю тогда ещё поподробнее про требования к железу

Pavel
07.03.2018
10:49:13
Привет, а кто-то может тыкнуть в какие-то stand-alone приложения на Yarn. Ну т.е. не hadoop и не spark. Что-то типа distributed shell, но менее игрушечное?

Sergey
07.03.2018
12:58:15
Привет, а кто-то может тыкнуть в какие-то stand-alone приложения на Yarn. Ну т.е. не hadoop и не spark. Что-то типа distributed shell, но менее игрушечное?
Руками писанные - хез, пишет ли кто, но через всякие штуки оборачивают - да 1. Slider (https://slider.incubator.apache.org) - его или часть его вроде впихивают в Yarn 3.1, и должны где-то у них быть примеры для memcached, hbase, accumulo 2. REEF (http://reef.apache.org/) от MS-а, которые грят, что на нем Azure Streem Analytics 3. Twill (http://twill.apache.org/) 4. Spring Hadoop Yarn (https://projects.spring.io/spring-hadoop/, https://spring.io/guides/gs/yarn-basic/)

Kirill
07.03.2018
14:02:54
А как правильно сделать https://community.hortonworks.com/articles/4427/fix-under-replicated-blocks-in-hdfs-manually.html вот эту процедуру через cron ?)

я поставил airflow, но для фикса Under-replicated блоков нужно запускать команды от hdfs

Kirill
07.03.2018
14:36:23
нет

Sergey
07.03.2018
14:41:07
проще всего bash operator если воркер airflow внутри кластера

Google
Akceptor
07.03.2018
18:40:11
Возьми hdp sandbox , самое простое будет для тебя
Тот же вопрос. Сейчас играем в сендбокс но хочется чего-то не single node. Какие мин. требования к машинкам и сколько их надо и как делить по ним сервиса? Есть где почитать такое?

Andrey
07.03.2018
18:45:53
по аллокации сервисов - в интернетах в целом гуглится по запросам hortonworks hdp master slave nodes configuration

в официальной доке не находил

спрашивай конкретно по компонентам - напишем чего куда ставить :)

а по ресурсам - амбари на отдельную (2vCPU/4GB) ВМ, одну мастер ноду - там хотя бы 16GB и 4 vCPU, и три датаноды - там надо место, памяти ну хотя бы по 32 гига и 16 ядер на машину

Akceptor
07.03.2018
18:56:44
Спасибо, дальше будем смотреть. Пока толком не ясно чего надо будет кроме наброра hdfs+hive+spark

Stanislav
07.03.2018
19:07:25
Разверните в докере, уже есть готовые образы хдп

Andrey
08.03.2018
08:56:55
кто-то использует Oracle BigDataSQL?
Кстати да, присоединюсь к вопросу. Кто-нибудь работал с BigDataSQL? Какие впечатления?

Sergey
08.03.2018
09:11:55
Кстати да, присоединюсь к вопросу. Кто-нибудь работал с BigDataSQL? Какие впечатления?
ну, раз Алексея Филановского из Оракла тут нет, то отвечу сам: 1) установить database side непросто, без металинка никак 2) предоставляет очень удобный интерфейс к hive-таблицам из Оракла, особенно важно если у вас большая часть инфрастуктуры на Ораклах (не нужно переписывать SQL с синтаксиса Оракла на hive и т.д.) 3) по скорости извлечения данных (субъективно) работает быстрее Импалы с холодным стартом, при наличии storage index'ов - вообще летает 4) partition pruning, column pruning 5) bloom filters для джойнов 6) БЕЗУМНО ДОРОГО!!!

Andrew
08.03.2018
11:51:27
Кто-нибудь проходил сертификацию приложения у клоудеры?

Grigory
08.03.2018
12:00:52
у меня нет ответа на этот вопрос но есть другой, 2.3 спарк ктонить потыкал уже?

k8s интересует))

где имеджи и опубликованы ли они

Tsh
08.03.2018
12:03:56
Ждём-с до лета пока баги исправят, ибо сцыкотно

Обычно каждый релиз спарка - провал по производительности

Grigory
08.03.2018
12:04:29
меня смущает что _вроде как нет поддержки ресурс менеджера_ и _шафл сервиса_

как тогда нормально деплоить на куб

я про внешние имею ввиду*

Tsh
08.03.2018
12:06:07
Я лично на своем проекте сказал что ждём 2.3.1, хотя народ стремится вонзить зубы в arrow & vectorized computations with pandas

Grigory
08.03.2018
12:06:22
ну там стриминг еще

Google
Vadim
08.03.2018
12:50:11
я потыкал - у меня имедж запаблишен)

Grigory
08.03.2018
12:56:10
а ты на кубере пускал?

нативно?

Vadim
08.03.2018
12:56:58
ну а как еще то? но ток хелловорды

Grigory
08.03.2018
12:58:36
ну а как еще то? но ток хелловорды
можно поднять стенделон на кубере

Страница 82 из 182