@hadoopusers

Страница 175 из 182
Artem
24.10.2018
08:59:35
я что-то начинаю сомневаться в named, хоть и нод всего 12, но переодически вываливаются ошибки unknown host...

Рамиль
24.10.2018
09:09:36
я думаю что нет ни чего лучше /etc/hosts + ansible

Mikhail
24.10.2018
09:15:40
я думаю что нет ни чего лучше /etc/hosts + ansible
Ну да, зачем нужен DNS. А потом вручную катать на весь кластер ansible новый /etc/hosts и ловить проблемы с неконсистентностью:) Можно еще не использовать доменные имена, а везде ip адреса указывать в конфигах и не катать /etc/hosts

Только конфиги обновлять тем же ansible

Google
Mikhail
24.10.2018
09:16:20
Как раз хорошо ложится в архитектуру кассандры с 10ТБ нодами на hdd :)

я что-то начинаю сомневаться в named, хоть и нод всего 12, но переодически вываливаются ошибки unknown host...
Ну тут два варианта, либо разобраться что не так с текущим dns и починить его, либо на каждом поднять локальный кеширующий dns и пытаться переживать такие проблемы:)

Рамиль
24.10.2018
09:17:18
во всех остальных случаях стабильно бывают траблы с ним

Artem
24.10.2018
09:17:34
дык там bogon сеть, 12 нод, наружу почти нет трафика, чему там не работать собсно)

Рамиль
24.10.2018
09:17:44
ну или возмоно на проектах где я работал не умеют готовить DNS

Artem
24.10.2018
09:17:48
у меня складывается впечатление, что все, кто юзают хадуп - хардкодят этот /etc/hosts

правда, когда мы жили в AWS, таких проблем мы не испытывали

Рамиль
24.10.2018
09:28:30
я думаю @epikhinm так не делает ?

Alex
24.10.2018
09:29:30
на 20 нод еще хардкодил на 120 уже днс настроен был, насколько помню стандартный bind

Artem
24.10.2018
09:30:11
а нет настроек, случаем?

Alex
24.10.2018
09:30:36
нет, там своя специфика была и проблема с выносом чего либо =)

Mikhail
24.10.2018
09:33:18
а нет настроек, случаем?
Так а что там из настроек надо? Вбейте в поиске dns local cached bind :)

Google
Artem
24.10.2018
09:33:43
forwarders { 8.8.8.8; 8.8.4.4; }; listen-on { 127.0.0.1; 172.31.0.109; }; dnssec-validation auto; auth-nxdomain no; # conform to RFC1035 listen-on-v6 { none; }; allow-transfer { none; }; allow-query { internals; }; allow-recursion { internals; }; version none;

Mikhail
24.10.2018
09:33:53
на 20 нод еще хардкодил на 120 уже днс настроен был, насколько помню стандартный bind
Ну вот +1, кластер может неожиданно вырасти, если будут меняться ip-адреса надо будет мучаться с перекластеризациями

Artem
24.10.2018
09:33:57
да что там вбивать... он простой как угол дома) мб я что-то не так делаю...

поднята зона а-ля mycluster.internal

+ PTR под 172.31.0.0/24 с нодами

и на нодах в кач-ве резолвера прописан IP этого мастера

вручную гоняешь запросы - все ок, но переодически вылетает ошибка :)

Mikhail
24.10.2018
09:37:36
да что там вбивать... он простой как угол дома) мб я что-то не так делаю...
Поднимите bind на каждой ноде. Укажите directory "/var/cache/bind" для кеша. В resolv.conf пропишите чтобы resolv.conf первой попыткой был в localhost, второй в вышестоящий dns

Artem
24.10.2018
09:41:32
а в forwarders его тоже стОит записать?

Mikhail
24.10.2018
09:42:39
В forwarders указывать dns вышестоящий. Если своя локальная зона — указать свои dns мастера. Если не своя или не локальная, то можно указать те что выставляет провайдер/облако.

Artem
24.10.2018
09:42:56
своя зона на мастере и висит

и у всех в резолве мастера IP

Mikhail
24.10.2018
09:45:35
и у всех в резолве мастера IP
ну тогда в forwareds укажите master ip

Artem
24.10.2018
09:46:09
понял, спасибо

Mikhail
24.10.2018
09:49:10
Но, вообще, конечно надо разобраться почему master не отвечает на dns. Либо он перегружен, либо сеть теряет пакеты

Кеш немного сгладит проблему, но и он протухнет

Sergey
24.10.2018
13:07:12
Sergey Kaurov: Привет! С SparkSql сможете помочь?

Grigory
24.10.2018
13:07:37
Sergey Kaurov: Привет! С SparkSql сможете помочь?
пиши уже сразу свою пасту тут

Sergey
24.10.2018
13:07:44
Sergey Kaurov: Мне в Apache Zeppelin сценарий надо изменить, смогут?

Grigory
24.10.2018
13:08:04
Sergey Kaurov: Вот рабочий сценарий: https://pastebin.com/uzXvqbAT

Google
Grigory
24.10.2018
13:08:04
Мне тут надо вставить в место "; " переход на другую строчку

Это regex-replace

А куда его влепить не мону разобраться

Вставлял, нифига не отрабатывает

Потом отфильтровать по подстроком по определённым фразам

В общем из bash это аналог команды sed выполнить

Прошу прощения за орфографию, с телефона пишу

regexp_replace

ниблагадари

Sergey
24.10.2018
13:08:32
Хорошешно! ?

Grigory
24.10.2018
13:08:45
только ты скажи, где ты regexp_replace хочешь использовать

что ты хочешь сделать, смысл какой

просто у тебя чтение тут, что ты начтении хочешь отреплейсить

Sergey
24.10.2018
13:10:00
Логи с выборки вывыливаются пачкой... Трэш и замес, хочется упорядочить, для начала 1е разбить по строкам

Т.е. в место разделителя, а это "; " вставить перенос строки "\n"

2е сделать отбор по ряду клбчевиков из того что разбито по строкам, ключевых "НУЖНЫХ" фраз на самом деле штук 10ть

С таблицами вроде как понял как оперировать, а вот с массивом строк х.з

А если чтение, то заменить не могу?

Grigory
24.10.2018
13:17:53
в чем суть; тут ты только читаешь; какая цель; что ты имеешь и что хочешь иметь

Sergey
24.10.2018
13:27:11
Имею несколько абзацев данных по скажем по конкретному событию, допустим вылету самолёта.

Google
Sergey
24.10.2018
13:27:52
Мне надо эту смесь из абзаца превратить в отдельные строки

Разделитель будет "; "

Двоеточие и пробел

Это надо заменить на знак переноса строки

Andrey
24.10.2018
13:29:27
можно сделать map, там вызывай udf, возвращай массив, а потом если надо explode

Sergey
24.10.2018
13:29:59
А дальше написать функцию выборки строк по ключевым фразам и что совпало оставить, остальное спрятать

spark.map ?

explode как в php с массивами работает, но там добавляет в массив

Andrey
24.10.2018
13:36:21
spark.map ?
как-то так: val udf_split = { (content: String) => content.split(";")} df.withColumn("tmp_column", udf_split('content)).select('column_1, 'column_2, explode('tmp_column))

Andrey
24.10.2018
13:46:18
в спарке встроенный сплит есть если что)

df.withColumn("lala", split('lala, ";"))

Sergey
24.10.2018
13:48:02
Для меня это пока честно говоря мандаринская рукопись. Там с запятушками не так или правильно всё?

Andrey
24.10.2018
13:49:10
с запятушками все ок, в скалке 'someColumn - это то же самое, что col("someColumn")

можно так еще df.select(split('lala, ";").alias("lala"))

Andrey
24.10.2018
13:50:33
с запятушками все ок, в скалке 'someColumn - это то же самое, что col("someColumn")
а если php не дает покоя, то можно $"someColumn" писать :)

Sergey
24.10.2018
13:53:27
А куда это прописать, в z.show ?

Я так понимаю z.show как раз выдаёт конечный результат того, что я виду. А дальше надо это обработать

Google
Sergey
24.10.2018
13:56:47
Я не вижу никаких переменных которые будут содержать вывод из z.show для дальнейшей обработки ?

а если php не дает покоя, то можно $"someColumn" писать :)
Вот кстати там в обработке z.show так и записано! ?

Ruslan
24.10.2018
14:13:09
Вопрос к сообществу профессионалов. Насколько прагматично и целесообразно использовать PIG для забора данных из hdfs? У меня соседний департамент хочет брать из моего болота некоторые данные.

Alex
24.10.2018
14:17:11
и куда их потом девать?

переливки данных это больше к sqoop

Ruslan
24.10.2018
14:18:21
Они будут забирать к себе в систему через апп сервер

Nikita Blagodarnyy
24.10.2018
14:19:22
Ну это из разряда "насколько прагматично и целесообразно есть гречу ложкой". Можно ложкой, можно вилкой, можно половником, можно лаптем, можно руками, можно робота-кормильщика сконструировать.

Хотят пигом-пусть пигом забирают. Если не лениво им на на пиг-латин писать.

Ruslan
24.10.2018
14:22:41
Хорошо. Вопрос тогда ребром. Кто использует в энтерпрайзе пиг?

Alex
24.10.2018
14:22:58
@nblagodarnyy просто для пига они доступ еще в кластер на запуск джобов должны иметь а так можно выставить только webhdfs, один порт открыть и все дела

Nikita Blagodarnyy
24.10.2018
14:24:00
Но для трансформаций и вычислений. Не как просто интерфейс.

Ruslan
24.10.2018
14:25:07
Одноклассники.
А почему не спарк?

Nikita Blagodarnyy
24.10.2018
14:25:42
И спарк тоже.

Они говорят, спарк очень нерационально память использует.

Страница 175 из 182