
Artem
24.10.2018
08:59:35
я что-то начинаю сомневаться в named, хоть и нод всего 12, но переодически вываливаются ошибки unknown host...

Рамиль
24.10.2018
09:09:36
я думаю что нет ни чего лучше /etc/hosts + ansible

Mikhail
24.10.2018
09:15:40
я думаю что нет ни чего лучше /etc/hosts + ansible
Ну да, зачем нужен DNS. А потом вручную катать на весь кластер ansible новый /etc/hosts и ловить проблемы с неконсистентностью:)
Можно еще не использовать доменные имена, а везде ip адреса указывать в конфигах и не катать /etc/hosts
Только конфиги обновлять тем же ansible

Google

Mikhail
24.10.2018
09:16:20
Как раз хорошо ложится в архитектуру кассандры с 10ТБ нодами на hdd :)

Рамиль
24.10.2018
09:17:18
во всех остальных случаях стабильно бывают траблы с ним

Artem
24.10.2018
09:17:34
дык там bogon сеть, 12 нод, наружу почти нет трафика, чему там не работать собсно)

Рамиль
24.10.2018
09:17:44
ну или возмоно на проектах где я работал не умеют готовить DNS

Artem
24.10.2018
09:17:48
у меня складывается впечатление, что все, кто юзают хадуп - хардкодят этот /etc/hosts
правда, когда мы жили в AWS, таких проблем мы не испытывали

Рамиль
24.10.2018
09:28:30
я думаю @epikhinm так не делает ?

Alex
24.10.2018
09:29:30
на 20 нод еще хардкодил
на 120 уже днс настроен был, насколько помню стандартный bind

Artem
24.10.2018
09:30:11
а нет настроек, случаем?

Alex
24.10.2018
09:30:36
нет, там своя специфика была и проблема с выносом чего либо =)

Mikhail
24.10.2018
09:33:18

Google

Artem
24.10.2018
09:33:43
forwarders { 8.8.8.8; 8.8.4.4; };
listen-on { 127.0.0.1; 172.31.0.109; };
dnssec-validation auto;
auth-nxdomain no; # conform to RFC1035
listen-on-v6 { none; };
allow-transfer { none; };
allow-query { internals; };
allow-recursion { internals; };
version none;

Mikhail
24.10.2018
09:33:53

Artem
24.10.2018
09:33:57
да что там вбивать... он простой как угол дома) мб я что-то не так делаю...
поднята зона а-ля mycluster.internal
+ PTR под 172.31.0.0/24 с нодами
и на нодах в кач-ве резолвера прописан IP этого мастера
вручную гоняешь запросы - все ок, но переодически вылетает ошибка :)

Mikhail
24.10.2018
09:37:36

Artem
24.10.2018
09:41:32
а в forwarders его тоже стОит записать?

Mikhail
24.10.2018
09:42:39
В forwarders указывать dns вышестоящий. Если своя локальная зона — указать свои dns мастера. Если не своя или не локальная, то можно указать те что выставляет провайдер/облако.

Artem
24.10.2018
09:42:56
своя зона на мастере и висит
и у всех в резолве мастера IP

Mikhail
24.10.2018
09:45:35

Artem
24.10.2018
09:46:09
понял, спасибо

Mikhail
24.10.2018
09:49:10
Но, вообще, конечно надо разобраться почему master не отвечает на dns. Либо он перегружен, либо сеть теряет пакеты
Кеш немного сгладит проблему, но и он протухнет

Sergey
24.10.2018
13:07:12
Sergey Kaurov:
Привет! С SparkSql сможете помочь?

Grigory
24.10.2018
13:07:37

Sergey
24.10.2018
13:07:44
Sergey Kaurov:
Мне в Apache Zeppelin сценарий надо изменить, смогут?

Grigory
24.10.2018
13:08:04
Sergey Kaurov:
Вот рабочий сценарий:
https://pastebin.com/uzXvqbAT

Google

Grigory
24.10.2018
13:08:04
Мне тут надо вставить в место "; " переход на другую строчку
Это regex-replace
А куда его влепить не мону разобраться
Вставлял, нифига не отрабатывает
Потом отфильтровать по подстроком по определённым фразам
В общем из bash это аналог команды sed выполнить
Прошу прощения за орфографию, с телефона пишу
regexp_replace
ниблагадари

Sergey
24.10.2018
13:08:32
Хорошешно! ?

Grigory
24.10.2018
13:08:45
только ты скажи, где ты regexp_replace хочешь использовать
что ты хочешь сделать, смысл какой
просто у тебя чтение тут, что ты начтении хочешь отреплейсить

Sergey
24.10.2018
13:10:00
Логи с выборки вывыливаются пачкой... Трэш и замес, хочется упорядочить, для начала 1е разбить по строкам
Т.е. в место разделителя, а это "; " вставить перенос строки "\n"
2е сделать отбор по ряду клбчевиков из того что разбито по строкам, ключевых "НУЖНЫХ" фраз на самом деле штук 10ть
С таблицами вроде как понял как оперировать, а вот с массивом строк х.з
А если чтение, то заменить не могу?

Grigory
24.10.2018
13:17:53
в чем суть; тут ты только читаешь; какая цель; что ты имеешь и что хочешь иметь

Sergey
24.10.2018
13:27:11
Имею несколько абзацев данных по скажем по конкретному событию, допустим вылету самолёта.

Google

Sergey
24.10.2018
13:27:52
Мне надо эту смесь из абзаца превратить в отдельные строки
Разделитель будет "; "
Двоеточие и пробел
Это надо заменить на знак переноса строки

Andrey
24.10.2018
13:29:27
можно сделать map, там вызывай udf, возвращай массив, а потом если надо explode

Sergey
24.10.2018
13:29:59
А дальше написать функцию выборки строк по ключевым фразам и что совпало оставить, остальное спрятать
spark.map ?
explode как в php с массивами работает, но там добавляет в массив

Andrey
24.10.2018
13:36:21
spark.map ?
как-то так:
val udf_split = { (content: String) => content.split(";")}
df.withColumn("tmp_column", udf_split('content)).select('column_1, 'column_2, explode('tmp_column))

Andrey
24.10.2018
13:46:18
в спарке встроенный сплит есть если что)
df.withColumn("lala", split('lala, ";"))

Sergey
24.10.2018
13:48:02
Для меня это пока честно говоря мандаринская рукопись. Там с запятушками не так или правильно всё?

Andrey
24.10.2018
13:49:10
с запятушками все ок, в скалке 'someColumn - это то же самое, что col("someColumn")
можно так еще df.select(split('lala, ";").alias("lala"))

Sergey
24.10.2018
13:49:52

Andrey
24.10.2018
13:50:33

Sergey
24.10.2018
13:53:27
А куда это прописать, в z.show ?
Я так понимаю z.show как раз выдаёт конечный результат того, что я виду. А дальше надо это обработать

Google

Sergey
24.10.2018
13:56:47
Я не вижу никаких переменных которые будут содержать вывод из z.show для дальнейшей обработки ?

Ruslan
24.10.2018
14:13:09
Вопрос к сообществу профессионалов. Насколько прагматично и целесообразно использовать PIG для забора данных из hdfs? У меня соседний департамент хочет брать из моего болота некоторые данные.

Alex
24.10.2018
14:17:11
и куда их потом девать?
переливки данных это больше к sqoop

Ruslan
24.10.2018
14:18:21
Они будут забирать к себе в систему через апп сервер

Nikita Blagodarnyy
24.10.2018
14:19:22
Ну это из разряда "насколько прагматично и целесообразно есть гречу ложкой". Можно ложкой, можно вилкой, можно половником, можно лаптем, можно руками, можно робота-кормильщика сконструировать.
Хотят пигом-пусть пигом забирают. Если не лениво им на на пиг-латин писать.

Ruslan
24.10.2018
14:22:41
Хорошо. Вопрос тогда ребром. Кто использует в энтерпрайзе пиг?

Alex
24.10.2018
14:22:58
@nblagodarnyy
просто для пига они доступ еще в кластер на запуск джобов должны иметь
а так можно выставить только webhdfs, один порт открыть и все дела

Nikita Blagodarnyy
24.10.2018
14:23:13

Ruslan
24.10.2018
14:23:36

Nikita Blagodarnyy
24.10.2018
14:24:00
Но для трансформаций и вычислений. Не как просто интерфейс.

Ruslan
24.10.2018
14:25:07

Nikita Blagodarnyy
24.10.2018
14:25:42
И спарк тоже.
Они говорят, спарк очень нерационально память использует.