
Timmy
29.08.2018
13:35:11
Спасибо спрошу там

kockockoc
29.08.2018
13:49:32


Georgy
29.08.2018
14:43:00
По этой части лога сложно сказать, что именно не так. Вот например
https://stackoverflow.com/questions/25755479/client-cannot-authenticate-viatoken-kerberos
По какой части лога будет понятнее? В принципе, тут все описано в той части, что я скинул. Но могу, конечно, выслать всю портянку. Ошибка говорит ровно об одном - куда-то потерялся delegation token, который был выдан после аутентификации в hdfs на самом начальном этапе запуска джоба. С ним appmaster должен был пройти аутентификацию в hdfs далее на этапе работы локалайзера, но что пошло не так.
По ссылке, что ты скинул, как раз говорится о недостатке в самом коде джоба.
You must grab the tokens from UserGroupInformation object with a call to get credentials. Then you must set the tokens on the ContainerLaunchContext.
Полистав гугл у меня получилась такая статистика:
Кто-то описал мой кейс, но ответа не получил.
Кто-то нашел косяк с разницей времени на клиенте, с которого запускался джоб, и нодами кластера. У меня тут все ок, т.к. ntp, проверял.
У кого-то адрес namenode есть экстернал для обращений клиентов, а есть интернал для обращений с датанод и у ребят возникала такая та же ошибка. Но у меня нет такого кейса.
Часть ссылок касается интеграции с изилоном, эластиком и прочими продуктами, разбор их примеров ничего нового мне не дал.
И несколько ситуаций, как по ссылке выше, когда человек не учитывал работу с выданными токенами hdfs в своем коде. Вот у меня есть джарник, есть код, но нет того кто его писал, нет хадуп-разработчиков на проекте, вся разработка отдана в дочерние компании у нас. Ну разве что найти джависта в подразделении, дать ему код и заставить разобраться или самому уйти в это с головой на несколько дней. Короче, как этот кейс проверить мне неясно.


Stanislav
29.08.2018
14:51:36
По какой части лога будет понятнее? В принципе, тут все описано в той части, что я скинул. Но могу, конечно, выслать всю портянку. Ошибка говорит ровно об одном - куда-то потерялся delegation token, который был выдан после аутентификации в hdfs на самом начальном этапе запуска джоба. С ним appmaster должен был пройти аутентификацию в hdfs далее на этапе работы локалайзера, но что пошло не так.
По ссылке, что ты скинул, как раз говорится о недостатке в самом коде джоба.
You must grab the tokens from UserGroupInformation object with a call to get credentials. Then you must set the tokens on the ContainerLaunchContext.
Полистав гугл у меня получилась такая статистика:
Кто-то описал мой кейс, но ответа не получил.
Кто-то нашел косяк с разницей времени на клиенте, с которого запускался джоб, и нодами кластера. У меня тут все ок, т.к. ntp, проверял.
У кого-то адрес namenode есть экстернал для обращений клиентов, а есть интернал для обращений с датанод и у ребят возникала такая та же ошибка. Но у меня нет такого кейса.
Часть ссылок касается интеграции с изилоном, эластиком и прочими продуктами, разбор их примеров ничего нового мне не дал.
И несколько ситуаций, как по ссылке выше, когда человек не учитывал работу с выданными токенами hdfs в своем коде. Вот у меня есть джарник, есть код, но нет того кто его писал, нет хадуп-разработчиков на проекте, вся разработка отдана в дочерние компании у нас. Ну разве что найти джависта в подразделении, дать ему код и заставить разобраться или самому уйти в это с головой на несколько дней. Короче, как этот кейс проверить мне неясно.
Так много кода что-ли в джобе? Тем более работа с токеном явно недалеко от начала. Хотя Ява, это боль конечно

Google


kockockoc
29.08.2018
14:55:59
По какой части лога будет понятнее? В принципе, тут все описано в той части, что я скинул. Но могу, конечно, выслать всю портянку. Ошибка говорит ровно об одном - куда-то потерялся delegation token, который был выдан после аутентификации в hdfs на самом начальном этапе запуска джоба. С ним appmaster должен был пройти аутентификацию в hdfs далее на этапе работы локалайзера, но что пошло не так.
По ссылке, что ты скинул, как раз говорится о недостатке в самом коде джоба.
You must grab the tokens from UserGroupInformation object with a call to get credentials. Then you must set the tokens on the ContainerLaunchContext.
Полистав гугл у меня получилась такая статистика:
Кто-то описал мой кейс, но ответа не получил.
Кто-то нашел косяк с разницей времени на клиенте, с которого запускался джоб, и нодами кластера. У меня тут все ок, т.к. ntp, проверял.
У кого-то адрес namenode есть экстернал для обращений клиентов, а есть интернал для обращений с датанод и у ребят возникала такая та же ошибка. Но у меня нет такого кейса.
Часть ссылок касается интеграции с изилоном, эластиком и прочими продуктами, разбор их примеров ничего нового мне не дал.
И несколько ситуаций, как по ссылке выше, когда человек не учитывал работу с выданными токенами hdfs в своем коде. Вот у меня есть джарник, есть код, но нет того кто его писал, нет хадуп-разработчиков на проекте, вся разработка отдана в дочерние компании у нас. Ну разве что найти джависта в подразделении, дать ему код и заставить разобраться или самому уйти в это с головой на несколько дней. Короче, как этот кейс проверить мне неясно.
Кажется, что важной частью лога явлется вот это “ Client cannot authenticate via:[TOKEN, KERBEROS];”
Обычно помогает включение дебага, откуда понятнее где appmaster пытался искать TOKEN, KERBEROS, нашел ли и что с ними сделал. Но для начала хорошо бы проверить, что код в джобе пытается что-то делать на этот счет. Примерно так, как по ссылке выше


Georgy
29.08.2018
14:57:00
Там большой проект. Просто методом исключения остаётся только это.

kockockoc
29.08.2018
15:00:15
Хотя бы попробовать просунуть в джобу -Dsun.security.krb5.debug=true -Dsun.security.spnego.debug=true и посмотреть будет ли что-то более интересное

Sergey
29.08.2018
15:49:52
коллеги, подскажите, как мне сопоставить в Zeppelin java-процесс интерпретатора с именем ноутбука?
кто-то выжирает память, вижу этот процесс - но нужно понять каким ноутбуком и каким его параграфом выжраны ресурсы интерпретатора

sherzod
29.08.2018
15:52:19
ps aux | grep interpr там будет ИД ноутбука
дальше уже по дереву можно смотреть потомков

Александр
29.08.2018
16:05:28
Эксперсс вопрос, я правильно понял, что если у нас везде есть SparkContext а тут пришел я такой умный и хочу паркет через SparkSession вставить как один из вариантов конвеера посередине, то мне теперь все на SparkSession переделывать ? или достаточно до общего RDD[] вывести ?

Евгений
29.08.2018
16:19:51
Главное не дропать её потом, а то контекст тоже упадёт

Александр
29.08.2018
16:23:02

Andrey
30.08.2018
00:28:57
Designing data-intensive applications and its related books. https://anvaka.github.io/greview/ddia/1/?utm_medium=email&utm_source=topic+optin&utm_campaign=awareness&utm_content=20180829+data+nl&mkt_tok=eyJpIjoiWXprM01tTTBZbU5qWWpjNSIsInQiOiJ6UTJQVnRobnpoNGxaTUx5MWs2V0V1QmFWZDNIbWdLUGtHdUpPSUd4b2E4b0xDeG84aURQd0NseVdXR3oxZGpwQVlKXC94bjk5WHVpZkFsZVV6M3lER3ZHOTR6QjFRSU50TEJ6ZlYzSDN2TFJBS25ENW9FSjlcL0R6aWZaWFcwQ2ZBIn0%3D
It's a pretty interesting visualization. Looking at "this auto-generated graph of also-boughts from Amazon, we can see that Designing Data-Intensive Applications stands in the middle of the world, where: the East is taken by practical engineering: Algorithms, design patterns, and architecture. The West is taken by distributed systems: Machine learning, Hadoop. And the South is guarded by SRE and DevOps."

Google

Alexey
30.08.2018
10:30:37
so, devops always goes south?
is there any benefit from visualisations like this, beside they're kinda cool looking?

Mikhail
30.08.2018
10:32:17

Alexey
30.08.2018
10:44:20
a decent observation, thanks!

П
30.08.2018
15:32:16
Есть parquet файл с большим количеством полей типа struct (около ста). Большинство из них пустые (то есть null), тем не менее, файл из ~280 000 строк занимает аж 9ГБ в ФС, то есть примерно 30КБ на строчку
Ну и соответственно все операции на таком файле очень тяжелые
Необходимо вынести все вложенные struct в другие файлы?
И никак иначе

Alex
30.08.2018
18:17:03
ребят кто-нибудь решал проблему высоких задержек между тасками в даге airflow? например тут https://stackoverflow.com/questions/49902599/airflow-latency-between-tasks говорят что с этим ничего нельзя сделать

Stanislav
30.08.2018
18:48:56
@ruairflow

Alex
30.08.2018
18:51:49
огонь спс

Daniel
31.08.2018
06:35:27
@dos65 насколько мист прибит к спарку? можно ли его допилить и под флинк?

Vadim
31.08.2018
06:54:42

Daniel
31.08.2018
07:24:45

Tsh
31.08.2018
10:33:12
Гидросфера поддерживает PFA http://dmg.org/pfa/ ? Или имеются планы по поддержке PFA?

Vadim
31.08.2018
11:21:27

Grigory
31.08.2018
11:25:06

Tsh
31.08.2018
11:25:52
Holden karau или в самом спарке или в Apache arrow несколько месяцев назад поднимал(а, о) эту тему. Что в спарке модели хранятся в дерьмовом виде, а pmml тоже не очень, что если они хотят ml / dl двигать в спарк
Типа надо какой то нормальный формат цеплять

Grigory
31.08.2018
11:27:39

Google

Grigory
31.08.2018
11:28:07
чувак из ИБМ рассказывал
https://databricks.com/session/productionizing-spark-ml-pipelines-with-the-portable-format-for-analytics

Vadim
31.08.2018
11:29:25
хз - картинка про +1 еще один стандарт. я правда не знаю как удалось pmml распростаранить, по моим ощущениям почти никак

Tsh
31.08.2018
11:38:15

Vadim
31.08.2018
11:41:58
мне кажется если не сделать нормально как раз таки придут другие чуваки, заинтегрируют свой мль под спарк и спаркмль совсем загнется


Andrey
02.09.2018
02:46:30
The open source project, dubbed Kubernetes Director or KubeDirector for short, is a custom controller which simplifies and streamlines the packaging, deployment, and management of complex distributed stateful applications for Big Data and AI use cases. https://www.bluedata.com/blog/2018/07/operation-stateful-bluek8s-and-kubernetes-director/?mkt_tok=eyJpIjoiWTJZMU5qVXhNbVF6WkRVeSIsInQiOiJmeVZXbFM5Rk9vaTBDTGlkTllnUTFlWGcybk82azg0ZlptMWNrc3lMcDgyd1BSeWkzemd4NHlvXC9ldmg4cHlwb1J5WXRjU1lBajFTeW15dWxLVldVQ2luY0RRMHZGRlg5RWpzeGFXUzlmRHA4NjRiMFUwMmFZNVplcDA4b2xiYk4ifQ%3D%3D
Value Stream Management (VSM) tools help software development organizations to visualize the development pipeline end to end. These tools capture, visualize, and analyze critical indicators of the speed and quality of software product creation. VSM is an emerging market: Vendors with a vision of empowering teams with analytics informed by real-world data and flexible planning schemes beat out those that focus on incremental enhancements within their traditional domains. https://page.gitlab.com/rs/194-VVC-221/images/vsm_forrester.pdf
Amazon Web Services, Google Cloud Platform, and Microsoft Azure have all recently doubled down on threat intelligence to help users identify and respond to malicious activity in the public cloud. But where do these platforms differ, and how do those differences help or harm cloud security?
Brad Geesaman, an independent cloud infrastructure security consultant, aimed to clarify the strengths and shortcomings of each platform during his Black Hat session "Detecting Malicious Cloud Account Behavior: A Look at the New Native Platform Capabilities." He set the stage for his side-by-side comparison with a broader look at how security is different in the cloud. https://www.darkreading.com/threat-intelligence/cloud-intelligence-throwdown-amazon-vs-google-vs-microsoft/d/d-id/1332527


kutepovfedor
03.09.2018
14:35:53
Здравствуйте
Пожалуйста, порекомендуйте распределённую БД типа как касандра или сцилла
Нагуглил монго, ну и кучу всяких костыльных решений.
Задача - распределённое хранение большого количества данных данных

Konstantin
03.09.2018
14:37:23
Для больных ублюдков может ещё подойти elasticsearch

Renarde
03.09.2018
14:37:39

kutepovfedor
03.09.2018
14:38:36

Renarde
03.09.2018
14:38:45
тут вопрос не в объеме в основном, а в том какие у вас требования поверх - сколько будет реквестов к данным, в каком формате они будут etc.
Так то терабайты можно хоть в виде .csv.gz хранить.

kutepovfedor
03.09.2018
14:39:06

Александр
03.09.2018
14:39:45

Daniel
03.09.2018
14:40:14
Кек
Вы чо?

kutepovfedor
03.09.2018
14:40:25

Konstantin
03.09.2018
14:40:28

kutepovfedor
03.09.2018
14:40:47

Google

Konstantin
03.09.2018
14:40:48
Итог - одна кривая аггрегация и беги перезапускать кластер

Daniel
03.09.2018
14:40:55
Требования отсутствуют. Что советовать то.

kutepovfedor
03.09.2018
14:41:10

Александр
03.09.2018
14:41:27

kutepovfedor
03.09.2018
14:42:54
Требования:
нонстап запись в 3-5 потоков пачками
Нонстоп чтение на фронт (1000rps)
+ нонстоп чтение скриптами тоже в 3-5 потоков
Фильтры не обязательны, достаточно кейвелью

Andrey
03.09.2018
14:43:08

kutepovfedor
03.09.2018
14:43:11
А, ну ещё важно, чтоб данные распределялись, диск то не резиновый

Konstantin
03.09.2018
14:43:34
Только ноды желательно одинаковые по размеру

kutepovfedor
03.09.2018
14:44:37
Я хз, я всё излазил, не понял как размазать данные, например на 10 тачек с rf 3

Konstantin
03.09.2018
14:45:40
Мне помогало разок установить репликацию в 0, а потом поставить какую надо

Andrey
03.09.2018
14:47:00

Renarde
03.09.2018
14:47:21

Andrey
03.09.2018
14:48:11

Александр
03.09.2018
14:48:24

Renarde
03.09.2018
14:49:33
Вообще кажется что если много мелких и по key-value, то тогда clickhouse тут не пойдет (where not to use CH - Key-value access with high request rate)

kutepovfedor
03.09.2018
14:50:04
а что за данные ?
статистика юр , реестры фнс, суды и прочая лабуда из корпоративной среды

Google

Andrey
03.09.2018
14:50:55

Renarde
03.09.2018
14:51:11
Но вообще редис должен норм пойти тогда - раз мелкие KV, вот они в бенчмарке хвастаются что у них 72k RPS без дополнительных мытарств:
https://redis.io/topics/benchmarks

kutepovfedor
03.09.2018
14:51:14

Andrey
03.09.2018
14:52:10

kutepovfedor
03.09.2018
14:52:33

Александр
03.09.2018
14:52:45

Andrey
03.09.2018
14:52:56

Daniel
03.09.2018
14:52:58