@hadoopusers

Страница 98 из 182
Александр
10.05.2018
17:49:48
http://parquet.apache.org/documentation/latest/ один лист а4 + исходники проектов

Grigory
10.05.2018
17:50:24
а тебе как нужно с ним работать? потому что обычно через спарк все ломятся читать а он умеет из коробки это делать

и по началу никто о партицировании не парится

Google
Александр
10.05.2018
17:51:45
у меня есть 10005000 данных для спарка, которые нужно будет обработать но первоначально хоть понять что там есть и какие данные написать пару юнитов что я входные данные нормально читаю

spark.read.parquet("file:///path/to/file_or_dir").show(10, false)
хм, попробую - спасибо, видимо сам себе сложность выдумал

Евгений
10.05.2018
17:53:25
Можно просто printSchema, если она слишком здоровая)

Вместо show

Хотя и то, и то надо обычно

Если очень не повезёт, у паркетов окажется разная схема)

Но на это есть параметр)

Александр
10.05.2018
17:58:47
теперь, второй важный вопрос - spark как получить из SparkContext() =)

Евгений
10.05.2018
18:00:27
https://spark.apache.org/docs/2.3.0/api/java/org/apache/spark/sql/SparkSession.Builder.html

Нужно сессию поднимать вместо контекста

Александр
10.05.2018
18:01:23
Спасибо, буду читать

Евгений
10.05.2018
18:01:26
А, можно конфиг от контекста подать на вход в сессию

Александр
10.05.2018
18:02:55
Так уже и сделал, что почитать лучше для быстрого входа ?

Google
Grigory
10.05.2018
18:04:24
быстрый вход в спарк? есть орейли книги

мне они не нравятся но для старта мб норм

доки это небольшая проблема большой экосистемы

Евгений
10.05.2018
18:05:10
Большая проблема)

Когда большая часть функционала описана исключительно в блогах датабриксов)

Tsh
10.05.2018
18:06:39
Доки - просто звездец в спарке, надо постоянно смотреть в исходники

И не верить дата бриксам и перепроверять все

Grigory
10.05.2018
18:09:38
Когда большая часть функционала описана исключительно в блогах датабриксов)
датабриксы больше о маркетинге лучше не особо им верить

хотя вот про гарбедж коллекторы было интересно

Евгений
10.05.2018
18:09:56
У них норм про оконные функции расписано

Grigory
10.05.2018
18:10:24
но в целом они ниоч их либы на гитхабе похожи по удобству на либы 41градус

Евгений
10.05.2018
18:10:56
Это что из основного для почитать) https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html

Grigory
10.05.2018
18:11:52
да начни с орейли мож если вообще не тыкал никогда

Евгений
10.05.2018
18:12:32
Надо начинать сразу в продакшен)

По бразильской системе)

Grigory
10.05.2018
18:12:46
на петонах

Александр
10.05.2018
18:12:56
примерно так и есть

Grigory
10.05.2018
18:13:38
да тогда прост делай там походу дела конкретные вопросы будут и сюда набросишь тогда

Евгений
10.05.2018
18:13:49
В общем - самое быстрое - просто гуглить по дороге всё, что не понимаешь, как сделать сам

Google
Grigory
10.05.2018
18:14:12
а потом спрашивают чо эт спарк такой медленный

и с оомами валится

Евгений
10.05.2018
18:14:23
Это тоже гуглится)

Grigory
10.05.2018
18:14:28
ну конечн да

Александр
10.05.2018
18:14:42
Евгений
10.05.2018
18:14:58
Ну это тоже своеобразный гугл)

Кеш гугла)

Распределённый и агрегированнный)

Андрей
10.05.2018
18:45:13
Чат тоже иногда полон вредных советов что тот датабрикс :)

Sergey
10.05.2018
19:20:46
Приветствую. Наведите пожалуйста на мысль. Добавил 4 ноду в клаудера кластере. Количество цпу изменилось, память изменил. Но когда spark запускаю, новая нода не разу не подхватывает экзекьюторов. Как будто кластер ее не видит. Количество экзекьютор увеличивали.

Евгений
11.05.2018
06:13:26
Приветствую. Наведите пожалуйста на мысль. Добавил 4 ноду в клаудера кластере. Количество цпу изменилось, память изменил. Но когда spark запускаю, новая нода не разу не подхватывает экзекьюторов. Как будто кластер ее не видит. Количество экзекьютор увеличивали.
Может data locality мешает? Типа пока есть возможность поднимать экзекуторы там, где есть данные, они поднимаются там. Или пробовали взять все ядра кластера, и всё равно на этой ноде ничего не запустилось?

Eduard
11.05.2018
07:12:07
Всем привет, кто-то сталкивался с ошибкой при выполнении input.write().mode(SaveMode.Append).orc(path) ?? java.io.IOException: File already exists:s3://---------.snappy.orc at com.amazon.ws.emr.hadoop.fs.s3n.S3NativeFileSystem.create(S3NativeFileSystem.java:507)

сохранение в s3 из EMR

Пока что нагуглилось вот это https://stackoverflow.com/questions/38218853/spark-append-mode-for-partitioned-text-file-fails-with-savemode-append-ioexcep?utm_medium=organic&utm_source=google_rich_qa&utm_campaign=google_rich_qa

Grigory
11.05.2018
07:33:34
Да, увеличивали ядра, не запускалось, а задача падала через какое то время
форсани колво ехекуторов руками если они будут проставивать даже в этом случае значит твоя джоба не способна их занять

посмотри колво партиций и всякое такое

Sergey
11.05.2018
07:35:30
форсани колво ехекуторов руками если они будут проставивать даже в этом случае значит твоя джоба не способна их занять
В файле конфигурации меняли количечтво реакторов, задача тоже отваливалается черкз какое то время

Grigory
11.05.2018
07:35:49
а чо по екзекуторам в юае?

Sergey
11.05.2018
07:37:58
Google
Sergey
11.05.2018
07:39:47
Григорий, Евгений спасибо. Сейчас пока запустили так задачу. Чуть позже посмотрю, что вы реуомендовали и вернусь с комментариями

Dmitry
11.05.2018
09:28:37
Боже после понва здесь как на званом балу

Vadim
11.05.2018
09:36:22
и правда

Юлия
11.05.2018
10:30:20
Привет! Мне сказали,что сюда можно вакансию закинуть. #вакансия #Америка #Штаты #SeniorDataEngineer #Data Engineer #удаленная работа в калифорнийской компании #полная занятость #Россия #Москва #Санкт- Петербург ЗП от 180 000 р. до плюс бесконечности. Английский язык нужен обязательно. Компания является создателями мощной технологической платформы, обеспечивающей возможность vpn подключения, конфиденциальности и свободы для миллионов людей во всем мире. Обязанности: Создавайте масштабируемый и надежный конвейер данных в реальном времени на технологиях с открытым исходным кодом, который собирает, преобразует, загружает и обрабатывает данные из различных внутренних и внешних источников данных Создайте масштабируемое распределенное хранилище данных Создавайте инструменты, которые помогают бизнес-пользователям быстрее извлекать, анализировать и визуализировать данные, а также аналитикам данных для создания сложных запросов и выполнения расширенного анализа. Оцените новые технологии и создайте прототипы для непрерывного совершенствования Data Engineering Партнерство с инженерными командами для обеспечения контроля, регистрации и мониторинга ТРЕБУЕМЫЙ ОПЫТ: Широкий опыт использования технологий с открытым исходным кодом Big Data Spark, Kafka, Hadoop и Hive Опыт построения и мониторинга почти в реальном масштабе времени масштабируемых ETL-процессов управления хранилищами данных Опыт работы с инструментами обработки данных, такими как AirFlow, Azkaban или Oozie 5-летний опыт работы с Java, Scala и Python Более 5 лет опыта работы с SQL (MySQL, PostgreSQL, Oracle и т. Д.) Опыт работы с оболочкой Отличные письменные и устные навыки общения BS или MS в области компьютерных наук или соответствующей технической области Опыт работы с Tableau, Apache Superset или Apache Zeppelin станет плюсом Опыт работы с Docker, Kubernetes и Linux Advanced Administration станет плюсом Опыт работы с командой, распределенной по часовым поясам, будет плюсом

Oleksandr
11.05.2018
17:15:23
снова по aws batch — кто-то в курсе, как в нем ограничить количество контейнеров на хост? допустим, хост с 10000 памяти, я сетаплю 2 контейнера с 8000 каждый, и батч их запускает одновременно на хост, чего я не хочу

Страница 98 из 182