Александр
10.05.2018
17:49:48
http://parquet.apache.org/documentation/latest/ один лист а4 + исходники проектов
Grigory
10.05.2018
17:50:24
а тебе как нужно с ним работать?
потому что обычно через спарк все ломятся читать
а он умеет из коробки это делать
и по началу никто о партицировании не парится
Евгений
10.05.2018
17:51:44
Google
Александр
10.05.2018
17:51:45
у меня есть 10005000 данных для спарка, которые нужно будет обработать
но первоначально хоть понять что там есть и какие данные
написать пару юнитов что я входные данные нормально читаю
Евгений
10.05.2018
17:53:25
Можно просто printSchema, если она слишком здоровая)
Вместо show
Хотя и то, и то надо обычно
Если очень не повезёт, у паркетов окажется разная схема)
Но на это есть параметр)
Александр
10.05.2018
17:58:47
теперь, второй важный вопрос - spark как получить из SparkContext() =)
Евгений
10.05.2018
18:00:27
https://spark.apache.org/docs/2.3.0/api/java/org/apache/spark/sql/SparkSession.Builder.html
Нужно сессию поднимать вместо контекста
Александр
10.05.2018
18:01:23
Спасибо, буду читать
Евгений
10.05.2018
18:01:26
А, можно конфиг от контекста подать на вход в сессию
Александр
10.05.2018
18:02:55
Так уже и сделал, что почитать лучше для быстрого входа ?
Google
Grigory
10.05.2018
18:04:24
быстрый вход в спарк? есть орейли книги
мне они не нравятся но для старта мб норм
доки это небольшая проблема большой экосистемы
Евгений
10.05.2018
18:05:10
Большая проблема)
Когда большая часть функционала описана исключительно в блогах датабриксов)
Tsh
10.05.2018
18:06:39
Доки - просто звездец в спарке, надо постоянно смотреть в исходники
И не верить дата бриксам и перепроверять все
Grigory
10.05.2018
18:09:38
хотя вот про гарбедж коллекторы было интересно
Евгений
10.05.2018
18:09:56
У них норм про оконные функции расписано
Grigory
10.05.2018
18:10:24
но в целом они ниоч
их либы на гитхабе похожи по удобству на либы 41градус
Евгений
10.05.2018
18:10:56
Это что из основного для почитать)
https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html
Александр
10.05.2018
18:11:07
Grigory
10.05.2018
18:11:52
да начни с орейли мож если вообще не тыкал никогда
Евгений
10.05.2018
18:12:32
Надо начинать сразу в продакшен)
По бразильской системе)
Grigory
10.05.2018
18:12:46
на петонах
Александр
10.05.2018
18:12:56
примерно так и есть
Grigory
10.05.2018
18:13:38
да тогда прост делай там походу дела конкретные вопросы будут и сюда набросишь тогда
Евгений
10.05.2018
18:13:49
В общем - самое быстрое - просто гуглить по дороге всё, что не понимаешь, как сделать сам
Google
Grigory
10.05.2018
18:14:12
а потом спрашивают чо эт спарк такой медленный
и с оомами валится
Евгений
10.05.2018
18:14:23
Это тоже гуглится)
Grigory
10.05.2018
18:14:28
ну конечн да
Александр
10.05.2018
18:14:42
Евгений
10.05.2018
18:14:58
Ну это тоже своеобразный гугл)
Кеш гугла)
Распределённый и агрегированнный)
Андрей
10.05.2018
18:45:13
Чат тоже иногда полон вредных советов что тот датабрикс :)
Sergey
10.05.2018
19:20:46
Приветствую.
Наведите пожалуйста на мысль.
Добавил 4 ноду в клаудера кластере. Количество цпу изменилось, память изменил. Но когда spark запускаю, новая нода не разу не подхватывает экзекьюторов. Как будто кластер ее не видит. Количество экзекьютор увеличивали.
Евгений
11.05.2018
06:13:26
Eduard
11.05.2018
07:12:07
Всем привет, кто-то сталкивался с ошибкой при выполнении
input.write().mode(SaveMode.Append).orc(path)
??
java.io.IOException: File already exists:s3://---------.snappy.orc
at com.amazon.ws.emr.hadoop.fs.s3n.S3NativeFileSystem.create(S3NativeFileSystem.java:507)
сохранение в s3 из EMR
Пока что нагуглилось вот это https://stackoverflow.com/questions/38218853/spark-append-mode-for-partitioned-text-file-fails-with-savemode-append-ioexcep?utm_medium=organic&utm_source=google_rich_qa&utm_campaign=google_rich_qa
Sergey
11.05.2018
07:32:57
Grigory
11.05.2018
07:33:34
посмотри колво партиций и всякое такое
Sergey
11.05.2018
07:35:30
Grigory
11.05.2018
07:35:49
а чо по екзекуторам в юае?
Sergey
11.05.2018
07:37:58
Google
Sergey
11.05.2018
07:39:47
Григорий, Евгений спасибо. Сейчас пока запустили так задачу.
Чуть позже посмотрю, что вы реуомендовали и вернусь с комментариями
Dmitry
11.05.2018
09:28:37
Боже после понва здесь как на званом балу
Vadim
11.05.2018
09:36:22
и правда
Юлия
11.05.2018
10:30:20
Привет! Мне сказали,что сюда можно вакансию закинуть. #вакансия #Америка #Штаты
#SeniorDataEngineer #Data Engineer
#удаленная работа в калифорнийской компании #полная занятость
#Россия #Москва #Санкт- Петербург
ЗП от 180 000 р. до плюс бесконечности. Английский язык нужен обязательно.
Компания является создателями мощной технологической платформы, обеспечивающей возможность vpn подключения, конфиденциальности и свободы для миллионов людей во всем мире.
Обязанности:
Создавайте масштабируемый и надежный конвейер данных в реальном времени на технологиях с открытым исходным кодом, который собирает, преобразует, загружает и обрабатывает данные из различных внутренних и внешних источников данных
Создайте масштабируемое распределенное хранилище данных
Создавайте инструменты, которые помогают бизнес-пользователям быстрее извлекать, анализировать и визуализировать данные, а также аналитикам данных для создания сложных запросов и выполнения расширенного анализа.
Оцените новые технологии и создайте прототипы для непрерывного совершенствования Data Engineering
Партнерство с инженерными командами для обеспечения контроля, регистрации и мониторинга
ТРЕБУЕМЫЙ ОПЫТ:
Широкий опыт использования технологий с открытым исходным кодом Big Data Spark, Kafka, Hadoop и Hive
Опыт построения и мониторинга почти в реальном масштабе времени масштабируемых ETL-процессов управления хранилищами данных
Опыт работы с инструментами обработки данных, такими как AirFlow, Azkaban или Oozie
5-летний опыт работы с Java, Scala и Python
Более 5 лет опыта работы с SQL (MySQL, PostgreSQL, Oracle и т. Д.)
Опыт работы с оболочкой
Отличные письменные и устные навыки общения
BS или MS в области компьютерных наук или соответствующей технической области
Опыт работы с Tableau, Apache Superset или Apache Zeppelin станет плюсом
Опыт работы с Docker, Kubernetes и Linux Advanced Administration станет плюсом
Опыт работы с командой, распределенной по часовым поясам, будет плюсом
Oleksandr
11.05.2018
17:15:23
снова по aws batch — кто-то в курсе, как в нем ограничить количество контейнеров на хост?
допустим, хост с 10000 памяти, я сетаплю 2 контейнера с 8000 каждый, и батч их запускает одновременно на хост, чего я не хочу
Grigory
12.05.2018
16:53:06