
Alex
19.10.2018
12:59:03
Датаноды, но диски разные, про файлкеш знаю, но вроде не сильно упирались

Рамиль
19.10.2018
13:05:36
в идеале данные не должны вымывваться из памяти пока их не прочтут все консьюмеры

Sergey
19.10.2018
13:08:08

Google

Рамиль
19.10.2018
13:09:03
честно говоря не мониторили такие вещи
да и на тех проектах где участвовал нагрузка на кафку была мизерной

Stanislav
19.10.2018
13:10:20

Юрий
19.10.2018
14:20:27
А кто-нибудь переезжал с паркета на карбон дату?

Mikhail
19.10.2018
14:30:22

Юрий
19.10.2018
14:31:39
Нет, но мы посматриваем
Поэтому и спрашиваю
Нам очень не хватает индексов в паркете

Aleksandr
19.10.2018
14:41:14

Юрий
19.10.2018
15:03:33
Это что?

Mikhail
19.10.2018
15:04:10

Юрий
19.10.2018
15:10:13
А sql по этому можно?

Google

Mikhail
19.10.2018
15:10:37
Да:)

Sergei
19.10.2018
15:13:18
Он заточен под Hive, неплохой формат
Мы используем вместо Parquet

Mikhail
19.10.2018
15:14:43

Sergei
19.10.2018
15:15:12

Aleksandr
19.10.2018
15:15:42

Sergei
19.10.2018
15:16:08
Да, векторизованый ридер.
Там много оптимизаций для ORC в 2.3 спарке, а также Horton забекпортил оптимизацию под ORC начиная со спарка 2.2 (HDP 2.6.4+)

Aleksandr
19.10.2018
15:19:18
Вы с паркетом сравнивали на 2.3 спарке? А то у меня руки не доходят никак...

Daniel
19.10.2018
15:19:51

Юрий
19.10.2018
15:21:24
А есть сравнение в плане фич с паркетом? Или это просто drop in replacement?

Aleksandr
19.10.2018
15:22:36

Юрий
19.10.2018
15:23:55
Читаю доку, выглядит прикольно.

Aleksandr
19.10.2018
15:24:12
И да, дока у них по информативнее, чем у паркета
Правда для вложенных данных паркет вроде лучше подходит

Юрий
19.10.2018
15:33:19
Слушайте, а вот там есть struct и union типы. Это что же получается, я могу полноценное адт выразить?

Aleksandr
19.10.2018
15:35:47
Честно, никогда вложенных структур не хранил. Но вообще, паркет изначально разрабатывался для вложенных структур.
Возможно кто-то в этом чате лучше знает
А лучше самому потестить и сравнить)

Google

Mitya
19.10.2018
15:45:35
О, холивар Parquet vs ORC, обожаю

Aleksandr
19.10.2018
15:47:06

Mitya
19.10.2018
15:47:30
Пока что )) я жду когда придут паркетчики и прочтут

Uncel
19.10.2018
15:53:30
А четам холиварить
Орк не умеет ничего кроме snappy/deflate(zlib)

Aleksandr
19.10.2018
15:58:55

Alexander
19.10.2018
16:00:03

Юрий
19.10.2018
16:03:09

Uncel
19.10.2018
16:07:56
Это так плохо?
Ну, в паркет завезли brotli и zstandard, последний по сжатию на уровне deflate и при этом быстрее

Юрий
19.10.2018
16:08:38
Ну сжатие - это хорошо. Но без индексов грустно живётся
Блум фильтры и индексы в орке выглядят вкусно, надо пробовать

Aleksandr
19.10.2018
16:16:08

Uncel
19.10.2018
16:22:18
Патчи нетфликса

Grigory
19.10.2018
16:23:08
ждем уж 2.4 ппц сколько
):

Uncel
19.10.2018
16:24:03
Там уже 3.0-snapshot ( нужно только подождать еще года 3 )

Grigory
19.10.2018
16:27:06
Ну вообще RC 2.4.0 уже паблишатся в апачевую RC репу: https://repository.apache.org/content/repositories/
так что велком

Aleksandr
19.10.2018
16:37:03
Ну вот когда официальный релиз будет, тогда и можно будет что-то говорить) тем более пока это всё до продакшна дойдёт...

Google

Daniel
19.10.2018
16:39:24

Grigory
19.10.2018
16:40:02

Daniel
19.10.2018
16:40:35

Grigory
19.10.2018
16:41:25
если будет)

Eduard
19.10.2018
16:50:24
Чего там завезут интересно

Nikolay
19.10.2018
17:26:19
Всем доброго вечера! А здесь есть админы Hadoop, кто хочет развития и делать полезные для города задачи? А то нам нужны такие.
Если да - пишите в лс
#job

Uncel
19.10.2018
17:29:04
Безопасный транспорт?

Nikolay
19.10.2018
17:37:17

Nikita Blagodarnyy
19.10.2018
21:14:01
Кто-ниубдь в Hive пакетно менял кириллицу на латиницу?
В строках.
Заделитесь кодом.

Sergei
20.10.2018
05:21:15

Константин
20.10.2018
16:59:47
Что можно юзать для разделения двух голосов в одной дорожке, которые говорят одновременно?
ну типо
вообще какие методы применяются
и вообще как гуглить по этой теме?
а то я не нашёл, пока что, годных ресурсов

Nikita Blagodarnyy
20.10.2018
18:28:25
Ты, похоже чятиком промахнулся.

Daniel
20.10.2018
18:31:18

Константин
20.10.2018
18:35:17

Google

Sasha
20.10.2018
21:10:16

Константин
22.10.2018
07:54:51
ребят, не знаете где взять docker образ, чтобы парсер парсил и передовал данные (скорее в json) в Kafka, а потом в Elasticsearch и затем в Kibana ?

Artem
22.10.2018
07:55:52
Какой парсер?

Mitya
22.10.2018
07:59:08
«…и чтоб можно было грабить корованы…»

Stanislav
22.10.2018
08:03:55
Про это речь?

Старый
22.10.2018
08:14:33

Artem
22.10.2018
08:14:57

Andrey
22.10.2018
08:22:04
spark.read.json(json_rdd).write.format("org.elasticsearch.spark.sql").mode('append').save("index0/mapping0")
это?


Андрей
22.10.2018
08:36:23
#job #работа #Москва
Всем привет!
В подразделение BigData С7 Техлаб (дочерняя компания авиакомпании С7) разыскивается Data Engineer (мидл и выше), который поможет нам построить самый лучший DataLake в мире.
Наше подразделение занимается разработкой инновационных продуктов для авиакомпании, и всем этим продуктам требуются данные. Наконец-то все созрели для создания большого озера данных, в котором смогут плескаться все наши уникальные разработки :)
Обязанности:
- Создание подключений к источникам сырых данных (а иногда и к витринам корпоративных хранилищ);
- Организация конвейеров данных из источников;
- Организация доступа к данным для аналитиков, разработчиков и дата сатанистов;
- Поддержание кластера Hadoop в боевом состоянии совместно с DevOps.
Требования:
- Отличные знания Hadoop-стека: HDFS (как, где и почему лежат данные), YARN (кому, какие и почему выделены ресурсы), Sqoop, Oozie (откуда и как текут данные, но можно и AirFlow), MapReduce (как и почему ведут себя базовые процессы, загрузка данных), Spark (обработка и трансформация) , HBase (промежуточные витрины, особенно круто, если есть опыт с Phoenix);
- Крайне желательно умение работать с потоками данных: Kafka, Spark Streaming, Flink;
- Отличные знания SQL и его диалектов, опыт работы с различными РСУБД: Oracle, MSSQL, PostgreSQL, способы оптимизации запросов, выделение инкрементов, репликации;
- Отлично, если есть опыт работы с NoSQL- и колоночными базами: MongoDB, Redis, Aerospike, Vertica, ClickHouse;
- Опыт администрирования кластера Hadoop.
Разработка, в основном, ведется на Python/Scala, но не чураемся и Java.
Место работы: Москва, уютный офис на Петровке, прямо напротив ЦУМ.
Плюшки: система сложная, но в конечном счете приятная. Авиаперелеты, ДМС, спорт, мобильная связь, бары и рестораны по специальным корпоративным тарифам. Тарифы на авиабилеты действуют на всю семью, включая родителей жены/мужа, а ДМС, спорт и прочее можно оформить даже для друзей.
Вилка: 150-250 т.р. на руки.
Контакт: спрашивать свои ответы можно лично у меня, я тим-лид DE.