@hadoopusers

Страница 172 из 182
Alex
19.10.2018
12:59:03
Датаноды, но диски разные, про файлкеш знаю, но вроде не сильно упирались

Рамиль
19.10.2018
13:05:36
Ой много ли ей надо
все зависит от ситуации

в идеале данные не должны вымывваться из памяти пока их не прочтут все консьюмеры

Sergey
19.10.2018
13:08:08
в идеале данные не должны вымывваться из памяти пока их не прочтут все консьюмеры
Рамиль. а чем вы мониторите кафку? например, тот же факт вымывания

Google
Рамиль
19.10.2018
13:09:03
честно говоря не мониторили такие вещи

да и на тех проектах где участвовал нагрузка на кафку была мизерной

Юрий
19.10.2018
14:20:27
А кто-нибудь переезжал с паркета на карбон дату?

Mikhail
19.10.2018
14:30:22
А кто-нибудь переезжал с паркета на карбон дату?
А вы пользуетесь carbon data? Какие плюсы? Действительно стоит того?

Юрий
19.10.2018
14:31:39
Нет, но мы посматриваем

Поэтому и спрашиваю

Нам очень не хватает индексов в паркете

Aleksandr
19.10.2018
14:41:14
Юрий
19.10.2018
15:03:33
Это что?

Mikhail
19.10.2018
15:04:10
Это что?
https://orc.apache.org

Юрий
19.10.2018
15:10:13
А sql по этому можно?

Google
Mikhail
19.10.2018
15:10:37
Да:)

Sergei
19.10.2018
15:13:18
Он заточен под Hive, неплохой формат

Мы используем вместо Parquet

Sergei
19.10.2018
15:15:12
carbondata?
ORC Carbon не пробовали

Aleksandr
19.10.2018
15:15:42
Он заточен под Hive, неплохой формат
Почему, в спарке 2,3 вроде добавили норм поддержку

Sergei
19.10.2018
15:16:08
Да, векторизованый ридер.

Там много оптимизаций для ORC в 2.3 спарке, а также Horton забекпортил оптимизацию под ORC начиная со спарка 2.2 (HDP 2.6.4+)

Aleksandr
19.10.2018
15:19:18
Вы с паркетом сравнивали на 2.3 спарке? А то у меня руки не доходят никак...

Daniel
19.10.2018
15:19:51
Юрий
19.10.2018
15:21:24
А есть сравнение в плане фич с паркетом? Или это просто drop in replacement?

Aleksandr
19.10.2018
15:22:36
А есть сравнение в плане фич с паркетом? Или это просто drop in replacement?
Ну по описанию, там есть блум фильтр и индексы.

Юрий
19.10.2018
15:23:55
Читаю доку, выглядит прикольно.

Aleksandr
19.10.2018
15:24:12
И да, дока у них по информативнее, чем у паркета

Правда для вложенных данных паркет вроде лучше подходит

Юрий
19.10.2018
15:33:19
Слушайте, а вот там есть struct и union типы. Это что же получается, я могу полноценное адт выразить?

Aleksandr
19.10.2018
15:35:47
Честно, никогда вложенных структур не хранил. Но вообще, паркет изначально разрабатывался для вложенных структур.

Возможно кто-то в этом чате лучше знает

А лучше самому потестить и сравнить)

Google
Mitya
19.10.2018
15:45:35
О, холивар Parquet vs ORC, обожаю

Aleksandr
19.10.2018
15:47:06
О, холивар Parquet vs ORC, обожаю
Да вроде тут никто не холиварит)

Mitya
19.10.2018
15:47:30
Пока что )) я жду когда придут паркетчики и прочтут

Uncel
19.10.2018
15:53:30
А четам холиварить

Орк не умеет ничего кроме snappy/deflate(zlib)

Alexander
19.10.2018
16:00:03
Zlib же
Вот да

Юрий
19.10.2018
16:03:09
Uncel
19.10.2018
16:07:56
Это так плохо?
Ну, в паркет завезли brotli и zstandard, последний по сжатию на уровне deflate и при этом быстрее

Юрий
19.10.2018
16:08:38
Ну сжатие - это хорошо. Но без индексов грустно живётся

Блум фильтры и индексы в орке выглядят вкусно, надо пробовать

Aleksandr
19.10.2018
16:16:08
Ну, в паркет завезли brotli и zstandard, последний по сжатию на уровне deflate и при этом быстрее
Не вижу, чтобы последний Спарк 2.3.2 поддерживал их. Судя по доке: Acceptable values include: none, uncompressed, snappy, gzip, lzo.

Grigory
19.10.2018
16:23:08
ждем уж 2.4 ппц сколько

):

Uncel
19.10.2018
16:24:03
Там уже 3.0-snapshot ( нужно только подождать еще года 3 )

Grigory
19.10.2018
16:27:06
Ну вообще RC 2.4.0 уже паблишатся в апачевую RC репу: https://repository.apache.org/content/repositories/

так что велком

Aleksandr
19.10.2018
16:37:03
Ну вот когда официальный релиз будет, тогда и можно будет что-то говорить) тем более пока это всё до продакшна дойдёт...

Google
Grigory
19.10.2018
16:40:02
Не считово, я верю в свою победу
Думаешь после нг релиз?

Daniel
19.10.2018
16:40:35
Думаешь после нг релиз?
После скалы 2.13))

Grigory
19.10.2018
16:41:25
После скалы 2.13))
Rc1 ток в январе будет

если будет)

Eduard
19.10.2018
16:50:24
Чего там завезут интересно

Nikolay
19.10.2018
17:26:19
Всем доброго вечера! А здесь есть админы Hadoop, кто хочет развития и делать полезные для города задачи? А то нам нужны такие. Если да - пишите в лс #job

Uncel
19.10.2018
17:29:04
Безопасный транспорт?

Nikolay
19.10.2018
17:37:17
Nikita Blagodarnyy
19.10.2018
21:14:01
Кто-ниубдь в Hive пакетно менял кириллицу на латиницу?

В строках.

Заделитесь кодом.

Sergei
20.10.2018
05:21:15
Вы с паркетом сравнивали на 2.3 спарке? А то у меня руки не доходят никак...
Дотошно не сравнивали, но примерно то же самое и получилось по скорости. Orc+Zlib для нас работает как оптимальная комбинация

Константин
20.10.2018
16:59:47
Что можно юзать для разделения двух голосов в одной дорожке, которые говорят одновременно?

ну типо вообще какие методы применяются

и вообще как гуглить по этой теме? а то я не нашёл, пока что, годных ресурсов

Nikita Blagodarnyy
20.10.2018
18:28:25
Ты, похоже чятиком промахнулся.

Google
Константин
22.10.2018
07:54:51
ребят, не знаете где взять docker образ, чтобы парсер парсил и передовал данные (скорее в json) в Kafka, а потом в Elasticsearch и затем в Kibana ?

Artem
22.10.2018
07:55:52
Какой парсер?

Mitya
22.10.2018
07:59:08
«…и чтоб можно было грабить корованы…»

ребят, не знаете где взять docker образ, чтобы парсер парсил и передовал данные (скорее в json) в Kafka, а потом в Elasticsearch и затем в Kibana ?
Если ты знаешь где взять такой парсер - его скорее всего можно запаковать в докер, и это не трудно. Если парсера у тебя нет, то убери из своей задачи слово докер и попробуй поискать решение.

Старый
22.10.2018
08:14:33
Logstash, greylog
вряд ли он их хотел

Andrey
22.10.2018
08:22:04
spark.read.json(json_rdd).write.format("org.elasticsearch.spark.sql").mode('append').save("index0/mapping0")

это?

Андрей
22.10.2018
08:36:23
#job #работа #Москва Всем привет! В подразделение BigData С7 Техлаб (дочерняя компания авиакомпании С7) разыскивается Data Engineer (мидл и выше), который поможет нам построить самый лучший DataLake в мире. Наше подразделение занимается разработкой инновационных продуктов для авиакомпании, и всем этим продуктам требуются данные. Наконец-то все созрели для создания большого озера данных, в котором смогут плескаться все наши уникальные разработки :) Обязанности: - Создание подключений к источникам сырых данных (а иногда и к витринам корпоративных хранилищ); - Организация конвейеров данных из источников; - Организация доступа к данным для аналитиков, разработчиков и дата сатанистов; - Поддержание кластера Hadoop в боевом состоянии совместно с DevOps. Требования: - Отличные знания Hadoop-стека: HDFS (как, где и почему лежат данные), YARN (кому, какие и почему выделены ресурсы), Sqoop, Oozie (откуда и как текут данные, но можно и AirFlow), MapReduce (как и почему ведут себя базовые процессы, загрузка данных), Spark (обработка и трансформация) , HBase (промежуточные витрины, особенно круто, если есть опыт с Phoenix); - Крайне желательно умение работать с потоками данных: Kafka, Spark Streaming, Flink; - Отличные знания SQL и его диалектов, опыт работы с различными РСУБД: Oracle, MSSQL, PostgreSQL, способы оптимизации запросов, выделение инкрементов, репликации; - Отлично, если есть опыт работы с NoSQL- и колоночными базами: MongoDB, Redis, Aerospike, Vertica, ClickHouse; - Опыт администрирования кластера Hadoop. Разработка, в основном, ведется на Python/Scala, но не чураемся и Java. Место работы: Москва, уютный офис на Петровке, прямо напротив ЦУМ. Плюшки: система сложная, но в конечном счете приятная. Авиаперелеты, ДМС, спорт, мобильная связь, бары и рестораны по специальным корпоративным тарифам. Тарифы на авиабилеты действуют на всю семью, включая родителей жены/мужа, а ДМС, спорт и прочее можно оформить даже для друзей. Вилка: 150-250 т.р. на руки. Контакт: спрашивать свои ответы можно лично у меня, я тим-лид DE.

Страница 172 из 182