@hadoopusers

« Назад

Страница 172 из 182

Далее »

Alex

19.10.2018
12:59:03

Датаноды, но диски разные, про файлкеш знаю, но вроде не сильно упирались

Рамиль

19.10.2018
13:05:36

Ой много ли ей надо

все зависит от ситуации

в идеале данные не должны вымывваться из памяти пока их не прочтут все консьюмеры

Sergey

19.10.2018
13:08:08

в идеале данные не должны вымывваться из памяти пока их не прочтут все консьюмеры

Рамиль. а чем вы мониторите кафку? например, тот же факт вымывания

Google

Рамиль

19.10.2018
13:09:03

честно говоря не мониторили такие вещи

да и на тех проектах где участвовал нагрузка на кафку была мизерной

Stanislav

19.10.2018
13:10:20

в идеале данные не должны вымывваться из памяти пока их не прочтут все консьюмеры

Зависит от )

Юрий

19.10.2018
14:20:27

А кто-нибудь переезжал с паркета на карбон дату?

Mikhail

19.10.2018
14:30:22

А кто-нибудь переезжал с паркета на карбон дату?

А вы пользуетесь carbon data? Какие плюсы? Действительно стоит того?

Юрий

19.10.2018
14:31:39

Нет, но мы посматриваем

Поэтому и спрашиваю

Нам очень не хватает индексов в паркете

Aleksandr

19.10.2018
14:41:14

Нам очень не хватает индексов в паркете

А орс чем плох?

Юрий

19.10.2018
15:03:33

Это что?

Mikhail

19.10.2018
15:04:10

Это что?

orc

Это что?

https://orc.apache.org

Юрий

19.10.2018
15:10:13

А sql по этому можно?

Google

Mikhail

19.10.2018
15:10:37

Да:)

Sergei

19.10.2018
15:13:18

Он заточен под Hive, неплохой формат

Мы используем вместо Parquet

Mikhail

19.10.2018
15:14:43

Он заточен под Hive, неплохой формат

carbondata?

Sergei

19.10.2018
15:15:12

carbondata?

ORC Carbon не пробовали

Aleksandr

19.10.2018
15:15:42

Он заточен под Hive, неплохой формат

Почему, в спарке 2,3 вроде добавили норм поддержку

Sergei

19.10.2018
15:16:08

Да, векторизованый ридер.

Там много оптимизаций для ORC в 2.3 спарке, а также Horton забекпортил оптимизацию под ORC начиная со спарка 2.2 (HDP 2.6.4+)

Aleksandr

19.10.2018
15:19:18

Вы с паркетом сравнивали на 2.3 спарке? А то у меня руки не доходят никак...

Daniel

19.10.2018
15:19:51

А так и даталокалити получаешь пр работе спарком

Причем здесь только кафка

Юрий

19.10.2018
15:21:24

А есть сравнение в плане фич с паркетом? Или это просто drop in replacement?

Aleksandr

19.10.2018
15:22:36

А есть сравнение в плане фич с паркетом? Или это просто drop in replacement?

Ну по описанию, там есть блум фильтр и индексы.

Юрий

19.10.2018
15:23:55

Читаю доку, выглядит прикольно.

Aleksandr

19.10.2018
15:24:12

И да, дока у них по информативнее, чем у паркета

Правда для вложенных данных паркет вроде лучше подходит

Юрий

19.10.2018
15:33:19

Слушайте, а вот там есть struct и union типы. Это что же получается, я могу полноценное адт выразить?

Правда для вложенных данных паркет вроде лучше подходит

Почему?

Aleksandr

19.10.2018
15:35:47

Честно, никогда вложенных структур не хранил. Но вообще, паркет изначально разрабатывался для вложенных структур.

Возможно кто-то в этом чате лучше знает

А лучше самому потестить и сравнить)

Google

Mitya

19.10.2018
15:45:35

О, холивар Parquet vs ORC, обожаю

Aleksandr

19.10.2018
15:47:06

О, холивар Parquet vs ORC, обожаю

Да вроде тут никто не холиварит)

Mitya

19.10.2018
15:47:30

Пока что )) я жду когда придут паркетчики и прочтут

Uncel

19.10.2018
15:53:30

А четам холиварить

Орк не умеет ничего кроме snappy/deflate(zlib)

Aleksandr

19.10.2018
15:58:55

Орк не умеет ничего кроме snappy/deflate(zlib)

Zlib же

Alexander

19.10.2018
16:00:03

Zlib же

Вот да

Юрий

19.10.2018
16:03:09

Орк не умеет ничего кроме snappy/deflate(zlib)

Это так плохо?

Uncel

19.10.2018
16:07:56

Это так плохо?

Ну, в паркет завезли brotli и zstandard, последний по сжатию на уровне deflate и при этом быстрее

Юрий

19.10.2018
16:08:38

Ну сжатие - это хорошо. Но без индексов грустно живётся

Блум фильтры и индексы в орке выглядят вкусно, надо пробовать

Aleksandr

19.10.2018
16:16:08

Ну, в паркет завезли brotli и zstandard, последний по сжатию на уровне deflate и при этом быстрее

Не вижу, чтобы последний Спарк 2.3.2 поддерживал их. Судя по доке: Acceptable values include: none, uncompressed, snappy, gzip, lzo.

Uncel

19.10.2018
16:22:18

Не вижу, чтобы последний Спарк 2.3.2 поддерживал их. Судя по доке: Acceptable values include: none, uncompressed, snappy, gzip, lzo.

С 2.4

Патчи нетфликса

Grigory

19.10.2018
16:23:08

ждем уж 2.4 ппц сколько

):

Uncel

19.10.2018
16:24:03

Там уже 3.0-snapshot ( нужно только подождать еще года 3 )

Grigory

19.10.2018
16:27:06

Ну вообще RC 2.4.0 уже паблишатся в апачевую RC репу: https://repository.apache.org/content/repositories/

так что велком

Aleksandr

19.10.2018
16:37:03

Ну вот когда официальный релиз будет, тогда и можно будет что-то говорить) тем более пока это всё до продакшна дойдёт...

Google

Daniel

19.10.2018
16:39:24

Ну вообще RC 2.4.0 уже паблишатся в апачевую RC репу: https://repository.apache.org/content/repositories/

Не считово, я верю в свою победу

Grigory

19.10.2018
16:40:02

Не считово, я верю в свою победу

Думаешь после нг релиз?

Daniel

19.10.2018
16:40:35

Думаешь после нг релиз?

После скалы 2.13))

Grigory

19.10.2018
16:41:25

После скалы 2.13))

Rc1 ток в январе будет

если будет)

Eduard

19.10.2018
16:50:24

Чего там завезут интересно

Nikolay

19.10.2018
17:26:19

Всем доброго вечера! А здесь есть админы Hadoop, кто хочет развития и делать полезные для города задачи? А то нам нужны такие. Если да - пишите в лс #job

Uncel

19.10.2018
17:29:04

Безопасный транспорт?

Nikolay

19.10.2018
17:37:17

Безопасный транспорт?

Ответил в лс.

Nikita Blagodarnyy

19.10.2018
21:14:01

Кто-ниубдь в Hive пакетно менял кириллицу на латиницу?

В строках.

Заделитесь кодом.

Sergei

20.10.2018
05:21:15

Вы с паркетом сравнивали на 2.3 спарке? А то у меня руки не доходят никак...

Дотошно не сравнивали, но примерно то же самое и получилось по скорости. Orc+Zlib для нас работает как оптимальная комбинация

Константин

20.10.2018
16:59:47

Что можно юзать для разделения двух голосов в одной дорожке, которые говорят одновременно?

ну типо вообще какие методы применяются

и вообще как гуглить по этой теме? а то я не нашёл, пока что, годных ресурсов

Nikita Blagodarnyy

20.10.2018
18:28:25

Ты, похоже чятиком промахнулся.

Daniel

20.10.2018
18:31:18

Что можно юзать для разделения двух голосов в одной дорожке, которые говорят одновременно?

пейперы по темам speaker detection, speaker tracking

Константин

20.10.2018
18:35:17

пейперы по темам speaker detection, speaker tracking

Благодарю

Ты, похоже чятиком промахнулся.

Чатиком*

Google

Sasha

20.10.2018
21:10:16

Ты, похоже чятиком промахнулся.

+

Константин

22.10.2018
07:54:51

ребят, не знаете где взять docker образ, чтобы парсер парсил и передовал данные (скорее в json) в Kafka, а потом в Elasticsearch и затем в Kibana ?

Artem

22.10.2018
07:55:52

Какой парсер?

Mitya

22.10.2018
07:59:08

«…и чтоб можно было грабить корованы…»

ребят, не знаете где взять docker образ, чтобы парсер парсил и передовал данные (скорее в json) в Kafka, а потом в Elasticsearch и затем в Kibana ?

Если ты знаешь где взять такой парсер - его скорее всего можно запаковать в докер, и это не трудно. Если парсера у тебя нет, то убери из своей задачи слово докер и попробуй поискать решение.

Stanislav

22.10.2018
08:03:55

ребят, не знаете где взять docker образ, чтобы парсер парсил и передовал данные (скорее в json) в Kafka, а потом в Elasticsearch и затем в Kibana ?

Logstash, greylog

Про это речь?

Старый

22.10.2018
08:14:33

Logstash, greylog

вряд ли он их хотел

Artem

22.10.2018
08:14:57

«…и чтоб можно было грабить корованы…»

?

Andrey

22.10.2018
08:22:04

spark.read.json(json_rdd).write.format("org.elasticsearch.spark.sql").mode('append').save("index0/mapping0")

это?

Андрей

22.10.2018
08:36:23

#job #работа #Москва Всем привет! В подразделение BigData С7 Техлаб (дочерняя компания авиакомпании С7) разыскивается Data Engineer (мидл и выше), который поможет нам построить самый лучший DataLake в мире. Наше подразделение занимается разработкой инновационных продуктов для авиакомпании, и всем этим продуктам требуются данные. Наконец-то все созрели для создания большого озера данных, в котором смогут плескаться все наши уникальные разработки :) Обязанности: - Создание подключений к источникам сырых данных (а иногда и к витринам корпоративных хранилищ); - Организация конвейеров данных из источников; - Организация доступа к данным для аналитиков, разработчиков и дата сатанистов; - Поддержание кластера Hadoop в боевом состоянии совместно с DevOps. Требования: - Отличные знания Hadoop-стека: HDFS (как, где и почему лежат данные), YARN (кому, какие и почему выделены ресурсы), Sqoop, Oozie (откуда и как текут данные, но можно и AirFlow), MapReduce (как и почему ведут себя базовые процессы, загрузка данных), Spark (обработка и трансформация) , HBase (промежуточные витрины, особенно круто, если есть опыт с Phoenix); - Крайне желательно умение работать с потоками данных: Kafka, Spark Streaming, Flink; - Отличные знания SQL и его диалектов, опыт работы с различными РСУБД: Oracle, MSSQL, PostgreSQL, способы оптимизации запросов, выделение инкрементов, репликации; - Отлично, если есть опыт работы с NoSQL- и колоночными базами: MongoDB, Redis, Aerospike, Vertica, ClickHouse; - Опыт администрирования кластера Hadoop. Разработка, в основном, ведется на Python/Scala, но не чураемся и Java. Место работы: Москва, уютный офис на Петровке, прямо напротив ЦУМ. Плюшки: система сложная, но в конечном счете приятная. Авиаперелеты, ДМС, спорт, мобильная связь, бары и рестораны по специальным корпоративным тарифам. Тарифы на авиабилеты действуют на всю семью, включая родителей жены/мужа, а ДМС, спорт и прочее можно оформить даже для друзей. Вилка: 150-250 т.р. на руки. Контакт: спрашивать свои ответы можно лично у меня, я тим-лид DE.

« Назад

Страница 172 из 182

Далее »

Открыть в Telegram