@hadoopusers

Страница 160 из 182

Daler

05.10.2018
14:05:48

Hive - ворочать сложные большие джобы не оглядываясь на память и ядра. Impala - быстро поработать с готовой витринной, которая к тому же ещё и кешируется при повторных запросах :)

Давай без этого плиз, горит от людей, которые так делают. Если не в 1 лицо кластер используется такого стоит избегать.

Alexander

05.10.2018
14:06:54

Давай без этого плиз, горит от людей, которые так делают. Если не в 1 лицо кластер используется такого стоит избегать.

ну можно добавить "в рамках выделенной квоты на yarn" ))

Eduard

05.10.2018
14:08:09

А сколько данных / железа в ваших кейсах было-есть?

Daler

05.10.2018
14:10:59

это мне готовое досталось, перенесли таблицы из оракла в HBase, сказали что хотят видеть репорты такие-же как в оракле были. В запросе пяток таблиц но фишка в том что одни и те-же таблицы в запросе несколько раз. Так вот запросе из оракла хайв уходил в ступор а тот-же запрос на фениксе работал норм. Я пробовал Tez разницы с Mr не заметил.

Потому что тез слабо оптимизирован в сравнении со спарком. Единственное преимущество - работа с транзакциями

Google

Evgeny

05.10.2018
14:13:26

А сколько данных / железа в ваших кейсах было-есть?

Я не знаю как ответить но постирают. От 3 до 160 нод. От нескольких мб, до сотен тб :)

Alexander

05.10.2018
14:14:32

ну если сравнивать оптимизаторы, то catalyst наверное самый продвинутый... смотрел код оптимизатора Phoenix, там вообще слезы по количеству возмжных вариантов, в Hive меня простыни java кода убили, поэтому в детали не вникал )

Александр

05.10.2018
14:18:18

У меня есть 100 воркеров. Они обрабатывают мой Rdd. 7 зафейлилось. Я правильно понимаю что процесс обработки дальше пойдет и я просто потеряю эти куски ?

Nikita Blagodarnyy

05.10.2018
14:18:32

Нет.

Спарк перезапустит их на других ногах.

Александр

05.10.2018
14:19:10

Даже не так. 20 воркеров, 100 партишенов.

Nikita Blagodarnyy

05.10.2018
14:19:29

Нафига б он нужен был такой, неизвестно какое количество данных обработать.

Александр

05.10.2018
14:21:01

Так если падение, потому что я сам дурак, и именно на этой выборке всегда будет NPE, он будет перезапускать и оно будет падать

Eduard

05.10.2018
14:21:44

Ну я имею в виду когда%productname% работал не так хорошо как хотелось

Alexander

05.10.2018
14:22:37

Так если падение, потому что я сам дурак, и именно на этой выборке всегда будет NPE, он будет перезапускать и оно будет падать

ну он по моему ограниченное количество раз перезапускает (вроде 3), а потом падает целиком

не помню только, это настройки yarn или самого spark

Александр

05.10.2018
14:23:14

Спасибо, буду свои лыжи правильно смазывать.

Sergii

05.10.2018
14:30:05

Оно не работает из коробки стабильно :(

А какая у вас версия CDH/Impala. У нас в проде уже год и пока даже пальцем не пришлось шевелить. Используется для глупой загрузки таблиц (от пары мб до сотен гб в дневной партишине) и потом над этими таблицами любопытные пользователи запросы делают.

Google

Evgeny

05.10.2018
14:34:58

А какая у вас версия CDH/Impala. У нас в проде уже год и пока даже пальцем не пришлось шевелить. Используется для глупой загрузки таблиц (от пары мб до сотен гб в дневной партишине) и потом над этими таблицами любопытные пользователи запросы делают.

Опыт был на 4.x ещё Оракловой. Давно не обновлялись. Не топлю за то, что знания по Impala очень актуальны, но судя по комментариям коллег изменилось не многое.

Старый

05.10.2018
14:35:36

если пишем запрос в phonix он долго висит, начинает жрать проц и умирает, если в запросе установить лимит, то без проблем работает, как мне настроить hbase hive чтобы программисту ненужно было писать лимит?

Grigory

05.10.2018
14:40:45

если пишем запрос в phonix он долго висит, начинает жрать проц и умирает, если в запросе установить лимит, то без проблем работает, как мне настроить hbase hive чтобы программисту ненужно было писать лимит?

я конечно давно не пользовался, но ты про LIMIT? или про что

Старый

05.10.2018
14:42:00

я конечно давно не пользовался, но ты про LIMIT? или про что

лимит на число записей, sql

Alexander

05.10.2018
14:42:47

о. самое любимое от наших разработчиков "а почему тут не так как в Oracle?" ) можно уменьшить phoenix.query.timeoutMs чтобы такие запросы раньше отвалилвались по таймауту, но это немного не то

Grigory

05.10.2018
14:43:15

раскрой побольше, а то в произвольном случае любая бд / что угодно одинаково себя поведет при фетче к примеру всей таблицы без наличия необходимых ресусрво на машине

Старый

05.10.2018
14:43:59

о. самое любимое от наших разработчиков "а почему тут не так как в Oracle?" ) можно уменьшить phoenix.query.timeoutMs чтобы такие запросы раньше отвалилвались по таймауту, но это немного не то

ну типа есть hbase hdfs в неё положили 11 млн записей, и программист хочет их на клиента вывести

все

Grigory

05.10.2018
14:44:17

ну пусть выводит, ты хочешь что бы он 11 лямов одним запросом дергал?

Старый

05.10.2018
14:44:44

ну пусть выводит, ты хочешь что бы он 11 лямов одним запросом дергал?

это он хочет, чтобы я настроил так, чтобы он мог это сделать

Grigory

05.10.2018
14:45:12

интересно вот ты настроишь, а у него памяти будет чтоб в держать 11 лямов объектов сразу?

это типа 20 гигов оперативы для отображения одной странчики которую никто за раз прочесть не сможет даже на оч большом мониторе

Alexander

05.10.2018
14:45:30

а потом еще начнутся в памяти фильтры, сортировки

Grigory

05.10.2018
14:45:34

да

ну короче в твоем случае вариант - дать больше ресурсов

если ты и правда хочешь 11 лямов одним запросом

Alexander

05.10.2018
14:46:13

тот же самый zeppelin рубит вывод когда более 1Мб данных передается, ибо никому это не нужно на клиенте

Grigory

05.10.2018
14:46:58

ну очевидно что в логике клиентской тут ошибка

Alexander

05.10.2018
14:47:00

ну либо делать выгрузку в csv, и путь они себе их в excel крутят как хотят

Grigory

05.10.2018
14:47:05

то что можно гипотетически сделать что угодно - эт конечно да

Google

Grigory

05.10.2018
14:47:07

только зачем - хз

он деманд надо тащить вероятно в этом случае ему; и на клиенте делать простеньие лимиты оффсетов вычисление; или как там быстрее будет работать феникс.

Старый

05.10.2018
14:48:57

программист хочет, написать 1 запрос вытащить всё, который потом будет частями отдаваться на клиента, там будет сортировка и тп

он мне сказал настроить так, чтобы это стало возможным

типа вот есть таблица А, в ней 16 млрд записей, и они перекововывают сортируясь в горячую зону

Alexander

05.10.2018
14:51:23

ну тут можно только посочувствовать и посоветовать убедить программиста, что это ему не нужно. ну либо пусть в качестве примера приведет готовую систему, где есть такое...

потому что тянуть миллионы записей что в hbase, что в oracle, да где угодно это не есть хорошая идея

Старый

05.10.2018
14:52:53

ну в оракл мы для олапов тянули

на прошлой работе

тут тоже надо будет вытягивать данные под олапы

ну тут можно только посочувствовать и посоветовать убедить программиста, что это ему не нужно. ну либо пусть в качестве примера приведет готовую систему, где есть такое...

у меня проблема в том, что программист не хочет ничего юзать, у чего нет драйвера для го

Alexey

05.10.2018
14:55:33

ке, ошибка в постановке задачи. эт надо не программиста, а аналитика терзать... на кой столько разом вытягивать

Старый

05.10.2018
15:02:06

ке, ошибка в постановке задачи. эт надо не программиста, а аналитика терзать... на кой столько разом вытягивать

Его нет

Как вида

Их можно было бы и не разом, но программист тоже лишнего писать не хочет

Ilia

05.10.2018
15:07:04

у меня проблема в том, что программист не хочет ничего юзать, у чего нет драйвера для го

Мб через thrift попробовать раздавать? Сам не использовал но пишут что можно за рестики дёргать, гошечка справится

Alexey

05.10.2018
15:11:46

Их можно было бы и не разом, но программист тоже лишнего писать не хочет

значит, надо вправить мозги программисту. можно даже кувалдой. нашего брата это, останавливать надо иногда

Grigory

05.10.2018
15:13:01

программист хочет, написать 1 запрос вытащить всё, который потом будет частями отдаваться на клиента, там будет сортировка и тп

дай больше просто ресурсов и все заработает

ну или Alexey предложил действенный вариант тоже)

Ilia

05.10.2018
15:14:01

Ещё можно на питоне наваять вебсервис который держит SparkSession с доступом до данных, принимает по рест sql и отдаёт csv

Google

Ilia

05.10.2018
15:14:11

Больше велосипедов

Екатерина

05.10.2018
15:17:23

#job #вакансия #hadoop #spark #vacancy #java #bigdata Всем привет! Меня зовут Екатерина, я ищу Bigdata разработчиков в нашу команду. Мы процессим более 10 миллиардов событий в день и имеем один из самых больших кластеров в стране. У нас просто куча работы в любой части hadoop инфраструктуре и есть задачи как для middle, так и для Senior специалистов. Локация: Мск/Спб (с переездом поможем) Условия: очень комфортабельный офис (спорт, библиотека, чай/кофе/пиццы/фрукты), ДМС и английский Зарплата: давайте обсуждать это после первичного знакомства, но мы абсолютно точно договоримся и уровень заработной платы Вас приятно удивит. Я буду раза рассказать подробнее о компании/вакансии/задачах и познакомлю Вас с нашим техническим специалистом. Пишите в личные сообщения. Всем хорошего пятничного вечера!

Ilia

05.10.2018
15:18:58

digdata как новое название для bigdata+data mining

Старый

05.10.2018
15:20:23

дай больше просто ресурсов и все заработает

А их пока нет

Andrey

05.10.2018
16:55:58

digdata engineer это те кто анализируют результат вывода утилиты dig

Uncel

05.10.2018
16:56:45

digdata engineer это те кто анализируют результат вывода утилиты dig

тогда надо в клаудфлару

Екатерина

05.10.2018
17:09:25

Я поправила!

Ребята, еще я буду очень благодарна за рекомендации! За успешную рекомендацию платим 100К.

Dan

05.10.2018
17:21:13

рекомендую правильно питаться! когда мне ждать денег?

KrivdaAllStars

05.10.2018
17:30:14

#job #вакансия #hadoop #spark #vacancy #java #bigdata Всем привет! Меня зовут Екатерина, я ищу Bigdata разработчиков в нашу команду. Мы процессим более 10 миллиардов событий в день и имеем один из самых больших кластеров в стране. У нас просто куча работы в любой части hadoop инфраструктуре и есть задачи как для middle, так и для Senior специалистов. Локация: Мск/Спб (с переездом поможем) Условия: очень комфортабельный офис (спорт, библиотека, чай/кофе/пиццы/фрукты), ДМС и английский Зарплата: давайте обсуждать это после первичного знакомства, но мы абсолютно точно договоримся и уровень заработной платы Вас приятно удивит. Я буду раза рассказать подробнее о компании/вакансии/задачах и познакомлю Вас с нашим техническим специалистом. Пишите в личные сообщения. Всем хорошего пятничного вечера!

спарк на жаве ?

Екатерина

05.10.2018
17:32:18

спарк на жаве ?

Да, кейс не самый частый, но мы действительно используем spark из java тоже)

KrivdaAllStars

05.10.2018
17:32:32

Да, кейс не самый частый, но мы действительно используем spark из java тоже)

очень грустно

Екатерина

05.10.2018
17:34:04

очень грустно

)))

Stanislav

05.10.2018
17:38:27

типа вот есть таблица А, в ней 16 млрд записей, и они перекововывают сортируясь в горячую зону

Увеличь тайм-аут в фениксе, пусть подавится

А уж если он такой суровый го программист, то пусть фигачит чистыми гет запросами в хбейз

Через рест

Alex

05.10.2018
17:50:56

#job #вакансия #hadoop #spark #vacancy #java #bigdata Всем привет! Меня зовут Екатерина, я ищу Bigdata разработчиков в нашу команду. Мы процессим более 10 миллиардов событий в день и имеем один из самых больших кластеров в стране. У нас просто куча работы в любой части hadoop инфраструктуре и есть задачи как для middle, так и для Senior специалистов. Локация: Мск/Спб (с переездом поможем) Условия: очень комфортабельный офис (спорт, библиотека, чай/кофе/пиццы/фрукты), ДМС и английский Зарплата: давайте обсуждать это после первичного знакомства, но мы абсолютно точно договоримся и уровень заработной платы Вас приятно удивит. Я буду раза рассказать подробнее о компании/вакансии/задачах и познакомлю Вас с нашим техническим специалистом. Пишите в личные сообщения. Всем хорошего пятничного вечера!

А название компании можно узнать?

Екатерина

05.10.2018
17:54:00

А название компании можно узнать?

Конечно) Давайте в лс пообщаемся

Alex

05.10.2018
17:57:50

Конечно) Давайте в лс пообщаемся

Написал в личку.

Старый

05.10.2018
17:59:13

А уж если он такой суровый го программист, то пусть фигачит чистыми гет запросами в хбейз

Скорее он просто получил задачу, нафиг ему не сдавшуюся

Google

Daniel

05.10.2018
18:07:19

у меня проблема в том, что программист не хочет ничего юзать, у чего нет драйвера для го

Лол

В смысле соболезнования

Stanislav

05.10.2018
18:22:50

А название компании можно узнать?

Как можно не узнать мейлу )

Ruslan

05.10.2018
18:24:58

А что плохого в мейлру?

Andrei

05.10.2018
19:16:40

А что плохого в мейлру?

А что хорошего? Есть опыт общения с инженерами оттуда.

Екатерина

05.10.2018
19:38:58

А что хорошего? Есть опыт общения с инженерами оттуда.

Андрей, привет! Да-да, помню мы общались лет 6 назад) Хочешь, пообщаемся снова?

Sergey

05.10.2018
19:41:14

=_= где подвох

Sergey

05.10.2018
19:47:36

мб это бывшая Андрея

от которой он скрывается. Но неудачно

Екатерина

05.10.2018
19:54:35

Ахахха)) Да, скрываться от меня - это правда плохая идея, я же рекрутер, и что бы найти какую-то информацию мне редно нужно больше 2х минут. Но дело не в этом, конечно. А в том, что мы ищем лучших специалистов на проект с с более чем 10PB, у нас есть деньги и железо и много интересных задач. Если кто-то хочет обсудить это со мной или моими коллегами - мы с радостью, мы всегда за разговоры по делу)

Sergey

05.10.2018
19:56:32

?

Andrei

05.10.2018
20:47:54

от которой он скрывается. Но неудачно

Вот здесь подловил ?

Андрей, привет! Да-да, помню мы общались лет 6 назад) Хочешь, пообщаемся снова?

Привет, а ведь и правда, забыл уже, что собеседовался к вам. Пообщаться можно.

sherzod