@hadoopusers

Страница 160 из 182
Daler
05.10.2018
14:05:48
Hive - ворочать сложные большие джобы не оглядываясь на память и ядра. Impala - быстро поработать с готовой витринной, которая к тому же ещё и кешируется при повторных запросах :)
Давай без этого плиз, горит от людей, которые так делают. Если не в 1 лицо кластер используется такого стоит избегать.

Eduard
05.10.2018
14:08:09
А сколько данных / железа в ваших кейсах было-есть?

Google
Evgeny
05.10.2018
14:13:26
А сколько данных / железа в ваших кейсах было-есть?
Я не знаю как ответить но постирают. От 3 до 160 нод. От нескольких мб, до сотен тб :)

Alexander
05.10.2018
14:14:32
ну если сравнивать оптимизаторы, то catalyst наверное самый продвинутый... смотрел код оптимизатора Phoenix, там вообще слезы по количеству возмжных вариантов, в Hive меня простыни java кода убили, поэтому в детали не вникал )

Александр
05.10.2018
14:18:18
У меня есть 100 воркеров. Они обрабатывают мой Rdd. 7 зафейлилось. Я правильно понимаю что процесс обработки дальше пойдет и я просто потеряю эти куски ?

Nikita Blagodarnyy
05.10.2018
14:18:32
Нет.

Спарк перезапустит их на других ногах.

Александр
05.10.2018
14:19:10
Даже не так. 20 воркеров, 100 партишенов.

Nikita Blagodarnyy
05.10.2018
14:19:29
Нафига б он нужен был такой, неизвестно какое количество данных обработать.

Александр
05.10.2018
14:21:01
Так если падение, потому что я сам дурак, и именно на этой выборке всегда будет NPE, он будет перезапускать и оно будет падать

Eduard
05.10.2018
14:21:44
Ну я имею в виду когда%productname% работал не так хорошо как хотелось

Alexander
05.10.2018
14:22:37
Так если падение, потому что я сам дурак, и именно на этой выборке всегда будет NPE, он будет перезапускать и оно будет падать
ну он по моему ограниченное количество раз перезапускает (вроде 3), а потом падает целиком

не помню только, это настройки yarn или самого spark

Александр
05.10.2018
14:23:14
Спасибо, буду свои лыжи правильно смазывать.

Sergii
05.10.2018
14:30:05
Оно не работает из коробки стабильно :(
А какая у вас версия CDH/Impala. У нас в проде уже год и пока даже пальцем не пришлось шевелить. Используется для глупой загрузки таблиц (от пары мб до сотен гб в дневной партишине) и потом над этими таблицами любопытные пользователи запросы делают.

Google
Evgeny
05.10.2018
14:34:58
Старый
05.10.2018
14:35:36
если пишем запрос в phonix он долго висит, начинает жрать проц и умирает, если в запросе установить лимит, то без проблем работает, как мне настроить hbase hive чтобы программисту ненужно было писать лимит?

Старый
05.10.2018
14:42:00
Alexander
05.10.2018
14:42:47
о. самое любимое от наших разработчиков "а почему тут не так как в Oracle?" ) можно уменьшить phoenix.query.timeoutMs чтобы такие запросы раньше отвалилвались по таймауту, но это немного не то

Grigory
05.10.2018
14:43:15
раскрой побольше, а то в произвольном случае любая бд / что угодно одинаково себя поведет при фетче к примеру всей таблицы без наличия необходимых ресусрво на машине

Grigory
05.10.2018
14:44:17
ну пусть выводит, ты хочешь что бы он 11 лямов одним запросом дергал?

Старый
05.10.2018
14:44:44
ну пусть выводит, ты хочешь что бы он 11 лямов одним запросом дергал?
это он хочет, чтобы я настроил так, чтобы он мог это сделать

Grigory
05.10.2018
14:45:12
интересно вот ты настроишь, а у него памяти будет чтоб в держать 11 лямов объектов сразу?

это типа 20 гигов оперативы для отображения одной странчики которую никто за раз прочесть не сможет даже на оч большом мониторе

Alexander
05.10.2018
14:45:30
а потом еще начнутся в памяти фильтры, сортировки

Grigory
05.10.2018
14:45:34
да

ну короче в твоем случае вариант - дать больше ресурсов

если ты и правда хочешь 11 лямов одним запросом

Alexander
05.10.2018
14:46:13
тот же самый zeppelin рубит вывод когда более 1Мб данных передается, ибо никому это не нужно на клиенте

Grigory
05.10.2018
14:46:58
ну очевидно что в логике клиентской тут ошибка

Alexander
05.10.2018
14:47:00
ну либо делать выгрузку в csv, и путь они себе их в excel крутят как хотят

Grigory
05.10.2018
14:47:05
то что можно гипотетически сделать что угодно - эт конечно да

Google
Grigory
05.10.2018
14:47:07
только зачем - хз

он деманд надо тащить вероятно в этом случае ему; и на клиенте делать простеньие лимиты оффсетов вычисление; или как там быстрее будет работать феникс.

Старый
05.10.2018
14:48:57
программист хочет, написать 1 запрос вытащить всё, который потом будет частями отдаваться на клиента, там будет сортировка и тп

он мне сказал настроить так, чтобы это стало возможным

типа вот есть таблица А, в ней 16 млрд записей, и они перекововывают сортируясь в горячую зону

Alexander
05.10.2018
14:51:23
ну тут можно только посочувствовать и посоветовать убедить программиста, что это ему не нужно. ну либо пусть в качестве примера приведет готовую систему, где есть такое...

потому что тянуть миллионы записей что в hbase, что в oracle, да где угодно это не есть хорошая идея

Старый
05.10.2018
14:52:53
ну в оракл мы для олапов тянули

на прошлой работе

тут тоже надо будет вытягивать данные под олапы

Alexey
05.10.2018
14:55:33
ке, ошибка в постановке задачи. эт надо не программиста, а аналитика терзать... на кой столько разом вытягивать

Старый
05.10.2018
15:02:06
Как вида

Их можно было бы и не разом, но программист тоже лишнего писать не хочет

Ilia
05.10.2018
15:07:04
у меня проблема в том, что программист не хочет ничего юзать, у чего нет драйвера для го
Мб через thrift попробовать раздавать? Сам не использовал но пишут что можно за рестики дёргать, гошечка справится

Alexey
05.10.2018
15:11:46
Их можно было бы и не разом, но программист тоже лишнего писать не хочет
значит, надо вправить мозги программисту. можно даже кувалдой. нашего брата это, останавливать надо иногда

Grigory
05.10.2018
15:13:01
ну или Alexey предложил действенный вариант тоже)

Ilia
05.10.2018
15:14:01
Ещё можно на питоне наваять вебсервис который держит SparkSession с доступом до данных, принимает по рест sql и отдаёт csv

Google
Ilia
05.10.2018
15:14:11
Больше велосипедов

Екатерина
05.10.2018
15:17:23
#job #вакансия #hadoop #spark #vacancy #java #bigdata Всем привет! Меня зовут Екатерина, я ищу Bigdata разработчиков в нашу команду. Мы процессим более 10 миллиардов событий в день и имеем один из самых больших кластеров в стране. У нас просто куча работы в любой части hadoop инфраструктуре и есть задачи как для middle, так и для Senior специалистов. Локация: Мск/Спб (с переездом поможем) Условия: очень комфортабельный офис (спорт, библиотека, чай/кофе/пиццы/фрукты), ДМС и английский Зарплата: давайте обсуждать это после первичного знакомства, но мы абсолютно точно договоримся и уровень заработной платы Вас приятно удивит. Я буду раза рассказать подробнее о компании/вакансии/задачах и познакомлю Вас с нашим техническим специалистом. Пишите в личные сообщения. Всем хорошего пятничного вечера!

Ilia
05.10.2018
15:18:58
digdata как новое название для bigdata+data mining

Старый
05.10.2018
15:20:23
Andrey
05.10.2018
16:55:58
digdata engineer это те кто анализируют результат вывода утилиты dig

Екатерина
05.10.2018
17:09:25
Я поправила!

Ребята, еще я буду очень благодарна за рекомендации! За успешную рекомендацию платим 100К.

Dan
05.10.2018
17:21:13
рекомендую правильно питаться! когда мне ждать денег?

Екатерина
05.10.2018
17:32:18
спарк на жаве ?
Да, кейс не самый частый, но мы действительно используем spark из java тоже)

Екатерина
05.10.2018
17:34:04
Stanislav
05.10.2018
17:38:27
А уж если он такой суровый го программист, то пусть фигачит чистыми гет запросами в хбейз

Через рест

Екатерина
05.10.2018
17:54:00
А название компании можно узнать?
Конечно) Давайте в лс пообщаемся

Alex
05.10.2018
17:57:50
Старый
05.10.2018
17:59:13
Google
Stanislav
05.10.2018
18:22:50
А название компании можно узнать?
Как можно не узнать мейлу )

Ruslan
05.10.2018
18:24:58
А что плохого в мейлру?

Andrei
05.10.2018
19:16:40
А что плохого в мейлру?
А что хорошего? Есть опыт общения с инженерами оттуда.

Екатерина
05.10.2018
19:38:58
А что хорошего? Есть опыт общения с инженерами оттуда.
Андрей, привет! Да-да, помню мы общались лет 6 назад) Хочешь, пообщаемся снова?

Sergey
05.10.2018
19:41:14
=_= где подвох

Sergey
05.10.2018
19:47:36
мб это бывшая Андрея

от которой он скрывается. Но неудачно

Екатерина
05.10.2018
19:54:35
Ахахха)) Да, скрываться от меня - это правда плохая идея, я же рекрутер, и что бы найти какую-то информацию мне редно нужно больше 2х минут. Но дело не в этом, конечно. А в том, что мы ищем лучших специалистов на проект с с более чем 10PB, у нас есть деньги и железо и много интересных задач. Если кто-то хочет обсудить это со мной или моими коллегами - мы с радостью, мы всегда за разговоры по делу)

Sergey
05.10.2018
19:56:32
?

Andrei
05.10.2018
20:47:54
Андрей, привет! Да-да, помню мы общались лет 6 назад) Хочешь, пообщаемся снова?
Привет, а ведь и правда, забыл уже, что собеседовался к вам. Пообщаться можно.

sherzod
06.10.2018
15:23:14


Daniel
06.10.2018
15:25:19
Переобученная модель

Alex
06.10.2018
16:10:22
Как можно не узнать мейлу )
Рядом, но не мейлру ;-))

KrivdaAllStars
06.10.2018
16:18:00

Страница 160 из 182