
Daler
05.10.2018
14:05:48

Alexander
05.10.2018
14:06:54

Eduard
05.10.2018
14:08:09
А сколько данных / железа в ваших кейсах было-есть?

Daler
05.10.2018
14:10:59

Google

Evgeny
05.10.2018
14:13:26

Alexander
05.10.2018
14:14:32
ну если сравнивать оптимизаторы, то catalyst наверное самый продвинутый... смотрел код оптимизатора Phoenix, там вообще слезы по количеству возмжных вариантов, в Hive меня простыни java кода убили, поэтому в детали не вникал )

Александр
05.10.2018
14:18:18
У меня есть 100 воркеров. Они обрабатывают мой Rdd. 7 зафейлилось. Я правильно понимаю что процесс обработки дальше пойдет и я просто потеряю эти куски ?

Nikita Blagodarnyy
05.10.2018
14:18:32
Нет.
Спарк перезапустит их на других ногах.

Александр
05.10.2018
14:19:10
Даже не так. 20 воркеров, 100 партишенов.

Nikita Blagodarnyy
05.10.2018
14:19:29
Нафига б он нужен был такой, неизвестно какое количество данных обработать.

Александр
05.10.2018
14:21:01
Так если падение, потому что я сам дурак, и именно на этой выборке всегда будет NPE, он будет перезапускать и оно будет падать

Eduard
05.10.2018
14:21:44
Ну я имею в виду когда%productname% работал не так хорошо как хотелось

Alexander
05.10.2018
14:22:37
не помню только, это настройки yarn или самого spark

Александр
05.10.2018
14:23:14
Спасибо, буду свои лыжи правильно смазывать.

Sergii
05.10.2018
14:30:05
Оно не работает из коробки стабильно :(
А какая у вас версия CDH/Impala. У нас в проде уже год и пока даже пальцем не пришлось шевелить. Используется для глупой загрузки таблиц (от пары мб до сотен гб в дневной партишине) и потом над этими таблицами любопытные пользователи запросы делают.

Google

Evgeny
05.10.2018
14:34:58

Старый
05.10.2018
14:35:36
если пишем запрос в phonix он долго висит, начинает жрать проц и умирает, если в запросе установить лимит, то без проблем работает, как мне настроить hbase hive чтобы программисту ненужно было писать лимит?

Grigory
05.10.2018
14:40:45

Старый
05.10.2018
14:42:00

Alexander
05.10.2018
14:42:47
о. самое любимое от наших разработчиков "а почему тут не так как в Oracle?" )
можно уменьшить phoenix.query.timeoutMs чтобы такие запросы раньше отвалилвались по таймауту, но это немного не то

Grigory
05.10.2018
14:43:15
раскрой побольше, а то в произвольном случае любая бд / что угодно одинаково себя поведет при фетче к примеру всей таблицы без наличия необходимых ресусрво на машине

Старый
05.10.2018
14:43:59
все

Grigory
05.10.2018
14:44:17
ну пусть выводит, ты хочешь что бы он 11 лямов одним запросом дергал?

Старый
05.10.2018
14:44:44

Grigory
05.10.2018
14:45:12
интересно вот ты настроишь, а у него памяти будет чтоб в держать 11 лямов объектов сразу?
это типа 20 гигов оперативы для отображения одной странчики которую никто за раз прочесть не сможет даже на оч большом мониторе

Alexander
05.10.2018
14:45:30
а потом еще начнутся в памяти фильтры, сортировки

Grigory
05.10.2018
14:45:34
да
ну короче в твоем случае вариант - дать больше ресурсов
если ты и правда хочешь 11 лямов одним запросом

Alexander
05.10.2018
14:46:13
тот же самый zeppelin рубит вывод когда более 1Мб данных передается, ибо никому это не нужно на клиенте

Grigory
05.10.2018
14:46:58
ну очевидно что в логике клиентской тут ошибка

Alexander
05.10.2018
14:47:00
ну либо делать выгрузку в csv, и путь они себе их в excel крутят как хотят

Grigory
05.10.2018
14:47:05
то что можно гипотетически сделать что угодно - эт конечно да

Google

Grigory
05.10.2018
14:47:07
только зачем - хз
он деманд надо тащить вероятно в этом случае ему; и на клиенте делать простеньие лимиты оффсетов вычисление; или как там быстрее будет работать феникс.

Старый
05.10.2018
14:48:57
программист хочет, написать 1 запрос вытащить всё, который потом будет частями отдаваться на клиента, там будет сортировка и тп
он мне сказал настроить так, чтобы это стало возможным
типа вот есть таблица А, в ней 16 млрд записей, и они перекововывают сортируясь в горячую зону

Alexander
05.10.2018
14:51:23
ну тут можно только посочувствовать и посоветовать убедить программиста, что это ему не нужно. ну либо пусть в качестве примера приведет готовую систему, где есть такое...
потому что тянуть миллионы записей что в hbase, что в oracle, да где угодно это не есть хорошая идея

Старый
05.10.2018
14:52:53
ну в оракл мы для олапов тянули
на прошлой работе
тут тоже надо будет вытягивать данные под олапы

Alexey
05.10.2018
14:55:33
ке, ошибка в постановке задачи. эт надо не программиста, а аналитика терзать...
на кой столько разом вытягивать

Старый
05.10.2018
15:02:06
Как вида
Их можно было бы и не разом, но программист тоже лишнего писать не хочет

Ilia
05.10.2018
15:07:04

Alexey
05.10.2018
15:11:46

Grigory
05.10.2018
15:13:01
ну или Alexey предложил действенный вариант тоже)

Ilia
05.10.2018
15:14:01
Ещё можно на питоне наваять вебсервис который держит SparkSession с доступом до данных, принимает по рест sql и отдаёт csv

Google

Ilia
05.10.2018
15:14:11
Больше велосипедов

Екатерина
05.10.2018
15:17:23
#job #вакансия #hadoop #spark #vacancy #java #bigdata
Всем привет!
Меня зовут Екатерина, я ищу Bigdata разработчиков в нашу команду. Мы процессим более 10 миллиардов событий в день и имеем один из самых больших кластеров в стране. У нас просто куча работы в любой части hadoop инфраструктуре и есть задачи как для middle, так и для Senior специалистов.
Локация: Мск/Спб (с переездом поможем)
Условия: очень комфортабельный офис (спорт, библиотека, чай/кофе/пиццы/фрукты), ДМС и английский
Зарплата: давайте обсуждать это после первичного знакомства, но мы абсолютно точно договоримся и уровень заработной платы Вас приятно удивит.
Я буду раза рассказать подробнее о компании/вакансии/задачах и познакомлю Вас с нашим техническим специалистом. Пишите в личные сообщения.
Всем хорошего пятничного вечера!

Ilia
05.10.2018
15:18:58
digdata как новое название для bigdata+data mining

Старый
05.10.2018
15:20:23

Andrey
05.10.2018
16:55:58
digdata engineer это те кто анализируют результат вывода утилиты dig

Uncel
05.10.2018
16:56:45

Екатерина
05.10.2018
17:09:25
Я поправила!
Ребята, еще я буду очень благодарна за рекомендации! За успешную рекомендацию платим 100К.

Dan
05.10.2018
17:21:13
рекомендую правильно питаться! когда мне ждать денег?

KrivdaAllStars
05.10.2018
17:30:14

Екатерина
05.10.2018
17:32:18
спарк на жаве ?
Да, кейс не самый частый, но мы действительно используем spark из java тоже)

KrivdaAllStars
05.10.2018
17:32:32

Екатерина
05.10.2018
17:34:04

Stanislav
05.10.2018
17:38:27
А уж если он такой суровый го программист, то пусть фигачит чистыми гет запросами в хбейз
Через рест

Alex
05.10.2018
17:50:56

Екатерина
05.10.2018
17:54:00

Alex
05.10.2018
17:57:50

Старый
05.10.2018
17:59:13

Google

Daniel
05.10.2018
18:07:19
В смысле соболезнования

Stanislav
05.10.2018
18:22:50

Ruslan
05.10.2018
18:24:58
А что плохого в мейлру?

Andrei
05.10.2018
19:16:40

Екатерина
05.10.2018
19:38:58

Sergey
05.10.2018
19:41:14
=_= где подвох

Sergey
05.10.2018
19:47:36
мб это бывшая Андрея
от которой он скрывается. Но неудачно

Екатерина
05.10.2018
19:54:35
Ахахха)) Да, скрываться от меня - это правда плохая идея, я же рекрутер, и что бы найти какую-то информацию мне редно нужно больше 2х минут.
Но дело не в этом, конечно. А в том, что мы ищем лучших специалистов на проект с с более чем 10PB, у нас есть деньги и железо и много интересных задач. Если кто-то хочет обсудить это со мной или моими коллегами - мы с радостью, мы всегда за разговоры по делу)

Sergey
05.10.2018
19:56:32
?

Andrei
05.10.2018
20:47:54

sherzod
06.10.2018
15:23:14

Daniel
06.10.2018
15:25:19
Переобученная модель

Alex
06.10.2018
16:10:22

KrivdaAllStars
06.10.2018
16:18:00