@hadoopusers

Страница 67 из 182
Alexander
22.01.2018
18:20:58
Да зачем? Думаю, на любом знакомом языке можно написать, это быстрее, чем разбираться с чем-то новым

Einfach
22.01.2018
18:23:01
KrivdaAllStars
22.01.2018
18:24:40
Ну так тогда я не вижу вопроса

Einfach
22.01.2018
18:25:40
Ну так тогда я не вижу вопроса
Я думал что есть уже готовое решение! Там с красивым Gui...

Google
Einfach
22.01.2018
18:26:20
А для велосипеда у меня рук хватит...

Alexander
22.01.2018
18:31:54
Я думал что есть уже готовое решение! Там с красивым Gui...
может и есть, лежит у кого-нибудь на гитхабе и читает ровно то, что вам надо именно в таком формате файла, как у вас. Только об этом знает только хозяит репозитория. Вы сначала решите, в каком виде вы хотите получить свои метаданные (статистику). По какому признаку будете группировать ошибки: время появления, источник, тип, ещё что-то. Какие признаки для каждого типа хотите подсчитать. Например, с 0-12 часов появилось столько-то ошибок, а с 12 до 24 столько-то. Есть, конечно, всякие специальные библиотеки, которые умеют делать кластеризацию, то есть группировку элементов по заранее неизвестным признакам, но это уже машинное обучение и дремучие дебри, вам туда не надо.

Andrey
22.01.2018
18:41:34
Alexander
22.01.2018
18:47:08
Excel
Зависит от количества строк. У меня файлы в полтора раза меньше не влезали.

Alexander
22.01.2018
18:48:24
KrivdaAllStars
22.01.2018
18:48:36
Строки то убрать можно

sherzod
22.01.2018
18:48:54
овердезайнщики вы

cat | grep | wc

Alexander
22.01.2018
18:51:28
По итогу прогнали мы человека из мира бигдаты ?

Dmitry
23.01.2018
02:34:43
А могли бы продать спланк

KrivdaAllStars
23.01.2018
02:35:14
Google
Grigory
23.01.2018
14:22:07
господа кто-нибудь тыкался с ажурой? батчи короче проблема в том что я фоловлю их доке https://docs.microsoft.com/en-us/azure/batch/batch-docker-container-workloads#prefetch-images-for-container-configuration получаю ошибку The specified imageReference with publisher Canonical offer UbuntuServer sku 16.04-LTS does not support container feature. самое идиотское, что я нашел в их репе джава код с тестом на то что их доко код не должен работать: https://github.com/Azure/azure-batch-sdk-for-java/blob/master/src/test/java/com/microsoft/azure/batch/PoolTests.java#L337

хочу убунто тачки чтобы скейлились и пускали контейнеры

(глину мешу но вопрос не про это ):)

а, надо кастомный образ использовать для этого, вот жеж.

Shazo
24.01.2018
11:26:56
Коллеги, подскажите. Читаю статью https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.4.2/bk_installing_manually_book/content/determine-hdp-memory-config.html При запуске необходимо указывать: "True" if HBase is installed, "False" if not. Что именно имеется в виду под HBase. HBase Master или RegionServer? P.S. если есть хорошие статьи по оптимизации настроек кластера Hadoop (особенно по памяти), был бы рад ознакомиться.

Daniel
24.01.2018
11:29:39
у hbase мастер это какая-то выбранная нода, так что вероятно "мастеровость" не имеет значение в контексте

Boris
24.01.2018
11:30:58
Да, это скорее расчет памяти на слейве, где установлено много сервисов.

И видимо из таблицы 1.6 они берут значние для резервирования под регионсервер.

Shazo
24.01.2018
11:40:38
понял, спасибо. И получается, что если на том же сервере и DataNode то ещё и под неё надо память зарезервировать.

Andrey
24.01.2018
13:45:36
Привет

Народ, никто не сталкивался с такой херней - в hive 1.2.x в джейсон сердер, который с ним идет, не умеет map<string, array<string>>?

Failed with exception java.io.IOException:org.apache.hadoop.hive.serde2.SerDeException: java.io.IOException: Start of Array expected

Shazo
24.01.2018
14:28:53
Подскажите, а как правильно расчитать память для Datanode? не могу найти информацию.

Dmitry
24.01.2018
14:40:04
Коллеги, какие бест практис по работе с внешними хттп апи из спарка?

душа болит при виде Await

Shazo
24.01.2018
14:42:55
Ram?
Да

KrivdaAllStars
24.01.2018
14:44:40
Grigory
24.01.2018
14:45:33
душа болит при виде Await
эвейт тебе нужен будет чтобы подчистить хвосты за партицией

Google
Grigory
24.01.2018
14:46:02
ну типа ты распарелил в рамках партиции твои запросы как сильно как ты хочешь, но под конец придется сделать ансейф синкх

иначе ты рискуешь потерять память и вообще таски

и вобщим кроме как экстренно не кончить джобу будет

KrivdaAllStars
24.01.2018
14:47:16
mapPartition потом seq

а чо нет

ну еще там вроде был мепфутуре

как та так

Dmitry
24.01.2018
14:47:45
ну да, я вот на такое и думал

спасибо, чатик

удивительно как меняется человек в чате хадупа

KrivdaAllStars
24.01.2018
14:49:20
foreachAsync

Grigory
24.01.2018
14:49:47
foreachPartitionAsync

^

Dmitry
24.01.2018
14:50:05
так это ж тупо фьючу вернет

KrivdaAllStars
24.01.2018
14:50:12
это void вернет

Grigory
24.01.2018
14:50:31
нет фучу

Dmitry
24.01.2018
14:50:33
FutureAction[Unit]

Grigory
24.01.2018
14:50:40
фучу от юнита

Dmitry
24.01.2018
14:50:44
ой

Grigory
24.01.2018
14:50:50
ну ты спалился жоско

Google
KrivdaAllStars
24.01.2018
14:50:51
фучу от юнита
def foreachAsync(f : scala.Function1[T, scala.Unit]) : org.apache.spark.FutureAction[scala.Unit]

Dmitry
24.01.2018
14:51:04
Grigory
24.01.2018
14:51:17
KrivdaAllStars
24.01.2018
14:51:27
trait FutureAction[T] extends Future[T]
ну суть в том что юнит, а не фьюча

типа ничо уже не сделаешь с этим

Grigory
24.01.2018
14:51:34
а я что написал

Dmitry
24.01.2018
14:51:38
ну смысл то

ag0n1k
24.01.2018
14:51:43
Да
в зависимости от сервисов и решаемых задач. рекомендуется от 128Gb до 512Gb широкий продакшн. Минималка 32 Gb

Grigory
24.01.2018
14:51:54
смысл что паралель в рамках партиции и делай ансейф синх чтоб закрыть партицию

это бест практис от меня

Dmitry
24.01.2018
14:52:00
когда на экзекьюторе надо не блочить

Grigory
24.01.2018
14:52:04
рул оф э тамб

Dmitry
24.01.2018
14:52:12
гат ит

KrivdaAllStars
24.01.2018
14:52:15
это бест практис от меня
нет не бест практис

Grigory
24.01.2018
14:52:24
hz работает збс

KrivdaAllStars
24.01.2018
14:52:32
у тебя джоба может упасть и по второму разу в сервис начать ходить

Grigory
24.01.2018
14:52:39
бекофф делаешь экспоненциальный

KrivdaAllStars
24.01.2018
14:52:41
типа нужно помнить , что в мепе не безопасно ходить

Grigory
24.01.2018
14:52:50
а в мепе и не делают ._.

делаешь мап партиционный и партиции уже кк хочешь параелишь

Google
Grigory
24.01.2018
14:53:11
если бэкофф то бэкофф надо предусмотрть конечно

ну у меня кейс похожий был, таскать много мелких файлов

Dmitry
24.01.2018
14:53:59
а чо брать, DispatchAsync?

Grigory
24.01.2018
14:54:14
типа много индексов очень много они както разбиты по партициям и в рамках партиций по индексам таскать парелельно на скок можно каждый кусочек

KrivdaAllStars
24.01.2018
14:54:19
делаешь мап партиционный и партиции уже кк хочешь параелишь
да блин же, я к тому что rdd[T].map { x=> x.mapPartition { ...} } ходить во внешний сервис нужно помнить, что может много раз ходить по тем же данным

Shazo
24.01.2018
14:54:26
Grigory
24.01.2018
14:54:31
а эт то

ну это не проблема распаралеливания

это концептуальная проблема

KrivdaAllStars
24.01.2018
14:54:45
ну я ток про нее

Grigory
24.01.2018
14:54:56
ну кешем лечется

Страница 67 из 182