@hadoopusers

« Назад

Страница 67 из 182

Далее »

Alexander

22.01.2018
18:20:58

Да зачем? Думаю, на любом знакомом языке можно написать, это быстрее, чем разбираться с чем-то новым

Einfach

22.01.2018
18:23:01

Да зачем? Думаю, на любом знакомом языке можно написать, это быстрее, чем разбираться с чем-то новым

+1 я лутьше на пхп коряво настрочю велосипед. Я с @krivdaallstars Frontend...

KrivdaAllStars

22.01.2018
18:24:40

Ну так тогда я не вижу вопроса

Einfach

22.01.2018
18:25:40

Ну так тогда я не вижу вопроса

Я думал что есть уже готовое решение! Там с красивым Gui...

Google

Einfach

22.01.2018
18:26:20

А для велосипеда у меня рук хватит...

Alexander

22.01.2018
18:31:54

Я думал что есть уже готовое решение! Там с красивым Gui...

может и есть, лежит у кого-нибудь на гитхабе и читает ровно то, что вам надо именно в таком формате файла, как у вас. Только об этом знает только хозяит репозитория. Вы сначала решите, в каком виде вы хотите получить свои метаданные (статистику). По какому признаку будете группировать ошибки: время появления, источник, тип, ещё что-то. Какие признаки для каждого типа хотите подсчитать. Например, с 0-12 часов появилось столько-то ошибок, а с 12 до 24 столько-то. Есть, конечно, всякие специальные библиотеки, которые умеют делать кластеризацию, то есть группировку элементов по заранее неизвестным признакам, но это уже машинное обучение и дремучие дебри, вам туда не надо.

KrivdaAllStars

22.01.2018
18:39:15

Я думал что есть уже готовое решение! Там с красивым Gui...

Excel

Andrey

22.01.2018
18:41:34

Возьмите pandas на питоне какой

еретик!

Alexander

22.01.2018
18:47:08

Excel

Зависит от количества строк. У меня файлы в полтора раза меньше не влезали.

KrivdaAllStars

22.01.2018
18:48:17

Зависит от количества строк. У меня файлы в полтора раза меньше не влезали.

Предобработку сделать

Alexander

22.01.2018
18:48:24

Я думал что есть уже готовое решение! Там с красивым Gui...

а вообще да, начните с экселя :)

KrivdaAllStars

22.01.2018
18:48:36

Строки то убрать можно

sherzod

22.01.2018
18:48:54

овердезайнщики вы

cat | grep | wc

Alexander

22.01.2018
18:51:28

По итогу прогнали мы человека из мира бигдаты ?

Dmitry

23.01.2018
02:34:43

А могли бы продать спланк

KrivdaAllStars

23.01.2018
02:35:14

А могли бы продать спланк

Или Павер биай

Google

Grigory

23.01.2018
14:22:07

господа кто-нибудь тыкался с ажурой? батчи короче проблема в том что я фоловлю их доке https://docs.microsoft.com/en-us/azure/batch/batch-docker-container-workloads#prefetch-images-for-container-configuration получаю ошибку The specified imageReference with publisher Canonical offer UbuntuServer sku 16.04-LTS does not support container feature. самое идиотское, что я нашел в их репе джава код с тестом на то что их доко код не должен работать: https://github.com/Azure/azure-batch-sdk-for-java/blob/master/src/test/java/com/microsoft/azure/batch/PoolTests.java#L337

хочу убунто тачки чтобы скейлились и пускали контейнеры

(глину мешу но вопрос не про это ):)

а, надо кастомный образ использовать для этого, вот жеж.

Shazo

24.01.2018
11:26:56

Коллеги, подскажите. Читаю статью https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.4.2/bk_installing_manually_book/content/determine-hdp-memory-config.html При запуске необходимо указывать: "True" if HBase is installed, "False" if not. Что именно имеется в виду под HBase. HBase Master или RegionServer? P.S. если есть хорошие статьи по оптимизации настроек кластера Hadoop (особенно по памяти), был бы рад ознакомиться.

Daniel

24.01.2018
11:29:39

у hbase мастер это какая-то выбранная нода, так что вероятно "мастеровость" не имеет значение в контексте

Boris

24.01.2018
11:30:58

Да, это скорее расчет памяти на слейве, где установлено много сервисов.

И видимо из таблицы 1.6 они берут значние для резервирования под регионсервер.

Shazo

24.01.2018
11:40:38

понял, спасибо. И получается, что если на том же сервере и DataNode то ещё и под неё надо память зарезервировать.

Andrey

24.01.2018
13:45:36

Привет

Народ, никто не сталкивался с такой херней - в hive 1.2.x в джейсон сердер, который с ним идет, не умеет map<string, array<string>>?

Failed with exception java.io.IOException:org.apache.hadoop.hive.serde2.SerDeException: java.io.IOException: Start of Array expected

Shazo

24.01.2018
14:28:53

Подскажите, а как правильно расчитать память для Datanode? не могу найти информацию.

Dmitry

24.01.2018
14:40:04

Коллеги, какие бест практис по работе с внешними хттп апи из спарка?

душа болит при виде Await

ag0n1k

24.01.2018
14:42:11

Подскажите, а как правильно расчитать память для Datanode? не могу найти информацию.

Ram?

Dmitry

24.01.2018
14:42:47

Подскажите, а как правильно расчитать память для Datanode? не могу найти информацию.

бери больше, не прогадаешь...

Shazo

24.01.2018
14:42:55

Ram?

Да

KrivdaAllStars

24.01.2018
14:44:40

Коллеги, какие бест практис по работе с внешними хттп апи из спарка?

а что ты хочешь делать с апи спарка

Grigory

24.01.2018
14:45:33

душа болит при виде Await

эвейт тебе нужен будет чтобы подчистить хвосты за партицией

Google

Grigory

24.01.2018
14:46:02

ну типа ты распарелил в рамках партиции твои запросы как сильно как ты хочешь, но под конец придется сделать ансейф синкх

иначе ты рискуешь потерять память и вообще таски

и вобщим кроме как экстренно не кончить джобу будет

KrivdaAllStars

24.01.2018
14:47:16

mapPartition потом seq

а чо нет

ну еще там вроде был мепфутуре

как та так

Dmitry

24.01.2018
14:47:45

ну да, я вот на такое и думал

спасибо, чатик

удивительно как меняется человек в чате хадупа

KrivdaAllStars

24.01.2018
14:49:20

foreachAsync

Grigory

24.01.2018
14:49:47

foreachPartitionAsync

^

Dmitry

24.01.2018
14:50:05

так это ж тупо фьючу вернет

KrivdaAllStars

24.01.2018
14:50:12

это void вернет

Grigory

24.01.2018
14:50:31

нет фучу

Dmitry

24.01.2018
14:50:33

FutureAction[Unit]

Grigory

24.01.2018
14:50:40

фучу от юнита

Dmitry

24.01.2018
14:50:44

ой

Grigory

24.01.2018
14:50:50

ну ты спалился жоско

Google

KrivdaAllStars

24.01.2018
14:50:51

фучу от юнита

def foreachAsync(f : scala.Function1[T, scala.Unit]) : org.apache.spark.FutureAction[scala.Unit]

Dmitry

24.01.2018
14:51:04

ну ты спалился жоско

это для друга

Grigory

24.01.2018
14:51:17

def foreachAsync(f : scala.Function1[T, scala.Unit]) : org.apache.spark.FutureAction[scala.Unit]

trait FutureAction[T] extends Future[T]

KrivdaAllStars

24.01.2018
14:51:27

trait FutureAction[T] extends Future[T]

ну суть в том что юнит, а не фьюча

типа ничо уже не сделаешь с этим

Grigory

24.01.2018
14:51:34

а я что написал

Dmitry

24.01.2018
14:51:38

ну смысл то

ag0n1k

24.01.2018
14:51:43

Да

в зависимости от сервисов и решаемых задач. рекомендуется от 128Gb до 512Gb широкий продакшн. Минималка 32 Gb

Grigory

24.01.2018
14:51:54

смысл что паралель в рамках партиции и делай ансейф синх чтоб закрыть партицию

это бест практис от меня

Dmitry

24.01.2018
14:52:00

когда на экзекьюторе надо не блочить

Grigory

24.01.2018
14:52:04

рул оф э тамб

Dmitry

24.01.2018
14:52:12

гат ит

KrivdaAllStars

24.01.2018
14:52:15

это бест практис от меня

нет не бест практис

Grigory

24.01.2018
14:52:24

hz работает збс

KrivdaAllStars

24.01.2018
14:52:32

у тебя джоба может упасть и по второму разу в сервис начать ходить

Grigory

24.01.2018
14:52:39

бекофф делаешь экспоненциальный

KrivdaAllStars

24.01.2018
14:52:41

типа нужно помнить , что в мепе не безопасно ходить

Grigory

24.01.2018
14:52:50

а в мепе и не делают ._.

делаешь мап партиционный и партиции уже кк хочешь параелишь

Google

Grigory

24.01.2018
14:53:11

если бэкофф то бэкофф надо предусмотрть конечно

ну у меня кейс похожий был, таскать много мелких файлов

Dmitry

24.01.2018
14:53:59

а чо брать, DispatchAsync?

Grigory

24.01.2018
14:54:14

типа много индексов очень много они както разбиты по партициям и в рамках партиций по индексам таскать парелельно на скок можно каждый кусочек

KrivdaAllStars

24.01.2018
14:54:19

делаешь мап партиционный и партиции уже кк хочешь параелишь

да блин же, я к тому что rdd[T].map { x=> x.mapPartition { ...} } ходить во внешний сервис нужно помнить, что может много раз ходить по тем же данным

Shazo

24.01.2018
14:54:26

в зависимости от сервисов и решаемых задач. рекомендуется от 128Gb до 512Gb широкий продакшн. Минималка 32 Gb

хотелось бы как раз понять как рассчитать необходимую

Grigory

24.01.2018
14:54:31

а эт то

ну это не проблема распаралеливания

это концептуальная проблема

KrivdaAllStars

24.01.2018
14:54:45

ну я ток про нее

Grigory

24.01.2018
14:54:56

ну кешем лечется

« Назад

Страница 67 из 182

Далее »

Открыть в Telegram