
Alexander
22.01.2018
18:20:58
Да зачем? Думаю, на любом знакомом языке можно написать, это быстрее, чем разбираться с чем-то новым

Einfach
22.01.2018
18:23:01

KrivdaAllStars
22.01.2018
18:24:40
Ну так тогда я не вижу вопроса

Einfach
22.01.2018
18:25:40

Google

Einfach
22.01.2018
18:26:20
А для велосипеда у меня рук хватит...

Alexander
22.01.2018
18:31:54
Я думал что есть уже готовое решение! Там с красивым Gui...
может и есть, лежит у кого-нибудь на гитхабе и читает ровно то, что вам надо именно в таком формате файла, как у вас. Только об этом знает только хозяит репозитория. Вы сначала решите, в каком виде вы хотите получить свои метаданные (статистику). По какому признаку будете группировать ошибки: время появления, источник, тип, ещё что-то. Какие признаки для каждого типа хотите подсчитать. Например, с 0-12 часов появилось столько-то ошибок, а с 12 до 24 столько-то. Есть, конечно, всякие специальные библиотеки, которые умеют делать кластеризацию, то есть группировку элементов по заранее неизвестным признакам, но это уже машинное обучение и дремучие дебри, вам туда не надо.

KrivdaAllStars
22.01.2018
18:39:15

Andrey
22.01.2018
18:41:34

Alexander
22.01.2018
18:47:08
Excel
Зависит от количества строк. У меня файлы в полтора раза меньше не влезали.

KrivdaAllStars
22.01.2018
18:48:17

Alexander
22.01.2018
18:48:24

KrivdaAllStars
22.01.2018
18:48:36
Строки то убрать можно

sherzod
22.01.2018
18:48:54
овердезайнщики вы
cat | grep | wc

Alexander
22.01.2018
18:51:28
По итогу прогнали мы человека из мира бигдаты ?

Dmitry
23.01.2018
02:34:43
А могли бы продать спланк

KrivdaAllStars
23.01.2018
02:35:14

Google

Grigory
23.01.2018
14:22:07
господа кто-нибудь тыкался с ажурой? батчи
короче проблема в том что я фоловлю их доке https://docs.microsoft.com/en-us/azure/batch/batch-docker-container-workloads#prefetch-images-for-container-configuration
получаю ошибку The specified imageReference with publisher Canonical offer UbuntuServer sku 16.04-LTS does not support container feature.
самое идиотское, что я нашел в их репе джава код с тестом на то что их доко код не должен работать: https://github.com/Azure/azure-batch-sdk-for-java/blob/master/src/test/java/com/microsoft/azure/batch/PoolTests.java#L337
хочу убунто тачки чтобы скейлились и пускали контейнеры
(глину мешу но вопрос не про это ):)
а, надо кастомный образ использовать для этого, вот жеж.


Shazo
24.01.2018
11:26:56
Коллеги, подскажите. Читаю статью https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.4.2/bk_installing_manually_book/content/determine-hdp-memory-config.html
При запуске необходимо указывать: "True" if HBase is installed, "False" if not.
Что именно имеется в виду под HBase. HBase Master или RegionServer?
P.S. если есть хорошие статьи по оптимизации настроек кластера Hadoop (особенно по памяти), был бы рад ознакомиться.

Daniel
24.01.2018
11:29:39
у hbase мастер это какая-то выбранная нода, так что вероятно "мастеровость" не имеет значение в контексте

Boris
24.01.2018
11:30:58
Да, это скорее расчет памяти на слейве, где установлено много сервисов.
И видимо из таблицы 1.6 они берут значние для резервирования под регионсервер.

Shazo
24.01.2018
11:40:38
понял, спасибо. И получается, что если на том же сервере и DataNode то ещё и под неё надо память зарезервировать.

Andrey
24.01.2018
13:45:36
Привет
Народ, никто не сталкивался с такой херней - в hive 1.2.x в джейсон сердер, который с ним идет, не умеет map<string, array<string>>?
Failed with exception java.io.IOException:org.apache.hadoop.hive.serde2.SerDeException: java.io.IOException: Start of Array expected

Shazo
24.01.2018
14:28:53
Подскажите, а как правильно расчитать память для Datanode? не могу найти информацию.

Dmitry
24.01.2018
14:40:04
Коллеги, какие бест практис по работе с внешними хттп апи из спарка?
душа болит при виде Await

ag0n1k
24.01.2018
14:42:11

Dmitry
24.01.2018
14:42:47

Shazo
24.01.2018
14:42:55

KrivdaAllStars
24.01.2018
14:44:40

Grigory
24.01.2018
14:45:33

Google

Grigory
24.01.2018
14:46:02
ну типа ты распарелил в рамках партиции твои запросы как сильно как ты хочешь, но под конец придется сделать ансейф синкх
иначе ты рискуешь потерять память и вообще таски
и вобщим кроме как экстренно не кончить джобу будет

KrivdaAllStars
24.01.2018
14:47:16
mapPartition потом seq
а чо нет
ну еще там вроде был мепфутуре
как та так

Dmitry
24.01.2018
14:47:45
ну да, я вот на такое и думал
спасибо, чатик
удивительно как меняется человек в чате хадупа

KrivdaAllStars
24.01.2018
14:49:20
foreachAsync

Grigory
24.01.2018
14:49:47
foreachPartitionAsync
^

Dmitry
24.01.2018
14:50:05
так это ж тупо фьючу вернет

KrivdaAllStars
24.01.2018
14:50:12
это void вернет

Grigory
24.01.2018
14:50:31
нет фучу

Dmitry
24.01.2018
14:50:33
FutureAction[Unit]

Grigory
24.01.2018
14:50:40
фучу от юнита

Dmitry
24.01.2018
14:50:44
ой

Grigory
24.01.2018
14:50:50
ну ты спалился жоско

Google

KrivdaAllStars
24.01.2018
14:50:51
фучу от юнита
def foreachAsync(f : scala.Function1[T, scala.Unit]) : org.apache.spark.FutureAction[scala.Unit]

Dmitry
24.01.2018
14:51:04

Grigory
24.01.2018
14:51:17

KrivdaAllStars
24.01.2018
14:51:27
типа ничо уже не сделаешь с этим

Grigory
24.01.2018
14:51:34
а я что написал

Dmitry
24.01.2018
14:51:38
ну смысл то

ag0n1k
24.01.2018
14:51:43
Да
в зависимости от сервисов и решаемых задач. рекомендуется от 128Gb до 512Gb широкий продакшн. Минималка 32 Gb

Grigory
24.01.2018
14:51:54
смысл что паралель в рамках партиции и делай ансейф синх чтоб закрыть партицию
это бест практис от меня

Dmitry
24.01.2018
14:52:00
когда на экзекьюторе надо не блочить

Grigory
24.01.2018
14:52:04
рул оф э тамб

Dmitry
24.01.2018
14:52:12
гат ит

KrivdaAllStars
24.01.2018
14:52:15

Grigory
24.01.2018
14:52:24
hz работает збс

KrivdaAllStars
24.01.2018
14:52:32
у тебя джоба может упасть и по второму разу в сервис начать ходить

Grigory
24.01.2018
14:52:39
бекофф делаешь экспоненциальный

KrivdaAllStars
24.01.2018
14:52:41
типа нужно помнить , что в мепе не безопасно ходить

Grigory
24.01.2018
14:52:50
а в мепе и не делают ._.
делаешь мап партиционный и партиции уже кк хочешь параелишь

Google

Grigory
24.01.2018
14:53:11
если бэкофф то бэкофф надо предусмотрть конечно
ну у меня кейс похожий был, таскать много мелких файлов

Dmitry
24.01.2018
14:53:59
а чо брать, DispatchAsync?

Grigory
24.01.2018
14:54:14
типа много индексов очень много они както разбиты по партициям и в рамках партиций по индексам таскать парелельно на скок можно каждый кусочек

KrivdaAllStars
24.01.2018
14:54:19

Shazo
24.01.2018
14:54:26

Grigory
24.01.2018
14:54:31
а эт то
ну это не проблема распаралеливания
это концептуальная проблема

KrivdaAllStars
24.01.2018
14:54:45
ну я ток про нее

Grigory
24.01.2018
14:54:56
ну кешем лечется