
Nikita Blagodarnyy
27.09.2018
12:41:00
Любой.

Alexander
27.09.2018
12:49:30

Рамиль
27.09.2018
12:50:01

Старый
27.09.2018
12:52:58

Google

Рамиль
27.09.2018
12:54:12
в клаудере в CM нет версионности конфигов в комьюнити версии
это очень парой докучает
в остальном мне CM больше наравился чем Ambari

Старый
27.09.2018
12:54:55
я потому и думаю что ставить, у меня не один из разрабов даже в глаза раньше не видел ничего из списка
а к декабрю уже макет надо показывать заказчику
и железо будет ток через 4 недели

Alexander
27.09.2018
12:56:08
а не расскажешь почему?
Как правило, CDH отстает по версиям и компонентам (не берут хорошие проекты, а втыкают свои). В плане стабильности нареканий к HDP нет. А Storm - это к HortonWorks, они его любят. В части поддержки в РФ могут быть проблемы, но конкретно для нас это не имеет значения.
Субъективно, HDP понравился больше, чем CDH. Хотя опыт проектов есть на обоих.

Рамиль
27.09.2018
13:00:11
в общем соглашусь с Александром

Старый
27.09.2018
13:00:12

Рамиль
27.09.2018
13:00:29

Старый
27.09.2018
13:00:48
он чисто типа на ssd

Google

Старый
27.09.2018
13:01:04
nvme

Alexander
27.09.2018
13:01:42

Старый
27.09.2018
13:01:57
и в него для обработки будут переносится данные с "медленного" hbase
чтобы олапы делать
и графики показывать красивые

Рамиль
27.09.2018
13:02:37

Alexander
27.09.2018
13:02:47
Рискованная инвестиция)

Старый
27.09.2018
13:03:02
ну а какие ещё варианты, вертику я по баблу не осилю

Andrey
27.09.2018
13:05:00

Старый
27.09.2018
13:05:24
мне вообще сказали найти то к чему Go коннектор\драйвер есть

Andrey
27.09.2018
13:06:50
мой прогноз: нихрена у вас не взлетит, причем тут Go и OLAP?

Старый
27.09.2018
13:07:14

Andrey
27.09.2018
13:15:18

Nikita Blagodarnyy
27.09.2018
13:18:28
Кто знает, в ренджере можно настроить доступ только на просмотр политик без права редактирования?

Stanislav
27.09.2018
16:27:26
The aim of permission module is to provide flexibility of user roles.With the help of permission model, Admin can restrict access or assign permission to any module for non-admin users.The main purpose of Permission model is to assign dedicated roles to non-admin users based on services such as policy manager, audit, reporting, user management,Key Manager.
В рамках модуля не получится имхо. Дока устарела на 5 мажоров, но

Александр
27.09.2018
19:13:18

Google

Александр
27.09.2018
19:15:47

Alexander
27.09.2018
19:16:23

Александр
27.09.2018
19:18:16
Коммерческой разработки, коммерческой разработки рядом в команде, коммерческой разработки на одном языке
Я чет снова запутался, у меня есть такая шляпа но я не могу понять как это лучше сделать.
У меня просто логика выбора файлов несколько необычна как и мои вкусы =)
Есть набор дней(разных, и месяцев) для которых я должен посчитать стату, и они у меня вот в массике лежат, но как заставить спарк выдать RDD одним куском я не понимаю, докутился до такого
val filePaths:Array[String] = ???
val unionFlow: RDD[Row] => Unit = ???
filePaths.foreach { iter =>
val parquet: DataFrame = spark.read.parquet(day)
val rdd: RDD[Row] = parquet.rdd
unionFlow(rdd.repartition(100))
}

Vadim
27.09.2018
23:18:46
parquet же варарг принимает

Александр
27.09.2018
23:19:45
String*
Я не смог вспомнить, нагуглить как туда запихнуть из Array

Vadim
27.09.2018
23:21:23
arr: _*

Александр
27.09.2018
23:22:39
*делает безпомощное лицо*, а можешь намекнуть сильнее..

Vadim
27.09.2018
23:25:13
spark.read.parquet(filepaths:_*)

Александр
27.09.2018
23:27:14
Уф, самое интересное
Спасибо

Ruslan
28.09.2018
06:57:20
Какой сейчас эффективный способ хранения на hdfs и доступа к данным через SQL?

Eduard
28.09.2018
06:58:25
Presto

VladMl
28.09.2018
07:01:26
Presto
Как в сравнении с Impala и Phoenix?

Ruslan
28.09.2018
07:04:12
А в каком формате вообще вы храните архивные копии бд на hdfs?

Юрий
28.09.2018
07:09:48
Presto
Как он в сравнении со spark sql?

Eduard
28.09.2018
07:28:20

Artem
28.09.2018
07:29:25
На Impala американские робокопы ездили

Google

Eduard
28.09.2018
07:29:34
hdfs тоже работет

Ruslan
28.09.2018
07:31:23
ORC и Parquet в S3
Была ли у вас задача импорта фром оракл? Если да, как решали проблему с datetime

Eduard
28.09.2018
07:31:40
не было, а в чем проблема?

Ruslan
28.09.2018
07:33:40
По импорте скупом дата берётся как стринг

Eduard
28.09.2018
07:34:23
ну у меня файлы с данными стряпаются spark-ом, там все преобразования какие надо делаются
presto просто читает готовые данные и делает с ними sql-магию

Mironiken
28.09.2018
07:40:07
Всем, привет! Встала задача пассивно мониторить размер rdd, которые аналитики вытаскивают. Была мысль добавить мап фазу с аккумулятором перед выдачей рдд, но там сэмплирование все запарывает, ни у кого похожего опыта нет?

Sergey
28.09.2018
07:49:52

Alexander
28.09.2018
07:52:23

Oleg
28.09.2018
07:53:12
Привет!
Вопрос)
У нас есть много загрузок данных из кучи источников. И есть подозрения, что существенной частью из них никто не пользуется. Собственно, есть ли способы как-то мониторить обращения к таблицам? (Hive и Impala, как из web интерфейса, так и через консоль/питон). Обращения к файликам таблиц напрямую нет.

Юрий
28.09.2018
08:11:56

Eduard
28.09.2018
08:13:04
spark это фреймфорк для обработки даннх а presto это СУБД
у них общего только то что они оба распределенные и поддерживают sql)

Sergey
28.09.2018
08:20:13
только он вроде select не отслеживает

Alexander
28.09.2018
08:21:01

Daniel
28.09.2018
08:22:38

Юрий
28.09.2018
08:23:07

Oleg
28.09.2018
08:23:08
только он вроде select не отслеживает
The Sentry audit log is responsible for logging the authorization metadata change, the following operations will be logged:
create role, drop role, add role to group, delete role from group, grant privilege, revoke privilege.
угу
пока из идей было только лезть прям на ноды, там искать логи и в них искать обращения к нужным таблицам. Но это какая-то дичь.

Google

Oleg
28.09.2018
08:23:28

Nikita Blagodarnyy
28.09.2018
08:23:39

Daniel
28.09.2018
08:24:01

Sergey
28.09.2018
08:24:24

Eduard
28.09.2018
08:27:09
Шмек
Ну ладно не СУБД а SQL движок)
Или СУБД для аналитики
Называй как хочешь от этого оно спарком не станет
И наоборот

Ruslan
28.09.2018
08:31:08

Юрий
28.09.2018
08:32:43
то, что спарк помимо sql умеет и другие вещи - это никак не влияет на сравнение

Eduard
28.09.2018
08:33:28
В том что престо это в первую очередь про доступ к этим данным по jdbc
В плане обработать и положить данные обратно это вторично для него ящитаю
Плюс есть некоторые кейсы которые на presto просто не сделать

Sergey
28.09.2018
08:35:50

Юрий
28.09.2018
08:35:54
Не ну падажи. Вот лежат на хдфс у меня данные. Я хочу по ним sql делать. Под этот кейс подходят оба инструмента, разве нет?

Eduard
28.09.2018
08:36:49
Смотря какой SQL на самом деле, простые кейсы одинаково хорошо и там и там делаются
А когда начинается UDF то появляется боль