@hadoopusers

Страница 152 из 182
Nikita Blagodarnyy
27.09.2018
12:41:00
Любой.

Рамиль
27.09.2018
12:50:01
Здесь лучше HortonWorks.
а не расскажешь почему?

Старый
27.09.2018
12:52:58
а не расскажешь почему?
у меня раньше была клоудера пару раз, но мож есть что получше и проще

Google
Рамиль
27.09.2018
12:54:12
в клаудере в CM нет версионности конфигов в комьюнити версии

это очень парой докучает

в остальном мне CM больше наравился чем Ambari

Старый
27.09.2018
12:54:55
я потому и думаю что ставить, у меня не один из разрабов даже в глаза раньше не видел ничего из списка

а к декабрю уже макет надо показывать заказчику

и железо будет ток через 4 недели

Alexander
27.09.2018
12:56:08
а не расскажешь почему?
Как правило, CDH отстает по версиям и компонентам (не берут хорошие проекты, а втыкают свои). В плане стабильности нареканий к HDP нет. А Storm - это к HortonWorks, они его любят. В части поддержки в РФ могут быть проблемы, но конкретно для нас это не имеет значения.

Субъективно, HDP понравился больше, чем CDH. Хотя опыт проектов есть на обоих.

Рамиль
27.09.2018
13:00:11
в общем соглашусь с Александром

Рамиль
27.09.2018
13:00:29
Старый
27.09.2018
13:00:48
брось бяку
он под быстрые метаданные

он чисто типа на ssd

Google
Старый
27.09.2018
13:01:04
nvme

Alexander
27.09.2018
13:01:42
Старый
27.09.2018
13:01:57
и в него для обработки будут переносится данные с "медленного" hbase

чтобы олапы делать

и графики показывать красивые

Рамиль
27.09.2018
13:02:37
он чисто типа на ssd
он вроде как вообще инмемори(хотя персистенс тоже вроде как есть)

Alexander
27.09.2018
13:02:47
Рискованная инвестиция)

Старый
27.09.2018
13:03:02
ну а какие ещё варианты, вертику я по баблу не осилю

Старый
27.09.2018
13:05:24
druid|clickhouse
второе разрабы не хотят точно сказали, предлагал, друид гляну

мне вообще сказали найти то к чему Go коннектор\драйвер есть

Andrey
27.09.2018
13:06:50
мой прогноз: нихрена у вас не взлетит, причем тут Go и OLAP?

Старый
27.09.2018
13:07:14
мой прогноз: нихрена у вас не взлетит, причем тут Go и OLAP?
на счёт не взлетит, взлететь то может и взлетит, вопрос как упадёт

Andrey
27.09.2018
13:15:18


Nikita Blagodarnyy
27.09.2018
13:18:28
Кто знает, в ренджере можно настроить доступ только на просмотр политик без права редактирования?

Stanislav
27.09.2018
16:27:26
The aim of permission module is to provide flexibility of user roles.With the help of permission model, Admin can restrict access or assign permission to any module for non-admin users.The main purpose of Permission model is to assign dedicated roles to non-admin users based on services such as policy manager, audit, reporting, user management,Key Manager. В рамках модуля не получится имхо. Дока устарела на 5 мажоров, но

Google
Alexander
27.09.2018
19:16:23
А много в отрасли людей с опытом 3+ года?
Какой именно опыт ты учитываешь, вот вопрос?

Александр
27.09.2018
19:18:16
Коммерческой разработки, коммерческой разработки рядом в команде, коммерческой разработки на одном языке

Я чет снова запутался, у меня есть такая шляпа но я не могу понять как это лучше сделать. У меня просто логика выбора файлов несколько необычна как и мои вкусы =) Есть набор дней(разных, и месяцев) для которых я должен посчитать стату, и они у меня вот в массике лежат, но как заставить спарк выдать RDD одним куском я не понимаю, докутился до такого val filePaths:Array[String] = ??? val unionFlow: RDD[Row] => Unit = ??? filePaths.foreach { iter => val parquet: DataFrame = spark.read.parquet(day) val rdd: RDD[Row] = parquet.rdd unionFlow(rdd.repartition(100)) }

Vadim
27.09.2018
23:18:46
parquet же варарг принимает

Александр
27.09.2018
23:19:45
String*

Я не смог вспомнить, нагуглить как туда запихнуть из Array

Vadim
27.09.2018
23:21:23
arr: _*

Александр
27.09.2018
23:22:39
*делает безпомощное лицо*, а можешь намекнуть сильнее..

Vadim
27.09.2018
23:25:13
spark.read.parquet(filepaths:_*)

Александр
27.09.2018
23:27:14
Уф, самое интересное

Спасибо

Ruslan
28.09.2018
06:57:20
Какой сейчас эффективный способ хранения на hdfs и доступа к данным через SQL?

Eduard
28.09.2018
06:58:25
Presto

VladMl
28.09.2018
07:01:26
Presto
Как в сравнении с Impala и Phoenix?

Ruslan
28.09.2018
07:04:12
А в каком формате вообще вы храните архивные копии бд на hdfs?

Юрий
28.09.2018
07:09:48
Presto
Как он в сравнении со spark sql?

Eduard
28.09.2018
07:28:20
Как в сравнении с Impala и Phoenix?
не юзал их но думаю presto проигрывает в производительности но выигрывает в гибкости

Как он в сравнении со spark sql?
у них немножко разне юз кейсы, не думаю что их можно сравнивать

Artem
28.09.2018
07:29:25
На Impala американские робокопы ездили

Google
Eduard
28.09.2018
07:29:34
hdfs тоже работет

Ruslan
28.09.2018
07:31:23
ORC и Parquet в S3
Была ли у вас задача импорта фром оракл? Если да, как решали проблему с datetime

Eduard
28.09.2018
07:31:40
не было, а в чем проблема?

Ruslan
28.09.2018
07:33:40
По импорте скупом дата берётся как стринг

Eduard
28.09.2018
07:34:23
ну у меня файлы с данными стряпаются spark-ом, там все преобразования какие надо делаются

presto просто читает готовые данные и делает с ними sql-магию

Mironiken
28.09.2018
07:40:07
Всем, привет! Встала задача пассивно мониторить размер rdd, которые аналитики вытаскивают. Была мысль добавить мап фазу с аккумулятором перед выдачей рдд, но там сэмплирование все запарывает, ни у кого похожего опыта нет?

Alexander
28.09.2018
07:52:23
ну у меня файлы с данными стряпаются spark-ом, там все преобразования какие надо делаются
+ SQOOP не особо гибко настраивается, поэтому Spark здесь лучше.

Oleg
28.09.2018
07:53:12
Привет! Вопрос) У нас есть много загрузок данных из кучи источников. И есть подозрения, что существенной частью из них никто не пользуется. Собственно, есть ли способы как-то мониторить обращения к таблицам? (Hive и Impala, как из web интерфейса, так и через консоль/питон). Обращения к файликам таблиц напрямую нет.

Юрий
28.09.2018
08:11:56
у них немножко разне юз кейсы, не думаю что их можно сравнивать
А в чем разность? Беглое гугление дало размытые ответы

Eduard
28.09.2018
08:13:04
spark это фреймфорк для обработки даннх а presto это СУБД

у них общего только то что они оба распределенные и поддерживают sql)

Alexander
28.09.2018
08:21:01
spark это фреймфорк для обработки даннх а presto это СУБД
Presto - это тоже engine для обработки данных, а не СУБД в привычном смысле.

Юрий
28.09.2018
08:23:07
Presto - это тоже engine для обработки данных, а не СУБД в привычном смысле.
Я вот так же понял. Оба движка просто берут данные, которые лежат на хдфс (обычно), и применяют к ним sql. В чем разница то?

Oleg
28.09.2018
08:23:08
только он вроде select не отслеживает
The Sentry audit log is responsible for logging the authorization metadata change, the following operations will be logged: create role, drop role, add role to group, delete role from group, grant privilege, revoke privilege. угу пока из идей было только лезть прям на ноды, там искать логи и в них искать обращения к нужным таблицам. Но это какая-то дичь.

Google
Oleg
28.09.2018
08:23:28
Daniel
28.09.2018
08:24:01
Sergey
28.09.2018
08:24:24
Eduard
28.09.2018
08:27:09
Шмек

Ну ладно не СУБД а SQL движок)

Или СУБД для аналитики

Называй как хочешь от этого оно спарком не станет

И наоборот

Ruslan
28.09.2018
08:31:08
используйте copy2hadoop вместо sqoop
Насколько мне известно, он платный

Юрий
28.09.2018
08:32:43
Называй как хочешь от этого оно спарком не станет
Но подожди. А что насчет > Оба движка просто берут данные, которые лежат на хдфс (обычно), и применяют к ним sql. В чем разница то?

то, что спарк помимо sql умеет и другие вещи - это никак не влияет на сравнение

Eduard
28.09.2018
08:33:28
В том что престо это в первую очередь про доступ к этим данным по jdbc

В плане обработать и положить данные обратно это вторично для него ящитаю

Плюс есть некоторые кейсы которые на presto просто не сделать

Sergey
28.09.2018
08:35:50
Насколько мне известно, он платный
нуууу, придумайте что-нибудь...

Юрий
28.09.2018
08:35:54
Не ну падажи. Вот лежат на хдфс у меня данные. Я хочу по ним sql делать. Под этот кейс подходят оба инструмента, разве нет?

Eduard
28.09.2018
08:36:49
Смотря какой SQL на самом деле, простые кейсы одинаково хорошо и там и там делаются

А когда начинается UDF то появляется боль

Страница 152 из 182