@hadoopusers

« Назад

Страница 152 из 182

Далее »

Nikita Blagodarnyy

27.09.2018
12:41:00

Любой.

Alexander

27.09.2018
12:49:30

кстати какой лучше фреймворк взять если нужны ток kafka+hdfs+hbase+storm

Здесь лучше HortonWorks.

Рамиль

27.09.2018
12:50:01

Здесь лучше HortonWorks.

а не расскажешь почему?

Старый

27.09.2018
12:52:58

а не расскажешь почему?

у меня раньше была клоудера пару раз, но мож есть что получше и проще

Google

Рамиль

27.09.2018
12:54:12

в клаудере в CM нет версионности конфигов в комьюнити версии

это очень парой докучает

в остальном мне CM больше наравился чем Ambari

Старый

27.09.2018
12:54:55

я потому и думаю что ставить, у меня не один из разрабов даже в глаза раньше не видел ничего из списка

а к декабрю уже макет надо показывать заказчику

и железо будет ток через 4 недели

Alexander

27.09.2018
12:56:08

а не расскажешь почему?

Как правило, CDH отстает по версиям и компонентам (не берут хорошие проекты, а втыкают свои). В плане стабильности нареканий к HDP нет. А Storm - это к HortonWorks, они его любят. В части поддержки в РФ могут быть проблемы, но конкретно для нас это не имеет значения.

Субъективно, HDP понравился больше, чем CDH. Хотя опыт проектов есть на обоих.

Рамиль

27.09.2018
13:00:11

в общем соглашусь с Александром

Старый

27.09.2018
13:00:12

Как правило, CDH отстает по версиям и компонентам (не берут хорошие проекты, а втыкают свои). В плане стабильности нареканий к HDP нет. А Storm - это к HortonWorks, они его любят. В части поддержки в РФ могут быть проблемы, но конкретно для нас это не имеет значения.

а ignite нормально встанет туда дополнением?

Рамиль

27.09.2018
13:00:29

а ignite нормально встанет туда дополнением?

брось бяку

Старый

27.09.2018
13:00:48

брось бяку

он под быстрые метаданные

он чисто типа на ssd

Google

Старый

27.09.2018
13:01:04

nvme

Alexander

27.09.2018
13:01:42

брось бяку

+

Старый

27.09.2018
13:01:57

и в него для обработки будут переносится данные с "медленного" hbase

чтобы олапы делать

и графики показывать красивые

Рамиль

27.09.2018
13:02:37

он чисто типа на ssd

он вроде как вообще инмемори(хотя персистенс тоже вроде как есть)

Alexander

27.09.2018
13:02:47

Рискованная инвестиция)

Старый

27.09.2018
13:03:02

ну а какие ещё варианты, вертику я по баблу не осилю

Andrey

27.09.2018
13:05:00

ну а какие ещё варианты, вертику я по баблу не осилю

druid|clickhouse

Старый

27.09.2018
13:05:24

druid|clickhouse

второе разрабы не хотят точно сказали, предлагал, друид гляну

мне вообще сказали найти то к чему Go коннектор\драйвер есть

Andrey

27.09.2018
13:06:50

мой прогноз: нихрена у вас не взлетит, причем тут Go и OLAP?

Старый

27.09.2018
13:07:14

мой прогноз: нихрена у вас не взлетит, причем тут Go и OLAP?

софт на го будет

мой прогноз: нихрена у вас не взлетит, причем тут Go и OLAP?

на счёт не взлетит, взлететь то может и взлетит, вопрос как упадёт

Andrey

27.09.2018
13:15:18

Nikita Blagodarnyy

27.09.2018
13:18:28

druid|clickhouse

GreenPlum

Кто знает, в ренджере можно настроить доступ только на просмотр политик без права редактирования?

Stanislav

27.09.2018
16:27:26

The aim of permission module is to provide flexibility of user roles.With the help of permission model, Admin can restrict access or assign permission to any module for non-admin users.The main purpose of Permission model is to assign dedicated roles to non-admin users based on services such as policy manager, audit, reporting, user management,Key Manager. В рамках модуля не получится имхо. Дока устарела на 5 мажоров, но

Александр

27.09.2018
19:13:18

70% enterprise кода вообще написана людьми которые слабо понимают что есть алгоритм, про юнит тетсты и прочие полезности я вообще молчу

В самую точку

это ты не видел ещё как 15 студентов проектируют систему на пб на монге

А много в отрасли людей с опытом 3+ года?

Google

Александр

27.09.2018
19:15:47

второе разрабы не хотят точно сказали, предлагал, друид гляну

Чего не хотят?

Alexander

27.09.2018
19:16:23

А много в отрасли людей с опытом 3+ года?

Какой именно опыт ты учитываешь, вот вопрос?

Александр

27.09.2018
19:18:16

Коммерческой разработки, коммерческой разработки рядом в команде, коммерческой разработки на одном языке

Я чет снова запутался, у меня есть такая шляпа но я не могу понять как это лучше сделать. У меня просто логика выбора файлов несколько необычна как и мои вкусы =) Есть набор дней(разных, и месяцев) для которых я должен посчитать стату, и они у меня вот в массике лежат, но как заставить спарк выдать RDD одним куском я не понимаю, докутился до такого val filePaths:Array[String] = ??? val unionFlow: RDD[Row] => Unit = ??? filePaths.foreach { iter => val parquet: DataFrame = spark.read.parquet(day) val rdd: RDD[Row] = parquet.rdd unionFlow(rdd.repartition(100)) }

Vadim

27.09.2018
23:18:46

parquet же варарг принимает

Александр

27.09.2018
23:19:45

String*

Я не смог вспомнить, нагуглить как туда запихнуть из Array

Vadim

27.09.2018
23:21:23

arr: _*

Александр

27.09.2018
23:22:39

*делает безпомощное лицо*, а можешь намекнуть сильнее..

Vadim

27.09.2018
23:25:13

spark.read.parquet(filepaths:_*)

Александр

27.09.2018
23:27:14

Уф, самое интересное

Спасибо

Ruslan

28.09.2018
06:57:20

Какой сейчас эффективный способ хранения на hdfs и доступа к данным через SQL?

Eduard

28.09.2018
06:58:25

Presto

VladMl

28.09.2018
07:01:26

Presto

Как в сравнении с Impala и Phoenix?

Ruslan

28.09.2018
07:04:12

А в каком формате вообще вы храните архивные копии бд на hdfs?

Юрий

28.09.2018
07:09:48

Presto

Как он в сравнении со spark sql?

Eduard

28.09.2018
07:28:20

Как в сравнении с Impala и Phoenix?

не юзал их но думаю presto проигрывает в производительности но выигрывает в гибкости

Как он в сравнении со spark sql?

у них немножко разне юз кейсы, не думаю что их можно сравнивать

Artem

28.09.2018
07:29:25

На Impala американские робокопы ездили

Google

Eduard

28.09.2018
07:29:34

А в каком формате вообще вы храните архивные копии бд на hdfs?

ORC и Parquet в S3

hdfs тоже работет

Ruslan

28.09.2018
07:31:23

ORC и Parquet в S3

Была ли у вас задача импорта фром оракл? Если да, как решали проблему с datetime

Eduard

28.09.2018
07:31:40

не было, а в чем проблема?

Ruslan

28.09.2018
07:33:40

По импорте скупом дата берётся как стринг

Eduard

28.09.2018
07:34:23

ну у меня файлы с данными стряпаются spark-ом, там все преобразования какие надо делаются

presto просто читает готовые данные и делает с ними sql-магию

Mironiken

28.09.2018
07:40:07

Всем, привет! Встала задача пассивно мониторить размер rdd, которые аналитики вытаскивают. Была мысль добавить мап фазу с аккумулятором перед выдачей рдд, но там сэмплирование все запарывает, ни у кого похожего опыта нет?

Sergey

28.09.2018
07:49:52

Была ли у вас задача импорта фром оракл? Если да, как решали проблему с datetime

используйте copy2hadoop вместо sqoop

Alexander

28.09.2018
07:52:23

ну у меня файлы с данными стряпаются spark-ом, там все преобразования какие надо делаются

+ SQOOP не особо гибко настраивается, поэтому Spark здесь лучше.

Oleg

28.09.2018
07:53:12

Привет! Вопрос) У нас есть много загрузок данных из кучи источников. И есть подозрения, что существенной частью из них никто не пользуется. Собственно, есть ли способы как-то мониторить обращения к таблицам? (Hive и Impala, как из web интерфейса, так и через консоль/питон). Обращения к файликам таблиц напрямую нет.

Юрий

28.09.2018
08:11:56

у них немножко разне юз кейсы, не думаю что их можно сравнивать

А в чем разность? Беглое гугление дало размытые ответы

Eduard

28.09.2018
08:13:04

spark это фреймфорк для обработки даннх а presto это СУБД

у них общего только то что они оба распределенные и поддерживают sql)

Sergey

28.09.2018
08:20:13

Привет! Вопрос) У нас есть много загрузок данных из кучи источников. И есть подозрения, что существенной частью из них никто не пользуется. Собственно, есть ли способы как-то мониторить обращения к таблицам? (Hive и Impala, как из web интерфейса, так и через консоль/питон). Обращения к файликам таблиц напрямую нет.

sentry audit?

только он вроде select не отслеживает

Alexander

28.09.2018
08:21:01

spark это фреймфорк для обработки даннх а presto это СУБД

Presto - это тоже engine для обработки данных, а не СУБД в привычном смысле.

Daniel

28.09.2018
08:22:38

Привет! Вопрос) У нас есть много загрузок данных из кучи источников. И есть подозрения, что существенной частью из них никто не пользуется. Собственно, есть ли способы как-то мониторить обращения к таблицам? (Hive и Impala, как из web интерфейса, так и через консоль/питон). Обращения к файликам таблиц напрямую нет.

У хайва логи есть (говорят иногда правдивые)

Юрий

28.09.2018
08:23:07

Presto - это тоже engine для обработки данных, а не СУБД в привычном смысле.

Я вот так же понял. Оба движка просто берут данные, которые лежат на хдфс (обычно), и применяют к ним sql. В чем разница то?

Oleg

28.09.2018
08:23:08

только он вроде select не отслеживает

The Sentry audit log is responsible for logging the authorization metadata change, the following operations will be logged: create role, drop role, add role to group, delete role from group, grant privilege, revoke privilege. угу пока из идей было только лезть прям на ноды, там искать логи и в них искать обращения к нужным таблицам. Но это какая-то дичь.

Google

Oleg

28.09.2018
08:23:28

У хайва логи есть (говорят иногда правдивые)

а иногда не очень?)

Nikita Blagodarnyy

28.09.2018
08:23:39

spark это фреймфорк для обработки даннх а presto это СУБД

Орнул

Daniel

28.09.2018
08:24:01

а иногда не очень?)

Ога

Sergey

28.09.2018
08:24:24

Орнул

кек

Eduard

28.09.2018
08:27:09

Шмек

Ну ладно не СУБД а SQL движок)

Или СУБД для аналитики

Называй как хочешь от этого оно спарком не станет

И наоборот

Ruslan

28.09.2018
08:31:08

используйте copy2hadoop вместо sqoop

Насколько мне известно, он платный

Юрий

28.09.2018
08:32:43

Называй как хочешь от этого оно спарком не станет

Но подожди. А что насчет > Оба движка просто берут данные, которые лежат на хдфс (обычно), и применяют к ним sql. В чем разница то?

то, что спарк помимо sql умеет и другие вещи - это никак не влияет на сравнение

Eduard

28.09.2018
08:33:28

В том что престо это в первую очередь про доступ к этим данным по jdbc

В плане обработать и положить данные обратно это вторично для него ящитаю

Плюс есть некоторые кейсы которые на presto просто не сделать

Sergey

28.09.2018
08:35:50

Насколько мне известно, он платный

нуууу, придумайте что-нибудь...

Юрий

28.09.2018
08:35:54

Не ну падажи. Вот лежат на хдфс у меня данные. Я хочу по ним sql делать. Под этот кейс подходят оба инструмента, разве нет?

Eduard

28.09.2018
08:36:49

Смотря какой SQL на самом деле, простые кейсы одинаково хорошо и там и там делаются

Открыть в Telegram