@hadoopusers

« Назад

Страница 153 из 182

Далее »

Eduard

28.09.2018
08:38:00

Spark гибкий и надо писать код, собирать приложение, сабмитить в кластер

Юрий

28.09.2018
08:38:20

и всё?

автоматизировать это можно

Eduard

28.09.2018
08:38:45

А в presto просто завел подключился и выполнил код

Google

Eduard

28.09.2018
08:39:07

Но меньше задач им решить можно

Короче если задачи решаются только ansi SQL и ctas то престо подойдёт как обработчик, если более сложные вещи нужно делать типа графов, ml, кастомных UDF то в спарк.

У меня сейчас в проде и то и то, но престо в основном для доступа к обработанным данным

Ruslan

28.09.2018
08:48:20

А дистрибутив у вас какой?

Был ли опыт интеграции престо с хдп?

Eduard

28.09.2018
08:49:24

Amazon EMR

Nikita Blagodarnyy

28.09.2018
08:50:09

Spark гибкий и надо писать код, собирать приложение, сабмитить в кластер

Не надо. Откройте spark-sql или цеппелин или из datagrip прицепитесь к спарк трифту или сделайте hive on spark.

И пишите такой же sql как и в престо, только без престо. Под который ещё и отдельные серваки нужны, чтобы он норм работал.

Eduard

28.09.2018
08:53:02

И пишите такой же sql как и в престо, только без престо. Под который ещё и отдельные серваки нужны, чтобы он норм работал.

Да у меня в общем то нет проблем с этими особенностями Спарка

Евгений

28.09.2018
08:53:18

Spark гибкий и надо писать код, собирать приложение, сабмитить в кластер

%spark2.sql в запилине - и не надо ни код писать, ни собирать его потом

Nikita Blagodarnyy

28.09.2018
08:53:36

Первый раз слышу, чтобы кто-то юзал престо. Ну кроме презенташек втб про "бесшовную интеграцию с терадатой и прочим".

Eduard

28.09.2018
08:53:55

Ноутбуки в проде это не серьезно)

Евгений

28.09.2018
08:54:29

Да, пентахо и прочие датастейджи за $$$ рулят

Google

Евгений

28.09.2018
08:54:59

Вынести spark.sql в кусочек обёртки с датой - неделя работы датаинженера

Чтобы написать свой пайплайн для любого такого процесса

Eduard

28.09.2018
08:55:21

Первый раз слышу, чтобы кто-то юзал престо. Ну кроме презенташек втб про "бесшовную интеграцию с терадатой и прочим".

Нужно было чем то отдавать данные в bi по jdbc, покурили трубку и выбрали престо

Andrey

28.09.2018
08:55:42

Первый раз слышу, чтобы кто-то юзал престо. Ну кроме презенташек втб про "бесшовную интеграцию с терадатой и прочим".

есть тулзы которые умеют только jdbc, например табло, тогда и используют

Oleg

28.09.2018
08:57:44

А под табло разве не надо что-то супер производительное типа вертики?

Eduard

28.09.2018
09:04:34

Первый раз слышу, чтобы кто-то юзал престо. Ну кроме презенташек втб про "бесшовную интеграцию с терадатой и прочим".

А чем вы дашборды рисуете?

Andrey

28.09.2018
09:10:04

А под табло разве не надо что-то супер производительное типа вертики?

нет, смотря сколько данных, нам хватало

Nikita Blagodarnyy

28.09.2018
09:13:53

А чем вы дашборды рисуете?

Подключать BI к Ходуп-идея, в моём представлении, крайне плохая. В нашей архитектуре BI подключается к традиционной реляционной СУБД.

Возможно, потом появится что-то вроде Ignite + GreenPlum, но это неточно.

Stanislav

28.09.2018
09:15:58

А чем вы дашборды рисуете?

И быстро bi работает в таком варианте? Я его соединял с хайвом, но тот ещё мрак

Eduard

28.09.2018
09:16:34

Отлично работает, затык только на больших дашбордах бывает

Nikita Blagodarnyy

28.09.2018
09:16:55

И вообще, я неаелся говна, делая DWH-звезду в Hadoop. То ещё удовольствие. Больше не буду.

Eduard

28.09.2018
09:17:05

Это при том что данные слабо агрегированные

Поколоночное хранение решает

Никакая реляционка нормально bi не потянет, там так или иначе будет прослойка какая то для хранения агрегатов и прочих кубов

Nikita Blagodarnyy

28.09.2018
09:18:36

Никакая реляционка нормально bi не потянет, там так или иначе будет прослойка какая то для хранения агрегатов и прочих кубов

Опять орнул.

Ну будет, и что?

Eduard

28.09.2018
09:18:50

Хотя у нас данных не так много, возможно из за этого быстро все ?

Nikita Blagodarnyy

28.09.2018
09:18:51

Это называется слой витрин.

Oleg

28.09.2018
09:19:22

Опять орнул.

потише, пожалуйста, мы работаем.

Google

Евгений

28.09.2018
09:19:26

Попробуйте в реляционку хотя бы залить 300 млрд записей в одну таблицу)

Daniel

28.09.2018
09:20:11

Попробуйте в реляционку хотя бы залить 300 млрд записей в одну таблицу)

есть такое, в чем проблема?

Старый

28.09.2018
09:20:18

Попробуйте в реляционку хотя бы залить 300 млрд записей в одну таблицу)

?у меня сейчас так хотят в mysql сделать

Oleg

28.09.2018
09:20:29

Вообще, можно, например ClickHouse, если особо джойнить не надо будет.

Евгений

28.09.2018
09:20:31

И как, быстро заливается?)

Nikita Blagodarnyy

28.09.2018
09:20:36

Попробуйте в реляционку хотя бы залить 300 млрд записей в одну таблицу)

Во-первых, я и больше заливал. Во-вторых, а вы что, BI на таблице 300 млрд запускаете? Витринки там, то сё?

Daniel

28.09.2018
09:20:53

Во-первых, я и больше заливал. Во-вторых, а вы что, BI на таблице 300 млрд запускаете? Витринки там, то сё?

я вот тож не понял кейс

Старый

28.09.2018
09:21:04

Вообще, можно, например ClickHouse, если особо джойнить не надо будет.

кликхаус может данные легко угробить

длительное хранение и кликхаус плохая идея

Евгений

28.09.2018
09:21:24

Основная витрина, к ней больше половины запросов идёт

Vladislav

28.09.2018
09:21:41

Попробуйте в реляционку хотя бы залить 300 млрд записей в одну таблицу)

когда залью, что мне делать с ней?

Oleg

28.09.2018
09:21:51

кликхаус может данные легко угробить

не, ну в нем витрины а сырье в хадупе А в кликхаусе тройная репликация + бекапы. А почему он данные может угробить? Я с таким не сталкивался.

Евгений

28.09.2018
09:22:13

когда залью, что мне делать с ней?

Как что? Считать агрегаты за полгода для 100 млн юзеров)

Sergey

28.09.2018
09:22:30

длительное хранение и кликхаус плохая идея

кх хорош как сервис слой, а базовый слой в халупе

Nikita Blagodarnyy

28.09.2018
09:22:44

Основная витрина, к ней больше половины запросов идёт

И что, все вычитывают по 300 млрд? Тогда у меня для вас плохие новости.

Daniel

28.09.2018
09:22:51

Как что? Считать агрегаты за полгода для 100 млн юзеров)

пахнет булшитом в головах аналитиков

Старый

28.09.2018
09:22:59

кх хорош как сервис слой, а базовый слой в халупе

да, только вот мне в нём или марие надо будет хранить сессии

Uncel

28.09.2018
09:23:03

кликхаус может данные легко угробить

и тут ты такой с пруфами

Vladislav

28.09.2018
09:23:21

Как что? Считать агрегаты за полгода для 100 млн юзеров)

ок, Vertica это переварит, КХ скорее всего тоже без проблем

Старый

28.09.2018
09:23:31

и тут ты такой с пруфами

ну у меня у 4 клиентов на консалтинге он дох с данными, поэтому они в нём ток считать предпочитают и грохать

Google

Евгений

28.09.2018
09:23:44

ок, Vertica это переварит, КХ скорее всего тоже без проблем

А как там по стоимости?

Eduard

28.09.2018
09:23:44

? чет разгорелось, нрмально же общались

Vladislav

28.09.2018
09:23:58

А как там по стоимости?

По разному

Евгений

28.09.2018
09:24:32

По сравнению с хдп кластером, в котором спарк крутится

Vladislav

28.09.2018
09:24:50

Да да, рядом вот сидят и крутят

Вот только не стоит путать DWH и спарк для RND

да и железки тоже не халява, если уж говорить на чистоту

Евгений

28.09.2018
09:25:45

Да, да, я уже понял , двх - это где хранят данные, а спарк - это где обрабатывают?

Daniel

28.09.2018
09:25:49

что то уже совсем все в кучу слетелось системы для разных кейсов подходящие сравниваются на абстрактных 300млрд записей за абстрактные полгода и на абстрактных аггрегатах

Старый

28.09.2018
09:25:54

да и железки тоже не халява, если уж говорить на чистоту

а где железки холява

Рамиль

28.09.2018
09:25:56

есть тулзы которые умеют только jdbc, например табло, тогда и используют

а спарк что JDBC перестал отдавать?

Vladislav

28.09.2018
09:25:59

на 3 ноды вертики навскидку приходится более 10 хадуп серверов

Daniel

28.09.2018
09:26:21

что то уже совсем все в кучу слетелось системы для разных кейсов подходящие сравниваются на абстрактных 300млрд записей за абстрактные полгода и на абстрактных аггрегатах

в общем случае тут и база не нужна, один диск и итератором пройтись

Старый

28.09.2018
09:26:26

у меня вон фантазёры хотели хадуп на дисках по 12 тб запилить

Vladislav

28.09.2018
09:26:48

Да, да, я уже понял , двх - это где хранят данные, а спарк - это где обрабатывают?

давайте не путать, где и что обрабатывают между прочим, обычно как раз наоборот, хадуп хранит, а в хранилище обработка

кстати, именно так сделано у yota

Евгений

28.09.2018
09:27:29

давайте не путать, где и что обрабатывают между прочим, обычно как раз наоборот, хадуп хранит, а в хранилище обработка

Назад в будущее - обработка данных на sql)

Vladislav

28.09.2018
09:27:39

Назад в будущее - обработка данных на sql)

кто сказал про sql?

Старый

28.09.2018
09:27:56

Назад в будущее - обработка данных на sql)

а чем cql лучше?

Eduard

28.09.2018
09:28:01

что-то я совсем запутался

Google

Евгений

28.09.2018
09:28:15

Как встроить бустец на витринке из 5к полей в ваши вертики?

В спарке пишем pandas udf за полдня - и готово

Andrey

28.09.2018
09:28:56

а спарк что JDBC перестал отдавать?

иногда медленно работает, встречаются вот такие косяки: https://issues.apache.org/jira/browse/SPARK-12126

Старый

28.09.2018
09:29:43

В спарке пишем pandas udf за полдня - и готово

а как тебе взять 90-120к ключей и по ним данных из hbase на магнитках, перетащить в быстрое на ignite и выдать по ним олап, с тенденциями?

Vladislav

28.09.2018
09:29:51

Как встроить бустец на витринке из 5к полей в ваши вертики?

выбирайте

Евгений

28.09.2018
09:29:52

иногда медленно работает, встречаются вот такие косяки: https://issues.apache.org/jira/browse/SPARK-12126

Не, jdbc datasource это же вроде про spark.read.jdbc

а как тебе взять 90-120к ключей и по ним данных из hbase на магнитках, перетащить в быстрое на ignite и выдать по ним олап, с тенденциями?

Если нужно что-то быстрее минуты, тут спарк не самый лучший вариант, согласен)

Andrey

28.09.2018
09:43:46

Не, jdbc datasource это же вроде про spark.read.jdbc

вообщем я помню там были заморочки с push down, спарк слишком много вычитывал

Евгений

28.09.2018
09:44:43

вообщем я помню там были заморочки с push down, спарк слишком много вычитывал

Да, такая проблема есть, он не пробрасывает ни лимит, ни сложные условия, которые записаны с использованием спарковских functions

Ну, потому что они тупо бывает не переводятся на ту базу данных, к которой идёт обращение

Хотя могли бы и допилить уже хотя бы лимит-то)

Alexander

28.09.2018
09:55:50

вообщем я помню там были заморочки с push down, спарк слишком много вычитывал

Да, но это можно решить заменой имени таблицы на подзапрос.

Andrey

28.09.2018
09:59:57

Да, но это можно решить заменой имени таблицы на подзапрос.

скажите вот зачем эти заморочки, плюс как это протаскивать в инструмент BI, если есть presto которое работает из коробки?

Andrew

28.09.2018
10:02:00

Никто не сталкивался с копированием файлов с HDFS на S3? При попытке использовать команду: hadoop distcp hdfs://IP:50070/dir/file s3://key:secret@backet_name/data ошибка Caused by: org.apache.hadoop.ipc.RpcException: RPC response exceeds maximum data length пытался менять в core-site.xml значения ipc.maximum.data.length - не помогает.

Alexander

28.09.2018
10:02:49

скажите вот зачем эти заморочки, плюс как это протаскивать в инструмент BI, если есть presto которое работает из коробки?

Я не спорю, что для BI нужны витрины, которые можно вертеть) Каждый раз гонять Spark - это слишком.

Eduard

28.09.2018
10:47:20

Никто не сталкивался с копированием файлов с HDFS на S3? При попытке использовать команду: hadoop distcp hdfs://IP:50070/dir/file s3://key:secret@backet_name/data ошибка Caused by: org.apache.hadoop.ipc.RpcException: RPC response exceeds maximum data length пытался менять в core-site.xml значения ipc.maximum.data.length - не помогает.

Я конечно идиот, но я бы это спарком делал :) (при условии что это какие-нибудь паркеты конечно)

Andrew

28.09.2018
10:48:07

Я конечно идиот, но я бы это спарком делал :) (при условии что это какие-нибудь паркеты конечно)

спасибо, почитаю ?