@hadoopusers

Страница 153 из 182
Eduard
28.09.2018
08:38:00
Spark гибкий и надо писать код, собирать приложение, сабмитить в кластер

Юрий
28.09.2018
08:38:20
и всё?

автоматизировать это можно

Eduard
28.09.2018
08:38:45
А в presto просто завел подключился и выполнил код

Google
Eduard
28.09.2018
08:39:07
Но меньше задач им решить можно

Короче если задачи решаются только ansi SQL и ctas то престо подойдёт как обработчик, если более сложные вещи нужно делать типа графов, ml, кастомных UDF то в спарк.

У меня сейчас в проде и то и то, но престо в основном для доступа к обработанным данным

Ruslan
28.09.2018
08:48:20
А дистрибутив у вас какой?

Был ли опыт интеграции престо с хдп?

Eduard
28.09.2018
08:49:24
Amazon EMR

Nikita Blagodarnyy
28.09.2018
08:50:09
Spark гибкий и надо писать код, собирать приложение, сабмитить в кластер
Не надо. Откройте spark-sql или цеппелин или из datagrip прицепитесь к спарк трифту или сделайте hive on spark.

И пишите такой же sql как и в престо, только без престо. Под который ещё и отдельные серваки нужны, чтобы он норм работал.

Евгений
28.09.2018
08:53:18
Spark гибкий и надо писать код, собирать приложение, сабмитить в кластер
%spark2.sql в запилине - и не надо ни код писать, ни собирать его потом

Nikita Blagodarnyy
28.09.2018
08:53:36
Первый раз слышу, чтобы кто-то юзал престо. Ну кроме презенташек втб про "бесшовную интеграцию с терадатой и прочим".

Eduard
28.09.2018
08:53:55
Ноутбуки в проде это не серьезно)

Евгений
28.09.2018
08:54:29
Да, пентахо и прочие датастейджи за $$$ рулят

Google
Евгений
28.09.2018
08:54:59
Вынести spark.sql в кусочек обёртки с датой - неделя работы датаинженера

Чтобы написать свой пайплайн для любого такого процесса

Eduard
28.09.2018
08:55:21
Andrey
28.09.2018
08:55:42
Oleg
28.09.2018
08:57:44
А под табло разве не надо что-то супер производительное типа вертики?

Andrey
28.09.2018
09:10:04
Nikita Blagodarnyy
28.09.2018
09:13:53
А чем вы дашборды рисуете?
Подключать BI к Ходуп-идея, в моём представлении, крайне плохая. В нашей архитектуре BI подключается к традиционной реляционной СУБД.

Возможно, потом появится что-то вроде Ignite + GreenPlum, но это неточно.

Stanislav
28.09.2018
09:15:58
А чем вы дашборды рисуете?
И быстро bi работает в таком варианте? Я его соединял с хайвом, но тот ещё мрак

Eduard
28.09.2018
09:16:34
Отлично работает, затык только на больших дашбордах бывает

Nikita Blagodarnyy
28.09.2018
09:16:55
И вообще, я неаелся говна, делая DWH-звезду в Hadoop. То ещё удовольствие. Больше не буду.

Eduard
28.09.2018
09:17:05
Это при том что данные слабо агрегированные

Поколоночное хранение решает

Никакая реляционка нормально bi не потянет, там так или иначе будет прослойка какая то для хранения агрегатов и прочих кубов

Eduard
28.09.2018
09:18:50
Хотя у нас данных не так много, возможно из за этого быстро все ?

Nikita Blagodarnyy
28.09.2018
09:18:51
Это называется слой витрин.

Oleg
28.09.2018
09:19:22
Опять орнул.
потише, пожалуйста, мы работаем.

Google
Евгений
28.09.2018
09:19:26
Попробуйте в реляционку хотя бы залить 300 млрд записей в одну таблицу)

Старый
28.09.2018
09:20:18
Oleg
28.09.2018
09:20:29
Вообще, можно, например ClickHouse, если особо джойнить не надо будет.

Евгений
28.09.2018
09:20:31
И как, быстро заливается?)

Nikita Blagodarnyy
28.09.2018
09:20:36
Попробуйте в реляционку хотя бы залить 300 млрд записей в одну таблицу)
Во-первых, я и больше заливал. Во-вторых, а вы что, BI на таблице 300 млрд запускаете? Витринки там, то сё?

Старый
28.09.2018
09:21:04
длительное хранение и кликхаус плохая идея

Евгений
28.09.2018
09:21:24
Основная витрина, к ней больше половины запросов идёт

Vladislav
28.09.2018
09:21:41
Oleg
28.09.2018
09:21:51
кликхаус может данные легко угробить
не, ну в нем витрины а сырье в хадупе А в кликхаусе тройная репликация + бекапы. А почему он данные может угробить? Я с таким не сталкивался.

Евгений
28.09.2018
09:22:13
когда залью, что мне делать с ней?
Как что? Считать агрегаты за полгода для 100 млн юзеров)

Sergey
28.09.2018
09:22:30
длительное хранение и кликхаус плохая идея
кх хорош как сервис слой, а базовый слой в халупе

Nikita Blagodarnyy
28.09.2018
09:22:44
Основная витрина, к ней больше половины запросов идёт
И что, все вычитывают по 300 млрд? Тогда у меня для вас плохие новости.

Daniel
28.09.2018
09:22:51
Как что? Считать агрегаты за полгода для 100 млн юзеров)
пахнет булшитом в головах аналитиков

Старый
28.09.2018
09:22:59
кх хорош как сервис слой, а базовый слой в халупе
да, только вот мне в нём или марие надо будет хранить сессии

Uncel
28.09.2018
09:23:03
Vladislav
28.09.2018
09:23:21
Как что? Считать агрегаты за полгода для 100 млн юзеров)
ок, Vertica это переварит, КХ скорее всего тоже без проблем

Старый
28.09.2018
09:23:31
и тут ты такой с пруфами
ну у меня у 4 клиентов на консалтинге он дох с данными, поэтому они в нём ток считать предпочитают и грохать

Google
Евгений
28.09.2018
09:23:44
Eduard
28.09.2018
09:23:44
? чет разгорелось, нрмально же общались

Vladislav
28.09.2018
09:23:58
Евгений
28.09.2018
09:24:32
По сравнению с хдп кластером, в котором спарк крутится

Vladislav
28.09.2018
09:24:50
Да да, рядом вот сидят и крутят

Вот только не стоит путать DWH и спарк для RND

да и железки тоже не халява, если уж говорить на чистоту

Евгений
28.09.2018
09:25:45
Да, да, я уже понял , двх - это где хранят данные, а спарк - это где обрабатывают?

Daniel
28.09.2018
09:25:49
что то уже совсем все в кучу слетелось системы для разных кейсов подходящие сравниваются на абстрактных 300млрд записей за абстрактные полгода и на абстрактных аггрегатах

Старый
28.09.2018
09:25:54
Рамиль
28.09.2018
09:25:56
Vladislav
28.09.2018
09:25:59
на 3 ноды вертики навскидку приходится более 10 хадуп серверов

Старый
28.09.2018
09:26:26
у меня вон фантазёры хотели хадуп на дисках по 12 тб запилить

Vladislav
28.09.2018
09:26:48
Да, да, я уже понял , двх - это где хранят данные, а спарк - это где обрабатывают?
давайте не путать, где и что обрабатывают между прочим, обычно как раз наоборот, хадуп хранит, а в хранилище обработка

кстати, именно так сделано у yota

Vladislav
28.09.2018
09:27:39
Старый
28.09.2018
09:27:56
Eduard
28.09.2018
09:28:01
что-то я совсем запутался

Google
Евгений
28.09.2018
09:28:15
Как встроить бустец на витринке из 5к полей в ваши вертики?

В спарке пишем pandas udf за полдня - и готово

Andrey
28.09.2018
09:28:56
а спарк что JDBC перестал отдавать?
иногда медленно работает, встречаются вот такие косяки: https://issues.apache.org/jira/browse/SPARK-12126

Старый
28.09.2018
09:29:43
В спарке пишем pandas udf за полдня - и готово
а как тебе взять 90-120к ключей и по ним данных из hbase на магнитках, перетащить в быстрое на ignite и выдать по ним олап, с тенденциями?

Andrey
28.09.2018
09:43:46
Не, jdbc datasource это же вроде про spark.read.jdbc
вообщем я помню там были заморочки с push down, спарк слишком много вычитывал

Евгений
28.09.2018
09:44:43
вообщем я помню там были заморочки с push down, спарк слишком много вычитывал
Да, такая проблема есть, он не пробрасывает ни лимит, ни сложные условия, которые записаны с использованием спарковских functions

Ну, потому что они тупо бывает не переводятся на ту базу данных, к которой идёт обращение

Хотя могли бы и допилить уже хотя бы лимит-то)

Alexander
28.09.2018
09:55:50
вообщем я помню там были заморочки с push down, спарк слишком много вычитывал
Да, но это можно решить заменой имени таблицы на подзапрос.

Andrey
28.09.2018
09:59:57
Да, но это можно решить заменой имени таблицы на подзапрос.
скажите вот зачем эти заморочки, плюс как это протаскивать в инструмент BI, если есть presto которое работает из коробки?

Andrew
28.09.2018
10:02:00
Никто не сталкивался с копированием файлов с HDFS на S3? При попытке использовать команду: hadoop distcp hdfs://IP:50070/dir/file s3://key:secret@backet_name/data ошибка Caused by: org.apache.hadoop.ipc.RpcException: RPC response exceeds maximum data length пытался менять в core-site.xml значения ipc.maximum.data.length - не помогает.

Alexander
28.09.2018
10:02:49
скажите вот зачем эти заморочки, плюс как это протаскивать в инструмент BI, если есть presto которое работает из коробки?
Я не спорю, что для BI нужны витрины, которые можно вертеть) Каждый раз гонять Spark - это слишком.

Alexey
28.09.2018
10:50:29
спарк (имееться)

Страница 153 из 182