
Eduard
28.09.2018
08:38:00
Spark гибкий и надо писать код, собирать приложение, сабмитить в кластер

Юрий
28.09.2018
08:38:20
и всё?
автоматизировать это можно

Eduard
28.09.2018
08:38:45
А в presto просто завел подключился и выполнил код

Google

Eduard
28.09.2018
08:39:07
Но меньше задач им решить можно
Короче если задачи решаются только ansi SQL и ctas то престо подойдёт как обработчик, если более сложные вещи нужно делать типа графов, ml, кастомных UDF то в спарк.
У меня сейчас в проде и то и то, но престо в основном для доступа к обработанным данным

Ruslan
28.09.2018
08:48:20
А дистрибутив у вас какой?
Был ли опыт интеграции престо с хдп?

Eduard
28.09.2018
08:49:24
Amazon EMR

Nikita Blagodarnyy
28.09.2018
08:50:09
И пишите такой же sql как и в престо, только без престо. Под который ещё и отдельные серваки нужны, чтобы он норм работал.

Eduard
28.09.2018
08:53:02

Евгений
28.09.2018
08:53:18

Nikita Blagodarnyy
28.09.2018
08:53:36
Первый раз слышу, чтобы кто-то юзал престо. Ну кроме презенташек втб про "бесшовную интеграцию с терадатой и прочим".

Eduard
28.09.2018
08:53:55
Ноутбуки в проде это не серьезно)

Евгений
28.09.2018
08:54:29
Да, пентахо и прочие датастейджи за $$$ рулят

Google

Евгений
28.09.2018
08:54:59
Вынести spark.sql в кусочек обёртки с датой - неделя работы датаинженера
Чтобы написать свой пайплайн для любого такого процесса

Eduard
28.09.2018
08:55:21

Andrey
28.09.2018
08:55:42

Oleg
28.09.2018
08:57:44
А под табло разве не надо что-то супер производительное типа вертики?

Eduard
28.09.2018
09:04:34

Andrey
28.09.2018
09:10:04

Nikita Blagodarnyy
28.09.2018
09:13:53
А чем вы дашборды рисуете?
Подключать BI к Ходуп-идея, в моём представлении, крайне плохая. В нашей архитектуре BI подключается к традиционной реляционной СУБД.
Возможно, потом появится что-то вроде Ignite + GreenPlum, но это неточно.

Stanislav
28.09.2018
09:15:58

Eduard
28.09.2018
09:16:34
Отлично работает, затык только на больших дашбордах бывает

Nikita Blagodarnyy
28.09.2018
09:16:55
И вообще, я неаелся говна, делая DWH-звезду в Hadoop. То ещё удовольствие. Больше не буду.

Eduard
28.09.2018
09:17:05
Это при том что данные слабо агрегированные
Поколоночное хранение решает
Никакая реляционка нормально bi не потянет, там так или иначе будет прослойка какая то для хранения агрегатов и прочих кубов

Nikita Blagodarnyy
28.09.2018
09:18:36
Ну будет, и что?

Eduard
28.09.2018
09:18:50
Хотя у нас данных не так много, возможно из за этого быстро все ?

Nikita Blagodarnyy
28.09.2018
09:18:51
Это называется слой витрин.

Oleg
28.09.2018
09:19:22

Google

Евгений
28.09.2018
09:19:26
Попробуйте в реляционку хотя бы залить 300 млрд записей в одну таблицу)

Daniel
28.09.2018
09:20:11

Старый
28.09.2018
09:20:18

Oleg
28.09.2018
09:20:29
Вообще, можно, например ClickHouse, если особо джойнить не надо будет.

Евгений
28.09.2018
09:20:31
И как, быстро заливается?)

Nikita Blagodarnyy
28.09.2018
09:20:36

Daniel
28.09.2018
09:20:53

Старый
28.09.2018
09:21:04
длительное хранение и кликхаус плохая идея

Евгений
28.09.2018
09:21:24
Основная витрина, к ней больше половины запросов идёт

Vladislav
28.09.2018
09:21:41

Oleg
28.09.2018
09:21:51

Евгений
28.09.2018
09:22:13

Sergey
28.09.2018
09:22:30

Nikita Blagodarnyy
28.09.2018
09:22:44

Daniel
28.09.2018
09:22:51

Старый
28.09.2018
09:22:59

Uncel
28.09.2018
09:23:03

Vladislav
28.09.2018
09:23:21

Старый
28.09.2018
09:23:31
и тут ты такой с пруфами
ну у меня у 4 клиентов на консалтинге он дох с данными, поэтому они в нём ток считать предпочитают и грохать

Google

Евгений
28.09.2018
09:23:44

Eduard
28.09.2018
09:23:44
? чет разгорелось, нрмально же общались

Vladislav
28.09.2018
09:23:58

Евгений
28.09.2018
09:24:32
По сравнению с хдп кластером, в котором спарк крутится

Vladislav
28.09.2018
09:24:50
Да да, рядом вот сидят и крутят
Вот только не стоит путать DWH и спарк для RND
да и железки тоже не халява, если уж говорить на чистоту

Евгений
28.09.2018
09:25:45
Да, да, я уже понял , двх - это где хранят данные, а спарк - это где обрабатывают?

Daniel
28.09.2018
09:25:49
что то уже совсем все в кучу слетелось
системы для разных кейсов подходящие сравниваются на абстрактных 300млрд записей за абстрактные полгода и на абстрактных аггрегатах

Старый
28.09.2018
09:25:54

Рамиль
28.09.2018
09:25:56

Vladislav
28.09.2018
09:25:59
на 3 ноды вертики навскидку приходится более 10 хадуп серверов

Daniel
28.09.2018
09:26:21

Старый
28.09.2018
09:26:26
у меня вон фантазёры хотели хадуп на дисках по 12 тб запилить

Vladislav
28.09.2018
09:26:48
кстати, именно так сделано у yota

Евгений
28.09.2018
09:27:29

Vladislav
28.09.2018
09:27:39

Старый
28.09.2018
09:27:56

Eduard
28.09.2018
09:28:01
что-то я совсем запутался

Google

Евгений
28.09.2018
09:28:15
Как встроить бустец на витринке из 5к полей в ваши вертики?
В спарке пишем pandas udf за полдня - и готово

Andrey
28.09.2018
09:28:56

Старый
28.09.2018
09:29:43

Vladislav
28.09.2018
09:29:51
выбирайте

Евгений
28.09.2018
09:29:52

Andrey
28.09.2018
09:43:46

Евгений
28.09.2018
09:44:43
Ну, потому что они тупо бывает не переводятся на ту базу данных, к которой идёт обращение
Хотя могли бы и допилить уже хотя бы лимит-то)

Alexander
28.09.2018
09:55:50

Andrey
28.09.2018
09:59:57

Andrew
28.09.2018
10:02:00
Никто не сталкивался с копированием файлов с HDFS на S3? При попытке использовать команду:
hadoop distcp hdfs://IP:50070/dir/file s3://key:secret@backet_name/data
ошибка
Caused by: org.apache.hadoop.ipc.RpcException: RPC response exceeds maximum data length
пытался менять в core-site.xml значения ipc.maximum.data.length - не помогает.

Alexander
28.09.2018
10:02:49

Eduard
28.09.2018
10:47:20

Andrew
28.09.2018
10:48:07
спарк имееться ?

Alexey
28.09.2018
10:50:29
спарк (имееться)