
Roman
16.11.2016
10:56:38
Просто на сколько я понимаю сделать очень быстрые универсальные джойны крайне сложно. СОбственно, поэтому в КХ и добавлены словари.
Но если можно сделать гибридное DWH на КХ + универсальная релиционка для пролвинутой работы с таблицами атрибутов, которые в КХ загружаются в виде словарей — то почему бы так и не сделать.
Собственно, если у вас есть практический опыт именно с anchor моделированием, поясните, какие могут тут грабли быть?

Vladislav
16.11.2016
10:59:53
грабли одни, зачем мне гибридное DWH?

Google


Roman
16.11.2016
11:11:29
грабли одни, зачем мне гибридное DWH?
Если вам нужно положить много данных в DWH и при этом хотите использовать современный гибкий подход к моделированию, то я ПРЕДПОЛАГАЮ, что вы можете это сделать объединив КХ с какой-нибудь реляционкой рядом. Данных в этой релиционке много быть не должно, она будет чисто под "справчники". Поэтому для этой цели можно использовать все что угодно, даже коммерческие базы от крупных вендоров — их бесплатные/дешевые редакции. Если вы наладите ETL для импорта данных в КХ, то направить часть данных в эту побочную базу проблемы не соствит — в отличие от КХ вокруг этих баз уже есть зрелая инфраструктура. В общем, пугать такое "гибридное" DWH должно только менеджеров (ну как же, две разные технологии, которые наверное будут враждовать друг с другом — ой, боюсь, боюсь).
В общем это лишь мое ПРЕДПОЛОЖЕНИЕ, что таблицы фактов + словари в КХ с подсистемой хранения атрибутов в отдельной базе позволят воспользоваться преимуществами anchor уже сейчас. Если видите грабли в этом, поясните плиз.


Vladislav
16.11.2016
11:12:34
вы мне сейчас предлагает усложнить ETL на пустом месте, я уж молчу про факт наличия допольнительного ПО/железа и его администрирования и поддержки

Roman
16.11.2016
11:13:36

Vladislav
16.11.2016
11:14:19
плюшки не очевидны на фоне затрат

Roman
16.11.2016
11:14:54
я прикинул, что КХ c этой "левой" базой можно было бы положить на один сервер

Vladislav
16.11.2016
11:15:15
я это учел

Roman
16.11.2016
11:15:22
сам по себе ETL в КХ будет еще тот геморой ;)

Vladislav
16.11.2016
11:15:40
это отдельный ETL-процесс

Алексей
16.11.2016
11:16:01
Привет. Мне кажется anchor выгоден там, где нет времени-возможности-сил поступающие данные по слоям раскладывать. У Авито все что приходит, они тут же юзают. То есть идея у него - легко грузить данные. Но вот "легко анализировать", это не про anchor :)

Roman
16.11.2016
11:16:02
+ геморой сам по себе ETL для фомирования anchor сущностей — это геморой не зависит от выбора базы

Алексей
16.11.2016
11:16:28
в том же Авито мы их консультировали, под сотню джойнов в аналитических запросах
даже Вертике мало не казалось

Roman
16.11.2016
11:16:35

Google

Vladislav
16.11.2016
11:16:45

Алексей
16.11.2016
11:16:50
да там сплошные логи грузятся, да еще ЕТЛ на Питоне самописный
понятно им выгоднее получилось 6 форма

Vladislav
16.11.2016
11:17:14

Алексей
16.11.2016
11:17:23
а вы банк любой возьмите

Vladislav
16.11.2016
11:17:30

Алексей
16.11.2016
11:17:31
там каждая система источник десятки сущностей имеет
и источников тоже десятки
у нас в йоте более тысячи таблиц
исходные данные плюс витрины
и это даже мало, 70 тб ограничение, не влазит все, через хайв еще им жуем и выплеваем результаты
в телекоме если начать собирать ту же сетевую статистику для анализа работы сети сущностей тоже вполне себе на каждого вендора технологию

Vladislav
16.11.2016
11:19:00
у меня на текущий момент 5 крупных биллингов, начиная от всякого древнего говна, заканчивая самописными, 2 крупных компании и десятки мелких, плюс агенты и аренда каналов

Алексей
16.11.2016
11:19:18
биллинг в йоте это маленькая часть от всех сущностей, "копейки" :)

Vladislav
16.11.2016
11:19:44
а я и не спорю на эту тему
что вас смущает?

Dmitry
16.11.2016
11:19:49
биллинг - компактый достаточно :)

Vladislav
16.11.2016
11:19:59

Dmitry
16.11.2016
11:20:04
вот CRM, FM, PM, OMS/OFM, TT - там да

Vladislav
16.11.2016
11:20:25
а я написал количество компаний

Google

Vladislav
16.11.2016
11:20:28
умножайте

Алексей
16.11.2016
11:20:30
ну мы им биллинг весь грузим, через ОГГ с Оракла снимаем все изменения таблиц и один в один реплицируем в Вертику

Dmitry
16.11.2016
11:20:36
и NRI
ну а чего умножать

Алексей
16.11.2016
11:20:51
но тут вот про Anchor - в таких вот ХД от него мне кажется вреда чем пользы больше

Vladislav
16.11.2016
11:21:27

Dmitry
16.11.2016
11:21:27
процентовка биллинговой информации в BI - далеко не самая большая

Алексей
16.11.2016
11:21:41
по жизни проблема - легко грузить или потом легко анализировать, что важнее :)

Dmitry
16.11.2016
11:21:49
это еще если не учитывать, что могут слить netflow
или логи с платформы IPTV

Алексей
16.11.2016
11:22:09
и это все в Йоте грузится :)

Vladislav
16.11.2016
11:22:17

Алексей
16.11.2016
11:22:19
все до чего доступ есть

Vladislav
16.11.2016
11:22:43

Dmitry
16.11.2016
11:22:44
сразу описывать и фиксировать все сущности - не один год займет

Vladislav
16.11.2016
11:22:51
поэтому Anchor

Алексей
16.11.2016
11:23:00

Dmitry
16.11.2016
11:23:09
ой ли

Vladislav
16.11.2016
11:23:09

Google

Алексей
16.11.2016
11:23:30
набор сущностей фиксирован

Dmitry
16.11.2016
11:23:34
есть у меня не один пример, как эти самые сущности на ходу менялись

Fike
16.11.2016
11:23:36
не всегда

Алексей
16.11.2016
11:23:39
набор их атрибутов плавает, в порядке вещей
какие проблемы то ?

Dmitry
16.11.2016
11:23:45
пока другие ребята пытались модель данных описать

Алексей
16.11.2016
11:24:08
ну вот это все мое мнение из разряда "правильная архитектура"

Vladislav
16.11.2016
11:24:18
набор сущностей фиксирован
я рад, что у вас в йоте отлично все фиксировано, а вот у нас все очень грустно и печально, до такой степени, что даже в рамках одного биллинга две разные услуги считаются в разных сущностях

Dmitry
16.11.2016
11:24:31
из наших систем кусочек был не большой, конечно, но мы умудрились несколько технологически новых услуг запустить
пока все описывали

Roman
16.11.2016
11:25:00
Подхождите спорить, фиксирован или не фиксирован набор сущностей — вопрос — о каких сущностях идет речь? Сущности из источников или сущностях DWH, которые мы из имеющихся источников сочиняем?

Алексей
16.11.2016
11:25:07
вот я о том же
в DWH сущности фиксированы

Dmitry
16.11.2016
11:25:22
Только в нашем МРФ биллингов было штук 5 крупных
ну и мелочь

Алексей
16.11.2016
11:25:29
а источников в стайдж слой можно сколько угодно и как угодно добавлять

Roman
16.11.2016
11:25:36
Вот Anchor он делает DWH устойчивым (гибким - гнется а не ломается) по отношению к каким изменениям?

Dmitry
16.11.2016
11:25:46
причем во время описания модели вовсю лишние биллинги выпиливали

Vladislav
16.11.2016
11:25:52
в DWH сущности фиксированы
Фиксированы до момента, пока соответсвуют описанию бизнес-логики, ну и добавление новых никто не отменял

Roman
16.11.2016
11:25:56
Изменениям источников или наших хотелок по анализу?

Google

Алексей
16.11.2016
11:26:04
он позволяет вместо того чтобы проанализировать и подумать, сразу все грузить, "а уж потом думать"
фактически это форма грузить все не ломая голову

Виктор
16.11.2016
11:26:31
Друзья, я прошу потихоньку сворачивать дискуссию про разные DWH и прочие способы хранить данные

Dmitry
16.11.2016
11:26:37
зато потом ломать голову на сборке?

Vladislav
16.11.2016
11:26:43

Алексей
16.11.2016
11:26:45
предлагаю эту тему вынести куда нибудь

Виктор
16.11.2016
11:27:04
Если хочется обсуждать дальше, сформируйте отдельный чат себе

Алексей
16.11.2016
11:27:07
в @dba_ru

Vladislav
16.11.2016
11:27:28
В общем, по теме, мне интересно, будет ли CH нормально поддерживать JOIN'ы

Dmitry
16.11.2016
11:27:30
Если интересно, то по совету коллек мы для нашего FM/PM зацепили из CH внешние словари из монги

Vladislav
16.11.2016
11:27:36

Алексей
16.11.2016
11:27:54

Dmitry
16.11.2016
11:28:03
доработка ETL была относительно простая

Evgeniy
16.11.2016
13:46:45
мужики, оконные функции и rank() будет/есть?

Roman
16.11.2016
16:03:30
@the_real_jkee вы планируете опубликовать какой-нибудь roadmap или хотя бы список горячих фич над которыми вы работаете? конечно, без гарантий, все ж понимаем, но ориентиры хотелось бы видеть

Dmitry
16.11.2016
16:18:19
https://events.yandex.ru/events/yagosti/21-november-2016/
Создатели системы ответят на вопросы, расскажут о последних изменениях и предстоящих обновлениях

Evgeniy
16.11.2016
16:21:19
трансляция/запись для замкадышей будет?

Виктор
16.11.2016
16:25:30
Планируем опубликовать, да