@hadoopusers

Страница 171 из 182
Alex
18.10.2018
13:10:23
Тут скорее какой-нибудь hadoop ozone больше бы подошел, но он в глубокой разработке всё еще:(
тоже про него подумал, но его только вроде хортон хоть в каком-то виде у себя выкатил, клоудера и не близко

KrivdaAllStars
18.10.2018
13:10:27


Alex
18.10.2018
13:11:47
а вообще держи ссылку, действительно тут hbase уже какой лучше зайдет, плюс под это дело были и оптимизации у них

https://www.cloudera.com/documentation/enterprise/5-13-x/topics/admin_hbase_mob.html

Google
Alex
18.10.2018
13:12:18
они по минимуму compaction хоняют по указанным колумнфэмили, то есть лишний раз читать-писать не должно

http://blog.cloudera.com/blog/2017/06/introducing-apache-hbase-medium-object-storage-mob-compaction-partition-policies/

в качестве ключа используй твой же хеш и все дела

Ruslan
18.10.2018
14:58:34
Всем привет. Нужен хадуп админ. https://m.hh.ru/vacancy/26937652

Основные требования - hadoop. Плюсом - oracle.

Вопросы тут или в личку

Mironiken
18.10.2018
15:36:04
>Hadoop in the Enterprise: Architecture Версия 18го года сильно отличается от 17?

Grigory
18.10.2018
15:36:42
>Hadoop in the Enterprise: Architecture Версия 18го года сильно отличается от 17?
ну если тру ентерпрайз то должно быть одно и тоже @krivdathetriewe

KrivdaAllStars
18.10.2018
15:37:19
не уверен что сильно отличается

Mironiken
18.10.2018
16:13:07
18 в свободном доступе прост не нашел

KrivdaAllStars
18.10.2018
16:20:49
ну сафарибукс

Mitya
19.10.2018
07:31:56
Коллеги, всем привет! Расскажите, есть ли опыт использования инструментов Data Quality. Типа SAS DQ, IBM Data Quality Server, Informatica DQ, Collibra, Ataccama Буду признателен за отзывыв, особенно по двум последним

Google
Sergii
19.10.2018
07:50:23
У меня знакомый работает в Ataccama, говорит что они лучшие в DQ :)

Alexander
19.10.2018
07:54:58
Collibra тоже нормальная, у клиента некоторые регионы используют.

Nikita Blagodarnyy
19.10.2018
08:39:28
Informatica юзал

Vladimir
19.10.2018
09:55:55
Привет всем! Тут спрашивали про Data Quality инструменты, и я вот как раз отвечаю за развитие в сфере DQ for Big Data & Data Integration в пражском офисе Ataccama (у нас ещё ещё Московский офис есть, но там только консультанты работают, разработка вся в Праге) Мы сотрудничаем с Collibra кстати, у них фокус больше на Metadata Managemnt/Data Catalog, DQ у них появилось только недавно и довольно простое. Очень часто бывает что они сами нас зовут к своим клиентам чтоб мы DQ делали для них. А мы в Ataccama как раз таки очень хардкорный и пластичный DQ изначально были (ещё по Master Data Mangement очень хорошо идём, и вот недавно вышли на рынок с Data Catalog&Discovery / Big Data Integration решениями) Буду рад ответить на вопросы!

Vladimir
19.10.2018
10:02:52
Да, и это в основном Data Catalog/Dictionary/Glossary/Reference Data

Nikita Blagodarnyy
19.10.2018
10:27:38
По моему опыту-большинство проверок/обеспечения качества данных это ручной самопис на основе каких-то бизнес правил.

Ни разу не встречал данные, к которым можно применить всякие инструменты вроде референс таблиц и дедупликаторов.

Alexander
19.10.2018
10:38:53
Прочитай внимательно. Речь о том, что есть Governance, есть DQ.

Да, DQ часто проще написать самим.

Лев
19.10.2018
10:48:22
Гайз привет.

А дайте ссылочку на сам вопрос

Тема оч интересна

Лев
19.10.2018
10:54:56
Спс

Nikita Blagodarnyy
19.10.2018
10:57:05


Alexander
19.10.2018
11:01:41
Nikolay
19.10.2018
11:07:18
Всем привет! А open source решения DQ ведь имеются если не самопис? Аналоги той же информатики?

Google
Nikolay
19.10.2018
11:12:30
Talend
Вы его используете?

Alexander
19.10.2018
11:15:02
Вы его используете?
PoC делали, сейчас нет, пишем сами

Nikolay
19.10.2018
11:15:52
PoC делали, сейчас нет, пишем сами
Мы сейчас на этапе выбора, в какую сторону идти.

Alexander
19.10.2018
11:15:53
Но он платный в функциональных сборках, хоть и Open Source.

Nikolay
19.10.2018
11:16:42
PoC делали, сейчас нет, пишем сами
А можно поподробней насчёт самописа?

Nikita Blagodarnyy
19.10.2018
11:24:50
А можно поподробней насчёт самописа?
Ну если вам, например, надо сверить ваше хранилище с данными бухгалтерского баланса, которые формируется в OLTP системе, вам тут DQ не помощник.

То же самое-если, например, в данных не пришёл какой-то показатель (например, сумма чека) и его надо вычислить из других (стоимость товара*количество) .

Инструменты DQ-это из разряда "проверь правило и распили потоки данных на нормальные и говноданные".

Или все адреса нормализуй.

Короче, не совсем то DQ, которое обычно бизнес хочет.

Nikita Blagodarnyy
19.10.2018
11:30:56
Не очень понял.

Nikolay
19.10.2018
11:31:50
Скажем, мы вот, как вариант, думаем заюзать Airflow и в пайплайн встроить шаги по проверке данных, затем результат, например, пишем в базенку и рассылка отчета

ну это прям в лоб

встроить в DAG

Nikita Blagodarnyy
19.10.2018
11:33:08
Тож вариант.

Vladimir
19.10.2018
11:41:23
Не советую думать о Talend как о open source продукте, да для какого-нить айти стартапа оно может подойти, но энтерпрайзу он совсем не подходит. Без платного саппорта сделать чтот невозможно будет

Ну если вам, например, надо сверить ваше хранилище с данными бухгалтерского баланса, которые формируется в OLTP системе, вам тут DQ не помощник.
Согласен, сталкивался с этим в некоторых Российских компаниях о том что понятие DQ понимается немного по другому. Попадались и всякие реконсиляции и нахождение циклов в графах у почтовых служб, и сверка правильности ETL процессов при переносе данных. Но в большинстве случаев справлялись со всеми запросами.

Alexander
19.10.2018
11:53:58
Мы сейчас на этапе выбора, в какую сторону идти.
Talend выходит очень дорогой для большой команды.

Google
Nikita Blagodarnyy
19.10.2018
11:58:03
Только самопис, только хардкор.

Vladislav
19.10.2018
11:58:11
есть костыли, как это обойти, но проще использовать пентаху

Nikolay
19.10.2018
12:07:07
Как вам Airflow в плане enterprise-ready?
Я думаю, вы и так знаете)) Мы же работаем вместе)))

Как вам Airflow в плане enterprise-ready?
Если честно, то пока норм. Порог вхождения не высокий.

Vladimir
19.10.2018
12:24:24
Инструменты DQ-это из разряда "проверь правило и распили потоки данных на нормальные и говноданные".
Я бы ещё к этом добавил что очень часто важна валидация данных, то есть понимать насколько эти данные хороши/плохи для анализа, нужно ли предпринимать какие-нибудь шаги для их очистки или же оставить все как есть. И конечно же это не один раз проверил качество и забыл, а нужно это делать постоянно, хотя бы раз в месяц чтоб аналитики могли следить за этим (просматривая всякие графики)

Sergii
19.10.2018
12:35:18
Как вам Airflow в плане enterprise-ready?
Криво-косо, но стоит. Пайплайны писать одно удовольствие, отлаживать планировщик и пытаться понять куда пропал таск три дня назад - больно и неприятно :(

Sergii
19.10.2018
12:41:15
Nikita Blagodarnyy
19.10.2018
12:41:30
Luigi?

Sergii
19.10.2018
12:42:50
Luigi?
У него не было своего планировщика, появился?

Nikita Blagodarnyy
19.10.2018
12:43:31
ХЗ. Давно не смотрел в ту сторону.

Граждане-кафкианцы. Поделитесь плиз опытом, как её ставили. На датанадоы Ходупа? Сколько узлов?

Sergii
19.10.2018
12:45:17
Граждане-кафкианцы. Поделитесь плиз опытом, как её ставили. На датанадоы Ходупа? Сколько узлов?
Хм, у нас либо отдельно, либо на фронтенде. Потому что по архитектуре дата ноды спрятаны от внешнего мира великим фаерволом и ни один байтик напрямую не зайдет. 2 edge нода

Vladimir
19.10.2018
12:45:35
Граждане-кафкианцы. Поделитесь плиз опытом, как её ставили. На датанадоы Ходупа? Сколько узлов?
Кафка на датанодах это вообще что-то очень странное, я вооще не понимаю почему её стали включать в хадуп дистрибутивы

Sergii
19.10.2018
12:45:52
Целери?
Планируем попробовать)

Vladimir
19.10.2018
12:45:58
видимо потому что модно и МЫ ТОЖЕ ЭТО УМЕЕМ

У всех наших клиентов кафки всегда отдельно стоят

Google
Alex
19.10.2018
12:46:44
А так и даталокалити получаешь пр работе спарком

Stanislav
19.10.2018
12:50:11
С другой стороны, количество компонентов в составе хортона зашкаливает за 3 десятка. Одним больше, одним меньше

Vladimir
19.10.2018
12:51:35
ну так это открывать фаервол на хадуп кластер для любой апликации которая хочет в кафку писать.

кафка как раз таки должна быть между хадупом и апликациями

не думаю что data locality играет серьёзную роль честно говоря, есть какие-то тесты?

Nikita Blagodarnyy
19.10.2018
12:53:46
Мне предстоит ~1000 миниJSON в секунду как-то обрабатывать, вот пытаюсь придумать архитектуру.

Stanislav
19.10.2018
12:53:49
ну так это открывать фаервол на хадуп кластер для любой апликации которая хочет в кафку писать.
Никто не мешает в составе кластера держать вынесенные ноды с кафкой )

Vladimir
19.10.2018
12:53:50
как я всё это вижу, то на data locality все уже давно особо забыли, в клауде на hdfs с дата локалити не так важен, все хранят данные в С3/Азуре

Nikita Blagodarnyy
19.10.2018
12:54:09
До этого со стримом ниалё.

Vladimir
19.10.2018
12:54:35
У нас был один заказчик у которого прод кластер был разделен на два обособленных. Один чисто HDFS, а на другом только спарк

Рамиль
19.10.2018
12:55:15
А в чем проблема если датаноды и кафка используют разные диски?
в том что кафке нужна память под файловый кеш и дата нодам тоже нужна память для контейров ярна

Vladimir
19.10.2018
12:55:16
говорят что безопасность удобнее, но мы конечно на них смотрели с подозрительными глазами

Рамиль
19.10.2018
12:55:20
ну это как одно из

Alex
19.10.2018
12:56:08
Да, я понимаю, поэтому видео разные деплойменты

Если только пару раз прочитать из кафки то обычно отдельно

А если стриминг прочитали отрроцессили записали обратно

И так многоступенчато, то обычно рядом

Страница 171 из 182