
Alex
18.10.2018
13:10:23

KrivdaAllStars
18.10.2018
13:10:27

Alex
18.10.2018
13:11:47
а вообще держи ссылку, действительно тут hbase уже какой лучше зайдет, плюс под это дело были и оптимизации у них
https://www.cloudera.com/documentation/enterprise/5-13-x/topics/admin_hbase_mob.html

Google

Alex
18.10.2018
13:12:18
они по минимуму compaction хоняют по указанным колумнфэмили, то есть лишний раз читать-писать не должно
http://blog.cloudera.com/blog/2017/06/introducing-apache-hbase-medium-object-storage-mob-compaction-partition-policies/
в качестве ключа используй твой же хеш и все дела

Ruslan
18.10.2018
14:58:34
Всем привет. Нужен хадуп админ. https://m.hh.ru/vacancy/26937652
Основные требования - hadoop. Плюсом - oracle.
Вопросы тут или в личку

Mironiken
18.10.2018
15:36:04
>Hadoop in the Enterprise: Architecture
Версия 18го года сильно отличается от 17?

Grigory
18.10.2018
15:36:42

KrivdaAllStars
18.10.2018
15:37:19
не уверен что сильно отличается

Mironiken
18.10.2018
16:13:07
18 в свободном доступе прост не нашел

KrivdaAllStars
18.10.2018
16:20:49
ну сафарибукс

Рамиль
18.10.2018
16:37:58

Mitya
19.10.2018
07:31:56
Коллеги, всем привет!
Расскажите, есть ли опыт использования инструментов Data Quality. Типа SAS DQ, IBM Data Quality Server, Informatica DQ, Collibra, Ataccama
Буду признателен за отзывыв, особенно по двум последним

Google

Sergii
19.10.2018
07:50:23
У меня знакомый работает в Ataccama, говорит что они лучшие в DQ :)

Alexander
19.10.2018
07:54:58
Collibra тоже нормальная, у клиента некоторые регионы используют.

Nikita Blagodarnyy
19.10.2018
08:39:28
Informatica юзал

Vladimir
19.10.2018
09:55:55
Привет всем!
Тут спрашивали про Data Quality инструменты, и я вот как раз отвечаю за развитие в сфере DQ for Big Data & Data Integration в пражском офисе Ataccama (у нас ещё ещё Московский офис есть, но там только консультанты работают, разработка вся в Праге)
Мы сотрудничаем с Collibra кстати, у них фокус больше на Metadata Managemnt/Data Catalog, DQ у них появилось только недавно и довольно простое.
Очень часто бывает что они сами нас зовут к своим клиентам чтоб мы DQ делали для них. А мы в Ataccama как раз таки очень хардкорный и пластичный DQ изначально были (ещё по Master Data Mangement очень хорошо идём, и вот недавно вышли на рынок с Data Catalog&Discovery / Big Data Integration решениями)
Буду рад ответить на вопросы!

Alexander
19.10.2018
10:01:29

Vladimir
19.10.2018
10:02:52
Да, и это в основном Data Catalog/Dictionary/Glossary/Reference Data

Nikita Blagodarnyy
19.10.2018
10:27:38
По моему опыту-большинство проверок/обеспечения качества данных это ручной самопис на основе каких-то бизнес правил.
Ни разу не встречал данные, к которым можно применить всякие инструменты вроде референс таблиц и дедупликаторов.

Alexander
19.10.2018
10:38:53
Прочитай внимательно. Речь о том, что есть Governance, есть DQ.
Да, DQ часто проще написать самим.

Лев
19.10.2018
10:48:22
Гайз привет.
А дайте ссылочку на сам вопрос
Тема оч интересна

Пётр
19.10.2018
10:53:46

Лев
19.10.2018
10:54:56
Спс

Nikita Blagodarnyy
19.10.2018
10:57:05

Alexander
19.10.2018
11:01:41

Nikolay
19.10.2018
11:07:18
Всем привет! А open source решения DQ ведь имеются если не самопис? Аналоги той же информатики?

Alexander
19.10.2018
11:11:44

Google

Nikolay
19.10.2018
11:12:30

Alexander
19.10.2018
11:15:02

Nikolay
19.10.2018
11:15:52

Alexander
19.10.2018
11:15:53
Но он платный в функциональных сборках, хоть и Open Source.

Nikolay
19.10.2018
11:16:42

Nikita Blagodarnyy
19.10.2018
11:24:50
А можно поподробней насчёт самописа?
Ну если вам, например, надо сверить ваше хранилище с данными бухгалтерского баланса, которые формируется в OLTP системе, вам тут DQ не помощник.
То же самое-если, например, в данных не пришёл какой-то показатель (например, сумма чека) и его надо вычислить из других (стоимость товара*количество) .
Инструменты DQ-это из разряда "проверь правило и распили потоки данных на нормальные и говноданные".
Или все адреса нормализуй.
Короче, не совсем то DQ, которое обычно бизнес хочет.

Nikolay
19.10.2018
11:28:33

Nikita Blagodarnyy
19.10.2018
11:30:56
Не очень понял.

Nikolay
19.10.2018
11:31:50
Скажем, мы вот, как вариант, думаем заюзать Airflow и в пайплайн встроить шаги по проверке данных, затем результат, например, пишем в базенку и рассылка отчета
ну это прям в лоб
встроить в DAG

Nikita Blagodarnyy
19.10.2018
11:33:08
Тож вариант.

Vladimir
19.10.2018
11:41:23
Не советую думать о Talend как о open source продукте, да для какого-нить айти стартапа оно может подойти, но энтерпрайзу он совсем не подходит. Без платного саппорта сделать чтот невозможно будет

Nikita Blagodarnyy
19.10.2018
11:47:46

Alexander
19.10.2018
11:53:58

Google

Vladislav
19.10.2018
11:57:20

Nikita Blagodarnyy
19.10.2018
11:58:03
Только самопис, только хардкор.

Vladislav
19.10.2018
11:58:11
есть костыли, как это обойти, но проще использовать пентаху

Nikolay
19.10.2018
12:07:07

Vladimir
19.10.2018
12:24:24

Sergii
19.10.2018
12:35:18

Sergey
19.10.2018
12:38:03

Sergii
19.10.2018
12:41:15

Stanislav
19.10.2018
12:41:16

Nikita Blagodarnyy
19.10.2018
12:41:30
Luigi?

Sergii
19.10.2018
12:42:50
Luigi?
У него не было своего планировщика, появился?

Nikita Blagodarnyy
19.10.2018
12:43:31
ХЗ. Давно не смотрел в ту сторону.
Граждане-кафкианцы. Поделитесь плиз опытом, как её ставили. На датанадоы Ходупа? Сколько узлов?

Sergii
19.10.2018
12:45:17

Vladimir
19.10.2018
12:45:35

Sergii
19.10.2018
12:45:52

Vladimir
19.10.2018
12:45:58
видимо потому что модно и МЫ ТОЖЕ ЭТО УМЕЕМ
У всех наших клиентов кафки всегда отдельно стоят

Google

Alex
19.10.2018
12:46:44
А так и даталокалити получаешь пр работе спарком

Stanislav
19.10.2018
12:50:11
С другой стороны, количество компонентов в составе хортона зашкаливает за 3 десятка. Одним больше, одним меньше

Vladimir
19.10.2018
12:51:35
ну так это открывать фаервол на хадуп кластер для любой апликации которая хочет в кафку писать.
кафка как раз таки должна быть между хадупом и апликациями
не думаю что data locality играет серьёзную роль честно говоря, есть какие-то тесты?

Nikita Blagodarnyy
19.10.2018
12:53:46
Мне предстоит ~1000 миниJSON в секунду как-то обрабатывать, вот пытаюсь придумать архитектуру.

Stanislav
19.10.2018
12:53:49

Vladimir
19.10.2018
12:53:50
как я всё это вижу, то на data locality все уже давно особо забыли, в клауде на hdfs с дата локалити не так важен, все хранят данные в С3/Азуре

Nikita Blagodarnyy
19.10.2018
12:54:09
До этого со стримом ниалё.

Vladimir
19.10.2018
12:54:35
У нас был один заказчик у которого прод кластер был разделен на два обособленных. Один чисто HDFS, а на другом только спарк

Рамиль
19.10.2018
12:55:15

Vladimir
19.10.2018
12:55:16
говорят что безопасность удобнее, но мы конечно на них смотрели с подозрительными глазами

Рамиль
19.10.2018
12:55:20
ну это как одно из

Alex
19.10.2018
12:56:08
Да, я понимаю, поэтому видео разные деплойменты
Если только пару раз прочитать из кафки то обычно отдельно
А если стриминг прочитали отрроцессили записали обратно
И так многоступенчато, то обычно рядом

Stanislav
19.10.2018
12:57:39