@hadoopusers

« Назад

Страница 171 из 182

Далее »

Alex

18.10.2018
13:10:23

Тут скорее какой-нибудь hadoop ozone больше бы подошел, но он в глубокой разработке всё еще:(

тоже про него подумал, но его только вроде хортон хоть в каком-то виде у себя выкатил, клоудера и не близко

KrivdaAllStars

18.10.2018
13:10:27

Alex

18.10.2018
13:11:47

а вообще держи ссылку, действительно тут hbase уже какой лучше зайдет, плюс под это дело были и оптимизации у них

https://www.cloudera.com/documentation/enterprise/5-13-x/topics/admin_hbase_mob.html

Google

Alex

18.10.2018
13:12:18

они по минимуму compaction хоняют по указанным колумнфэмили, то есть лишний раз читать-писать не должно

http://blog.cloudera.com/blog/2017/06/introducing-apache-hbase-medium-object-storage-mob-compaction-partition-policies/

в качестве ключа используй твой же хеш и все дела

Ruslan

18.10.2018
14:58:34

Всем привет. Нужен хадуп админ. https://m.hh.ru/vacancy/26937652

Основные требования - hadoop. Плюсом - oracle.

Вопросы тут или в личку

Mironiken

18.10.2018
15:36:04

>Hadoop in the Enterprise: Architecture Версия 18го года сильно отличается от 17?

Grigory

18.10.2018
15:36:42

>Hadoop in the Enterprise: Architecture Версия 18го года сильно отличается от 17?

ну если тру ентерпрайз то должно быть одно и тоже @krivdathetriewe

KrivdaAllStars

18.10.2018
15:37:19

не уверен что сильно отличается

Mironiken

18.10.2018
16:13:07

18 в свободном доступе прост не нашел

KrivdaAllStars

18.10.2018
16:20:49

ну сафарибукс

Рамиль

18.10.2018
16:37:58

Всем. привет. Есть какие-то бест-практис касательно бекапов данных хранимых в hdfs? Там просто оченьго много мельких файлов, сейчас уже почти 500к, а будет больше. Если делать distcp на S3 это очень медленно, примерно 1000 файлов в час. Крайне неприемлемая скорость.

снепшоты норм тема, для бекапов.

Mitya

19.10.2018
07:31:56

Коллеги, всем привет! Расскажите, есть ли опыт использования инструментов Data Quality. Типа SAS DQ, IBM Data Quality Server, Informatica DQ, Collibra, Ataccama Буду признателен за отзывыв, особенно по двум последним

Google

Sergii

19.10.2018
07:50:23

У меня знакомый работает в Ataccama, говорит что они лучшие в DQ :)

Alexander

19.10.2018
07:54:58

Collibra тоже нормальная, у клиента некоторые регионы используют.

Nikita Blagodarnyy

19.10.2018
08:39:28

Informatica юзал

Vladimir

19.10.2018
09:55:55

Привет всем! Тут спрашивали про Data Quality инструменты, и я вот как раз отвечаю за развитие в сфере DQ for Big Data & Data Integration в пражском офисе Ataccama (у нас ещё ещё Московский офис есть, но там только консультанты работают, разработка вся в Праге) Мы сотрудничаем с Collibra кстати, у них фокус больше на Metadata Managemnt/Data Catalog, DQ у них появилось только недавно и довольно простое. Очень часто бывает что они сами нас зовут к своим клиентам чтоб мы DQ делали для них. А мы в Ataccama как раз таки очень хардкорный и пластичный DQ изначально были (ещё по Master Data Mangement очень хорошо идём, и вот недавно вышли на рынок с Data Catalog&Discovery / Big Data Integration решениями) Буду рад ответить на вопросы!

Alexander

19.10.2018
10:01:29

Привет всем! Тут спрашивали про Data Quality инструменты, и я вот как раз отвечаю за развитие в сфере DQ for Big Data & Data Integration в пражском офисе Ataccama (у нас ещё ещё Московский офис есть, но там только консультанты работают, разработка вся в Праге) Мы сотрудничаем с Collibra кстати, у них фокус больше на Metadata Managemnt/Data Catalog, DQ у них появилось только недавно и довольно простое. Очень часто бывает что они сами нас зовут к своим клиентам чтоб мы DQ делали для них. А мы в Ataccama как раз таки очень хардкорный и пластичный DQ изначально были (ещё по Master Data Mangement очень хорошо идём, и вот недавно вышли на рынок с Data Catalog&Discovery / Big Data Integration решениями) Буду рад ответить на вопросы!

+ У Collibra упор на Governance.

Vladimir

19.10.2018
10:02:52

Да, и это в основном Data Catalog/Dictionary/Glossary/Reference Data

Nikita Blagodarnyy

19.10.2018
10:27:38

По моему опыту-большинство проверок/обеспечения качества данных это ручной самопис на основе каких-то бизнес правил.

Ни разу не встречал данные, к которым можно применить всякие инструменты вроде референс таблиц и дедупликаторов.

Alexander

19.10.2018
10:38:53

Прочитай внимательно. Речь о том, что есть Governance, есть DQ.

Да, DQ часто проще написать самим.

Лев

19.10.2018
10:48:22

Гайз привет.

А дайте ссылочку на сам вопрос

Тема оч интересна

Пётр

19.10.2018
10:53:46

Коллеги, всем привет! Расскажите, есть ли опыт использования инструментов Data Quality. Типа SAS DQ, IBM Data Quality Server, Informatica DQ, Collibra, Ataccama Буду признателен за отзывыв, особенно по двум последним

@lev_ragulin

Лев

19.10.2018
10:54:56

Спс

Nikita Blagodarnyy

19.10.2018
10:57:05

Прочитай внимательно. Речь о том, что есть Governance, есть DQ.

Про DQ изначально и спрашивали

Alexander

19.10.2018
11:01:41

Да, и это в основном Data Catalog/Dictionary/Glossary/Reference Data

А это уже Governance

Nikolay

19.10.2018
11:07:18

Всем привет! А open source решения DQ ведь имеются если не самопис? Аналоги той же информатики?

Alexander

19.10.2018
11:11:44

Всем привет! А open source решения DQ ведь имеются если не самопис? Аналоги той же информатики?

Talend

Google

Nikolay

19.10.2018
11:12:30

Talend

Вы его используете?

Alexander

19.10.2018
11:15:02

Вы его используете?

PoC делали, сейчас нет, пишем сами

Nikolay

19.10.2018
11:15:52

PoC делали, сейчас нет, пишем сами

Мы сейчас на этапе выбора, в какую сторону идти.

Alexander

19.10.2018
11:15:53

Но он платный в функциональных сборках, хоть и Open Source.

Nikolay

19.10.2018
11:16:42

PoC делали, сейчас нет, пишем сами

А можно поподробней насчёт самописа?

Nikita Blagodarnyy

19.10.2018
11:24:50

А можно поподробней насчёт самописа?

Ну если вам, например, надо сверить ваше хранилище с данными бухгалтерского баланса, которые формируется в OLTP системе, вам тут DQ не помощник.

То же самое-если, например, в данных не пришёл какой-то показатель (например, сумма чека) и его надо вычислить из других (стоимость товара*количество) .

Инструменты DQ-это из разряда "проверь правило и распили потоки данных на нормальные и говноданные".

Или все адреса нормализуй.

Короче, не совсем то DQ, которое обычно бизнес хочет.

Nikolay

19.10.2018
11:28:33

Ну если вам, например, надо сверить ваше хранилище с данными бухгалтерского баланса, которые формируется в OLTP системе, вам тут DQ не помощник.

Наверное не бизнес логика, а платформа или подход.

Nikita Blagodarnyy

19.10.2018
11:30:56

Не очень понял.

Nikolay

19.10.2018
11:31:50

Скажем, мы вот, как вариант, думаем заюзать Airflow и в пайплайн встроить шаги по проверке данных, затем результат, например, пишем в базенку и рассылка отчета

ну это прям в лоб

встроить в DAG

Nikita Blagodarnyy

19.10.2018
11:33:08

Тож вариант.

Vladimir

19.10.2018
11:41:23

Не советую думать о Talend как о open source продукте, да для какого-нить айти стартапа оно может подойти, но энтерпрайзу он совсем не подходит. Без платного саппорта сделать чтот невозможно будет

Ну если вам, например, надо сверить ваше хранилище с данными бухгалтерского баланса, которые формируется в OLTP системе, вам тут DQ не помощник.

Согласен, сталкивался с этим в некоторых Российских компаниях о том что понятие DQ понимается немного по другому. Попадались и всякие реконсиляции и нахождение циклов в графах у почтовых служб, и сверка правильности ETL процессов при переносе данных. Но в большинстве случаев справлялись со всеми запросами.

Nikita Blagodarnyy

19.10.2018
11:47:46

Скажем, мы вот, как вариант, думаем заюзать Airflow и в пайплайн встроить шаги по проверке данных, затем результат, например, пишем в базенку и рассылка отчета

Как вам Airflow в плане enterprise-ready?

Alexander

19.10.2018
11:53:58

Мы сейчас на этапе выбора, в какую сторону идти.

Talend выходит очень дорогой для большой команды.

Google

Vladislav

19.10.2018
11:57:20

Talend выходит очень дорогой для большой команды.

pentaho удобнее

Nikita Blagodarnyy

19.10.2018
11:58:03

Только самопис, только хардкор.

Vladislav

19.10.2018
11:58:11

Не советую думать о Talend как о open source продукте, да для какого-нить айти стартапа оно может подойти, но энтерпрайзу он совсем не подходит. Без платного саппорта сделать чтот невозможно будет

можно, но CE версия подразумевает разработку только в одно лицо

есть костыли, как это обойти, но проще использовать пентаху

Nikolay

19.10.2018
12:07:07

Как вам Airflow в плане enterprise-ready?

Я думаю, вы и так знаете)) Мы же работаем вместе)))

Как вам Airflow в плане enterprise-ready?

Если честно, то пока норм. Порог вхождения не высокий.

Vladimir

19.10.2018
12:24:24

Инструменты DQ-это из разряда "проверь правило и распили потоки данных на нормальные и говноданные".

Я бы ещё к этом добавил что очень часто важна валидация данных, то есть понимать насколько эти данные хороши/плохи для анализа, нужно ли предпринимать какие-нибудь шаги для их очистки или же оставить все как есть. И конечно же это не один раз проверил качество и забыл, а нужно это делать постоянно, хотя бы раз в месяц чтоб аналитики могли следить за этим (просматривая всякие графики)

Sergii

19.10.2018
12:35:18

Как вам Airflow в плане enterprise-ready?

Криво-косо, но стоит. Пайплайны писать одно удовольствие, отлаживать планировщик и пытаться понять куда пропал таск три дня назад - больно и неприятно :(

Sergey

19.10.2018
12:38:03

Криво-косо, но стоит. Пайплайны писать одно удовольствие, отлаживать планировщик и пытаться понять куда пропал таск три дня назад - больно и неприятно :(

альтернативу видите?

Sergii

19.10.2018
12:41:15

альтернативу видите?

Stanislav

19.10.2018
12:41:16

Криво-косо, но стоит. Пайплайны писать одно удовольствие, отлаживать планировщик и пытаться понять куда пропал таск три дня назад - больно и неприятно :(

Целери?

Nikita Blagodarnyy

19.10.2018
12:41:30

Luigi?

Sergii

19.10.2018
12:42:50

Luigi?

У него не было своего планировщика, появился?

Nikita Blagodarnyy

19.10.2018
12:43:31

ХЗ. Давно не смотрел в ту сторону.

Граждане-кафкианцы. Поделитесь плиз опытом, как её ставили. На датанадоы Ходупа? Сколько узлов?

Sergii

19.10.2018
12:45:17

Граждане-кафкианцы. Поделитесь плиз опытом, как её ставили. На датанадоы Ходупа? Сколько узлов?

Хм, у нас либо отдельно, либо на фронтенде. Потому что по архитектуре дата ноды спрятаны от внешнего мира великим фаерволом и ни один байтик напрямую не зайдет. 2 edge нода

Vladimir

19.10.2018
12:45:35

Граждане-кафкианцы. Поделитесь плиз опытом, как её ставили. На датанадоы Ходупа? Сколько узлов?

Кафка на датанодах это вообще что-то очень странное, я вооще не понимаю почему её стали включать в хадуп дистрибутивы

Sergii

19.10.2018
12:45:52

Целери?

Планируем попробовать)

Vladimir

19.10.2018
12:45:58

видимо потому что модно и МЫ ТОЖЕ ЭТО УМЕЕМ

У всех наших клиентов кафки всегда отдельно стоят

Google

Alex

19.10.2018
12:46:44

Кафка на датанодах это вообще что-то очень странное, я вооще не понимаю почему её стали включать в хадуп дистрибутивы

А в чем проблема если датаноды и кафка используют разные диски?

А так и даталокалити получаешь пр работе спарком

Stanislav

19.10.2018
12:50:11

Кафка на датанодах это вообще что-то очень странное, я вооще не понимаю почему её стали включать в хадуп дистрибутивы

Потому что спарк-стриминг же

С другой стороны, количество компонентов в составе хортона зашкаливает за 3 десятка. Одним больше, одним меньше

Vladimir

19.10.2018
12:51:35

ну так это открывать фаервол на хадуп кластер для любой апликации которая хочет в кафку писать.

кафка как раз таки должна быть между хадупом и апликациями

не думаю что data locality играет серьёзную роль честно говоря, есть какие-то тесты?

Nikita Blagodarnyy

19.10.2018
12:53:46

Мне предстоит ~1000 миниJSON в секунду как-то обрабатывать, вот пытаюсь придумать архитектуру.

Stanislav

19.10.2018
12:53:49

ну так это открывать фаервол на хадуп кластер для любой апликации которая хочет в кафку писать.

Никто не мешает в составе кластера держать вынесенные ноды с кафкой )

Vladimir

19.10.2018
12:53:50

как я всё это вижу, то на data locality все уже давно особо забыли, в клауде на hdfs с дата локалити не так важен, все хранят данные в С3/Азуре

Nikita Blagodarnyy

19.10.2018
12:54:09

До этого со стримом ниалё.

Vladimir

19.10.2018
12:54:35

У нас был один заказчик у которого прод кластер был разделен на два обособленных. Один чисто HDFS, а на другом только спарк

Рамиль

19.10.2018
12:55:15

А в чем проблема если датаноды и кафка используют разные диски?

в том что кафке нужна память под файловый кеш и дата нодам тоже нужна память для контейров ярна

Vladimir

19.10.2018
12:55:16

говорят что безопасность удобнее, но мы конечно на них смотрели с подозрительными глазами

Рамиль

19.10.2018
12:55:20

ну это как одно из

Alex

19.10.2018
12:56:08

Да, я понимаю, поэтому видео разные деплойменты

Если только пару раз прочитать из кафки то обычно отдельно

А если стриминг прочитали отрроцессили записали обратно

И так многоступенчато, то обычно рядом

Stanislav

19.10.2018
12:57:39

в том что кафке нужна память под файловый кеш и дата нодам тоже нужна память для контейров ярна

Открыть в Telegram