@hadoopusers

Страница 12 из 182

KrivdaTheTriewe

13.06.2017
13:27:25

Господа, а кто использует Hue для спарка?

Вообще для sql использовать hive приятней. А ноутбуки я не настраивал, есть смысл офф доку по интеграцию ноутбука и спарка почитать, там вполне возможно нужно настраивать

Andrey

13.06.2017
14:14:40

Хортон в последнем апдейте заявил, что Hue c HDP 3.0 не будет поддерживаться

https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.6.1/bk_release-notes/content/deprecated_items.html

KrivdaTheTriewe

13.06.2017
14:15:39

Хортон в последнем апдейте заявил, что Hue c HDP 3.0 не будет поддерживаться

а что вместо него?

Google

Andrey

13.06.2017
14:16:03

Consider Ambari Views as the alternative (c)

KrivdaTheTriewe

13.06.2017
14:16:37

а вместо флюма?

Andrey

13.06.2017
14:16:41

видимо в какой то момент в амбари появится view для Oozie

NiFi

Точнее даже не просто NiFi, а отдельный кластер HDF

Aleksander

13.06.2017
14:54:54

Привет всем! Есть вопрос по hdfs, насколько быстрее писать в кластер хадупа? И быстрее ли это чем писать в монго? Нужно понимание

В монго я пишу голые данные, без доп индексов, кроме id

GNU/Patchouli

13.06.2017
14:55:46

Привет всем! Есть вопрос по hdfs, насколько быстрее писать в кластер хадупа? И быстрее ли это чем писать в монго? Нужно понимание

Насколько быстрее чем что?

HDFS достаточно нерасторопна

Aleksander

13.06.2017
14:56:06

Неправильно сформулировал

У меня сейчас есть проблема в записи в монгу большого набора данных. Упираюсь сильно, спасет ли меня выкидывание монги и запись тупо в hdfs данных

Alexander

13.06.2017
14:57:11

быстрее всего в /dev/null писать, что дальше с данными предполагается делать то? странно выбирать средство только по одному критерию...

Aleksander

13.06.2017
14:57:46

Обработка на кластере спарка, построение моделей машинного обучения

Google

Aleksander

13.06.2017
14:58:13

А так же чтение и вывод в веб приложение голых данных

Alexander

13.06.2017
15:01:06

может оказаться, что быстрее всего писать данные куда нибудь в kafka, а потом непосредственно выгребать их и обрабатывать из spark. но не зная откуда приходят данные, как часто, какими пачками, трудно что то определенное сказать... mongodb ведь не просто так изначально появилась?

Aleksander

13.06.2017
15:02:01

Просто так, я делал прототип. И не думал, что данных будет столько. Чтобы понимать, база данных растет на 20гб каждый день.

И это еще где-то 1/15 мощности

Alexander

13.06.2017
15:03:14

а насчет вывода данных в веб-приложение - если подразумевается куча adhoc запросов, оперирующих небольшим количеством данных, с произвольной фильтрацией, то ходить за ними в hdfs не самая лучшая идея...

Aleksander

13.06.2017
15:04:20

Как тогда сделать правильную архитектуру? Выбросить просто старые данные я тоже не могу, потому, что может потребоваться их показать на вебе

не зная откуда приходят данные, как часто, какими пачками - данные приходят с парсеров, которые парсят статистику с различных ресурсов, этот процесс постоянный. Какими пачками не знаю, но не очень большими, за день набегает суммарно 20 гб обработанной информации.

Alexander

13.06.2017
15:11:33

сложно сказать, не видя всей картины... тут уже скорее речь пойдет о каких то tradeoff'ах между мощностью доступного железа, потоком данных, архитектурой, возможностями системы. данные конечно при записи в hdfs можно пожать, если писать в orc/parquet, чем больше будет пачка данных тем лучше. все описанное немного напоминает идеальный случай для lambda архитектуры, но не уверен до конца. тем более что она не отвечает на вопрос про точный технологический стек

Aleksander

13.06.2017
15:11:34

С проблемой столкнулся такой, что запись в монгу сильно тормозит парсеры, и они не успевают за день охватить весь объем ресурсов

Alexander

13.06.2017
15:12:36

а даннные нативно в json формате? почему именно монга? возможно, стоить рассмотреть cassandra например? у нее с записью все лучше чем у монги, но хватает других моментов, которые могут не подойти

Aleksander

13.06.2017
15:13:25

Монга была выбрана для прототипа, т.к. я ее лучше знаю.

Grigory

13.06.2017
15:13:36

У меня сейчас есть проблема в записи в монгу большого набора данных. Упираюсь сильно, спасет ли меня выкидывание монги и запись тупо в hdfs данных

она не решабельная; можешь попробовать тайгер (если не пробовал) но он создает иллюзию решения

Aleksander

13.06.2017
15:13:45

С кассандрой работал меньше, да и то, на одном проекте она была в виде кеш хранилища.

Grigory

13.06.2017
15:13:57

какой продакшн размер средний банки будет?

Aleksander

13.06.2017
15:14:54

Средняя банка это что? Поясните, если можно =)

Типа характеристики ноды ?

Сейчас у меня под прототип 200 тб хранилище, одна тачка

В случае расширения - их закупят.

Grigory

13.06.2017
15:16:51

размер БД да)

мне кажется монга тут не вариант)

Google

Aleksander

13.06.2017
15:17:30

200 тб по идее. Но никто не посчитал ничего, заставили быстро писать прототип

KrivdaTheTriewe

13.06.2017
15:18:40

В разрезе чего тебе парсинг нужно делать. Если есть какая-то потоковость данных простым решением будет использовать спарк джобу которая агрегирует какой-то поток из MQ ( сам кладешь в кафку ) , делает первичную обработку, и сохранет в протобаф партицированный в нужном расширении.

Далее уже другая джоба ходит по партицированным табличкам и делает всё, что тебе нужно

Это если предполгается какой-то etl по этим данным сложный относительно

Ну и всё не сильно онлайново

Jury

13.06.2017
15:20:22

для записи, если исп. агрегация - можно redis-какой нибудь, если надо очень быстро записать, и периодически - сбрасывать в другое хранилище

KrivdaTheTriewe

13.06.2017
15:20:53

Ну тут размер пачки не определен, поэтому ин мемори , как мне кажется не подходит

придёт не 20 гигов , а 100 и всё умрет

Jury

13.06.2017
15:21:52

ну вдруг кластер есть )

ну или таки агрегировать сразу в redis

от задачи зависит

Aleksander

13.06.2017
15:22:25

Ну сейчас данные явно не приходят пачкой, а потоково =)

Jury

13.06.2017
15:23:09

раз потоково - вполне можно in-memory, и сбрасывать в другое хранилище по какому-то эмпирически подобранному правилу...

KrivdaTheTriewe

13.06.2017
15:24:35

Ну сейчас данные явно не приходят пачкой, а потоково =)

а поток на чём строится?

Aleksander

13.06.2017
15:30:15

Возможно, я не понимаю, вопроса =) В данном случае я имею в виду не передачу потоковых данных(видео, звука), а поток, что данные приходят небольшими кусками, по мере того, как парсеры успевают собирать статистику по площадкам и куда-нибудь ее запихнуть(они парсят постоянно). У меня пока нет никакой пока нормальной инфраструктуры(хочу ее собственно в эту сторону думать, иначе не справлюсь)

Jury

13.06.2017
15:32:58

надо заложить масштабирование... kafka или rabbitmq в помощь, как первый приемник, и далее уже куда-то еще

Aleksander

13.06.2017
15:34:35

А что случится, если я переполню kaffkу?

Данные будут поступать быстрее, чем их будут разгребать

KrivdaTheTriewe

13.06.2017
15:36:06

А что случится, если я переполню kaffkу?

не переполнишь

у нее всё конфигурируется, сколько сообщений хранить, сколько дней, какой максимальный объекм

Google

KrivdaTheTriewe

13.06.2017
15:37:07

она активно персистит данные на диск

Aleksander

13.06.2017
15:38:18

Понятно, пойду тогда изучать. Спасибо

KrivdaTheTriewe

13.06.2017
15:38:32

You are welcome !

Andrey

13.06.2017
15:39:04

Раз уж разговор про очереди зашел

Aleksander

13.06.2017
15:39:43

Начну с каффки, а дальше подумаю, что еще можно сделать

Andrey

13.06.2017
15:39:57

какую очередь лучше под 1.6.3 использовать, если требования - это в первую очередь стабильность работы

под спарк 1.6.3

RabbitMQ емнип под 2.0+

Grigory

13.06.2017
15:44:02

Данные будут поступать быстрее, чем их будут разгребать

у меня была такая иниенсивнсть что реплика за основной не успевала никогда; подумай много раз перед тем как использовать монгу в проде

KrivdaTheTriewe

13.06.2017
15:45:04

у меня была такая иниенсивнсть что реплика за основной не успевала никогда; подумай много раз перед тем как использовать монгу в проде

https://themodernwomendotorg.files.wordpress.com/2016/10/maxresdefault.jpg?w=1200

Aleksander

13.06.2017
15:45:16

Я и не собирался :)) я сразу понял, что с локом на всю базу засчет одного пишущего треда я далеко не уеду

KrivdaTheTriewe

13.06.2017
15:45:42

какую очередь лучше под 1.6.3 использовать, если требования - это в первую очередь стабильность работы

то есть вы с разными спарками хотите разный мессадж брокер использовать?

Andrey

13.06.2017
15:45:54

не

мы используем 1.6.3 и планируем использовать брокер

вопрос в том, что под 2.0 рабочих вариантов достаточно много, а вот под 1.6.3 я только кафку видел

остальное либо не тестировалось на 1.6х, либо еще что нибудь

KrivdaTheTriewe

13.06.2017
15:48:44

вопрос в том, что под 2.0 рабочих вариантов достаточно много, а вот под 1.6.3 я только кафку видел

Ну если работает кафка, зачем на что-то другое менять? Мне предстоит сейчас с кроликом работать, и пока мне он кажется более проблемной вещью чем кафка

Andrey

13.06.2017
15:50:14

спасибо

KrivdaTheTriewe

13.06.2017
15:51:29

спасибо

но это субъективно. Поэтому я бы провёл бы исследования.

Andrey

13.06.2017
15:51:56

да, само собой тестировать будем :) просто пытаюсь понять, с чего начинать

Google

Andrey

13.06.2017
15:52:00

видимо с кафки

KrivdaTheTriewe

13.06.2017
15:52:21

Некоторые проблемы были с кафка продьюсером в 1.3 версии спарка , валилось соединение если я продьюсер делал один на экзекьютор, поэтому продьюсер пер партишн пришлось сделать

Aleksander

13.06.2017
17:49:04

Кстати, появился вопрос. Если использовать кафку с монгой, то код консумера придётся писать вручную и приляпывать в Кафке приложение, которое будет ее в монгу разгребать?

KrivdaTheTriewe

13.06.2017
17:49:53

Кстати, появился вопрос. Если использовать кафку с монгой, то код консумера придётся писать вручную и приляпывать в Кафке приложение, которое будет ее в монгу разгребать?

есть akka-streams

но проще на чём-нибудь типа спарка сделать

Aleksander

13.06.2017
17:51:00

Ну, т.е это отдельное приложение, которое ее будет перекладывать.

Akka-streams - это никак не связано с фреймворком для скалы?:)

Grigory

13.06.2017
17:52:21

)) связано

KrivdaTheTriewe

13.06.2017
17:53:02

Я хотел написать kafka-streams, но akka-streams как вариант

Aleksander

13.06.2017
17:54:31

Понятно. Короче с таким количеством систем походу все придётся упаковывать в докер

Grigory

13.06.2017
17:55:06

да; хорошая практика

я так и делаю

Aleksander

13.06.2017
17:55:23

И нанимать админа

Grigory

13.06.2017
17:55:31

докеры сам мождешь

не сложно при должной практике

Aleksander

13.06.2017
17:55:56

Как мониторить все образы на куче нод?

Grigory

13.06.2017
17:56:06

ранчер к примеру какой использовать

самое простое

http://rancher.com/

посложнее это дсос и кубернетес

кубернетес не предлагает инбилт средств для натягивания сетки между тачками

« Назад

Страница 12 из 182

Далее »

Открыть в Telegram