
KrivdaTheTriewe
13.06.2017
13:27:25
Господа, а кто использует Hue для спарка?
Вообще для sql использовать hive приятней. А ноутбуки я не настраивал, есть смысл офф доку по интеграцию ноутбука и спарка почитать, там вполне возможно нужно настраивать

Andrey
13.06.2017
14:14:40
Хортон в последнем апдейте заявил, что Hue c HDP 3.0 не будет поддерживаться
https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.6.1/bk_release-notes/content/deprecated_items.html

KrivdaTheTriewe
13.06.2017
14:15:39

Google

Andrey
13.06.2017
14:16:03
Consider Ambari Views as the alternative (c)

KrivdaTheTriewe
13.06.2017
14:16:37
а вместо флюма?

Andrey
13.06.2017
14:16:41
видимо в какой то момент в амбари появится view для Oozie
NiFi
Точнее даже не просто NiFi, а отдельный кластер HDF

Aleksander
13.06.2017
14:54:54
Привет всем! Есть вопрос по hdfs, насколько быстрее писать в кластер хадупа? И быстрее ли это чем писать в монго? Нужно понимание
В монго я пишу голые данные, без доп индексов, кроме id

GNU/Patchouli
13.06.2017
14:55:46
HDFS достаточно нерасторопна

Aleksander
13.06.2017
14:56:06
Неправильно сформулировал
У меня сейчас есть проблема в записи в монгу большого набора данных. Упираюсь сильно, спасет ли меня выкидывание монги и запись тупо в hdfs данных

Alexander
13.06.2017
14:57:11
быстрее всего в /dev/null писать, что дальше с данными предполагается делать то? странно выбирать средство только по одному критерию...

Aleksander
13.06.2017
14:57:46
Обработка на кластере спарка, построение моделей машинного обучения

Google

Aleksander
13.06.2017
14:58:13
А так же чтение и вывод в веб приложение голых данных

Alexander
13.06.2017
15:01:06
может оказаться, что быстрее всего писать данные куда нибудь в kafka, а потом непосредственно выгребать их и обрабатывать из spark. но не зная откуда приходят данные, как часто, какими пачками, трудно что то определенное сказать... mongodb ведь не просто так изначально появилась?

Aleksander
13.06.2017
15:02:01
Просто так, я делал прототип. И не думал, что данных будет столько. Чтобы понимать, база данных растет на 20гб каждый день.
И это еще где-то 1/15 мощности

Alexander
13.06.2017
15:03:14
а насчет вывода данных в веб-приложение - если подразумевается куча adhoc запросов, оперирующих небольшим количеством данных, с произвольной фильтрацией, то ходить за ними в hdfs не самая лучшая идея...

Aleksander
13.06.2017
15:04:20
Как тогда сделать правильную архитектуру? Выбросить просто старые данные я тоже не могу, потому, что может потребоваться их показать на вебе
не зная откуда приходят данные, как часто, какими пачками - данные приходят с парсеров, которые парсят статистику с различных ресурсов, этот процесс постоянный. Какими пачками не знаю, но не очень большими, за день набегает суммарно 20 гб обработанной информации.

Alexander
13.06.2017
15:11:33
сложно сказать, не видя всей картины... тут уже скорее речь пойдет о каких то tradeoff'ах между мощностью доступного железа, потоком данных, архитектурой, возможностями системы. данные конечно при записи в hdfs можно пожать, если писать в orc/parquet, чем больше будет пачка данных тем лучше. все описанное немного напоминает идеальный случай для lambda архитектуры, но не уверен до конца. тем более что она не отвечает на вопрос про точный технологический стек

Aleksander
13.06.2017
15:11:34
С проблемой столкнулся такой, что запись в монгу сильно тормозит парсеры, и они не успевают за день охватить весь объем ресурсов

Alexander
13.06.2017
15:12:36
а даннные нативно в json формате? почему именно монга? возможно, стоить рассмотреть cassandra например? у нее с записью все лучше чем у монги, но хватает других моментов, которые могут не подойти

Aleksander
13.06.2017
15:13:25
Монга была выбрана для прототипа, т.к. я ее лучше знаю.

Grigory
13.06.2017
15:13:36

Aleksander
13.06.2017
15:13:45
С кассандрой работал меньше, да и то, на одном проекте она была в виде кеш хранилища.

Grigory
13.06.2017
15:13:57
какой продакшн размер средний банки будет?

Aleksander
13.06.2017
15:14:54
Средняя банка это что? Поясните, если можно =)
Типа характеристики ноды ?
Сейчас у меня под прототип 200 тб хранилище, одна тачка
В случае расширения - их закупят.

Grigory
13.06.2017
15:16:51
размер БД да)
мне кажется монга тут не вариант)

Google

Aleksander
13.06.2017
15:17:30
200 тб по идее. Но никто не посчитал ничего, заставили быстро писать прототип

KrivdaTheTriewe
13.06.2017
15:18:40
В разрезе чего тебе парсинг нужно делать. Если есть какая-то потоковость данных простым решением будет использовать спарк джобу которая агрегирует какой-то поток из MQ ( сам кладешь в кафку ) , делает первичную обработку, и сохранет в протобаф партицированный в нужном расширении.
Далее уже другая джоба ходит по партицированным табличкам и делает всё, что тебе нужно
Это если предполгается какой-то etl по этим данным сложный относительно
Ну и всё не сильно онлайново

Jury
13.06.2017
15:20:22
для записи, если исп. агрегация - можно redis-какой нибудь, если надо очень быстро записать, и периодически - сбрасывать в другое хранилище

KrivdaTheTriewe
13.06.2017
15:20:53
Ну тут размер пачки не определен, поэтому ин мемори , как мне кажется не подходит
придёт не 20 гигов , а 100 и всё умрет

Jury
13.06.2017
15:21:52
ну вдруг кластер есть )
ну или таки агрегировать сразу в redis
от задачи зависит

Aleksander
13.06.2017
15:22:25
Ну сейчас данные явно не приходят пачкой, а потоково =)

Jury
13.06.2017
15:23:09
раз потоково - вполне можно in-memory, и сбрасывать в другое хранилище по какому-то эмпирически подобранному правилу...

KrivdaTheTriewe
13.06.2017
15:24:35

Aleksander
13.06.2017
15:30:15
Возможно, я не понимаю, вопроса =) В данном случае я имею в виду не передачу потоковых данных(видео, звука), а поток, что данные приходят небольшими кусками, по мере того, как парсеры успевают собирать статистику по площадкам и куда-нибудь ее запихнуть(они парсят постоянно). У меня пока нет никакой пока нормальной инфраструктуры(хочу ее собственно в эту сторону думать, иначе не справлюсь)

Jury
13.06.2017
15:32:58
надо заложить масштабирование... kafka или rabbitmq в помощь, как первый приемник, и далее уже куда-то еще

Aleksander
13.06.2017
15:34:35
А что случится, если я переполню kaffkу?
Данные будут поступать быстрее, чем их будут разгребать

KrivdaTheTriewe
13.06.2017
15:36:06
у нее всё конфигурируется, сколько сообщений хранить, сколько дней, какой максимальный объекм

Google

KrivdaTheTriewe
13.06.2017
15:37:07
она активно персистит данные на диск

Aleksander
13.06.2017
15:38:18
Понятно, пойду тогда изучать. Спасибо

KrivdaTheTriewe
13.06.2017
15:38:32
You are welcome !

Andrey
13.06.2017
15:39:04
Раз уж разговор про очереди зашел

Aleksander
13.06.2017
15:39:43
Начну с каффки, а дальше подумаю, что еще можно сделать

Andrey
13.06.2017
15:39:57
какую очередь лучше под 1.6.3 использовать, если требования - это в первую очередь стабильность работы
под спарк 1.6.3
RabbitMQ емнип под 2.0+

Grigory
13.06.2017
15:44:02

KrivdaTheTriewe
13.06.2017
15:45:04

Aleksander
13.06.2017
15:45:16
Я и не собирался :)) я сразу понял, что с локом на всю базу засчет одного пишущего треда я далеко не уеду

KrivdaTheTriewe
13.06.2017
15:45:42

Andrey
13.06.2017
15:45:54
не
мы используем 1.6.3 и планируем использовать брокер
вопрос в том, что под 2.0 рабочих вариантов достаточно много, а вот под 1.6.3 я только кафку видел
остальное либо не тестировалось на 1.6х, либо еще что нибудь

KrivdaTheTriewe
13.06.2017
15:48:44

Andrey
13.06.2017
15:50:14
спасибо

KrivdaTheTriewe
13.06.2017
15:51:29
спасибо
но это субъективно. Поэтому я бы провёл бы исследования.

Andrey
13.06.2017
15:51:56
да, само собой тестировать будем :) просто пытаюсь понять, с чего начинать

Google

Andrey
13.06.2017
15:52:00
видимо с кафки

KrivdaTheTriewe
13.06.2017
15:52:21
Некоторые проблемы были с кафка продьюсером в 1.3 версии спарка , валилось соединение если я продьюсер делал один на экзекьютор, поэтому продьюсер пер партишн пришлось сделать

Aleksander
13.06.2017
17:49:04
Кстати, появился вопрос. Если использовать кафку с монгой, то код консумера придётся писать вручную и приляпывать в Кафке приложение, которое будет ее в монгу разгребать?

KrivdaTheTriewe
13.06.2017
17:49:53
но проще на чём-нибудь типа спарка сделать

Aleksander
13.06.2017
17:51:00
Ну, т.е это отдельное приложение, которое ее будет перекладывать.
Akka-streams - это никак не связано с фреймворком для скалы?:)

Grigory
13.06.2017
17:52:21
)) связано

KrivdaTheTriewe
13.06.2017
17:53:02
Я хотел написать kafka-streams, но akka-streams как вариант

Aleksander
13.06.2017
17:54:31
Понятно. Короче с таким количеством систем походу все придётся упаковывать в докер

Grigory
13.06.2017
17:55:06
да; хорошая практика
я так и делаю

Aleksander
13.06.2017
17:55:23
И нанимать админа

Grigory
13.06.2017
17:55:31
докеры сам мождешь
не сложно при должной практике

Aleksander
13.06.2017
17:55:56
Как мониторить все образы на куче нод?

Grigory
13.06.2017
17:56:06
ранчер к примеру какой использовать
самое простое
http://rancher.com/
посложнее это дсос и кубернетес
кубернетес не предлагает инбилт средств для натягивания сетки между тачками