
Anton
25.10.2018
13:00:20
перформанс будет один
подчеркиваю, на батче

Старый
25.10.2018
13:00:40
нет
ну вот смотри, у тебя 130-140 млн, сделай replication facktor 3, на 1,5 петабайта чистых данных, по которым надо периодически делать выборки

KrivdaAllStars
25.10.2018
13:00:50
у вас есть сан, где все лежит, который помереть физически может, до него много гигабит проложено,и вот там hbase стоит

Google

Anton
25.10.2018
13:00:53
hbase какой-нибудь нельзя так конечно

KrivdaAllStars
25.10.2018
13:01:01
и мы по ключу чего ищем

Anton
25.10.2018
13:01:07
я про san не говорю

Старый
25.10.2018
13:01:12
при этом у тебя разрабы не хотят ничего где больше 3 компонентов

KrivdaAllStars
25.10.2018
13:01:16
или тот же батч, тебе сначала нужно петабайт на ноды прогнать

Anton
25.10.2018
13:01:17
NAS и SAN разные вещи

KrivdaAllStars
25.10.2018
13:01:22
потом обратно
например word count по петабайту

Anton
25.10.2018
13:01:56
еще раз, смотри, у тебя 12 дисков создают максимальный поток ну может быть 20-30 гигабит в секунду, правильно?
локально если считать
а сеть у тебя 80 гигабит в секунду
сеть не боттлнек
ну ладно, это 5 лет назад все развеяли

Google

KrivdaAllStars
25.10.2018
13:02:33
hbase какой-нибудь нельзя так конечно
я про то, что вы говорите, что вот есть узкоспецилизированное решение, и оно будет типа быстрее. Но скорее всего оно будет дороже, оно не будет решением общего назначения

Anton
25.10.2018
13:02:40
щас будут пруфы :)

KrivdaAllStars
25.10.2018
13:02:43
что в большинстве случаев плохо
потому что вы на существующем кластере не можете быстро решать новые задачи
вам нужно городить новое решение узкоспецилищированное
а бизнес, скажем сначала батчи считал, потом ему стало онлайн аналитику делать по потоку данных с учетом исторических агрегатов и прочие прелести.

Anton
25.10.2018
13:07:53
что в большинстве случаев плохо
тоже нет, это плохо для тех кто держится за он-премис бареметал инфру, и в таких случаях у вас в сто раз сложнее задача - обеспечить уровень сервиса для всех ваших сервисов на одном кластере
у меня был бареметал комплекс, мы для операционного hbase вынуждены были делать отдельный кластер просто потому что никак нельзя все вместе, и аналитику и hbase обеспечить - упираемся в просаживание по latency дисков

KrivdaAllStars
25.10.2018
13:10:23

Anton
25.10.2018
13:10:40
входящий поток до полумиллиона сообщений в секунду на дневной полке, нужно хранить последние дцать события по каждому клиенту, персистентно
оно прекрасно работало к слову
и до сих пор вроде работает
но на облаке у нас данные лежали бы в объектном сторе который отделен от компьюта (да, он медленее чем эфемерал, но зато сразу реплицируется по АЗ, и позволяет запускать отдельные кластера для аналитики по этим данным по требованию), а онлайновая база была бы в какой-то динаме, отдельно
вот выше приложил whitepapers на тему эффекта data locality, из начала 2010-ых - не устарели :)

Alexander
25.10.2018
13:26:07
Ты предлагаешь вместо управляемого зоопарка сервисов делать зоопарк систем специализированного назначения, хотя целевая нагрузка, так понимаю, известна пока только приблизительно, причем проблема с сервисом здесь та же самая.

Anton
25.10.2018
13:27:11
я вообще не предлагаю делать зоопарк :)
есть известный набор capabilities, мы их реализуем известными компонентами, для батча это объектный сторадж + компьют, иногда это HDFS + YARN, иногда это S3 + YARN, а иногда это Ceph + Kubernetes

Alexander
25.10.2018
13:28:40
Почему же, сейчас файлохранилище и какая-то аналитика для батча, потом кластер HBase или еще что-то и т.п. Да, в облаке это решается просто - выбрал сервис и запустил, но тут же облако не подходит, видимо.

Anton
25.10.2018
13:28:42
кому что удобнее по его потребностям и легаси

Google

Anton
25.10.2018
13:29:37
HBase особенно таких размеров как был у нас мало кому нужен, это не часть "обязательной программы"

Alexander
25.10.2018
13:29:53
Безопасность, аудит и т.п. не нужно?

Anton
25.10.2018
13:30:02
обязательно нужно
это вообще главный хлеб
уже пятая реализация GDPR на даталейке за плечами, так что знаю о чем говорю :)

Alexander
25.10.2018
13:31:50
Ну так ты знаешь, что для GDPR тебе нужно или набрать еще кубики, или делать свой велосипед.

Anton
25.10.2018
13:32:28
да, например HDP/HDF дают неплохую заготовку, но там пилить и пилить

Alexander
25.10.2018
13:32:44

Anton
25.10.2018
13:32:51
но некоторым клиентам нужен confluent, и тогда нужно думать куда писать lineage например

Alexander
25.10.2018
13:33:17
Но HDP/HDF - вот она система достаточно общего назначения и зоопарк. Или нет?

Anton
25.10.2018
13:33:39
кстати confluent кафку можно заставить жить с ranger plugin, но сама контора тогда не обещает обслуживания в рамках SLA
у меня у текущего клиента 7 кластеров HDP и 4 кластера confluent, хостятся под десяток приложений в которых сочетается стриминг с батчом

Alexander
25.10.2018
13:34:33
Я тогда тоже не понимаю, о чем вы спорите)

Anton
25.10.2018
13:34:42
это зоопарк? :)
про зоопарк ты вроде начал

Alexander
25.10.2018
13:36:34
Началось с коробки per use case против сумки с инструментами, нет?)

Anton
25.10.2018
13:36:59
я не говорил с коробки per use case
коробка per capability

Alexander
25.10.2018
13:37:56
это зоопарк? :)
Что там с сервисом? SLA выдерживается? Такой подход же не расходится с @krivdathetriewe, получается, а сервис зависит от рук, по собственному опыту.

Google

Anton
25.10.2018
13:40:16

Alexander
25.10.2018
13:41:26

Anton
25.10.2018
13:42:27

Stanislav
25.10.2018
13:43:50

Alexander
25.10.2018
13:44:19
Мы перевезли платформу, это HDP и поверх нее разработки для интеграции с безопасностью клиента. DPS мы сейчас ждем, они же по подписке, а мы формально без вендора (точнее, его спрашивали, но толку от него мало).
Основные проблемы были с специализированными компонентами около платформы (например, из-за изменения для учетных данных регистра), в остальном ок, хотя документация содержит ошибки. В целом, неплохо.

Anton
25.10.2018
13:46:41
на R&D выпустил HDP3 как вариант для новых инсталляций, но пока нет апгрейда, ждем чего намутят вместе с HWX

Alexander
25.10.2018
13:51:15
Когда с 2 на 3, то только Express и простой.

Daniel
25.10.2018
14:32:42

Stanislav
25.10.2018
14:38:03
Морячки наверняка

Старый
25.10.2018
14:58:41

KrivdaAllStars
25.10.2018
15:14:22

Anton
25.10.2018
15:41:27

Stanislav
25.10.2018
16:24:04
Медленнее, дороже, споф - резонный вопрос зачем

Oleksandr
25.10.2018
16:25:42

Google

Anton
25.10.2018
16:26:29

Mikhail
25.10.2018
16:26:29

Anton
25.10.2018
16:26:52

Mikhail
25.10.2018
16:27:13
Реплицировать данные rsyncом между несколькими хостами и следить за этим, это не то же самое что и s3 использовать

Anton
25.10.2018
16:28:51

Mikhail
25.10.2018
16:29:00
И NFS аналогично, ждём Apache Ozone
c точки зрения чистого перфоманса для он-према система с HDFS+YARN будет быстрее, это факт, но с точки зрения управляемости, гомогенности среди - будут люди делать дата лейки на ceph + k8s, истино говорю, если еще не делают
Да, согласен, второе, особенно если в облаке, будет быстрее, дешевле, и проще в обслуживании

Stanislav
25.10.2018
16:33:16
Можно и свой с3-комп. Но нафейхуа при хдфс

Anton
25.10.2018
16:34:30
Ceph можно не только для хдфс использовать, например

Mikhail
25.10.2018
16:34:33

Anton
25.10.2018
16:34:41
Или свифт

Mikhail
25.10.2018
16:34:48
и создавайте в openstack хосты с spark только когда нужны для обсчёта

Anton
25.10.2018
16:34:48
А может он уже есть

Mikhail
25.10.2018
16:34:49
и всё

Anton
25.10.2018
16:35:12
И в Alluxio кэшировать
Пошустрее будет