@hadoopusers

Страница 179 из 182
Anton
25.10.2018
13:00:20
перформанс будет один

подчеркиваю, на батче

Старый
25.10.2018
13:00:40
нет
ну вот смотри, у тебя 130-140 млн, сделай replication facktor 3, на 1,5 петабайта чистых данных, по которым надо периодически делать выборки

KrivdaAllStars
25.10.2018
13:00:50
у вас есть сан, где все лежит, который помереть физически может, до него много гигабит проложено,и вот там hbase стоит

Google
Anton
25.10.2018
13:00:53
hbase какой-нибудь нельзя так конечно

KrivdaAllStars
25.10.2018
13:01:01
и мы по ключу чего ищем

Anton
25.10.2018
13:01:07
я про san не говорю

Старый
25.10.2018
13:01:12
при этом у тебя разрабы не хотят ничего где больше 3 компонентов

KrivdaAllStars
25.10.2018
13:01:16
или тот же батч, тебе сначала нужно петабайт на ноды прогнать

Anton
25.10.2018
13:01:17
NAS и SAN разные вещи

KrivdaAllStars
25.10.2018
13:01:22
потом обратно

например word count по петабайту

Anton
25.10.2018
13:01:56
еще раз, смотри, у тебя 12 дисков создают максимальный поток ну может быть 20-30 гигабит в секунду, правильно?

локально если считать

а сеть у тебя 80 гигабит в секунду

сеть не боттлнек

ну ладно, это 5 лет назад все развеяли

Google
KrivdaAllStars
25.10.2018
13:02:33
hbase какой-нибудь нельзя так конечно
я про то, что вы говорите, что вот есть узкоспецилизированное решение, и оно будет типа быстрее. Но скорее всего оно будет дороже, оно не будет решением общего назначения

Anton
25.10.2018
13:02:40
щас будут пруфы :)

KrivdaAllStars
25.10.2018
13:02:43
что в большинстве случаев плохо

потому что вы на существующем кластере не можете быстро решать новые задачи

вам нужно городить новое решение узкоспецилищированное

а бизнес, скажем сначала батчи считал, потом ему стало онлайн аналитику делать по потоку данных с учетом исторических агрегатов и прочие прелести.

Anton
25.10.2018
13:07:53
что в большинстве случаев плохо
тоже нет, это плохо для тех кто держится за он-премис бареметал инфру, и в таких случаях у вас в сто раз сложнее задача - обеспечить уровень сервиса для всех ваших сервисов на одном кластере

у меня был бареметал комплекс, мы для операционного hbase вынуждены были делать отдельный кластер просто потому что никак нельзя все вместе, и аналитику и hbase обеспечить - упираемся в просаживание по latency дисков

Anton
25.10.2018
13:10:40
входящий поток до полумиллиона сообщений в секунду на дневной полке, нужно хранить последние дцать события по каждому клиенту, персистентно

оно прекрасно работало к слову

и до сих пор вроде работает

но на облаке у нас данные лежали бы в объектном сторе который отделен от компьюта (да, он медленее чем эфемерал, но зато сразу реплицируется по АЗ, и позволяет запускать отдельные кластера для аналитики по этим данным по требованию), а онлайновая база была бы в какой-то динаме, отдельно

вот выше приложил whitepapers на тему эффекта data locality, из начала 2010-ых - не устарели :)

Alexander
25.10.2018
13:26:07
Ты предлагаешь вместо управляемого зоопарка сервисов делать зоопарк систем специализированного назначения, хотя целевая нагрузка, так понимаю, известна пока только приблизительно, причем проблема с сервисом здесь та же самая.

Anton
25.10.2018
13:27:11
я вообще не предлагаю делать зоопарк :)

есть известный набор capabilities, мы их реализуем известными компонентами, для батча это объектный сторадж + компьют, иногда это HDFS + YARN, иногда это S3 + YARN, а иногда это Ceph + Kubernetes

Alexander
25.10.2018
13:28:40
Почему же, сейчас файлохранилище и какая-то аналитика для батча, потом кластер HBase или еще что-то и т.п. Да, в облаке это решается просто - выбрал сервис и запустил, но тут же облако не подходит, видимо.

Anton
25.10.2018
13:28:42
кому что удобнее по его потребностям и легаси

Google
Anton
25.10.2018
13:29:37
HBase особенно таких размеров как был у нас мало кому нужен, это не часть "обязательной программы"

Alexander
25.10.2018
13:29:53
Безопасность, аудит и т.п. не нужно?

Anton
25.10.2018
13:30:02
обязательно нужно

это вообще главный хлеб

уже пятая реализация GDPR на даталейке за плечами, так что знаю о чем говорю :)

Alexander
25.10.2018
13:31:50
Ну так ты знаешь, что для GDPR тебе нужно или набрать еще кубики, или делать свой велосипед.

Anton
25.10.2018
13:32:28
да, например HDP/HDF дают неплохую заготовку, но там пилить и пилить

Anton
25.10.2018
13:32:51
но некоторым клиентам нужен confluent, и тогда нужно думать куда писать lineage например

Alexander
25.10.2018
13:33:17
Но HDP/HDF - вот она система достаточно общего назначения и зоопарк. Или нет?

Anton
25.10.2018
13:33:39
кстати confluent кафку можно заставить жить с ranger plugin, но сама контора тогда не обещает обслуживания в рамках SLA

у меня у текущего клиента 7 кластеров HDP и 4 кластера confluent, хостятся под десяток приложений в которых сочетается стриминг с батчом

Alexander
25.10.2018
13:34:33
Я тогда тоже не понимаю, о чем вы спорите)

Anton
25.10.2018
13:34:42
это зоопарк? :)

про зоопарк ты вроде начал

Alexander
25.10.2018
13:36:34
Началось с коробки per use case против сумки с инструментами, нет?)

Anton
25.10.2018
13:36:59
я не говорил с коробки per use case

коробка per capability

Alexander
25.10.2018
13:37:56
это зоопарк? :)
Что там с сервисом? SLA выдерживается? Такой подход же не расходится с @krivdathetriewe, получается, а сервис зависит от рук, по собственному опыту.

Google
Anton
25.10.2018
13:40:16
Что там с сервисом? SLA выдерживается? Такой подход же не расходится с @krivdathetriewe, получается, а сервис зависит от рук, по собственному опыту.
о да, это главная причина множества кластеров; там клиент до сих пор упирается в он-премис, поэтому все растащено по нескольким датацентрам и обложено кастомными репликациями, фейловерами и реконсиляциями

Alexander
25.10.2018
13:41:26
Stanislav
25.10.2018
13:43:50
Интересно кому если, то мы практически переехали.
Переезжали в каком составе, всю грядку сервисов?

Alexander
25.10.2018
13:44:19
Мы перевезли платформу, это HDP и поверх нее разработки для интеграции с безопасностью клиента. DPS мы сейчас ждем, они же по подписке, а мы формально без вендора (точнее, его спрашивали, но толку от него мало).

Основные проблемы были с специализированными компонентами около платформы (например, из-за изменения для учетных данных регистра), в остальном ок, хотя документация содержит ошибки. В целом, неплохо.

Daniel
25.10.2018
14:32:42
Stanislav
25.10.2018
14:38:03
Морячки наверняка

Старый
25.10.2018
14:58:41
Anton
25.10.2018
15:41:27
Stanislav
25.10.2018
16:24:04
щас будут пруфы :)
Прочитал одну статью. Ну неоднозначно совсем

Медленнее, дороже, споф - резонный вопрос зачем

Oleksandr
25.10.2018
16:25:42
https://teradata.com
Расскажи как там?

Google
Anton
25.10.2018
16:26:29
Медленнее, дороже, споф - резонный вопрос зачем
не сильно медленнее, споф это смотря как сделать, зачем - отдельное масштабирование компьюта!

Mikhail
25.10.2018
16:26:29
Медленнее, дороже, споф - резонный вопрос зачем
зависит от реализации, s3 у amazon не spof

Anton
25.10.2018
16:26:52
Расскажи как там?
смотря в какой практике, в нашей неплохо

зависит от реализации, s3 у amazon не spof
+1, s3 это противоположность spof

Mikhail
25.10.2018
16:27:13
не сильно медленнее, споф это смотря как сделать, зачем - отдельное масштабирование компьюта!
ну вообще все это имеет смысл для cloud, в on-premise только для изолирования batch и near real-time

Реплицировать данные rsyncом между несколькими хостами и следить за этим, это не то же самое что и s3 использовать

Anton
25.10.2018
16:28:51
ну вообще все это имеет смысл для cloud, в on-premise только для изолирования batch и near real-time
c точки зрения чистого перфоманса для он-према система с HDFS+YARN будет быстрее, это факт, но с точки зрения управляемости, гомогенности среди - будут люди делать дата лейки на ceph + k8s, истино говорю, если еще не делают

Stanislav
25.10.2018
16:33:16
зависит от реализации, s3 у amazon не spof
Мы про облака или онпрем?

Можно и свой с3-комп. Но нафейхуа при хдфс

Anton
25.10.2018
16:34:30
Ceph можно не только для хдфс использовать, например

Mikhail
25.10.2018
16:34:33
Мы про облака или онпрем?
В он-преме можно swift от openstack поднять

Anton
25.10.2018
16:34:41
Или свифт

Mikhail
25.10.2018
16:34:48
и создавайте в openstack хосты с spark только когда нужны для обсчёта

Anton
25.10.2018
16:34:48
А может он уже есть

Mikhail
25.10.2018
16:34:49
и всё

Anton
25.10.2018
16:35:12
И в Alluxio кэшировать

Пошустрее будет

Страница 179 из 182