@hadoopusers

« Назад

Страница 179 из 182

Далее »

Anton

25.10.2018
13:00:20

перформанс будет один

подчеркиваю, на батче

Старый

25.10.2018
13:00:40

нет

ну вот смотри, у тебя 130-140 млн, сделай replication facktor 3, на 1,5 петабайта чистых данных, по которым надо периодически делать выборки

KrivdaAllStars

25.10.2018
13:00:50

у вас есть сан, где все лежит, который помереть физически может, до него много гигабит проложено,и вот там hbase стоит

Google

Anton

25.10.2018
13:00:53

hbase какой-нибудь нельзя так конечно

KrivdaAllStars

25.10.2018
13:01:01

и мы по ключу чего ищем

Anton

25.10.2018
13:01:07

я про san не говорю

Старый

25.10.2018
13:01:12

при этом у тебя разрабы не хотят ничего где больше 3 компонентов

KrivdaAllStars

25.10.2018
13:01:16

или тот же батч, тебе сначала нужно петабайт на ноды прогнать

Anton

25.10.2018
13:01:17

NAS и SAN разные вещи

KrivdaAllStars

25.10.2018
13:01:22

потом обратно

например word count по петабайту

Anton

25.10.2018
13:01:56

еще раз, смотри, у тебя 12 дисков создают максимальный поток ну может быть 20-30 гигабит в секунду, правильно?

локально если считать

а сеть у тебя 80 гигабит в секунду

сеть не боттлнек

ну ладно, это 5 лет назад все развеяли

Google

KrivdaAllStars

25.10.2018
13:02:33

hbase какой-нибудь нельзя так конечно

я про то, что вы говорите, что вот есть узкоспецилизированное решение, и оно будет типа быстрее. Но скорее всего оно будет дороже, оно не будет решением общего назначения

Anton

25.10.2018
13:02:40

щас будут пруфы :)

KrivdaAllStars

25.10.2018
13:02:43

что в большинстве случаев плохо

потому что вы на существующем кластере не можете быстро решать новые задачи

вам нужно городить новое решение узкоспецилищированное

а бизнес, скажем сначала батчи считал, потом ему стало онлайн аналитику делать по потоку данных с учетом исторических агрегатов и прочие прелести.

Anton

25.10.2018
13:07:53

что в большинстве случаев плохо

тоже нет, это плохо для тех кто держится за он-премис бареметал инфру, и в таких случаях у вас в сто раз сложнее задача - обеспечить уровень сервиса для всех ваших сервисов на одном кластере

у меня был бареметал комплекс, мы для операционного hbase вынуждены были делать отдельный кластер просто потому что никак нельзя все вместе, и аналитику и hbase обеспечить - упираемся в просаживание по latency дисков

KrivdaAllStars

25.10.2018
13:10:23

у меня был бареметал комплекс, мы для операционного hbase вынуждены были делать отдельный кластер просто потому что никак нельзя все вместе, и аналитику и hbase обеспечить - упираемся в просаживание по latency дисков

ну так может hbase правильно использовать?

Anton

25.10.2018
13:10:40

ну так может hbase правильно использовать?

эт как? :)

входящий поток до полумиллиона сообщений в секунду на дневной полке, нужно хранить последние дцать события по каждому клиенту, персистентно

оно прекрасно работало к слову

и до сих пор вроде работает

но на облаке у нас данные лежали бы в объектном сторе который отделен от компьюта (да, он медленее чем эфемерал, но зато сразу реплицируется по АЗ, и позволяет запускать отдельные кластера для аналитики по этим данным по требованию), а онлайновая база была бы в какой-то динаме, отдельно

вот выше приложил whitepapers на тему эффекта data locality, из начала 2010-ых - не устарели :)

Alexander

25.10.2018
13:26:07

Ты предлагаешь вместо управляемого зоопарка сервисов делать зоопарк систем специализированного назначения, хотя целевая нагрузка, так понимаю, известна пока только приблизительно, причем проблема с сервисом здесь та же самая.

Anton

25.10.2018
13:27:11

я вообще не предлагаю делать зоопарк :)

есть известный набор capabilities, мы их реализуем известными компонентами, для батча это объектный сторадж + компьют, иногда это HDFS + YARN, иногда это S3 + YARN, а иногда это Ceph + Kubernetes

Alexander

25.10.2018
13:28:40

Почему же, сейчас файлохранилище и какая-то аналитика для батча, потом кластер HBase или еще что-то и т.п. Да, в облаке это решается просто - выбрал сервис и запустил, но тут же облако не подходит, видимо.

Anton

25.10.2018
13:28:42

кому что удобнее по его потребностям и легаси

Google

Anton

25.10.2018
13:29:37

HBase особенно таких размеров как был у нас мало кому нужен, это не часть "обязательной программы"

Alexander

25.10.2018
13:29:53

Безопасность, аудит и т.п. не нужно?

Anton

25.10.2018
13:30:02

обязательно нужно

это вообще главный хлеб

уже пятая реализация GDPR на даталейке за плечами, так что знаю о чем говорю :)

Alexander

25.10.2018
13:31:50

Ну так ты знаешь, что для GDPR тебе нужно или набрать еще кубики, или делать свой велосипед.

Anton

25.10.2018
13:32:28

да, например HDP/HDF дают неплохую заготовку, но там пилить и пилить

Alexander

25.10.2018
13:32:44

да, например HDP/HDF дают неплохую заготовку, но там пилить и пилить

Это правда

Anton

25.10.2018
13:32:51

но некоторым клиентам нужен confluent, и тогда нужно думать куда писать lineage например

Alexander

25.10.2018
13:33:17

Но HDP/HDF - вот она система достаточно общего назначения и зоопарк. Или нет?

Anton

25.10.2018
13:33:39

кстати confluent кафку можно заставить жить с ranger plugin, но сама контора тогда не обещает обслуживания в рамках SLA

Но HDP/HDF - вот она система достаточно общего назначения и зоопарк. Или нет?

я не понимаю критерия "зоопарковости"

у меня у текущего клиента 7 кластеров HDP и 4 кластера confluent, хостятся под десяток приложений в которых сочетается стриминг с батчом

Alexander

25.10.2018
13:34:33

Я тогда тоже не понимаю, о чем вы спорите)

Anton

25.10.2018
13:34:42

это зоопарк? :)

про зоопарк ты вроде начал

Alexander

25.10.2018
13:36:34

Началось с коробки per use case против сумки с инструментами, нет?)

Anton

25.10.2018
13:36:59

я не говорил с коробки per use case

коробка per capability

Alexander

25.10.2018
13:37:56

это зоопарк? :)

Что там с сервисом? SLA выдерживается? Такой подход же не расходится с @krivdathetriewe, получается, а сервис зависит от рук, по собственному опыту.

Google

Anton

25.10.2018
13:40:16

Что там с сервисом? SLA выдерживается? Такой подход же не расходится с @krivdathetriewe, получается, а сервис зависит от рук, по собственному опыту.

о да, это главная причина множества кластеров; там клиент до сих пор упирается в он-премис, поэтому все растащено по нескольким датацентрам и обложено кастомными репликациями, фейловерами и реконсиляциями

Alexander

25.10.2018
13:41:26

Привет! В ближайших планах переезд с 2.x на 3.x (дистрибутив HDP) , какие могут быть подводные камни?

Интересно кому если, то мы практически переехали.

Anton

25.10.2018
13:42:27

Интересно кому если, то мы практически переехали.

а вы DPS пробовали?

Stanislav

25.10.2018
13:43:50

Интересно кому если, то мы практически переехали.

Переезжали в каком составе, всю грядку сервисов?

Alexander

25.10.2018
13:44:19

Мы перевезли платформу, это HDP и поверх нее разработки для интеграции с безопасностью клиента. DPS мы сейчас ждем, они же по подписке, а мы формально без вендора (точнее, его спрашивали, но толку от него мало).

Переезжали в каком составе, всю грядку сервисов?

Всю HDP разом.

Основные проблемы были с специализированными компонентами около платформы (например, из-за изменения для учетных данных регистра), в остальном ок, хотя документация содержит ошибки. В целом, неплохо.

Anton

25.10.2018
13:46:41

Мы перевезли платформу, это HDP и поверх нее разработки для интеграции с безопасностью клиента. DPS мы сейчас ждем, они же по подписке, а мы формально без вендора (точнее, его спрашивали, но толку от него мало).

а как реплицируете сейчас?

Мы перевезли платформу, это HDP и поверх нее разработки для интеграции с безопасностью клиента. DPS мы сейчас ждем, они же по подписке, а мы формально без вендора (точнее, его спрашивали, но толку от него мало).

и еще вопрос: это rolling upgrade или требуется даунтайм на каждом кластере, и какой?

на R&D выпустил HDP3 как вариант для новых инсталляций, но пока нет апгрейда, ждем чего намутят вместе с HWX

Alexander

25.10.2018
13:51:15

Мы перевезли платформу, это HDP и поверх нее разработки для интеграции с безопасностью клиента. DPS мы сейчас ждем, они же по подписке, а мы формально без вендора (точнее, его спрашивали, но толку от него мало).

Остались разработки и миграция данных

Когда с 2 на 3, то только Express и простой.

Daniel

25.10.2018
14:32:42

мне заявили похрен на практики и тд, у нас бюджет

Ростелеком что ль? Го и бюджет

Stanislav

25.10.2018
14:38:03

Морячки наверняка

Старый

25.10.2018
14:58:41

Ростелеком что ль? Го и бюджет

Нет, не Ростелеком

KrivdaAllStars

25.10.2018
15:14:22

на R&D выпустил HDP3 как вариант для новых инсталляций, но пока нет апгрейда, ждем чего намутят вместе с HWX

а чего у вас за фирма?

Anton

25.10.2018
15:41:27

а чего у вас за фирма?

https://teradata.com

Stanislav

25.10.2018
16:24:04

щас будут пруфы :)

Прочитал одну статью. Ну неоднозначно совсем

Медленнее, дороже, споф - резонный вопрос зачем

Oleksandr

25.10.2018
16:25:42

https://teradata.com

Расскажи как там?

Google

Anton

25.10.2018
16:26:29

Медленнее, дороже, споф - резонный вопрос зачем

не сильно медленнее, споф это смотря как сделать, зачем - отдельное масштабирование компьюта!

Mikhail

25.10.2018
16:26:29

Медленнее, дороже, споф - резонный вопрос зачем

зависит от реализации, s3 у amazon не spof

Anton

25.10.2018
16:26:52

Расскажи как там?

смотря в какой практике, в нашей неплохо

зависит от реализации, s3 у amazon не spof

+1, s3 это противоположность spof

Mikhail

25.10.2018
16:27:13

не сильно медленнее, споф это смотря как сделать, зачем - отдельное масштабирование компьюта!

ну вообще все это имеет смысл для cloud, в on-premise только для изолирования batch и near real-time

Реплицировать данные rsyncом между несколькими хостами и следить за этим, это не то же самое что и s3 использовать

Anton

25.10.2018
16:28:51

ну вообще все это имеет смысл для cloud, в on-premise только для изолирования batch и near real-time

c точки зрения чистого перфоманса для он-према система с HDFS+YARN будет быстрее, это факт, но с точки зрения управляемости, гомогенности среди - будут люди делать дата лейки на ceph + k8s, истино говорю, если еще не делают

Mikhail

25.10.2018
16:29:00

И NFS аналогично, ждём Apache Ozone

c точки зрения чистого перфоманса для он-према система с HDFS+YARN будет быстрее, это факт, но с точки зрения управляемости, гомогенности среди - будут люди делать дата лейки на ceph + k8s, истино говорю, если еще не делают

Да, согласен, второе, особенно если в облаке, будет быстрее, дешевле, и проще в обслуживании

Stanislav

25.10.2018
16:33:16

зависит от реализации, s3 у amazon не spof

Мы про облака или онпрем?

Можно и свой с3-комп. Но нафейхуа при хдфс

Anton

25.10.2018
16:34:30

Ceph можно не только для хдфс использовать, например

Mikhail

25.10.2018
16:34:33

Мы про облака или онпрем?

В он-преме можно swift от openstack поднять

Anton

25.10.2018
16:34:41

Или свифт

Mikhail

25.10.2018
16:34:48

и создавайте в openstack хосты с spark только когда нужны для обсчёта

Anton

25.10.2018
16:34:48

А может он уже есть

Mikhail

25.10.2018
16:34:49

и всё

Anton

25.10.2018
16:35:12

И в Alluxio кэшировать

Пошустрее будет

« Назад

Страница 179 из 182

Далее »

Открыть в Telegram