@kubernetes_ru

Страница 132 из 958
Artem
02.03.2017
23:48:16
тут противоположный полюс

Paul
02.03.2017
23:49:39
энетрпрайз - это вопрос перекладывания цены ошибки на вендора. Я про энетрпрайз знаю довольно много, и искренне рад, что от него ушел. Считаю, что большая часть энтерпрайза умрет. Причем вне зависимости от нашего (или их) желания. А я в этом немножечко помогу :)

Artem
02.03.2017
23:49:42
вот в альфабанке послвременнее подход вроде бы

ну совсем не умрёт, миллионы человек не могут без работы же остаться

Google
Paul
02.03.2017
23:51:47
Artem
02.03.2017
23:59:03
если такие аналогии проводить, то на смену коню пришёл двс. в нашем случае до двс всем этим технологиям, как например цеф, ещё далековато

крупный бизнес не заинтересован, прорыва не будет.

имхо

пилят потихоньку, пока манагеры от нетапа продают очередную вундервафлю

Paul
03.03.2017
00:11:42
крупный бизнес полне заинтересован и на облака уезжает уже несколько лет

Тимур
03.03.2017
04:56:40
и да, я могу рассказать как правильно готовить цеф, потому что у меня 600Тб кластер сейчас в проде и 2 петабайта запускаю прям вот сейчас)
А тебя случайно не было на митапе по опенстеку ? Оч хочется слайды оттуда. А то Илья свалил внезапно

Михаил
03.03.2017
06:15:19
swift и cinder никто уже не развивает и вряд ли будут)
Cinder это менеджер твоих бекендов и он вполне живёт

Artem
03.03.2017
06:19:20
cinder это block storage service. Без опенстека он не нужен. Чтобы его использовать, надо тащит такую кучу тухлой питонятины, что любой админ в запой уйдет

что собственно любого компонента опенстек касается

мирантис ещё это как-то причесывал, но увы

Google
Artem
03.03.2017
06:21:21
ну и представьте сколько там слоев абстракции и ненужных сущностей

Михаил
03.03.2017
06:21:31
И вообще cinder еще очень даже ничего.

Artem
03.03.2017
06:21:37
плюс напитонили. это быстро не работает

Михаил
03.03.2017
06:22:39
Предлагаю обсуждать циндер в соответствующем канале

Ну просто из приличия)

Тимур
03.03.2017
06:53:18
Кто-нить использует ceph в кубернетсе ? Для баз данных к примеру

Artem
03.03.2017
07:21:48
cepfs? плохая идея

базы данных на Shared fs ни одна не работает, постгрес делает вид что живой, но там все плохо по производительности

Михаил
03.03.2017
07:26:42
cepfs? плохая идея
А почему сразу cephfs? А не рбд

Тимур
03.03.2017
07:31:27
базы данных на Shared fs ни одна не работает, постгрес делает вид что живой, но там все плохо по производительности
ну скорость работы баз сильно зависит от iops-ов, а они очень зависят и от настроек цефа и от сетевых задержек :)

и от дисков канеш )))

Михаил
03.03.2017
07:33:53
И от упоротости и прочности яиц цефостроителя)

Тимур
03.03.2017
07:34:35
И от упоротости и прочности яиц цефостроителя)
ну вот прочитаем/послушаем твой доклад, и вжух! цеф полетит :)

Михаил
03.03.2017
07:35:33
ну вот прочитаем/послушаем твой доклад, и вжух! цеф полетит :)
1) вы меня переоцениваете 2) там нет упоротых конфигов)

Тимур
03.03.2017
07:36:55
говорят, что много ручек надо крутить в зависимоти от профиля нагрузки на ceph

Artem
03.03.2017
07:37:31
rbd это сетевой Block device

Тимур
03.03.2017
07:37:33
я так понял в чатике особо никто не юзал pv

Artem
03.03.2017
07:37:45
для работы бд нужна fs

Sergey
03.03.2017
07:37:59
для работы бд нужна fs
но она не обязана быть кластерной.

Google
Тимур
03.03.2017
07:38:25
ceph+xfs вполне себе насколько я знаю

Artem
03.03.2017
07:38:42
ну если маунтить в одну точку

тогда смысл в rbd?

Sergey
03.03.2017
07:39:06
тогда смысл в rbd?
в том, что можно взлететь с этим же диском на другой ноде через 5 секунд.

Artem
03.03.2017
07:40:28
не уверен что хорошая идея. если произошёл фейл, то журнал цефа будет неконсистентный

Sergey
03.03.2017
07:40:52
не уверен что хорошая идея. если произошёл фейл, то журнал цефа будет неконсистентный
смотря какой фейл. если кластер ушел в оффлайн целиком - да.

Михаил
03.03.2017
07:41:22
не уверен что хорошая идея. если произошёл фейл, то журнал цефа будет неконсистентный
Я не очень знаю, что надо сделать с цефом, что бы потерять в нем данные с тройной репликой

Sergey
03.03.2017
07:41:29
но с мертвым кластером работать не будет ничего. журналы сефа хранятся в нескольких копиях, повреждение меньшей части кворума не повреждает данные.

Artem
03.03.2017
07:41:33
в целом лучше сделать нативно репликации для бд и взлететь со слейва

Михаил
03.03.2017
07:43:26
как делать нефиг. роняем три диска в разных доменах отказа (:
Надо будет попробовать прям убить данные)

Sergey
03.03.2017
07:43:56
Надо будет попробовать прям убить данные)
если ты выдернешь три диска из трех разных нод, при этом у тебя crush считает за одну корзину одну ноду, то ты гарантированно потеряешь какие-то данные.

Artem
03.03.2017
07:44:49
rbd это сетевой рейд, не более того

всё равно нужна нормальная кластерная posix совместимая файлуха

которой нет

Artem
03.03.2017
07:46:08
чтобы бд не потеряла данные на уровне абстракции файловой системы

Sergey
03.03.2017
07:46:28
чтобы бд не потеряла данные на уровне абстракции файловой системы
у вас кластерная реляционная бд, которая может работать поверх кластерной распределенной файловой системы?

(postgres|mysql) over (ext4|xfs) over rbd работает норм и не теряет данные.

Google
Artem
03.03.2017
07:47:12
у тебя журнал блок девайса отреплеится, что совсем не гарантирует консистентность журнала файловой системы поверх

и прощай бд

Artem
03.03.2017
07:47:42
ну это разные уровни абстракции

никак не связанные

Sergey
03.03.2017
07:47:58
консистентность журнала файловой системы какой? которая поверх rbd или под rbd?

Artem
03.03.2017
07:48:15
представь что у тебя write cache включён и свет вырубили

поверх, на которой бд работает

Sergey
03.03.2017
07:48:32
представь что у тебя write cache включён и свет вырубили
т.е. мы берем диск, запускаем на нем ext4 с writeback

а потом говорим "сеф говно"?

Artem
03.03.2017
07:48:52
я такого не говорил

там выше комментарии про xfs

Sergey
03.03.2017
07:49:47
rbd синхронный. если он отозвался на sync, это значит что данные вкоммитились в xfs на кворум. если не отозвался - то не отозвался.

Artem
03.03.2017
07:49:56
нормально работает /= гарантирует сохранность дангых

Sergey
03.03.2017
07:50:27
нормально работает /= гарантирует сохранность дангых
вы кейс опишите, когда вы пишете в сеф, сеф вам говорит "ок", а потом показывает плохое чтение.

а то магнитный диск так-то тоже не гарантирует сохранность. и рейд тоже. ошибки чтения всегда могут быть.

Artem
03.03.2017
07:51:04
обычный кейс, дц вырубили в момент апдейта журнала цеф

Sergey
03.03.2017
07:51:23
обычный кейс, дц вырубили в момент апдейта журнала цеф
это значит что журнал вышележащей файлухи покоррапчен тоже, на старте она пройдет fsck.

Artem
03.03.2017
07:51:31
он отреплеится на другой ноде

но весь sync файлухи уже не попадёт никуда

Google
Artem
03.03.2017
07:52:33
это выглядит как кусок сислога внутри бинаря с таблицей

Sergey
03.03.2017
07:53:46
это выглядит как кусок сислога внутри бинаря с таблицей
как это возможно, емое? ну вырубили мы дц, ок. там (в вырубленном дц) остались дохлые данные. сеф перешел в деградировавшее состояние. грязных данных в живой оставшейся части нет. вернули дц. грязные данные не возвращаются, пока не пройдет скраб/проверка версий объектов.

Artem
03.03.2017
07:53:47
rbd ничего про файлуху не знает. поэтому кворум нужно делать и для fs

Sergey
03.03.2017
07:54:07
rbd ничего про файлуху не знает. поэтому кворум нужно делать и для fs
блин! так вы все это время говорили про случай "мы замонтировали некластерную файлуху в нескольких местах"?

Artem
03.03.2017
07:54:37
это работает и для одиночного монтирования

Sergey
03.03.2017
07:55:16
для множественного - это гарантированный развал. для одиночного - дайте кейс. "отвалился дц" - это "некоторое небольшое время операции io от файлухи к диску зависают в нигде".

а не "говорят что пишутся, но на самом деле пишется мусор"

Artem
03.03.2017
07:55:31
журнал цефа отреплеится, файлуха сверху покорраптится, бд работать не будет

Sergey
03.03.2017
07:55:51
Artem
03.03.2017
07:56:08
rbd placement group оперирует

ему вообще пофигу что там сверху

Sergey
03.03.2017
07:56:56
rbd placement group оперирует
нет, rbd формирует объекты, которые попадают в плейсмент-группы. в этом легко убедиться, если посмотреть в физическое расположение данных.

Artem
03.03.2017
07:57:18
ну объекты эти с файловой системой никак не связаны

это математика блоков

Sergey
03.03.2017
07:57:34
в момент записи в rbd-устройство, происходит запись в объект(ы), соответствующие кусочку устройства. и ответ на клиентскую файлуху идет в тот момент, когда кворум объектов записался.

грязное чтение в этом случае невозможно.

Artem
03.03.2017
07:58:57
журнал цефа отреплеит на другой ноде все, что не смогло записаться на рбд

Sergey
03.03.2017
07:59:09
когда происходит запись объекта, ответ клиентскому коду (в данном случае rbd) произойдёт когда записался кворум объектов.

Михаил
03.03.2017
08:00:18
Журнал цефа это что то вроде кеша, причем тут реплей с журнала другой ноде?

Sergey
03.03.2017
08:00:23
и у сефа нет "глобального журнала". есть отдельные журналы на каждой osd. запись считается произведенной в osd в тот момент, когда запись зафиксирована в устройстве журнала.

Страница 132 из 958