
Artem
02.03.2017
23:48:16
тут противоположный полюс

Paul
02.03.2017
23:49:39
энетрпрайз - это вопрос перекладывания цены ошибки на вендора. Я про энетрпрайз знаю довольно много, и искренне рад, что от него ушел. Считаю, что большая часть энтерпрайза умрет. Причем вне зависимости от нашего (или их) желания. А я в этом немножечко помогу :)

Artem
02.03.2017
23:49:42
вот в альфабанке послвременнее подход вроде бы
ну совсем не умрёт, миллионы человек не могут без работы же остаться

Google

Paul
02.03.2017
23:51:47

Artem
02.03.2017
23:59:03
если такие аналогии проводить, то на смену коню пришёл двс. в нашем случае до двс всем этим технологиям, как например цеф, ещё далековато
крупный бизнес не заинтересован, прорыва не будет.
имхо
пилят потихоньку, пока манагеры от нетапа продают очередную вундервафлю

Paul
03.03.2017
00:11:42
крупный бизнес полне заинтересован и на облака уезжает уже несколько лет

Тимур
03.03.2017
04:56:40

Михаил
03.03.2017
06:15:19

Artem
03.03.2017
06:19:20
cinder это block storage service. Без опенстека он не нужен. Чтобы его использовать, надо тащит такую кучу тухлой питонятины, что любой админ в запой уйдет
что собственно любого компонента опенстек касается
мирантис ещё это как-то причесывал, но увы

Михаил
03.03.2017
06:20:51

Google

Artem
03.03.2017
06:21:21
ну и представьте сколько там слоев абстракции и ненужных сущностей

Михаил
03.03.2017
06:21:31
И вообще cinder еще очень даже ничего.

Artem
03.03.2017
06:21:37
плюс напитонили. это быстро не работает

Михаил
03.03.2017
06:22:39
Предлагаю обсуждать циндер в соответствующем канале
Ну просто из приличия)

Тимур
03.03.2017
06:53:18
Кто-нить использует ceph в кубернетсе ? Для баз данных к примеру

Artem
03.03.2017
07:21:48
cepfs? плохая идея
базы данных на Shared fs ни одна не работает, постгрес делает вид что живой, но там все плохо по производительности

Михаил
03.03.2017
07:26:42

Тимур
03.03.2017
07:31:27
и от дисков канеш )))

Михаил
03.03.2017
07:33:53
И от упоротости и прочности яиц цефостроителя)

Тимур
03.03.2017
07:34:35

Михаил
03.03.2017
07:35:33

Тимур
03.03.2017
07:36:55
говорят, что много ручек надо крутить в зависимоти от профиля нагрузки на ceph

Artem
03.03.2017
07:37:31
rbd это сетевой Block device

Тимур
03.03.2017
07:37:33
я так понял в чатике особо никто не юзал pv

Artem
03.03.2017
07:37:45
для работы бд нужна fs

Sergey
03.03.2017
07:37:59

Google

Тимур
03.03.2017
07:38:25
ceph+xfs вполне себе насколько я знаю

Artem
03.03.2017
07:38:42
ну если маунтить в одну точку
тогда смысл в rbd?

Sergey
03.03.2017
07:39:06
тогда смысл в rbd?
в том, что можно взлететь с этим же диском на другой ноде через 5 секунд.

Artem
03.03.2017
07:40:28
не уверен что хорошая идея. если произошёл фейл, то журнал цефа будет неконсистентный

Sergey
03.03.2017
07:40:52

Михаил
03.03.2017
07:41:22

Sergey
03.03.2017
07:41:29
но с мертвым кластером работать не будет ничего.
журналы сефа хранятся в нескольких копиях, повреждение меньшей части кворума не повреждает данные.

Artem
03.03.2017
07:41:33
в целом лучше сделать нативно репликации для бд и взлететь со слейва

Sergey
03.03.2017
07:41:50

Михаил
03.03.2017
07:43:26

Sergey
03.03.2017
07:43:56

Artem
03.03.2017
07:44:49
rbd это сетевой рейд, не более того
всё равно нужна нормальная кластерная posix совместимая файлуха
которой нет

Sergey
03.03.2017
07:45:47

Artem
03.03.2017
07:46:08
чтобы бд не потеряла данные на уровне абстракции файловой системы

Sergey
03.03.2017
07:46:28
(postgres|mysql) over (ext4|xfs) over rbd работает норм и не теряет данные.

Google

Artem
03.03.2017
07:47:12
у тебя журнал блок девайса отреплеится, что совсем не гарантирует консистентность журнала файловой системы поверх
и прощай бд

Sergey
03.03.2017
07:47:29

Artem
03.03.2017
07:47:42
ну это разные уровни абстракции
никак не связанные

Sergey
03.03.2017
07:47:58
консистентность журнала файловой системы какой?
которая поверх rbd или под rbd?

Artem
03.03.2017
07:48:15
представь что у тебя write cache включён и свет вырубили
поверх, на которой бд работает

Sergey
03.03.2017
07:48:32
а потом говорим "сеф говно"?

Artem
03.03.2017
07:48:52
я такого не говорил
там выше комментарии про xfs

Sergey
03.03.2017
07:49:47
rbd синхронный.
если он отозвался на sync, это значит что данные вкоммитились в xfs на кворум.
если не отозвался - то не отозвался.

Artem
03.03.2017
07:49:56
нормально работает /= гарантирует сохранность дангых

Sergey
03.03.2017
07:50:27
а то магнитный диск так-то тоже не гарантирует сохранность. и рейд тоже. ошибки чтения всегда могут быть.

Artem
03.03.2017
07:51:04
обычный кейс, дц вырубили в момент апдейта журнала цеф

Sergey
03.03.2017
07:51:23

Artem
03.03.2017
07:51:31
он отреплеится на другой ноде
но весь sync файлухи уже не попадёт никуда

Google

Artem
03.03.2017
07:52:33
это выглядит как кусок сислога внутри бинаря с таблицей

Sergey
03.03.2017
07:53:46
это выглядит как кусок сислога внутри бинаря с таблицей
как это возможно, емое?
ну вырубили мы дц, ок. там (в вырубленном дц) остались дохлые данные.
сеф перешел в деградировавшее состояние. грязных данных в живой оставшейся части нет.
вернули дц. грязные данные не возвращаются, пока не пройдет скраб/проверка версий объектов.

Artem
03.03.2017
07:53:47
rbd ничего про файлуху не знает. поэтому кворум нужно делать и для fs

Sergey
03.03.2017
07:54:07

Artem
03.03.2017
07:54:37
это работает и для одиночного монтирования

Sergey
03.03.2017
07:55:16
для множественного - это гарантированный развал.
для одиночного - дайте кейс.
"отвалился дц" - это "некоторое небольшое время операции io от файлухи к диску зависают в нигде".
а не "говорят что пишутся, но на самом деле пишется мусор"

Artem
03.03.2017
07:55:31
журнал цефа отреплеится, файлуха сверху покорраптится, бд работать не будет

Sergey
03.03.2017
07:55:51

Artem
03.03.2017
07:56:08
rbd placement group оперирует
ему вообще пофигу что там сверху

Sergey
03.03.2017
07:56:56
rbd placement group оперирует
нет, rbd формирует объекты, которые попадают в плейсмент-группы. в этом легко убедиться, если посмотреть в физическое расположение данных.

Artem
03.03.2017
07:57:18
ну объекты эти с файловой системой никак не связаны
это математика блоков

Sergey
03.03.2017
07:57:34
в момент записи в rbd-устройство, происходит запись в объект(ы), соответствующие кусочку устройства.
и ответ на клиентскую файлуху идет в тот момент, когда кворум объектов записался.
грязное чтение в этом случае невозможно.

Artem
03.03.2017
07:58:57
журнал цефа отреплеит на другой ноде все, что не смогло записаться на рбд

Sergey
03.03.2017
07:59:09
когда происходит запись объекта, ответ клиентскому коду (в данном случае rbd) произойдёт когда записался кворум объектов.

Михаил
03.03.2017
08:00:18
Журнал цефа это что то вроде кеша, причем тут реплей с журнала другой ноде?

Sergey
03.03.2017
08:00:23
и у сефа нет "глобального журнала". есть отдельные журналы на каждой osd.
запись считается произведенной в osd в тот момент, когда запись зафиксирована в устройстве журнала.