Alexander
Вобщем мне абсолютно обязательно bare metal ZFS ноды, и потом чем-то задублировать их zvols.
Alexander
HAST поверх zvol IMHO идеально, или любые другие несложные аналоги HAST. Причем ради сравнения можно сделать одну ноду на OpenZFS, а другую на Illumos. Zvol блоки то у них универсально совместимые получаются на выходе. Это вероятно снижает опасность влияния потенциальных багов в однотипном софте хранилок низкого к железу уровня .
Василий
Ты предлагаешь колхозить свое решение для синхронизации
Alexander
Лучше конечно максимум готового.
Василий
Сколько тысяч установок на нем есть?
Alexander
Сколько тысяч установок на нем есть?
Я не предлагаю прям точно FreeBSD HAST, но какие-нибудь аналоги. Якобы DRBD - аналог, он более популярен? А есть и другие, Gluster, GPFS, но они сложнее.
Alexander
https://upload.wikimedia.org/wikipedia/commons/5/5b/DRBD_concept_overview.png
Alexander
Одну ноду поднять на SmartOS, вторую на Proxmox. Объединить их zvols в DRBD HA, соответственно линупсы для DRBD пусть работают в виртуалках, куда проброшены zvols в виде виртуальных блочных устройств. Если время выявит нестабильность хостовой оси одного из узлов, то потом можно оставить одну зарекомендовавшую себя хостовую ось на обоих узлах.
Василий
И ждать когда это со звоном упадёт
Alexander
И ждать когда это со звоном упадёт
Упадет быстрее, чем просто одиночный хост SmartOS без вые***ов?
Alexander
И ждать когда это со звоном упадёт
И это не для бэкапов ессно, а только для HA прода, где важен именно SLA, а не теоретический риск потери данных.
Alexander
В точку 😁
Поверх дублированного блока может работать софт с проверкой целостности типа IBM Db2 прямо на блочном без FS или опять еще одна ZFS для файликов, они сразу же заметят любые отклонения в целостности данных. "Highly available" refers to accessibility, not the reliability of the storage. An HA system is a tricky thing to do, correctly, and also ensure good performance. There are partitioning issues and other fun stuff. A typical HA system is actually a bit risky to the data, because there are more vectors for things to go wrong ... and badly wrong at that. This is important to companies where you are running a service and want to come as close to 100% uptime as possible.
Andrey
и https://github.com/ewwhite/zfs-ha/wiki
Fedor
Что-то типа этого? https://rawdr.org/rawdr/
О, прикольно. Похоже, да :)
Twissel
и https://github.com/ewwhite/zfs-ha/wiki
А можно эту хрень поднять на дедиках Хетцнер/Контабо?
Twissel
В описании мужик все сам собирает, в целом так вернее будет, но все же)
Twissel
Хотя... shared storage он и в Африке шаред
Alexander
Можно ли у пула заменить его числовой GUID ?
Alexander
Похоже штатно нельзя: https://zfs-discuss.opensolaris.narkive.com/QjeTN3hY/changing-guid
inqfen
А вообще, зачем пытаться использовать zfs как кластерное решение, если оно изначально не кластерное?
Василий
есть цепф, всан и на крайняк сторедж директ
Василий
наверняка еще пачка других
inqfen
Ну да, тут 2 варианта - либо у тебя программный продукт сам умеет в кластеризацию и распределение своихх данных по своим репликам, тогда можно накатить это на независимые ФС - или нет, тогда берешь решение которое это обеспечит. А брать то, которое не для этого и поверх него колхозить какие-то неродные ему сущности - вдвойне колхоз
Alexander
если сможешь воспроизвести ситуацию - будет прекрасно.
Настроил в линоде iSCSI target на одном хосте Alpine и iSCSI клиента на другом хосте Devuan через приватный нетарифицируемый VLAN. С прицелом в будущем на использование других хостеров для разных частей зеркал, у них цены бывают в разы ниже Линоды, до 5 раз и более. Создал пул на Devuan из нескольких remote iSCSI блоков с Alpine. Попробовал реплицировать датасеты с прерыванием по Ctrl+C По умолчанию без -s на приемнике никаких токенов не создается. При указании -s появляется возможность продолжить до ближайшего незавершенного снэпшота, рулез. Но у меня ведь раньше при возникновении проблем с блокировкой датасета на приемнике не использовалась опция -s на приемнике, почему тогда отвисали датасеты после прерывания?
Alexander
Ну да, тут 2 варианта - либо у тебя программный продукт сам умеет в кластеризацию и распределение своихх данных по своим репликам, тогда можно накатить это на независимые ФС - или нет, тогда берешь решение которое это обеспечит. А брать то, которое не для этого и поверх него колхозить какие-то неродные ему сущности - вдвойне колхоз
Вероятно все, кто пишут про необходимость единого и готового интегрированного решения HA хранилки для прода правы в общем случае, но мне хотелось бы именно open source на базе ZFS сначала just for fun. Я пока не тащу это в прод, мне просто интересно.
Alexander
А вообще, зачем пытаться использовать zfs как кластерное решение, если оно изначально не кластерное?
ZFS - это с моей точки зрения самый надежный способ работы с baremetal дисками. Я доверяю ZFS для низкоуровнего хранения данных намного больше, чем всевозможным LVM, CEPH и уж тем более Microsoft. Мне очень нравится Microsoft близко к юзерам для GUI в связке с DevExpress XAF, но хранилки и СУБД лучше бы без них. PG и Db2 - вот это норм. Хотелось бы найти open source вариант "сильно упрощенный Lustre для нищебродов" ессно на базе ZFS.
Fedor
Раз уж на то пошло, то и на лвм том же, правильно его приготовив, можно сделать хранилку с приемлемым уровнем надёжности.
Fedor
Если рассматривать хранилку как сервис
Fedor
Пока это выглядит как процесс ради процесса. Опиши желаемый конечный результат с описанием пограничных условий, тогда можно будет подискутировать.
Alexander
Раз уж на то пошло, то и на лвм том же, правильно его приготовив, можно сделать хранилку с приемлемым уровнем надёжности.
Мне не хочется изучать 100500 разных LVMов, я лучше изучу варианты реализации ZFS типа OmniOS и SmartOS.
Fedor
Чтобы выбрать решение из нескольких, надо их изучить все.
Alexander
Пока это выглядит как процесс ради процесса. Опиши желаемый конечный результат с описанием пограничных условий, тогда можно будет подискутировать.
HA каталог, расшаренный по NFS для образов файловых систем виртуалок, с низкой IO нагрузкой. Вся нагрузка будет в СУБД, а там свой HA, отдельный от NAS.
Fedor
А где тут зфс?
Alexander
А где тут зфс?
ZFS - должна быть прослойкой между аппаратными дисками и NAS каталогом.
Fedor
Аргументируй необходимость использования ЗФС, которая не про ХА, в ХА решении.
Alexander
Аргументируй необходимость использования ЗФС, которая не про ХА, в ХА решении.
Не доверяю CEPH, как он работает с железяками по крайне мере по сравнению с ZFS.
Fedor
Конкретика
Fedor
Это не аргумент, как ты понимаешь :)
Alexander
Это не аргумент, как ты понимаешь :)
Лучше эту тему вероятно прекратить, потому что у нас разные ценности при оценке надежности софтовых решений, превращаюих физические блоки в транзакционные с контролем целостности данных.
Fedor
ХА это так и так про репликацию - тут ты от этого никуда не денешься.
Fedor
Требования по RTO/RPO какие?
Alexander
Оценка надёжности проверяется всесторонними тестами, к слову.
Что бы эти тесты не показали, никогда не поверю, что отдельно взятые узлы цефа хранят данные надежнее одиночных узлов ZFS.
Fedor
Что бы эти тесты не показали, никогда не поверю, что отдельно взятые узлы цефа хранят данные надежнее одиночных узлов ZFS.
ХА это уже сервис, а мы пока даже не определили требования к этому сервису по доступности, не говоря уж о надёжности.
Fedor
Тебе не нужен этот сервис. Видимо ты написал про него так, чтоб разговор поддержать.
Alexander
Тебе не нужен этот сервис. Видимо ты написал про него так, чтоб разговор поддержать.
Это "прекрасно", когда за меня определяют, что мне нужно, а что ненужно.
Fedor
Вот ты опять редактируешь свои сообщения. Просто смешно :)
Alexander
Вот ты опять редактируешь свои сообщения. Просто смешно :)
Промазал мышкой в браузере, сегодня сильно не выспался :(
Fedor
В общем, последнее предупреждение. Пиши, пожалуйста, по делу и не отвлекай людей для бесцельных разговоров. У меня в голове почти сложилось готовое решение с сопоставимой надёжностью, проверками контролями и прочим. А все зря. :)
Fedor
What Every Programmer Should Know About SSDs https://databasearchitects.blogspot.com/2021/06/what-every-programmer-should-know-about.html
Fedor
Art
Коллеги, у меня по дискуссии выше вопрос назрел насчёт HA Сейчас я использую ZFS-репликацию между нодами. Это псевдо-HA, я понимаю. Но мне норм. Но тру-HA для хранилки в таком случае это что вообще? Какие критерии? Пример: есть БД, которая интенсивно пишет. Сторадж при этом HA. Одна нода хранилки падает. Настоящее HA реально обеспечит мне 0 простоя и 0 потери данных?
Art
Хочется просто понять, чего я лишён с ZFS )
Василий
ZFS - должна быть прослойкой между аппаратными дисками и NAS каталогом.
ну если тебе так хочешься зфс, поставь цепф в виртуалке на зфс
Василий
Коллеги, у меня по дискуссии выше вопрос назрел насчёт HA Сейчас я использую ZFS-репликацию между нодами. Это псевдо-HA, я понимаю. Но мне норм. Но тру-HA для хранилки в таком случае это что вообще? Какие критерии? Пример: есть БД, которая интенсивно пишет. Сторадж при этом HA. Одна нода хранилки падает. Настоящее HA реально обеспечит мне 0 простоя и 0 потери данных?
VSAN. указываешь на сколько копий бить. любой сервак можешь выключить, а время выключения, все данные предназначенные для этого сервера пишутся на другие сервера. если сервер недоступен больше заданного времени, начинается построение новой копии на оставшихся серверах
Василий
итого: все очень ХА, можно добавлять вынимать диски, все очень быстрое
Василий
но очень дорого и хочет 10g
Василий
но есть одно но: ESX only
Art
но очень дорого и хочет 10g
10g-то не проблема, а вот дороговизна и проприетарность... Это ж строго VMware?
Василий
The
Так она же всё равно SPOF?
Для этих рисков делается метрокластер из 2 СХД.
inqfen
С надёжностью все норм, а вот быстродействие оставляет желать лучшего