Vladislav
Если Вы считаете, что знаете zfs лучше него - ну велп, помните про бэкапы
Alex
А что я Вам скажу? У Вас личный опыт >>>> рекомендаций от разраба
Еще раз. Рекомендации давать ZFS устройство - не является ЗАПРЕЩЕНИЕМ использовать что-то другое. И к надежности это НЕ имеет отношения.
Alex
не надоело?
Vladislav
Еще раз. Рекомендации давать ZFS устройство - не является ЗАПРЕЩЕНИЕМ использовать что-то другое. И к надежности это НЕ имеет отношения.
Когда придёте с вопросом "А что делать у меня отключилось питание и zfs import говорит no pools available" тогда мы вспомним этот разговор
Alex
Аргументов и пруфов нет. В общем, как и ожидалось.
Alex
"Вы еще не знаете Паниковского!" Классика бессмертна =)
Ivan
Опять вранье
One might be inclined to try using single-drive RAID 0 arrays to try to use a RAID controller like a HBA, but this is not recommended for many of the reasons listed for other hardware RAID types. It is best to use a HBA instead of a RAID controller, for both performance and reliability. reliability - надежность поэтому кто тут врёт надо еще подумать
Vladislav
общение тут не предполагает токсичности, даже завуалированной
Ну я даже не знаю что хуже токсичность (чтобы люди читали документацию) или то, что сейчас говорит товарищ
Ivan
https://openzfs.github.io/openzfs-docs/Performance and Tuning/Hardware.html#hardware-raid-controllers
Alex
Нет никаких причин считать, что пул , собранный из файлов в качестве устройств - чем-то менее надежен, чем голая железка
Vladislav
Alex
HBA instead of RAID надежнее в смысле, что меньше точек отказа, RAID сложное устройство. Но это вообще про другое
Fedor
нашли, о чем спорить =) чем больше звеньев в цепи, тем она потенциально менее надежна.
Vladislav
Еще раз. Рекомендации давать ZFS устройство - не является ЗАПРЕЩЕНИЕМ использовать что-то другое. И к надежности это НЕ имеет отношения.
Весело однако, поинты от @pan5a Слушать рекомендации разраба? Нет, у меня и так все работает Читать документацию? Хуйня, у меня на файлах уже 5 лет все работает Reliability != Надёжность #лучшие_моменты_этого_чата
Fedor
заканчивайте.
Δαρθ
про железоRAIDы можно свести к 2 пунктам: 1. если железо заглючит то превед данным и гарантии ZFS не помогут 2. если RAID5/6 уже сделан на железном, то с т.з. автозафиксивания данных это хуже чем если бы был raidz1/z2 ни один из этих пунктов не вижу как может быть актуальным для device mapperа и dm_crypt
Alex
тут всё так, вопросов нет
Δαρθ
ZFS поверх Raid - это однозначно плохо: и по скорости и по надежности (в целом, за счет усложнения)
А вот например как может быть плох raid0 уже не очень понятно. НЯЗ ZFS сама raid0-like разгон блоков 1 файла по девайсам не делает, и с другой стороны raid0 никак не завязан на дублировании инфы и хитрых write hole'ах и подобном
Fedor
Риски недолета данных при сбоях после рапорта о фиксации
Fedor
могут потеряться внутри контроллера (такое бывает)
Alex
А вот например как может быть плох raid0 уже не очень понятно. НЯЗ ZFS сама raid0-like разгон блоков 1 файла по девайсам не делает, и с другой стороны raid0 никак не завязан на дублировании инфы и хитрых write hole'ах и подобном
Это глубокая тема, но да - все (ок, которые я лично знаю) качественные источники категорически не рекомендуют raid перез zfs. Максимум - это режим pass thru (по разному у разных вендоров) - т.е когда контроллер условно как сокет для подключения диска, и не вмешивается
Alex
Чисто по личным оценкам, у нас процентов 80 железных проблем связаны с железными рейдам. Пофиг какой вендор - адаптек, lsi, всё говно
Alex
а вот хранилки, собранные "по книжке" на фряхе , с HBA - работают годами, вообще без проблем. Ток сбойные диски меняй. В сумме уже за петабайт перевалило
Shaker
У нас тоже есть хранилки, и несколько, но и года не прошло, чтоб без проблем. Хотя потерь данных, никогда не было.
Alex
ну там, HBA/диски
Alex
ось
Shaker
Интересно. А можете рассказать на чем собрано?
Более старые debian/ubuntu разных версий, большинство сейчас на ubuntu 22.04. Конфиг стандартный, полки 3par sas3 двухканальные, контроллеры сейчас все lsi 9400. 4 шкафа полок, вперемешку с серверами-контроллерами. По 3-5 полки к серверу, подключено каскадом. 1-2 параллельно.
Shaker
И раз в квартал-два, что-то да произойдет, обязательно ))
Alex
ОК, с контроллерами конечно дело такое, и я готов согласиться. Но просто raid0 при помощи mdraid чем может быть плох?
Как минимум, лишняя прослойка. ZFS работает с диском, подразумевая, что имеет прямой (ну, насколько это сейчас можно назвать прямым) доступ к железке. =)
Shaker
Особенно поймали на 2.1.(3-5) с дедупликацией кучу проблем
Alex
А какой % адаптека у тебя? :)
"поубывав бы" этих адаптеков =)
Alex
я не понимаю наших админов, упорно сувают их в сервера, где я не накладываю вето =)
Alex
Особенно поймали на 2.1.(3-5) с дедупликацией кучу проблем
ну блин. не надо включать дедупликацию. =)
Shaker
ну блин. не надо включать дедупликацию. =)
Срочно нужно было несколько сотен тер места освободить ))) Понятно, что не надо. "Но ведь она-же есть"
Δαρθ
Как минимум, лишняя прослойка. ZFS работает с диском, подразумевая, что имеет прямой (ну, насколько это сейчас можно назвать прямым) доступ к железке. =)
Ну вообще "подразумевать" такое странно. В виртуалке например будет точно прослойка, а то и не одна.
Vladislav
Ну вообще "подразумевать" такое странно. В виртуалке например будет точно прослойка, а то и не одна.
В виртуалку можно сделать pcie passtrought у адаптера, по крайней мере у Вари это достаточно прямая операция с точки зрения дополнительных прослоек
Alex
Ну вообще "подразумевать" такое странно. В виртуалке например будет точно прослойка, а то и не одна.
Так и целесообразность zfs внутри виртуалки - вопрос весьма творческий, я б сказал =)
Alex
Срочно нужно было несколько сотен тер места освободить ))) Понятно, что не надо. "Но ведь она-же есть"
С ней жопа, что вход рубль - а выход 10. А на выход сильно хочешь, когда всё начинает вставать колом. Плавали =(
Shaker
С ней жопа, что вход рубль - а выход 10. А на выход сильно хочешь, когда всё начинает вставать колом. Плавали =(
Закончилось тем, что на хостах внезапно оказалось по 1TB памяти, но и это не помогло. Мрак короче. Я бы определил в zfs часть функционала в (experiment only) и включал бы только по особому ключу.
Alex
про 1тб не понял
Alex
1тб RAM? :))
Shaker
так а происходит с железом или... ?
С железом редко. Самое частое "слетевшая прошивка у hba" и сбой контроллера в полке, решается переключением через multipath "туда-сюда", налету. Диски меняем регулярно, раз в месяц точно 1-2 диска. Наша аппликуха смотрит алерты с прометея, и сразу под замену.
Δαρθ
https://github.com/openzfs/zfs/issues/15533 даунгрейд на 2.2.0 убирает багу с LUKSом, так что дело точно в ошибке какой-то, либо там либо сям
Alex
Да
Это серьезно. Ну а размер пула тогда каков был?
Alex
+-
Shaker
Рядом развернули на весь объем ceph в марте 2023, дублируем данные в двух местах. Кроме того, что ceph удобнее мониторить и нужно сильно больше дисков, оно еще и быстрее в разы оказалось. А т к от полок отказались, на часть аппаратных проблем стало меньше.
Shaker
Это серьезно. Ну а размер пула тогда каков был?
Там был 1pb тогда, группами из 24 дисков.
Alex
Там был 1pb тогда, группами из 24 дисков.
так а там зависит от размера в байтах. Очень грубая оценка, наскольк я помню - это по 4Г на 1Т данных в пуле
Free
пропиши чтоб не сбрасывалось :) https://openzfs.github.io/openzfs-docs/Performance%20and%20Tuning/ZFS%20on%20Linux%20Module%20Parameters.html#zfs-on-linux-module-parameters
Искал подробности про установку recordsize=4M, нашел эту рекомендацию 👆, но ссылка протухла . Что там было?
Владимир
Рядом развернули на весь объем ceph в марте 2023, дублируем данные в двух местах. Кроме того, что ceph удобнее мониторить и нужно сильно больше дисков, оно еще и быстрее в разы оказалось. А т к от полок отказались, на часть аппаратных проблем стало меньше.
хотя в целом это реально замутить Например делать пул не из mirror, а из raidz2 например + включить дедупликацию, ну и как-то позвращаться с сжатием и размером блоков, и всё будет атк тупить что заплачешь
Shaker
если у вас сепх оказался быстрее в разы зфс, мне страшно представить что вы там наконфигурировали в зфс))
Про быстрее, вопрос сложный, понимаю ). zfs у нас группами по несколько дисковых корзин, а в ceph вообще все диски. Так что это объяснимо.
Shaker
По иопсам конечно zfs сильно быстрее на мелких блоках, тут спорить бесполезно.
Alex
Если есть админ, который хорошо умеет в цеф - то чего б нет. А вот у нас такой админ ушел и цеф чуть не завалили (точнее завалили, но слава богам - подняли)
Alex
По иопсам конечно zfs сильно быстрее на мелких блоках, тут спорить бесполезно.
Ай, как вы сравниваете, цеф же другого поля ягода совсем
Shaker
и по латенси на порядок быстрее))
Да, все так. Но нам как раз латенси не особенно важны. Это не виртуализация, а контент хранилка.
Владимир
По иопсам конечно zfs сильно быстрее на мелких блоках, тут спорить бесполезно.
ты скажи хоть один параметр по которому zfs проигрывает)), сепх сильно тупее если готовить зфс нормально, а не как я выше написал)
Shaker
Ай, как вы сравниваете, цеф же другого поля ягода совсем
Только на уровне нашей задачи сравниваю. Вот к нас шкафы с цеф, работает так. А вот винигрет из zfs, работает так.
Владимир
Да, все так. Но нам как раз латенси не особенно важны. Это не виртуализация, а контент хранилка.
тогда тем более zfs рулит, я за счёт zfs синхроню данные по CDN в разных ДЦ, на сепхе такое не реально))
Shaker
Я не против zfs, просто для нас эту стало архитектурным тупиком.