@ru_zfs - страница 699 - Telegram web archive

Vladislav

Если Вы считаете, что знаете zfs лучше него - ну велп, помните про бэкапы

Alex

А что я Вам скажу? У Вас личный опыт >>>> рекомендаций от разраба

Еще раз. Рекомендации давать ZFS устройство - не является ЗАПРЕЩЕНИЕМ использовать что-то другое. И к надежности это НЕ имеет отношения.

Alex

Если Вы считаете, что знаете zfs лучше него - ну велп, помните про бэкапы

Опять вранье

Alex

не надоело?

Vladislav

Когда придёте с вопросом "А что делать у меня отключилось питание и zfs import говорит no pools available" тогда мы вспомним этот разговор

Alex

Когда придёте с вопросом "А что делать у меня отключилось питание и zfs import говорит no pools available" тогда мы вспомним этот разговор

Бла бла бла

Alex

Аргументов и пруфов нет. В общем, как и ожидалось.

Alex

"Вы еще не знаете Паниковского!" Классика бессмертна =)

Ivan

Опять вранье

One might be inclined to try using single-drive RAID 0 arrays to try to use a RAID controller like a HBA, but this is not recommended for many of the reasons listed for other hardware RAID types. It is best to use a HBA instead of a RAID controller, for both performance and reliability. reliability - надежность поэтому кто тут врёт надо еще подумать

Vladislav

общение тут не предполагает токсичности, даже завуалированной

Ну я даже не знаю что хуже токсичность (чтобы люди читали документацию) или то, что сейчас говорит товарищ

Ivan

https://openzfs.github.io/openzfs-docs/Performance and Tuning/Hardware.html#hardware-raid-controllers

Alex

One might be inclined to try using single-drive RAID 0 arrays to try to use a RAID controller like a HBA, but this is not recommended for many of the reasons listed for other hardware RAID types. It is best to use a HBA instead of a RAID controller, for both performance and reliability. reliability - надежность поэтому кто тут врёт надо еще подумать

Во-первых, вранье - это то, что я говорил, что я что-то гвоорил, что я знаю лучше разрабочтика. Во-вторых, ваша цитата не про то

Alex

Нет никаких причин считать, что пул , собранный из файлов в качестве устройств - чем-то менее надежен, чем голая железка

Vladislav

Alex

HBA instead of RAID надежнее в смысле, что меньше точек отказа, RAID сложное устройство. Но это вообще про другое

Fedor

нашли, о чем спорить =) чем больше звеньев в цепи, тем она потенциально менее надежна.

Vladislav

Весело однако, поинты от @pan5a Слушать рекомендации разраба? Нет, у меня и так все работает Читать документацию? Хуйня, у меня на файлах уже 5 лет все работает Reliability != Надёжность #лучшие_моменты_этого_чата

Alex

Весело однако, поинты от @pan5a Слушать рекомендации разраба? Нет, у меня и так все работает Читать документацию? Хуйня, у меня на файлах уже 5 лет все работает Reliability != Надёжность #лучшие_моменты_этого_чата

Не весело, что люди буквы-то выучили, но понять смысл не хотят =)

Fedor

заканчивайте.

Δαρθ

про железоRAIDы можно свести к 2 пунктам: 1. если железо заглючит то превед данным и гарантии ZFS не помогут 2. если RAID5/6 уже сделан на железном, то с т.з. автозафиксивания данных это хуже чем если бы был raidz1/z2 ни один из этих пунктов не вижу как может быть актуальным для device mapperа и dm_crypt

Alex

про железоRAIDы можно свести к 2 пунктам: 1. если железо заглючит то превед данным и гарантии ZFS не помогут 2. если RAID5/6 уже сделан на железном, то с т.з. автозафиксивания данных это хуже чем если бы был raidz1/z2 ни один из этих пунктов не вижу как может быть актуальным для device mapperа и dm_crypt

ZFS поверх Raid - это однозначно плохо: и по скорости и по надежности (в целом, за счет усложнения)

Alex

тут всё так, вопросов нет

Δαρθ

ZFS поверх Raid - это однозначно плохо: и по скорости и по надежности (в целом, за счет усложнения)

А вот например как может быть плох raid0 уже не очень понятно. НЯЗ ZFS сама raid0-like разгон блоков 1 файла по девайсам не делает, и с другой стороны raid0 никак не завязан на дублировании инфы и хитрых write hole'ах и подобном

Fedor

Риски недолета данных при сбоях после рапорта о фиксации

Fedor

могут потеряться внутри контроллера (такое бывает)

Alex

А вот например как может быть плох raid0 уже не очень понятно. НЯЗ ZFS сама raid0-like разгон блоков 1 файла по девайсам не делает, и с другой стороны raid0 никак не завязан на дублировании инфы и хитрых write hole'ах и подобном

Это глубокая тема, но да - все (ок, которые я лично знаю) качественные источники категорически не рекомендуют raid перез zfs. Максимум - это режим pass thru (по разному у разных вендоров) - т.е когда контроллер условно как сокет для подключения диска, и не вмешивается

Alex

Чисто по личным оценкам, у нас процентов 80 железных проблем связаны с железными рейдам. Пофиг какой вендор - адаптек, lsi, всё говно

Alex

а вот хранилки, собранные "по книжке" на фряхе , с HBA - работают годами, вообще без проблем. Ток сбойные диски меняй. В сумме уже за петабайт перевалило

Shaker

а вот хранилки, собранные "по книжке" на фряхе , с HBA - работают годами, вообще без проблем. Ток сбойные диски меняй. В сумме уже за петабайт перевалило

Везет вам!

Shaker

У нас тоже есть хранилки, и несколько, но и года не прошло, чтоб без проблем. Хотя потерь данных, никогда не было.

Alex

У нас тоже есть хранилки, и несколько, но и года не прошло, чтоб без проблем. Хотя потерь данных, никогда не было.

Интересно. А можете рассказать на чем собрано?

Alex

ну там, HBA/диски

Alex

ось

Δαρθ

Это глубокая тема, но да - все (ок, которые я лично знаю) качественные источники категорически не рекомендуют raid перез zfs. Максимум - это режим pass thru (по разному у разных вендоров) - т.е когда контроллер условно как сокет для подключения диска, и не вмешивается

ОК, с контроллерами конечно дело такое, и я готов согласиться. Но просто raid0 при помощи mdraid чем может быть плох?

Roman

У нас тоже есть хранилки, и несколько, но и года не прошло, чтоб без проблем. Хотя потерь данных, никогда не было.

Ну ты везучий на технику))

Roman

Чисто по личным оценкам, у нас процентов 80 железных проблем связаны с железными рейдам. Пофиг какой вендор - адаптек, lsi, всё говно

А какой % адаптека у тебя? :)

Shaker

Интересно. А можете рассказать на чем собрано?

Более старые debian/ubuntu разных версий, большинство сейчас на ubuntu 22.04. Конфиг стандартный, полки 3par sas3 двухканальные, контроллеры сейчас все lsi 9400. 4 шкафа полок, вперемешку с серверами-контроллерами. По 3-5 полки к серверу, подключено каскадом. 1-2 параллельно.

Shaker

И раз в квартал-два, что-то да произойдет, обязательно ))

Alex

ОК, с контроллерами конечно дело такое, и я готов согласиться. Но просто raid0 при помощи mdraid чем может быть плох?

Как минимум, лишняя прослойка. ZFS работает с диском, подразумевая, что имеет прямой (ну, насколько это сейчас можно назвать прямым) доступ к железке. =)

Shaker

Особенно поймали на 2.1.(3-5) с дедупликацией кучу проблем

Alex

А какой % адаптека у тебя? :)

"поубывав бы" этих адаптеков =)

Alex

я не понимаю наших админов, упорно сувают их в сервера, где я не накладываю вето =)

Alex

Особенно поймали на 2.1.(3-5) с дедупликацией кучу проблем

ну блин. не надо включать дедупликацию. =)

Shaker

ну блин. не надо включать дедупликацию. =)

Срочно нужно было несколько сотен тер места освободить ))) Понятно, что не надо. "Но ведь она-же есть"

Δαρθ

Как минимум, лишняя прослойка. ZFS работает с диском, подразумевая, что имеет прямой (ну, насколько это сейчас можно назвать прямым) доступ к железке. =)

Ну вообще "подразумевать" такое странно. В виртуалке например будет точно прослойка, а то и не одна.

Vladislav

Ну вообще "подразумевать" такое странно. В виртуалке например будет точно прослойка, а то и не одна.

В виртуалку можно сделать pcie passtrought у адаптера, по крайней мере у Вари это достаточно прямая операция с точки зрения дополнительных прослоек

Alex

Ну вообще "подразумевать" такое странно. В виртуалке например будет точно прослойка, а то и не одна.

Так и целесообразность zfs внутри виртуалки - вопрос весьма творческий, я б сказал =)

Alex

В виртуалку можно сделать pcie passtrought у адаптера, по крайней мере у Вари это достаточно прямая операция с точки зрения дополнительных прослоек

как устройство внуть - тоды да

Alex

Срочно нужно было несколько сотен тер места освободить ))) Понятно, что не надо. "Но ведь она-же есть"

С ней жопа, что вход рубль - а выход 10. А на выход сильно хочешь, когда всё начинает вставать колом. Плавали =(

Alex

И раз в квартал-два, что-то да произойдет, обязательно ))

так а происходит с железом или... ?

Shaker

С ней жопа, что вход рубль - а выход 10. А на выход сильно хочешь, когда всё начинает вставать колом. Плавали =(

Закончилось тем, что на хостах внезапно оказалось по 1TB памяти, но и это не помогло. Мрак короче. Я бы определил в zfs часть функционала в (experiment only) и включал бы только по особому ключу.

Alex

Закончилось тем, что на хостах внезапно оказалось по 1TB памяти, но и это не помогло. Мрак короче. Я бы определил в zfs часть функционала в (experiment only) и включал бы только по особому ключу.

Эм... так включение дедупа же не задедупит то, что уже записано.

Alex

про 1тб не понял

Alex

1тб RAM? :))

Shaker

так а происходит с железом или... ?

С железом редко. Самое частое "слетевшая прошивка у hba" и сбой контроллера в полке, решается переключением через multipath "туда-сюда", налету. Диски меняем регулярно, раз в месяц точно 1-2 диска. Наша аппликуха смотрит алерты с прометея, и сразу под замену.

Shaker

1тб RAM? :))

Да

Δαρθ

https://github.com/openzfs/zfs/issues/15533 даунгрейд на 2.2.0 убирает багу с LUKSом, так что дело точно в ошибке какой-то, либо там либо сям

Alex

Да

Это серьезно. Ну а размер пула тогда каков был?

Alex

+-

Владимир

Закончилось тем, что на хостах внезапно оказалось по 1TB памяти, но и это не помогло. Мрак короче. Я бы определил в zfs часть функционала в (experiment only) и включал бы только по особому ключу.

это например какую часть? слышали про zfs_arc_sys_free?

Shaker

Рядом развернули на весь объем ceph в марте 2023, дублируем данные в двух местах. Кроме того, что ceph удобнее мониторить и нужно сильно больше дисков, оно еще и быстрее в разы оказалось. А т к от полок отказались, на часть аппаратных проблем стало меньше.

Владимир

Рядом развернули на весь объем ceph в марте 2023, дублируем данные в двух местах. Кроме того, что ceph удобнее мониторить и нужно сильно больше дисков, оно еще и быстрее в разы оказалось. А т к от полок отказались, на часть аппаратных проблем стало меньше.

если у вас сепх оказался быстрее в разы зфс, мне страшно представить что вы там наконфигурировали в зфс))

Shaker

Это серьезно. Ну а размер пула тогда каков был?

Там был 1pb тогда, группами из 24 дисков.

Alex

Рядом развернули на весь объем ceph в марте 2023, дублируем данные в двух местах. Кроме того, что ceph удобнее мониторить и нужно сильно больше дисков, оно еще и быстрее в разы оказалось. А т к от полок отказались, на часть аппаратных проблем стало меньше.

Ох. Ну цеф всё-таки это другое, это распределенное

Alex

Там был 1pb тогда, группами из 24 дисков.

так а там зависит от размера в байтах. Очень грубая оценка, наскольк я помню - это по 4Г на 1Т данных в пуле

Free

пропиши чтоб не сбрасывалось :) https://openzfs.github.io/openzfs-docs/Performance%20and%20Tuning/ZFS%20on%20Linux%20Module%20Parameters.html#zfs-on-linux-module-parameters

Искал подробности про установку recordsize=4M, нашел эту рекомендацию 👆, но ссылка протухла . Что там было?

Владимир

Рядом развернули на весь объем ceph в марте 2023, дублируем данные в двух местах. Кроме того, что ceph удобнее мониторить и нужно сильно больше дисков, оно еще и быстрее в разы оказалось. А т к от полок отказались, на часть аппаратных проблем стало меньше.

хотя в целом это реально замутить Например делать пул не из mirror, а из raidz2 например + включить дедупликацию, ну и как-то позвращаться с сжатием и размером блоков, и всё будет атк тупить что заплачешь

Shaker

если у вас сепх оказался быстрее в разы зфс, мне страшно представить что вы там наконфигурировали в зфс))

Про быстрее, вопрос сложный, понимаю ). zfs у нас группами по несколько дисковых корзин, а в ceph вообще все диски. Так что это объяснимо.

Владимир

хотя в целом это реально замутить Например делать пул не из mirror, а из raidz2 например + включить дедупликацию, ну и как-то позвращаться с сжатием и размером блоков, и всё будет атк тупить что заплачешь

вот в таком случае сепх станет быстрее))

Shaker

По иопсам конечно zfs сильно быстрее на мелких блоках, тут спорить бесполезно.

Владимир

По иопсам конечно zfs сильно быстрее на мелких блоках, тут спорить бесполезно.

и по латенси на порядок быстрее))

Alex

Если есть админ, который хорошо умеет в цеф - то чего б нет. А вот у нас такой админ ушел и цеф чуть не завалили (точнее завалили, но слава богам - подняли)

Alex

По иопсам конечно zfs сильно быстрее на мелких блоках, тут спорить бесполезно.

Ай, как вы сравниваете, цеф же другого поля ягода совсем

Shaker

и по латенси на порядок быстрее))

Да, все так. Но нам как раз латенси не особенно важны. Это не виртуализация, а контент хранилка.

Владимир

По иопсам конечно zfs сильно быстрее на мелких блоках, тут спорить бесполезно.

ты скажи хоть один параметр по которому zfs проигрывает)), сепх сильно тупее если готовить зфс нормально, а не как я выше написал)

Alex

ты скажи хоть один параметр по которому zfs проигрывает)), сепх сильно тупее если готовить зфс нормально, а не как я выше написал)

zfs - локальная =)

Shaker

Ай, как вы сравниваете, цеф же другого поля ягода совсем

Только на уровне нашей задачи сравниваю. Вот к нас шкафы с цеф, работает так. А вот винигрет из zfs, работает так.

Владимир

Да, все так. Но нам как раз латенси не особенно важны. Это не виртуализация, а контент хранилка.

тогда тем более zfs рулит, я за счёт zfs синхроню данные по CDN в разных ДЦ, на сепхе такое не реально))

Shaker

Я не против zfs, просто для нас эту стало архитектурным тупиком.

Владимир

Я не против zfs, просто для нас эту стало архитектурным тупиком.

так как строили пул?, на mirror?