@ru_zfs - страница 831 - Telegram web archive

Ivan

Занятно, при direct=always при попытке обновить initramfs такая вот штука. Если переключить на standard, то проблема исчезает. мб это дебианпроблемы. т.к. гуглинг ничего не дал. при переключении между direct=always и direct=standard все что находится за пределами ядра остается идентичным - меняется только поведение модуля ядра zfs, так что причина этого глюка находится на стороне ядра, в модуле zfs. И если дебиановцы не напихали в свою сборку OpenZFS каких-то специфических только для дебиана патчей, как они это умеют делать (например, CVE-2008-0166) - то причина этой ошибки - все-таки в коде OpenZFS. и возможно issue в багтрекере на GitHub помог бы лучше понимать разработчикам OpenZFS масштабы этой проблемы, и может быть они смогли бы каким-то образом еще раз, более внимательно посмотреть на свой код Direct IO Support #10018. или - хотя бы можно будет в документации указать, какой workaround можно применить, чтобы не было проблем. P.S. похожая ситуация на Fedora: https://github.com/openzfs/zfs/issues/17027 возможно, причина проблемы в точности та же самая.

скорее вот мой случай https://github.com/openzfs/zfs/issues/16958

LiS92

Друзья, подскажите пожалуйста сейчас считаю необходимые ресурсы для сервера, фс понятное дело ZFS. Возник вопрос, в интернете встречается информация что для стабильной работы дедупликации необходимо соотношение 5Гб RAM на 1Tb дискового пространства. На сколько это верно и сильно ли снизится производительность ? В моих подсчетах оптимально на систему + сервисы + дедупликацию выходит 80 Гб RAM, понятное дело что хотелось бы поставить 64Гб, но спорно ибо реальных знаний у меня нет, поэтому обращаюсь к вам за советом.

Vladislav

Друзья, подскажите пожалуйста сейчас считаю необходимые ресурсы для сервера, фс понятное дело ZFS. Возник вопрос, в интернете встречается информация что для стабильной работы дедупликации необходимо соотношение 5Гб RAM на 1Tb дискового пространства. На сколько это верно и сильно ли снизится производительность ? В моих подсчетах оптимально на систему + сервисы + дедупликацию выходит 80 Гб RAM, понятное дело что хотелось бы поставить 64Гб, но спорно ибо реальных знаний у меня нет, поэтому обращаюсь к вам за советом.

Понятное почему?

LiS92

Понятное почему?

Потому что 4 слота, 4х16 или 4х32 имеют разную стоимость, и если ставить 4х32 будет сильный перебор и не оптимально по деньгам

Vladislav

Потому что 4 слота, 4х16 или 4х32 имеют разную стоимость, и если ставить 4х32 будет сильный перебор и не оптимально по деньгам

Судя по ограничению в 4 слота - речь явно не про сервер, а про обычный ПК

LiS92

Судя по ограничению в 4 слота - речь явно не про сервер, а про обычный ПК

Да, домашний NAS по сути + сервисы. Но вопрос то немного не в этом

Vladislav

А значит про ecc память никто не читал

LiS92

А значит про ecc память никто не читал

Почему же, камень, мать и память поддерживают ECC. Можно вернуться к вопросу о дедупликации пожалуйста ?

Vladislav

Да, домашний NAS по сути + сервисы. Но вопрос то немного не в этом

Вопрос в том, что дедуп использовать не надо

Vladislav

https://habr.com/ru/companies/vk/articles/863904/

central

что за данные будут в домашнем сервере, что нужна дедупликация?

LiS92

Вопрос в том, что дедуп использовать не надо

Хм, почему ? Для меня оно выглядит как килл фича. По поводу данных тонна разных библиотек, ассетов и прочего что может очень часто дублироваться. @DanteAvalon спасибо, ушел курить статью

Vladislav

Хм, почему ? Для меня оно выглядит как килл фича. По поводу данных тонна разных библиотек, ассетов и прочего что может очень часто дублироваться. @DanteAvalon спасибо, ушел курить статью

Не так это работает

LiS92

Не так это работает

Спасибо за статью, вопросов стало меньше, вопрос выше можно считать закрытым 😅

Vladislav

Сделай ещё zdb -S &amp;amp;lt;poolname&amp;amp;gt;

Vladislav

Это даст тебе инфу о том, сколько сэкономит тебе дедуп

Combot

Карина Мельникова был(а) забанен(а)! Причина: CAS-бан.

Combot

Gorn был(а) забанен(а)! Причина: CAS-бан.

Combot

Alex Воробьёв был(а) забанен(а)! Причина: CAS-бан.

Combot

Gorn был(а) забанен(а)! Причина: CAS-бан.

Combot

Gorn был(а) забанен(а)! Причина: CAS-бан.

Pttf8-65

Доброго времени суток, хотел внести толику юмора и немного смеха (я, так думаю) в ваш чат. Имею 4 лишних, (а были ли они когда то не лишними), 16 gb optane. Как разделить каждый из них на две части допустим 4 и 12 gb, первые части 4 gb в зеркале отдать под журнал намерений zil, а 4 части по 12 в стрип под кеш. Как это сделать на практике, и имеет ли смысл, для основного рейда. Рейд 10 из 6 дисков по 8tb. ? P.s. И дедупликация, включать или нет!? Оперативки 256 гб (ecc)

Alexey

Что смушает, так это raid 10 из 6 дисков. У него надёжность равно 1 диску.

Alexey

Я бы сделал так. Draid2 на 6 дисках. 2 optain в зеркало под zil, 2 - под l2arc

Alexey

Или, если памяти много, то 2 под l2arc не ставить, а положить на полочку до лучших времен

Alexey

Дедупликацию не включать, включить сжатие zstd

Georg🎞️🎥

Или, если памяти много, то 2 под l2arc не ставить, а положить на полочку до лучших времен

L2arc вам ничего не даст скорее всего

Pttf8-65

Понял, а скорость чтения записи райд draid 6, сильно разница с raid 10?

Alexey

Все очень зависит от задач... Draid будет читать данные сразу с 4-ех дисков. Раид10 будет читать с 6. Запись будет происходить в zil, я предполагаю, что скорость записи будет примерно схожая. Если рассматривать прямую запись на массивы, то Скорость записи на раид10 будет в пике в 2 раза больше, чем на 1 диск. Draid должен быть побыстрее, даже с учетом расчета четности. Но это теоретические предположения.

Pttf8-65

Все очень зависит от задач... Draid будет читать данные сразу с 4-ех дисков. Раид10 будет читать с 6. Запись будет происходить в zil, я предполагаю, что скорость записи будет примерно схожая. Если рассматривать прямую запись на массивы, то Скорость записи на раид10 будет в пике в 2 раза больше, чем на 1 диск. Draid должен быть побыстрее, даже с учетом расчета четности. Но это теоретические предположения.

Спасибо, буду пробовать.

Combot

Виктория Орлова был(а) забанен(а)! Причина: CAS-бан.

Combot

Кристина Романова был(а) забанен(а)! Причина: CAS-бан.

Combot

Ольга был(а) забанен(а)! Причина: CAS-бан.

ztx

Доброго вечера всем. Первый опыт использования ZFS, настроил два новых одинаковых HDD (Seagate ST4000VN006-3CW104) в зеркало, неделя использования - полёт нормальный. А сегодня вот такая картина: # zpool status -x -v pool: zfs_storage state: ONLINE status: One or more devices has experienced an error resulting in data corruption. Applications may be affected. action: Restore the file in question if possible. Otherwise restore the entire pool from backup. see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-8A scan: resilvered 1.51M in 00:00:01 with 0 errors on Sat Feb 22 20:29:26 2025 config: NAME STATE READ WRITE CKSUM zfs_storage ONLINE 0 0 0 mirror-0 ONLINE 0 0 0 wwn-0x5000c500f76ae438 ONLINE 0 0 0 wwn-0x5000c500f76ba407 ONLINE 0 0 0 errors: Permanent errors have been detected in the following files: ...и всё. Дальше ничего, списка файлов - нет. Ни на какие проблемные файлы я пока лично сам не наткнулся, узнал только потому, что скрипт на автопроверку статуса сработал и уведомление прислал. Дистрибутив Void Linux. Домашний сервер под домашние нужды. По версиям: zfs-2.3.0-1 zfs-kmod-2.3.0-1 Linux 6.12.16_1 #1 SMP PREEMPT_DYNAMIC x86_64 GNU/Linux smartctl -a /dev/sdX на оба диска пишет No Errors Logged, подробные логи, если нужны, здесь. Есть снэпшоты, есть бэкап всех важных файлов на другом зеркале, хотя я пока ни разу ещё не пробовал ничего восстанавливать и с интрументарием комманд zfs пока "на Вы". Буду благодарен, если подскажете в какую сторону копать, чтобы понять что пошло не так и что стоит делать в таком случае. Заранее спасибо. UPD: smartctl -l farm

Vladislav

Доброго вечера всем. Первый опыт использования ZFS, настроил два новых одинаковых HDD (Seagate ST4000VN006-3CW104) в зеркало, неделя использования - полёт нормальный. А сегодня вот такая картина: # zpool status -x -v pool: zfs_storage state: ONLINE status: One or more devices has experienced an error resulting in data corruption. Applications may be affected. action: Restore the file in question if possible. Otherwise restore the entire pool from backup. see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-8A scan: resilvered 1.51M in 00:00:01 with 0 errors on Sat Feb 22 20:29:26 2025 config: NAME STATE READ WRITE CKSUM zfs_storage ONLINE 0 0 0 mirror-0 ONLINE 0 0 0 wwn-0x5000c500f76ae438 ONLINE 0 0 0 wwn-0x5000c500f76ba407 ONLINE 0 0 0 errors: Permanent errors have been detected in the following files: ...и всё. Дальше ничего, списка файлов - нет. Ни на какие проблемные файлы я пока лично сам не наткнулся, узнал только потому, что скрипт на автопроверку статуса сработал и уведомление прислал. Дистрибутив Void Linux. Домашний сервер под домашние нужды. По версиям: zfs-2.3.0-1 zfs-kmod-2.3.0-1 Linux 6.12.16_1 #1 SMP PREEMPT_DYNAMIC x86_64 GNU/Linux smartctl -a /dev/sdX на оба диска пишет No Errors Logged, подробные логи, если нужны, здесь. Есть снэпшоты, есть бэкап всех важных файлов на другом зеркале, хотя я пока ни разу ещё не пробовал ничего восстанавливать и с интрументарием комманд zfs пока "на Вы". Буду благодарен, если подскажете в какую сторону копать, чтобы понять что пошло не так и что стоит делать в таком случае. Заранее спасибо. UPD: smartctl -l farm

А чекни Seagate FORM

ztx

А чекни Seagate FORM

FORM?

Vladislav

FORM?

*FARM

Vladislav

smartctl -l farm

Fedor

А чекни Seagate FORM

у тех дисков скорее всего нет поддержки

ztx

smartctl -l farm

полный лог: https://ztx.pastes.sh/seagate_farm Затрудняюсь с интерпретацией этих данных, но вот всё, что бросилось в глаза /dev/sdb: FARM Log Page 3: Error Statistics ... Number of ASR Events: 1 ... Spin Retry Count Normalized: 100 Spin Retry Count Worst: 100 ... FARM Log Page 5: Reliability Statistics Error Rate (SMART Attribute 1 Raw): 0x0000000009052f60 Error Rate (SMART Attribute 1 Normalized): 81 Error Rate (SMART Attribute 1 Worst): 67 Seek Error Rate (SMART Attr 7 Raw): 0x0000000000153056 Seek Error Rate (SMART Attr 7 Normalized): 61 Seek Error Rate (SMART Attr 7 Worst): 60 High Priority Unload Events: 16 ... MR Head Resistance from Head 0: 362 MR Head Resistance from Head 1: 443 MR Head Resistance from Head 2: 370 MR Head Resistance from Head 3: 394 /dev/sdc: FARM Log Page 3: Error Statistics ... Number of ASR Events: 3 ... Spin Retry Count Normalized: 100 Spin Retry Count Worst: 100 ... FARM Log Page 5: Reliability Statistics Error Rate (SMART Attribute 1 Raw): 0x00000000032c4fc0 Error Rate (SMART Attribute 1 Normalized): 71 Error Rate (SMART Attribute 1 Worst): 70 Seek Error Rate (SMART Attr 7 Raw): 0x0000000000159b6b Seek Error Rate (SMART Attr 7 Normalized): 62 Seek Error Rate (SMART Attr 7 Worst): 60 High Priority Unload Events: 16 ... MR Head Resistance from Head 0: 339 MR Head Resistance from Head 1: 394 MR Head Resistance from Head 2: 393 MR Head Resistance from Head 3: 548 опять же, не знаю насколько это в рамках нормы

Dexex

Мда, китайцы творят вещи. Ценники: 2тб hdd - от 7к 2тб ssd - за 9к(в 4 раза быстрее и надёжнее) Поставил и по сути забыл на долгое время.

central

Мда, китайцы творят вещи. Ценники: 2тб hdd - от 7к 2тб ssd - за 9к(в 4 раза быстрее и надёжнее) Поставил и по сути забыл на долгое время.

люди деляться на два типа те кто еще не делает бекапы и тех кто уже делает бекапы

Dexex

люди деляться на два типа те кто еще не делает бекапы и тех кто уже делает бекапы

А бекапы бекапов куда делать?)

Dexex

На дискеты?

central

А бекапы бекапов куда делать?)

на сервер с другим типох хранения и на сервер в другой географической локации

Dexex

на сервер с другим типох хранения и на сервер в другой географической локации

А их как бекапить?

central

А их как бекапить?

никак: 3+2+1

Dexex

никак: 3+2+1

У меня хдд летели каждые полгода в массиве из 8. Я за***Ся смотреть на ресильверинг и тормоза в 1с. Поставил ссд какие были им было 7лет. 3 года - износ 25%.

Dexex

А было 12.

Dexex

Невозможно бекапить каждую минуту. Тем более виртуалки. Их погасить надо. А у нас за день столько работы может пролететь в базах.

𝚜𝚎𝚗𝚜𝚎𝚖𝚊𝚍

Мда, китайцы творят вещи. Ценники: 2тб hdd - от 7к 2тб ssd - за 9к(в 4 раза быстрее и надёжнее) Поставил и по сути забыл на долгое время.

Что за ссд?

Dexex

Что за ссд?

Самс 850ево

Hennadii

Невозможно бекапить каждую минуту. Тем более виртуалки. Их погасить надо. А у нас за день столько работы может пролететь в базах.

Невозможно бекапить каждую минуту. Тем более виртуалки. Их погасить надо. А у нас за день столько работы может пролететь в базах. zfs snapshot делается практически мгновенно, меньше чем за 1 секунду, и получается моментальный снимок диска. "гасить" виртуалки для того, чтобы сделать снапшот - нет такой необходимости, можно делать их и "на лету". при восстановлении потом с такого снапшота - будет ситуация, словно бы просто мгновенно пропало 220 вольт в сети и виртуальный сервер мгновенно выключился - потеряются только те данные что были в памяти, но файловая система внутри виртуальной машины (XFS или ext4 или NTFS) сможет нормально восстановиться, любая нормальная база данных - так же сможет откатить незавершенные транзакции - все это для виртуальной машины ничем не будет отличаться от ситуации внезапного пропадания 220 вольт в сети для bare metal server`а. поэтому - лучше иметь в запасе для виртуальных машин хотя бы такие резервные копии, чем вообще никаких. но если хочется ничего из незавершенных транзакций не потерять, то есть такая возможность - в пакете qemu-guest-agent есть пример кода fsfreeze-hook.d/mysql-flush.sh.sample чтобы перед созданием снапшота сделать FLUSH TABLES WITH READ LOCK, и после создания снапшота сделать UNLOCK TABLES и если хочется получить еще и "чистую" файловую систему, так же есть возможность сделать fsfreeze --freeze перед созданием снапшота и fsfreeze --unfreeze после создания снапшота с помощью все того же qemu-guest-agent. так как zfs снапшоты очень "дешевые" и там есть как бы встроенная "дедупликация" - так что общие блоки не копируются в основном датасете и в снапшоте, то их можно делать очень часто - раз в час - вообще без проблем, некоторые даже делают снапшоты раз в 30 минут или раз в 15 минут. И потом - в фоновом режиме эти снапшоты через zfs send | zfs receive реплицировать на бэкапный сервер, тогда и резервные копии будут на случай Disaster Recovery и виртуальную машину для их создания выключать не надо. одних только локальных снапшотов виртуальных машин на том же сервере не достаточно для Disaster Recovery. Был не так давно случай, когда у OVH сгорел дата-центр и все данные оттуда были переведены "в облака" в прямом и в буквальном смысле этого слова - в виде клубов дыма... так что теперь я уже понимаю, что нельзя основной сервер и бэкапный сервер держать в одном и том же датацентре и надо их географически разносить по разным регионам/датацентрам, а может быть даже и по разным провайдерам хостинга.

Hennadii

Доброго вечера всем. Первый опыт использования ZFS, настроил два новых одинаковых HDD (Seagate ST4000VN006-3CW104) в зеркало, неделя использования - полёт нормальный. А сегодня вот такая картина: # zpool status -x -v pool: zfs_storage state: ONLINE status: One or more devices has experienced an error resulting in data corruption. Applications may be affected. action: Restore the file in question if possible. Otherwise restore the entire pool from backup. see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-8A scan: resilvered 1.51M in 00:00:01 with 0 errors on Sat Feb 22 20:29:26 2025 config: NAME STATE READ WRITE CKSUM zfs_storage ONLINE 0 0 0 mirror-0 ONLINE 0 0 0 wwn-0x5000c500f76ae438 ONLINE 0 0 0 wwn-0x5000c500f76ba407 ONLINE 0 0 0 errors: Permanent errors have been detected in the following files: ...и всё. Дальше ничего, списка файлов - нет. Ни на какие проблемные файлы я пока лично сам не наткнулся, узнал только потому, что скрипт на автопроверку статуса сработал и уведомление прислал. Дистрибутив Void Linux. Домашний сервер под домашние нужды. По версиям: zfs-2.3.0-1 zfs-kmod-2.3.0-1 Linux 6.12.16_1 #1 SMP PREEMPT_DYNAMIC x86_64 GNU/Linux smartctl -a /dev/sdX на оба диска пишет No Errors Logged, подробные логи, если нужны, здесь. Есть снэпшоты, есть бэкап всех важных файлов на другом зеркале, хотя я пока ни разу ещё не пробовал ничего восстанавливать и с интрументарием комманд zfs пока "на Вы". Буду благодарен, если подскажете в какую сторону копать, чтобы понять что пошло не так и что стоит делать в таком случае. Заранее спасибо. UPD: smartctl -l farm

Первый опыт использования ZFS, настроил два новых одинаковых HDD (Seagate ST4000VN006-3CW104) в зеркало, неделя использования - полёт нормальный. А сегодня вот такая картина: status: One or more devices has experienced an error resulting in data corruption. Applications may be affected. Дистрибутив Void Linux. Домашний сервер под домашние нужды. Буду благодарен, если подскажете в какую сторону копать, чтобы понять что пошло не так и что стоит делать в таком случае. Было бы хорошо найти первопричину этой проблемы. Повреждение данных может быть как из-за проблем на стороне software, так и из-за проблем на стороне hardware. В этом компьютере память ECC или non-ECC ? Если память без ECC - то это больше похоже на аппаратную проблему - битая память, и с результате - повреждение файловой системы. Было бы хорошо проверить память с помощью Memtest86+, чтобы убедиться, что память не глючит. Но если память без ECC - то она может быть причиной проблемы, даже если Memtest86+ и не обнаружит ошибки во время теста - содержимое памяти может меняться под влиянием космического излучения/радиации и т.п. причин. Как и содержимое блоков на жестком диске так же может самопроизвольно меняться - записали одно значение, а прочитали другое значение - вероятность такой проблемы не является высокой, но она больше нуля и все производители жестких дисков предупреждают, что такая ошибка возможна. Другие файловые системы скорее всего что даже не заметили бы повреждения данных, и внешне может сложиться впечатление, что файловая система OpenZFS более глючная чем другие, которые ничего не говорят про ошибки на диске и повреждения данных. Если память в сервере ECC, то изменение одного или двух бит в оперативной памяти не пройдет незамеченным, и ошибка будет обнаружена для двух бит и исправлена для одного бита, и как минимум об этом будет сообщение в системных логах. И если в системных логах за все время чисто и память ECC, значит - оперативная память не является причиной проблемы. В таком случае - это или аппаратная проблема с другими компонентами компьютера (процессор, материнская плата, жесткий диск) или же это все-таки программная проблема в коде OpenZFS 2.3.0. Тогда было бы хорошо найти способ как воспроизвести эту проблему с повреждением данных в лабораторных условиях - подобные ошибки в коде OpenZFS, приводящие к data corruption уже были раньше неоднократно в предыдущих версиях, так что воплне возможно что это новая ошибка в коде OpenZFS, которая приводит к data corruption и которая пока что не известна и не исправлена в коде. И тогда было бы хорошо найти ошибку в коде OpenZFS, которая приводит к data corruption. Списки изменений в версиях OpenZFS если внимательно почитать - то такое случается достаточно часто, сразу после выхода версии 2.2.0 несколько версий подряд содержали ошибки, которые приводили к data corruption. Возможно что и тут такая же ситуация, и если не нужна максимально высокая скорость работы файловой системы в ущерб надежности и сохранности данных и нет желания быть в числе early adopters и сохранность данных более важна и более ценна, то тогда наверное имеет смысл использовать более стабильную ветку 2.2.7 OpenZFS, там вероятность подобных ошибок будет значительно меньше, чем в 2.3.0 - по крайней мере, именно так было в момент появления версии 2.2.0 по сравнению с веткой 2.1, что можно понять внимательно почитав содержимое https://github.com/openzfs/zfs/releases А если нужна еще большая стабильность и еще большая надежность работы, чем в случае использования версии 2.2.7 - то тогда можно использовать, например, Rocky Linux 9.5 и версию 2.1.16 из стабильного репозитория zfs # zfs version zfs-2.1.16-1 zfs-kmod-2.1.16-1

Hennadii

Доброго вечера всем. Первый опыт использования ZFS, настроил два новых одинаковых HDD (Seagate ST4000VN006-3CW104) в зеркало, неделя использования - полёт нормальный. А сегодня вот такая картина: # zpool status -x -v pool: zfs_storage state: ONLINE status: One or more devices has experienced an error resulting in data corruption. Applications may be affected. action: Restore the file in question if possible. Otherwise restore the entire pool from backup. see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-8A scan: resilvered 1.51M in 00:00:01 with 0 errors on Sat Feb 22 20:29:26 2025 config: NAME STATE READ WRITE CKSUM zfs_storage ONLINE 0 0 0 mirror-0 ONLINE 0 0 0 wwn-0x5000c500f76ae438 ONLINE 0 0 0 wwn-0x5000c500f76ba407 ONLINE 0 0 0 errors: Permanent errors have been detected in the following files: ...и всё. Дальше ничего, списка файлов - нет. Ни на какие проблемные файлы я пока лично сам не наткнулся, узнал только потому, что скрипт на автопроверку статуса сработал и уведомление прислал. Дистрибутив Void Linux. Домашний сервер под домашние нужды. По версиям: zfs-2.3.0-1 zfs-kmod-2.3.0-1 Linux 6.12.16_1 #1 SMP PREEMPT_DYNAMIC x86_64 GNU/Linux smartctl -a /dev/sdX на оба диска пишет No Errors Logged, подробные логи, если нужны, здесь. Есть снэпшоты, есть бэкап всех важных файлов на другом зеркале, хотя я пока ни разу ещё не пробовал ничего восстанавливать и с интрументарием комманд zfs пока "на Вы". Буду благодарен, если подскажете в какую сторону копать, чтобы понять что пошло не так и что стоит делать в таком случае. Заранее спасибо. UPD: smartctl -l farm

но тогда это будет тогда очень скучно и очень неинтересно - все работает и ничего не глючит - нет никаких "приключений" в жизни, никакого адреналина и бессонных ночей в попытках восстановления данных и поиска причины data corruption в новых версиях OpenZFS. При использовании RHEL-based distro и стабильного репозитория zfs - все просто работает и ничего не глючит.

ztx

Спасибо за развёрнутый ответ. Память не ECC, насколько я знаю материнская плата ECC не поддерживает (GA-970A-DS3P). Память вот недавно поменял, поставил 4 одинаковые плашки по 8гб хрен знает какие от Silicon Power, всё потому, что выбор DDR3 сейчас довольно скромный. После работы прогоню мемтест, пожалуй. Стоило бы до этого додуматься самому. Дистр точно менять не хочу, а вот смену версии ZFS рассматриваю. Но получится ли "безшовно" сделать даунгрейд ZFS и чтоб текущие пулы работали? Как у ZFS в этом плане с обратной совместимостью?

Alexey

Спасибо за развёрнутый ответ. Память не ECC, насколько я знаю материнская плата ECC не поддерживает (GA-970A-DS3P). Память вот недавно поменял, поставил 4 одинаковые плашки по 8гб хрен знает какие от Silicon Power, всё потому, что выбор DDR3 сейчас довольно скромный. После работы прогоню мемтест, пожалуй. Стоило бы до этого додуматься самому. Дистр точно менять не хочу, а вот смену версии ZFS рассматриваю. Но получится ли "безшовно" сделать даунгрейд ZFS и чтоб текущие пулы работали? Как у ZFS в этом плане с обратной совместимостью?

А как Вы установили zfs 2.3.0?

ztx

А как Вы установили zfs 2.3.0?

а он в репозиториях такой версии и доступен

Alexey

а какой дистрибутив?

ztx

Доброго вечера всем. Первый опыт использования ZFS, настроил два новых одинаковых HDD (Seagate ST4000VN006-3CW104) в зеркало, неделя использования - полёт нормальный. А сегодня вот такая картина: # zpool status -x -v pool: zfs_storage state: ONLINE status: One or more devices has experienced an error resulting in data corruption. Applications may be affected. action: Restore the file in question if possible. Otherwise restore the entire pool from backup. see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-8A scan: resilvered 1.51M in 00:00:01 with 0 errors on Sat Feb 22 20:29:26 2025 config: NAME STATE READ WRITE CKSUM zfs_storage ONLINE 0 0 0 mirror-0 ONLINE 0 0 0 wwn-0x5000c500f76ae438 ONLINE 0 0 0 wwn-0x5000c500f76ba407 ONLINE 0 0 0 errors: Permanent errors have been detected in the following files: ...и всё. Дальше ничего, списка файлов - нет. Ни на какие проблемные файлы я пока лично сам не наткнулся, узнал только потому, что скрипт на автопроверку статуса сработал и уведомление прислал. Дистрибутив Void Linux. Домашний сервер под домашние нужды. По версиям: zfs-2.3.0-1 zfs-kmod-2.3.0-1 Linux 6.12.16_1 #1 SMP PREEMPT_DYNAMIC x86_64 GNU/Linux smartctl -a /dev/sdX на оба диска пишет No Errors Logged, подробные логи, если нужны, здесь. Есть снэпшоты, есть бэкап всех важных файлов на другом зеркале, хотя я пока ни разу ещё не пробовал ничего восстанавливать и с интрументарием комманд zfs пока "на Вы". Буду благодарен, если подскажете в какую сторону копать, чтобы понять что пошло не так и что стоит делать в таком случае. Заранее спасибо. UPD: smartctl -l farm

.

ztx

Доброго вечера всем. Первый опыт использования ZFS, настроил два новых одинаковых HDD (Seagate ST4000VN006-3CW104) в зеркало, неделя использования - полёт нормальный. А сегодня вот такая картина: # zpool status -x -v pool: zfs_storage state: ONLINE status: One or more devices has experienced an error resulting in data corruption. Applications may be affected. action: Restore the file in question if possible. Otherwise restore the entire pool from backup. see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-8A scan: resilvered 1.51M in 00:00:01 with 0 errors on Sat Feb 22 20:29:26 2025 config: NAME STATE READ WRITE CKSUM zfs_storage ONLINE 0 0 0 mirror-0 ONLINE 0 0 0 wwn-0x5000c500f76ae438 ONLINE 0 0 0 wwn-0x5000c500f76ba407 ONLINE 0 0 0 errors: Permanent errors have been detected in the following files: ...и всё. Дальше ничего, списка файлов - нет. Ни на какие проблемные файлы я пока лично сам не наткнулся, узнал только потому, что скрипт на автопроверку статуса сработал и уведомление прислал. Дистрибутив Void Linux. Домашний сервер под домашние нужды. По версиям: zfs-2.3.0-1 zfs-kmod-2.3.0-1 Linux 6.12.16_1 #1 SMP PREEMPT_DYNAMIC x86_64 GNU/Linux smartctl -a /dev/sdX на оба диска пишет No Errors Logged, подробные логи, если нужны, здесь. Есть снэпшоты, есть бэкап всех важных файлов на другом зеркале, хотя я пока ни разу ещё не пробовал ничего восстанавливать и с интрументарием комманд zfs пока "на Вы". Буду благодарен, если подскажете в какую сторону копать, чтобы понять что пошло не так и что стоит делать в таком случае. Заранее спасибо. UPD: smartctl -l farm

.

ztx

да, люблю, знаете ли, на "острие ножа" балансировать. логично, что стоило бы озадачиться LTS ядром как минимум

ztx

но как-то оно всё год уже работало и проблем пока не возникало

Alexey

я под debian12 скомпилировал zfs 2.3.0 пару дней назад, погонял немного, все норм... наверное, да. ядро бы стабильное и дистрибутив проверенный.

Alexey

даунгрейд zfs не сделать, если фичи активны, которых нет в прошлой версии, то импортировать получится только на чтение. поправьте если я ошибаюсь.

ztx

ну, дистрибутив мне под мои задачи весьма проверенный, но не с точки зрения использования ZFS, это для меня новая "переменная". думаю, ядро я поменяю, не уверен на счёт версии ZFS

ztx

а ещё вопрос, а что стоит с текущей ситуацией вообще делать? вот есть у меня эта "ошибка" в статусе, а списка повреждённых файлов нет. поскрабил, 0B repaired в итоге, а "ошибка" осталась

Alexey

ято меня смущает в фото, которое Вы приложили, это то что ошибок на чтение запись в таблице нет. Вы сделали очистку ошибок?

ztx

ничего не делал кроме скраба пула сегодня утром. не имею пока понимания того, что могу сделать, боюсь сделать хуже

Alexey

попробуйте ядро стабильное, zfs проверенной версии. С этого пула можно данные скопировать куда-либо. Затем на другой версии zfs создать пул с нуля. Наблюдать.

ztx

у меня есть второе зеркало, с бэкапами через syncoid, но там тоже всё сделано посредством zfs 2.3.0

ztx

возможно ли сделать send/receive с такого зеркала более старой версией?

Alexey

ну Вы и экспериментатор :)

ztx

что есть. просто не имею нигде больше несколько терабайт свободного места, придётся сносить второе зеркало

Alexey

нет-нет. можно вывести один диск из зеркала, туда скопировать, потом создать пут из 1 диска и скопировать обратно. Затем второй диск присоединить, сделать зеркало

ztx

да и у меня опыта работы с файловыми системами в целом ноль, поэтому те небольшие знания, что есть в голове, все в перемешку

ztx

нет-нет. можно вывести один диск из зеркала, туда скопировать, потом создать пут из 1 диска и скопировать обратно. Затем второй диск присоединить, сделать зеркало

и ведь и правда. хм.

Hennadii

а ещё вопрос, а что стоит с текущей ситуацией вообще делать? вот есть у меня эта "ошибка" в статусе, а списка повреждённых файлов нет. поскрабил, 0B repaired в итоге, а "ошибка" осталась

а ещё вопрос, а что стоит с текущей ситуацией вообще делать? прежде всего - основательно протестировать все hardware сервера и полностью исключить аппаратные проблемы. и только в том случае если никаких аппаратных проблем не будет обнаружено - можно будет начинать подозревать, что это программная проблема и тогда только будет иметь смысл думать про даунгрейд версии ядра и версии OpenZFS. сейчас - это вообще не имеет смысла даже обсуждать, пока не устранены аппаратные проблемы с сервером, потому что пока они есть - на самом сервере будет глючить любая версия ядра Linux и любая версия файловой системы OpenZFS, и эти все бесконечные даунгрейды и перебирания версий будут только пустой тратой времени и сил. вот есть у меня эта "ошибка" в статусе, а списка повреждённых файлов нет. поскрабил, 0B repaired в итоге, а "ошибка" осталась если нужна максимальная надежность работы - необходимо будет пересоздавать pool с нуля, потому что неизвестно что именно тут повреждено в структурах данных на диске и к каким именно побочным эффектам это может потом привести в будущем. Файловая система OpenZFS об этом же прямым текстом и говорит в сообщении про ошибку: action: Restore the file in question if possible. Otherwise restore the entire pool from backup. see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-8A

ztx

а ещё вопрос, а что стоит с текущей ситуацией вообще делать? прежде всего - основательно протестировать все hardware сервера и полностью исключить аппаратные проблемы. и только в том случае если никаких аппаратных проблем не будет обнаружено - можно будет начинать подозревать, что это программная проблема и тогда только будет иметь смысл думать про даунгрейд версии ядра и версии OpenZFS. сейчас - это вообще не имеет смысла даже обсуждать, пока не устранены аппаратные проблемы с сервером, потому что пока они есть - на самом сервере будет глючить любая версия ядра Linux и любая версия файловой системы OpenZFS, и эти все бесконечные даунгрейды и перебирания версий будут только пустой тратой времени и сил. вот есть у меня эта "ошибка" в статусе, а списка повреждённых файлов нет. поскрабил, 0B repaired в итоге, а "ошибка" осталась если нужна максимальная надежность работы - необходимо будет пересоздавать pool с нуля, потому что неизвестно что именно тут повреждено в структурах данных на диске и к каким именно побочным эффектам это может потом привести в будущем. Файловая система OpenZFS об этом же прямым текстом и говорит в сообщении про ошибку: action: Restore the file in question if possible. Otherwise restore the entire pool from backup. see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-8A

да говорит-то говорит, просто смущает пустой список файлов "in question" в конце, поэтому и затрудняюсь делать выводы

ztx

а про аппаратную составляющую Вы правы