Ivan
Занятно, при direct=always при попытке обновить initramfs такая вот штука. Если переключить на standard, то проблема исчезает. мб это дебианпроблемы. т.к. гуглинг ничего не дал. при переключении между direct=always и direct=standard все что находится за пределами ядра остается идентичным - меняется только поведение модуля ядра zfs, так что причина этого глюка находится на стороне ядра, в модуле zfs. И если дебиановцы не напихали в свою сборку OpenZFS каких-то специфических только для дебиана патчей, как они это умеют делать (например, CVE-2008-0166) - то причина этой ошибки - все-таки в коде OpenZFS. и возможно issue в багтрекере на GitHub помог бы лучше понимать разработчикам OpenZFS масштабы этой проблемы, и может быть они смогли бы каким-то образом еще раз, более внимательно посмотреть на свой код Direct IO Support #10018. или - хотя бы можно будет в документации указать, какой workaround можно применить, чтобы не было проблем. P.S. похожая ситуация на Fedora: https://github.com/openzfs/zfs/issues/17027 возможно, причина проблемы в точности та же самая.
скорее вот мой случай https://github.com/openzfs/zfs/issues/16958
LiS92
Друзья, подскажите пожалуйста сейчас считаю необходимые ресурсы для сервера, фс понятное дело ZFS. Возник вопрос, в интернете встречается информация что для стабильной работы дедупликации необходимо соотношение 5Гб RAM на 1Tb дискового пространства. На сколько это верно и сильно ли снизится производительность ? В моих подсчетах оптимально на систему + сервисы + дедупликацию выходит 80 Гб RAM, понятное дело что хотелось бы поставить 64Гб, но спорно ибо реальных знаний у меня нет, поэтому обращаюсь к вам за советом.
LiS92
Понятное почему?
Потому что 4 слота, 4х16 или 4х32 имеют разную стоимость, и если ставить 4х32 будет сильный перебор и не оптимально по деньгам
LiS92
Судя по ограничению в 4 слота - речь явно не про сервер, а про обычный ПК
Да, домашний NAS по сути + сервисы. Но вопрос то немного не в этом
Vladislav
А значит про ecc память никто не читал
LiS92
А значит про ecc память никто не читал
Почему же, камень, мать и память поддерживают ECC. Можно вернуться к вопросу о дедупликации пожалуйста ?
Vladislav
Да, домашний NAS по сути + сервисы. Но вопрос то немного не в этом
Вопрос в том, что дедуп использовать не надо
Vladislav
https://habr.com/ru/companies/vk/articles/863904/
central
что за данные будут в домашнем сервере, что нужна дедупликация?
LiS92
Вопрос в том, что дедуп использовать не надо
Хм, почему ? Для меня оно выглядит как килл фича. По поводу данных тонна разных библиотек, ассетов и прочего что может очень часто дублироваться. @DanteAvalon спасибо, ушел курить статью
LiS92
Не так это работает
Спасибо за статью, вопросов стало меньше, вопрос выше можно считать закрытым 😅
Vladislav
Сделай ещё zdb -S <poolname>
Vladislav
Это даст тебе инфу о том, сколько сэкономит тебе дедуп
Combot
Карина Мельникова был(а) забанен(а)! Причина: CAS-бан.
Combot
Gorn был(а) забанен(а)! Причина: CAS-бан.
Combot
Alex Воробьёв был(а) забанен(а)! Причина: CAS-бан.
Combot
Gorn был(а) забанен(а)! Причина: CAS-бан.
Combot
Gorn был(а) забанен(а)! Причина: CAS-бан.
Pttf8-65
Доброго времени суток, хотел внести толику юмора и немного смеха (я, так думаю) в ваш чат. Имею 4 лишних, (а были ли они когда то не лишними), 16 gb optane. Как разделить каждый из них на две части допустим 4 и 12 gb, первые части 4 gb в зеркале отдать под журнал намерений zil, а 4 части по 12 в стрип под кеш. Как это сделать на практике, и имеет ли смысл, для основного рейда. Рейд 10 из 6 дисков по 8tb. ? P.s. И дедупликация, включать или нет!? Оперативки 256 гб (ecc)
Alexey
Что смушает, так это raid 10 из 6 дисков. У него надёжность равно 1 диску.
Alexey
Я бы сделал так. Draid2 на 6 дисках. 2 optain в зеркало под zil, 2 - под l2arc
Alexey
Или, если памяти много, то 2 под l2arc не ставить, а положить на полочку до лучших времен
Alexey
Дедупликацию не включать, включить сжатие zstd
Pttf8-65
Понял, а скорость чтения записи райд draid 6, сильно разница с raid 10?
Alexey
Все очень зависит от задач... Draid будет читать данные сразу с 4-ех дисков. Раид10 будет читать с 6. Запись будет происходить в zil, я предполагаю, что скорость записи будет примерно схожая. Если рассматривать прямую запись на массивы, то Скорость записи на раид10 будет в пике в 2 раза больше, чем на 1 диск. Draid должен быть побыстрее, даже с учетом расчета четности. Но это теоретические предположения.
Combot
Виктория Орлова был(а) забанен(а)! Причина: CAS-бан.
Combot
Кристина Романова был(а) забанен(а)! Причина: CAS-бан.
Combot
Ольга был(а) забанен(а)! Причина: CAS-бан.
ztx
Доброго вечера всем. Первый опыт использования ZFS, настроил два новых одинаковых HDD (Seagate ST4000VN006-3CW104) в зеркало, неделя использования - полёт нормальный. А сегодня вот такая картина: # zpool status -x -v pool: zfs_storage state: ONLINE status: One or more devices has experienced an error resulting in data corruption. Applications may be affected. action: Restore the file in question if possible. Otherwise restore the entire pool from backup. see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-8A scan: resilvered 1.51M in 00:00:01 with 0 errors on Sat Feb 22 20:29:26 2025 config: NAME STATE READ WRITE CKSUM zfs_storage ONLINE 0 0 0 mirror-0 ONLINE 0 0 0 wwn-0x5000c500f76ae438 ONLINE 0 0 0 wwn-0x5000c500f76ba407 ONLINE 0 0 0 errors: Permanent errors have been detected in the following files: ...и всё. Дальше ничего, списка файлов - нет. Ни на какие проблемные файлы я пока лично сам не наткнулся, узнал только потому, что скрипт на автопроверку статуса сработал и уведомление прислал. Дистрибутив Void Linux. Домашний сервер под домашние нужды. По версиям: zfs-2.3.0-1 zfs-kmod-2.3.0-1 Linux 6.12.16_1 #1 SMP PREEMPT_DYNAMIC x86_64 GNU/Linux smartctl -a /dev/sdX на оба диска пишет No Errors Logged, подробные логи, если нужны, здесь. Есть снэпшоты, есть бэкап всех важных файлов на другом зеркале, хотя я пока ни разу ещё не пробовал ничего восстанавливать и с интрументарием комманд zfs пока "на Вы". Буду благодарен, если подскажете в какую сторону копать, чтобы понять что пошло не так и что стоит делать в таком случае. Заранее спасибо. UPD: smartctl -l farm
Vladislav
Доброго вечера всем. Первый опыт использования ZFS, настроил два новых одинаковых HDD (Seagate ST4000VN006-3CW104) в зеркало, неделя использования - полёт нормальный. А сегодня вот такая картина: # zpool status -x -v pool: zfs_storage state: ONLINE status: One or more devices has experienced an error resulting in data corruption. Applications may be affected. action: Restore the file in question if possible. Otherwise restore the entire pool from backup. see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-8A scan: resilvered 1.51M in 00:00:01 with 0 errors on Sat Feb 22 20:29:26 2025 config: NAME STATE READ WRITE CKSUM zfs_storage ONLINE 0 0 0 mirror-0 ONLINE 0 0 0 wwn-0x5000c500f76ae438 ONLINE 0 0 0 wwn-0x5000c500f76ba407 ONLINE 0 0 0 errors: Permanent errors have been detected in the following files: ...и всё. Дальше ничего, списка файлов - нет. Ни на какие проблемные файлы я пока лично сам не наткнулся, узнал только потому, что скрипт на автопроверку статуса сработал и уведомление прислал. Дистрибутив Void Linux. Домашний сервер под домашние нужды. По версиям: zfs-2.3.0-1 zfs-kmod-2.3.0-1 Linux 6.12.16_1 #1 SMP PREEMPT_DYNAMIC x86_64 GNU/Linux smartctl -a /dev/sdX на оба диска пишет No Errors Logged, подробные логи, если нужны, здесь. Есть снэпшоты, есть бэкап всех важных файлов на другом зеркале, хотя я пока ни разу ещё не пробовал ничего восстанавливать и с интрументарием комманд zfs пока "на Вы". Буду благодарен, если подскажете в какую сторону копать, чтобы понять что пошло не так и что стоит делать в таком случае. Заранее спасибо. UPD: smartctl -l farm
А чекни Seagate FORM
Vladislav
FORM?
*FARM
Vladislav
smartctl -l farm
Fedor
А чекни Seagate FORM
у тех дисков скорее всего нет поддержки
ztx
smartctl -l farm
полный лог: https://ztx.pastes.sh/seagate_farm Затрудняюсь с интерпретацией этих данных, но вот всё, что бросилось в глаза /dev/sdb: FARM Log Page 3: Error Statistics ... Number of ASR Events: 1 ... Spin Retry Count Normalized: 100 Spin Retry Count Worst: 100 ... FARM Log Page 5: Reliability Statistics Error Rate (SMART Attribute 1 Raw): 0x0000000009052f60 Error Rate (SMART Attribute 1 Normalized): 81 Error Rate (SMART Attribute 1 Worst): 67 Seek Error Rate (SMART Attr 7 Raw): 0x0000000000153056 Seek Error Rate (SMART Attr 7 Normalized): 61 Seek Error Rate (SMART Attr 7 Worst): 60 High Priority Unload Events: 16 ... MR Head Resistance from Head 0: 362 MR Head Resistance from Head 1: 443 MR Head Resistance from Head 2: 370 MR Head Resistance from Head 3: 394 /dev/sdc: FARM Log Page 3: Error Statistics ... Number of ASR Events: 3 ... Spin Retry Count Normalized: 100 Spin Retry Count Worst: 100 ... FARM Log Page 5: Reliability Statistics Error Rate (SMART Attribute 1 Raw): 0x00000000032c4fc0 Error Rate (SMART Attribute 1 Normalized): 71 Error Rate (SMART Attribute 1 Worst): 70 Seek Error Rate (SMART Attr 7 Raw): 0x0000000000159b6b Seek Error Rate (SMART Attr 7 Normalized): 62 Seek Error Rate (SMART Attr 7 Worst): 60 High Priority Unload Events: 16 ... MR Head Resistance from Head 0: 339 MR Head Resistance from Head 1: 394 MR Head Resistance from Head 2: 393 MR Head Resistance from Head 3: 548 опять же, не знаю насколько это в рамках нормы
Dexex
Мда, китайцы творят вещи. Ценники: 2тб hdd - от 7к 2тб ssd - за 9к(в 4 раза быстрее и надёжнее) Поставил и по сути забыл на долгое время.
Dexex
На дискеты?
central
А бекапы бекапов куда делать?)
на сервер с другим типох хранения и на сервер в другой географической локации
central
Dexex
никак: 3+2+1
У меня хдд летели каждые полгода в массиве из 8. Я за***Ся смотреть на ресильверинг и тормоза в 1с. Поставил ссд какие были им было 7лет. 3 года - износ 25%.
Dexex
А было 12.
Dexex
Невозможно бекапить каждую минуту. Тем более виртуалки. Их погасить надо. А у нас за день столько работы может пролететь в базах.
Dexex
Что за ссд?
Самс 850ево
Hennadii
Невозможно бекапить каждую минуту. Тем более виртуалки. Их погасить надо. А у нас за день столько работы может пролететь в базах.
Невозможно бекапить каждую минуту. Тем более виртуалки. Их погасить надо. А у нас за день столько работы может пролететь в базах. zfs snapshot делается практически мгновенно, меньше чем за 1 секунду, и получается моментальный снимок диска. "гасить" виртуалки для того, чтобы сделать снапшот - нет такой необходимости, можно делать их и "на лету". при восстановлении потом с такого снапшота - будет ситуация, словно бы просто мгновенно пропало 220 вольт в сети и виртуальный сервер мгновенно выключился - потеряются только те данные что были в памяти, но файловая система внутри виртуальной машины (XFS или ext4 или NTFS) сможет нормально восстановиться, любая нормальная база данных - так же сможет откатить незавершенные транзакции - все это для виртуальной машины ничем не будет отличаться от ситуации внезапного пропадания 220 вольт в сети для bare metal server`а. поэтому - лучше иметь в запасе для виртуальных машин хотя бы такие резервные копии, чем вообще никаких. но если хочется ничего из незавершенных транзакций не потерять, то есть такая возможность - в пакете qemu-guest-agent есть пример кода fsfreeze-hook.d/mysql-flush.sh.sample чтобы перед созданием снапшота сделать FLUSH TABLES WITH READ LOCK, и после создания снапшота сделать UNLOCK TABLES и если хочется получить еще и "чистую" файловую систему, так же есть возможность сделать fsfreeze --freeze перед созданием снапшота и fsfreeze --unfreeze после создания снапшота с помощью все того же qemu-guest-agent. так как zfs снапшоты очень "дешевые" и там есть как бы встроенная "дедупликация" - так что общие блоки не копируются в основном датасете и в снапшоте, то их можно делать очень часто - раз в час - вообще без проблем, некоторые даже делают снапшоты раз в 30 минут или раз в 15 минут. И потом - в фоновом режиме эти снапшоты через zfs send | zfs receive реплицировать на бэкапный сервер, тогда и резервные копии будут на случай Disaster Recovery и виртуальную машину для их создания выключать не надо. одних только локальных снапшотов виртуальных машин на том же сервере не достаточно для Disaster Recovery. Был не так давно случай, когда у OVH сгорел дата-центр и все данные оттуда были переведены "в облака" в прямом и в буквальном смысле этого слова - в виде клубов дыма... так что теперь я уже понимаю, что нельзя основной сервер и бэкапный сервер держать в одном и том же датацентре и надо их географически разносить по разным регионам/датацентрам, а может быть даже и по разным провайдерам хостинга.
Hennadii
Доброго вечера всем. Первый опыт использования ZFS, настроил два новых одинаковых HDD (Seagate ST4000VN006-3CW104) в зеркало, неделя использования - полёт нормальный. А сегодня вот такая картина: # zpool status -x -v pool: zfs_storage state: ONLINE status: One or more devices has experienced an error resulting in data corruption. Applications may be affected. action: Restore the file in question if possible. Otherwise restore the entire pool from backup. see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-8A scan: resilvered 1.51M in 00:00:01 with 0 errors on Sat Feb 22 20:29:26 2025 config: NAME STATE READ WRITE CKSUM zfs_storage ONLINE 0 0 0 mirror-0 ONLINE 0 0 0 wwn-0x5000c500f76ae438 ONLINE 0 0 0 wwn-0x5000c500f76ba407 ONLINE 0 0 0 errors: Permanent errors have been detected in the following files: ...и всё. Дальше ничего, списка файлов - нет. Ни на какие проблемные файлы я пока лично сам не наткнулся, узнал только потому, что скрипт на автопроверку статуса сработал и уведомление прислал. Дистрибутив Void Linux. Домашний сервер под домашние нужды. По версиям: zfs-2.3.0-1 zfs-kmod-2.3.0-1 Linux 6.12.16_1 #1 SMP PREEMPT_DYNAMIC x86_64 GNU/Linux smartctl -a /dev/sdX на оба диска пишет No Errors Logged, подробные логи, если нужны, здесь. Есть снэпшоты, есть бэкап всех важных файлов на другом зеркале, хотя я пока ни разу ещё не пробовал ничего восстанавливать и с интрументарием комманд zfs пока "на Вы". Буду благодарен, если подскажете в какую сторону копать, чтобы понять что пошло не так и что стоит делать в таком случае. Заранее спасибо. UPD: smartctl -l farm
Первый опыт использования ZFS, настроил два новых одинаковых HDD (Seagate ST4000VN006-3CW104) в зеркало, неделя использования - полёт нормальный. А сегодня вот такая картина: status: One or more devices has experienced an error resulting in data corruption. Applications may be affected. Дистрибутив Void Linux. Домашний сервер под домашние нужды. Буду благодарен, если подскажете в какую сторону копать, чтобы понять что пошло не так и что стоит делать в таком случае. Было бы хорошо найти первопричину этой проблемы. Повреждение данных может быть как из-за проблем на стороне software, так и из-за проблем на стороне hardware. В этом компьютере память ECC или non-ECC ? Если память без ECC - то это больше похоже на аппаратную проблему - битая память, и с результате - повреждение файловой системы. Было бы хорошо проверить память с помощью Memtest86+, чтобы убедиться, что память не глючит. Но если память без ECC - то она может быть причиной проблемы, даже если Memtest86+ и не обнаружит ошибки во время теста - содержимое памяти может меняться под влиянием космического излучения/радиации и т.п. причин. Как и содержимое блоков на жестком диске так же может самопроизвольно меняться - записали одно значение, а прочитали другое значение - вероятность такой проблемы не является высокой, но она больше нуля и все производители жестких дисков предупреждают, что такая ошибка возможна. Другие файловые системы скорее всего что даже не заметили бы повреждения данных, и внешне может сложиться впечатление, что файловая система OpenZFS более глючная чем другие, которые ничего не говорят про ошибки на диске и повреждения данных. Если память в сервере ECC, то изменение одного или двух бит в оперативной памяти не пройдет незамеченным, и ошибка будет обнаружена для двух бит и исправлена для одного бита, и как минимум об этом будет сообщение в системных логах. И если в системных логах за все время чисто и память ECC, значит - оперативная память не является причиной проблемы. В таком случае - это или аппаратная проблема с другими компонентами компьютера (процессор, материнская плата, жесткий диск) или же это все-таки программная проблема в коде OpenZFS 2.3.0. Тогда было бы хорошо найти способ как воспроизвести эту проблему с повреждением данных в лабораторных условиях - подобные ошибки в коде OpenZFS, приводящие к data corruption уже были раньше неоднократно в предыдущих версиях, так что воплне возможно что это новая ошибка в коде OpenZFS, которая приводит к data corruption и которая пока что не известна и не исправлена в коде. И тогда было бы хорошо найти ошибку в коде OpenZFS, которая приводит к data corruption. Списки изменений в версиях OpenZFS если внимательно почитать - то такое случается достаточно часто, сразу после выхода версии 2.2.0 несколько версий подряд содержали ошибки, которые приводили к data corruption. Возможно что и тут такая же ситуация, и если не нужна максимально высокая скорость работы файловой системы в ущерб надежности и сохранности данных и нет желания быть в числе early adopters и сохранность данных более важна и более ценна, то тогда наверное имеет смысл использовать более стабильную ветку 2.2.7 OpenZFS, там вероятность подобных ошибок будет значительно меньше, чем в 2.3.0 - по крайней мере, именно так было в момент появления версии 2.2.0 по сравнению с веткой 2.1, что можно понять внимательно почитав содержимое https://github.com/openzfs/zfs/releases А если нужна еще большая стабильность и еще большая надежность работы, чем в случае использования версии 2.2.7 - то тогда можно использовать, например, Rocky Linux 9.5 и версию 2.1.16 из стабильного репозитория zfs # zfs version zfs-2.1.16-1 zfs-kmod-2.1.16-1
Hennadii
Доброго вечера всем. Первый опыт использования ZFS, настроил два новых одинаковых HDD (Seagate ST4000VN006-3CW104) в зеркало, неделя использования - полёт нормальный. А сегодня вот такая картина: # zpool status -x -v pool: zfs_storage state: ONLINE status: One or more devices has experienced an error resulting in data corruption. Applications may be affected. action: Restore the file in question if possible. Otherwise restore the entire pool from backup. see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-8A scan: resilvered 1.51M in 00:00:01 with 0 errors on Sat Feb 22 20:29:26 2025 config: NAME STATE READ WRITE CKSUM zfs_storage ONLINE 0 0 0 mirror-0 ONLINE 0 0 0 wwn-0x5000c500f76ae438 ONLINE 0 0 0 wwn-0x5000c500f76ba407 ONLINE 0 0 0 errors: Permanent errors have been detected in the following files: ...и всё. Дальше ничего, списка файлов - нет. Ни на какие проблемные файлы я пока лично сам не наткнулся, узнал только потому, что скрипт на автопроверку статуса сработал и уведомление прислал. Дистрибутив Void Linux. Домашний сервер под домашние нужды. По версиям: zfs-2.3.0-1 zfs-kmod-2.3.0-1 Linux 6.12.16_1 #1 SMP PREEMPT_DYNAMIC x86_64 GNU/Linux smartctl -a /dev/sdX на оба диска пишет No Errors Logged, подробные логи, если нужны, здесь. Есть снэпшоты, есть бэкап всех важных файлов на другом зеркале, хотя я пока ни разу ещё не пробовал ничего восстанавливать и с интрументарием комманд zfs пока "на Вы". Буду благодарен, если подскажете в какую сторону копать, чтобы понять что пошло не так и что стоит делать в таком случае. Заранее спасибо. UPD: smartctl -l farm
но тогда это будет тогда очень скучно и очень неинтересно - все работает и ничего не глючит - нет никаких "приключений" в жизни, никакого адреналина и бессонных ночей в попытках восстановления данных и поиска причины data corruption в новых версиях OpenZFS. При использовании RHEL-based distro и стабильного репозитория zfs - все просто работает и ничего не глючит.
ztx
Спасибо за развёрнутый ответ. Память не ECC, насколько я знаю материнская плата ECC не поддерживает (GA-970A-DS3P). Память вот недавно поменял, поставил 4 одинаковые плашки по 8гб хрен знает какие от Silicon Power, всё потому, что выбор DDR3 сейчас довольно скромный. После работы прогоню мемтест, пожалуй. Стоило бы до этого додуматься самому. Дистр точно менять не хочу, а вот смену версии ZFS рассматриваю. Но получится ли "безшовно" сделать даунгрейд ZFS и чтоб текущие пулы работали? Как у ZFS в этом плане с обратной совместимостью?
ztx
А как Вы установили zfs 2.3.0?
а он в репозиториях такой версии и доступен
Alexey
а какой дистрибутив?
ztx
Доброго вечера всем. Первый опыт использования ZFS, настроил два новых одинаковых HDD (Seagate ST4000VN006-3CW104) в зеркало, неделя использования - полёт нормальный. А сегодня вот такая картина: # zpool status -x -v pool: zfs_storage state: ONLINE status: One or more devices has experienced an error resulting in data corruption. Applications may be affected. action: Restore the file in question if possible. Otherwise restore the entire pool from backup. see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-8A scan: resilvered 1.51M in 00:00:01 with 0 errors on Sat Feb 22 20:29:26 2025 config: NAME STATE READ WRITE CKSUM zfs_storage ONLINE 0 0 0 mirror-0 ONLINE 0 0 0 wwn-0x5000c500f76ae438 ONLINE 0 0 0 wwn-0x5000c500f76ba407 ONLINE 0 0 0 errors: Permanent errors have been detected in the following files: ...и всё. Дальше ничего, списка файлов - нет. Ни на какие проблемные файлы я пока лично сам не наткнулся, узнал только потому, что скрипт на автопроверку статуса сработал и уведомление прислал. Дистрибутив Void Linux. Домашний сервер под домашние нужды. По версиям: zfs-2.3.0-1 zfs-kmod-2.3.0-1 Linux 6.12.16_1 #1 SMP PREEMPT_DYNAMIC x86_64 GNU/Linux smartctl -a /dev/sdX на оба диска пишет No Errors Logged, подробные логи, если нужны, здесь. Есть снэпшоты, есть бэкап всех важных файлов на другом зеркале, хотя я пока ни разу ещё не пробовал ничего восстанавливать и с интрументарием комманд zfs пока "на Вы". Буду благодарен, если подскажете в какую сторону копать, чтобы понять что пошло не так и что стоит делать в таком случае. Заранее спасибо. UPD: smartctl -l farm
.
ztx
Доброго вечера всем. Первый опыт использования ZFS, настроил два новых одинаковых HDD (Seagate ST4000VN006-3CW104) в зеркало, неделя использования - полёт нормальный. А сегодня вот такая картина: # zpool status -x -v pool: zfs_storage state: ONLINE status: One or more devices has experienced an error resulting in data corruption. Applications may be affected. action: Restore the file in question if possible. Otherwise restore the entire pool from backup. see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-8A scan: resilvered 1.51M in 00:00:01 with 0 errors on Sat Feb 22 20:29:26 2025 config: NAME STATE READ WRITE CKSUM zfs_storage ONLINE 0 0 0 mirror-0 ONLINE 0 0 0 wwn-0x5000c500f76ae438 ONLINE 0 0 0 wwn-0x5000c500f76ba407 ONLINE 0 0 0 errors: Permanent errors have been detected in the following files: ...и всё. Дальше ничего, списка файлов - нет. Ни на какие проблемные файлы я пока лично сам не наткнулся, узнал только потому, что скрипт на автопроверку статуса сработал и уведомление прислал. Дистрибутив Void Linux. Домашний сервер под домашние нужды. По версиям: zfs-2.3.0-1 zfs-kmod-2.3.0-1 Linux 6.12.16_1 #1 SMP PREEMPT_DYNAMIC x86_64 GNU/Linux smartctl -a /dev/sdX на оба диска пишет No Errors Logged, подробные логи, если нужны, здесь. Есть снэпшоты, есть бэкап всех важных файлов на другом зеркале, хотя я пока ни разу ещё не пробовал ничего восстанавливать и с интрументарием комманд zfs пока "на Вы". Буду благодарен, если подскажете в какую сторону копать, чтобы понять что пошло не так и что стоит делать в таком случае. Заранее спасибо. UPD: smartctl -l farm
.
ztx
да, люблю, знаете ли, на "острие ножа" балансировать. логично, что стоило бы озадачиться LTS ядром как минимум
ztx
но как-то оно всё год уже работало и проблем пока не возникало
Alexey
я под debian12 скомпилировал zfs 2.3.0 пару дней назад, погонял немного, все норм... наверное, да. ядро бы стабильное и дистрибутив проверенный.
Alexey
даунгрейд zfs не сделать, если фичи активны, которых нет в прошлой версии, то импортировать получится только на чтение. поправьте если я ошибаюсь.
ztx
ну, дистрибутив мне под мои задачи весьма проверенный, но не с точки зрения использования ZFS, это для меня новая "переменная". думаю, ядро я поменяю, не уверен на счёт версии ZFS
ztx
а ещё вопрос, а что стоит с текущей ситуацией вообще делать? вот есть у меня эта "ошибка" в статусе, а списка повреждённых файлов нет. поскрабил, 0B repaired в итоге, а "ошибка" осталась
Alexey
ято меня смущает в фото, которое Вы приложили, это то что ошибок на чтение запись в таблице нет. Вы сделали очистку ошибок?
ztx
ничего не делал кроме скраба пула сегодня утром. не имею пока понимания того, что могу сделать, боюсь сделать хуже
Alexey
попробуйте ядро стабильное, zfs проверенной версии. С этого пула можно данные скопировать куда-либо. Затем на другой версии zfs создать пул с нуля. Наблюдать.
ztx
у меня есть второе зеркало, с бэкапами через syncoid, но там тоже всё сделано посредством zfs 2.3.0
ztx
возможно ли сделать send/receive с такого зеркала более старой версией?
Alexey
ну Вы и экспериментатор :)
ztx
что есть. просто не имею нигде больше несколько терабайт свободного места, придётся сносить второе зеркало
Alexey
нет-нет. можно вывести один диск из зеркала, туда скопировать, потом создать пут из 1 диска и скопировать обратно. Затем второй диск присоединить, сделать зеркало
ztx
да и у меня опыта работы с файловыми системами в целом ноль, поэтому те небольшие знания, что есть в голове, все в перемешку
Hennadii
а ещё вопрос, а что стоит с текущей ситуацией вообще делать? вот есть у меня эта "ошибка" в статусе, а списка повреждённых файлов нет. поскрабил, 0B repaired в итоге, а "ошибка" осталась
а ещё вопрос, а что стоит с текущей ситуацией вообще делать? прежде всего - основательно протестировать все hardware сервера и полностью исключить аппаратные проблемы. и только в том случае если никаких аппаратных проблем не будет обнаружено - можно будет начинать подозревать, что это программная проблема и тогда только будет иметь смысл думать про даунгрейд версии ядра и версии OpenZFS. сейчас - это вообще не имеет смысла даже обсуждать, пока не устранены аппаратные проблемы с сервером, потому что пока они есть - на самом сервере будет глючить любая версия ядра Linux и любая версия файловой системы OpenZFS, и эти все бесконечные даунгрейды и перебирания версий будут только пустой тратой времени и сил. вот есть у меня эта "ошибка" в статусе, а списка повреждённых файлов нет. поскрабил, 0B repaired в итоге, а "ошибка" осталась если нужна максимальная надежность работы - необходимо будет пересоздавать pool с нуля, потому что неизвестно что именно тут повреждено в структурах данных на диске и к каким именно побочным эффектам это может потом привести в будущем. Файловая система OpenZFS об этом же прямым текстом и говорит в сообщении про ошибку: action: Restore the file in question if possible. Otherwise restore the entire pool from backup. see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-8A
ztx
а ещё вопрос, а что стоит с текущей ситуацией вообще делать? прежде всего - основательно протестировать все hardware сервера и полностью исключить аппаратные проблемы. и только в том случае если никаких аппаратных проблем не будет обнаружено - можно будет начинать подозревать, что это программная проблема и тогда только будет иметь смысл думать про даунгрейд версии ядра и версии OpenZFS. сейчас - это вообще не имеет смысла даже обсуждать, пока не устранены аппаратные проблемы с сервером, потому что пока они есть - на самом сервере будет глючить любая версия ядра Linux и любая версия файловой системы OpenZFS, и эти все бесконечные даунгрейды и перебирания версий будут только пустой тратой времени и сил. вот есть у меня эта "ошибка" в статусе, а списка повреждённых файлов нет. поскрабил, 0B repaired в итоге, а "ошибка" осталась если нужна максимальная надежность работы - необходимо будет пересоздавать pool с нуля, потому что неизвестно что именно тут повреждено в структурах данных на диске и к каким именно побочным эффектам это может потом привести в будущем. Файловая система OpenZFS об этом же прямым текстом и говорит в сообщении про ошибку: action: Restore the file in question if possible. Otherwise restore the entire pool from backup. see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-8A
да говорит-то говорит, просто смущает пустой список файлов "in question" в конце, поэтому и затрудняюсь делать выводы
ztx
а про аппаратную составляющую Вы правы