George
zfs-2.1.5-1ubuntu6~22.04.2 zfs-kmod-2.1.9-2ubuntu1.1
Приколы убунты, у них не совсем апстримные пакеты и hwe ядро может иметь более свежие модули нежели юзерспейс (чисто к вопросу разницы версий)
central
/report
Group Butler
/report
Reported to 1 admin(s)
Free
Разочаровала меня ZFS. И подвела. На новеньком Exos X18 с нулевым SMART, прошедшем тест без ошибок, 10 дней назад создан пул. Перенесены 2 датасета, запущены работающие с ними программы, переносится третий датасет. Промежуточные zpool status показывают ONLINE без известных ошибок. Неожиданно данные первых двух датасетов становятся недоступны, третий send останавливается (скорость 0). Попытка посмотреть статус zpool зависает. Команда zfs также зависает. Остальные диски при этом работают нормально. Перегружаю компьютер без проблем (на соседнем сервере в таком случае бывали при выключении зависания, выше описывал). После перезагрузки пул не виден. По рекомендациям описанных в интернетах аналогичных сбоев и примеру соседнего сервера решил импортировать пул в режиме readonly. Там это помогло по крайней мере данные перекачать в файловом режиме. Но не этот раз: выдает ошибку sudo zpool import -o readonly=on s22 internal error: cannot import 's22': Invalid exchange Aborted Нашел рекомендацию для аналогичного случая (с оговоркой, что есть риск потери части данных, но все-таки пробую): импортировать с ключом -F. Результат root@sk-UbuntuGame:~# zpool import -o readonly=on -F s22 cannot import 's22': one or more devices is currently unavailable root@sk-UbuntuGame:~# zpool import -o readonly=on -F s22 cannot import 's22': no such pool available Диск при этом lsblk показывает. Вынул диск, сделал Scan в Виктории - ошибок чтения нет, СМАРТ в норме. Память компьютера memtester прогнал, 4 итерации без ошибок. Вот ведь сволочь 😡
Sergey
Разочаровала меня ZFS. И подвела. На новеньком Exos X18 с нулевым SMART, прошедшем тест без ошибок, 10 дней назад создан пул. Перенесены 2 датасета, запущены работающие с ними программы, переносится третий датасет. Промежуточные zpool status показывают ONLINE без известных ошибок. Неожиданно данные первых двух датасетов становятся недоступны, третий send останавливается (скорость 0). Попытка посмотреть статус zpool зависает. Команда zfs также зависает. Остальные диски при этом работают нормально. Перегружаю компьютер без проблем (на соседнем сервере в таком случае бывали при выключении зависания, выше описывал). После перезагрузки пул не виден. По рекомендациям описанных в интернетах аналогичных сбоев и примеру соседнего сервера решил импортировать пул в режиме readonly. Там это помогло по крайней мере данные перекачать в файловом режиме. Но не этот раз: выдает ошибку sudo zpool import -o readonly=on s22 internal error: cannot import 's22': Invalid exchange Aborted Нашел рекомендацию для аналогичного случая (с оговоркой, что есть риск потери части данных, но все-таки пробую): импортировать с ключом -F. Результат root@sk-UbuntuGame:~# zpool import -o readonly=on -F s22 cannot import 's22': one or more devices is currently unavailable root@sk-UbuntuGame:~# zpool import -o readonly=on -F s22 cannot import 's22': no such pool available Диск при этом lsblk показывает. Вынул диск, сделал Scan в Виктории - ошибок чтения нет, СМАРТ в норме. Память компьютера memtester прогнал, 4 итерации без ошибок. Вот ведь сволочь 😡
Попробуйте полный тест смарт прогнать
Free
Попробуйте полный тест смарт прогнать
Я полный Scan Read в Виктории прогнал Полный смарт - это как?
Vladislav
smartctl --test=long /dev/sda
Он не сделает сильно лучше victoria hdd
vanes™
Разочаровала меня ZFS. И подвела. На новеньком Exos X18 с нулевым SMART, прошедшем тест без ошибок, 10 дней назад создан пул. Перенесены 2 датасета, запущены работающие с ними программы, переносится третий датасет. Промежуточные zpool status показывают ONLINE без известных ошибок. Неожиданно данные первых двух датасетов становятся недоступны, третий send останавливается (скорость 0). Попытка посмотреть статус zpool зависает. Команда zfs также зависает. Остальные диски при этом работают нормально. Перегружаю компьютер без проблем (на соседнем сервере в таком случае бывали при выключении зависания, выше описывал). После перезагрузки пул не виден. По рекомендациям описанных в интернетах аналогичных сбоев и примеру соседнего сервера решил импортировать пул в режиме readonly. Там это помогло по крайней мере данные перекачать в файловом режиме. Но не этот раз: выдает ошибку sudo zpool import -o readonly=on s22 internal error: cannot import 's22': Invalid exchange Aborted Нашел рекомендацию для аналогичного случая (с оговоркой, что есть риск потери части данных, но все-таки пробую): импортировать с ключом -F. Результат root@sk-UbuntuGame:~# zpool import -o readonly=on -F s22 cannot import 's22': one or more devices is currently unavailable root@sk-UbuntuGame:~# zpool import -o readonly=on -F s22 cannot import 's22': no such pool available Диск при этом lsblk показывает. Вынул диск, сделал Scan в Виктории - ошибок чтения нет, СМАРТ в норме. Память компьютера memtester прогнал, 4 итерации без ошибок. Вот ведь сволочь 😡
А какой контроллер дисков?
Free
А какой контроллер дисков?
SATA, встроенная в материнку MSI H110M PRO-D. Несколько лет и с NTFS, и с ext4 без проблем
Sergey
Он не сделает сильно лучше victoria hdd
Лучше не сделает, но может хоть ошибки покажет
Free
Лучше не сделает, но может хоть ошибки покажет
Да Виктория ведь тоже и ошибки, и предупреждения показывать умеет. Но ничего не нашла
Fedor
Хм, а пул после сбоя пересоздавался?
Fedor
А в ошибке он говорит, что один или более дисков не видит. Что это за диски?
Fedor
В каком виде диски отдаются зфс?
Free
Хм, а пул после сбоя пересоздавался?
После сбоя пул пытался импортировать.
Free
А в ошибке он говорит, что один или более дисков не видит. Что это за диски?
В пуле единственный диск - так что он, очевидно, про него и говорит.
Free
В каком виде диски отдаются зфс?
Диск полностью отдан под пул командой zpool create
Fedor
Это диск, или лун в рейде?
Free
Это диск, или лун в рейде?
Пул на отдельном диске
Fedor
Пул на отдельном диске
Что-то между диском и зфс потеряло данные по пути
Fedor
И были б важные данные, был бы как минимум миррор.
Free
Что-то между диском и зфс потеряло данные по пути
Ну пусть потеряло. Но то, что дошло - zfs должно было записать корректно. Данные не такие важные, часть данных вполне можно потерять. Но то, что угробятся ВСЕ данные - я от zfs не ожидал.
Станислав
рама не ecc ?
Я уже спрашивал, т.к. проблема кроется в ней, скорее всего. Просто ошибка возникла в процессе, вот и всё
Станислав
Прогнал 4 цикла memtester, ни одного сбоя
Это не значит, что ошибки не возникают в процессе работы. На то и существует ECC
Станислав
Я также как-то 300Гиг на NTFS копировал. Скопировало без ошибок, данные на изначальном диске потер, потом вернул обратно. Когда отдал владельцу архива фоток, оказалось, что они почти все пустые.... А так-то эти плашки до сих пор норм работают, единственный случай с потерей данных.
Станислав
Раз в год и палка стреляет :)
Ivan
кстати интересно когда данные потерялись
Ivan
кажись с пт на сб была мощная вспышка
Ivan
космическое излучение влияет на флип битов в раме и прочих буферах
Fedor
Ну пусть потеряло. Но то, что дошло - zfs должно было записать корректно. Данные не такие важные, часть данных вполне можно потерять. Но то, что угробятся ВСЕ данные - я от zfs не ожидал.
Зфс коммитит по транзакциям и получает от устройства хранение подтверждение об этом. Если что-то по пути не произвело действительную запись этих данных на диск, то зфс не виновата.
Станислав
Нк ладно бы потерялись какие-то данные. А тут вся файловая система.
Так а толку от того, что ФС цела, если данных не осталось из 300Гб?
Fedor
И далее, отсутствующее устройство просто так отсутствующим не становится - оно либо потеряло данные, либо данные не были на него записаны чем-то, что лежит между системой и этим устройством
Free
Так а толку от того, что ФС цела, если данных не осталось из 300Гб?
Толк в том, что те данные, которые в момент операции и сбоя не перезаписывались - остаются целыми.
Fedor
Я бы предложил все таки посмотреть на оборудование и корректность его настройки
Станислав
Толк в том, что те данные, которые в момент операции и сбоя не перезаписывались - остаются целыми.
Т.е. у вас никогда не было случаев, когда тот же NTFS, упомянутый мной, не ломался?
Free
Я бы предложил все таки посмотреть на оборудование и корректность его настройки
Оборудование работало много лет без изменения настроек. Ну да, сейчас подключу вместо этого диска какой-нибудь другой, с etx4, и посмотрю.
Fedor
Оборудование в it mode?
Fedor
Просто то, что я читаю, похоже на то, что включён кеш
Fedor
И в этом кеше потерялись данные при перезагрузке
Free
Т.е. у вас никогда не было случаев, когда тот же NTFS, упомянутый мной, не ломался?
Ломался. Насколько я мог вспомнить - при сбое питания или каких-то нестандартных операциях (например, засыпания вместо выключения и потом загрузки linux с того же диска). Как правило, восстанавливался.
Free
Оборудование в it mode?
Встроенный SATA на материнской плате
Fedor
Десктопная консюмерская материнка?
Free
Десктопная консюмерская материнка?
Да, и, как агитировал и делился опытом @gmelikov - это не противопоказание для zfs
Fedor
Что-то не сходится
Fedor
В некоторых материнках бывает псевдорейд, он отключён?
Free
В некоторых материнках бывает псевдорейд, он отключён?
Специально не смотрел, но всю жизнь в этом десктопе стояло 4 одиночных HDD, в соседнем (на котором тоже два датасета поломались недавно) - 6 HDD. Куда смотреть, как он может называться в настройках?
Ivan
или ahci. вечно путаю
Fedor
А что сейчас с диском?
Fedor
Виден в системе под тем же идентификатором?
Vladislav
Т.е. у вас никогда не было случаев, когда тот же NTFS, упомянутый мной, не ломался?
Ntfs так чтобы я не мог восстановить данные? Нет Вот если без шуток
Vladislav
Пару битых файлов? Да бывало. 3-9 часов на сканирование? Тоже было. ФС просто умерла без возможности восстановления? Нет
🦊 Лиса
sata -> achi должно быть
и еще rst должен быть отключен
Fedor
И NCQ
Fedor
Чтоб точно порядок записи не нарушать
Fedor
скорость не уронит ?
Надёжность важнее
Ivan
мож со slog норм будет, а без него сомневаюсь что не уронит производительность
Ivan
Надёжность важнее
zfs же сам мог бы отключать если нужно
Ivan
как кэш хдд
Станислав
Ntfs так чтобы я не мог восстановить данные? Нет Вот если без шуток
У меня не только личный опыт использования. Просто специфика работы была, когда клиенты обращались с тем, что диск просит форматирования или "всё стало иероглифами". Вот второй случай как раз о том, когда побилась ФС так, что даже монтируется, но ничего не прочитать. Любая директория может показывать террабайты (иногда сотни) данных на диске 300Гб. Тут только спец софт помогал, но иногда возиться приходилось долго. В данном случае, с ZFS, никто не говорил, что пробовали софтом восстановить. Только примонтировать не получается полноценно
Никита
Читал тут что народ контроллеры в hba переключают для zfs. Я у себя на серваке через perc710 диски как jbod прокинул в ось, это норма или переделывать?
Никита
правильно - hba в it режиме. все остальное не дает прямого доступа.
А jbod получается «почти прямой» доступ дает?
Vladislav
А jbod получается «почти прямой» доступ дает?
Достаточно прямой, это просто переключение режимов LSI
Ivan
А jbod получается «почти прямой» доступ дает?
jbod может даже неверный размер диска сообщать.
Fedor
Жбод это чаще всего виртуальный пул собранный из одного или более дисков, абстракция, в общем.
Vladislav
А вообще человек неправильную терминолоогию использует
Vladislav
Он скорее всего про это https://fohdeesha.com/docs/perc.html ведь так, @neowheezy?
Никита
Он скорее всего про это https://fohdeesha.com/docs/perc.html ведь так, @neowheezy?
Контроллер такой, да. Не ковырял его просто особо. Раньше raid6 на нем делал и не парился. А тут вон тонкостей сколько оказывается
Никита