@ru_zfs - страница 706 - Telegram web archive

Vladislav

Если спасать данные - пробуйте livecd или ждите минут 30

Может диски отвиснут, скорее всего все повисло на zpool import

Vladislav

Он показывает ошибки чексумм и записи, насколько я помню (надо доку внимательно глянуть), но битые сектора не всегда приводят к этому сразу Это ответ человеку что удалил свое сообщение

Free

Если спасать данные - пробуйте livecd или ждите минут 30

Экспорт жду уже полтора часа. Прерывать опасаюсь

Vladislav

@riv1329

Vladislav

Экспорт жду уже полтора часа. Прерывать опасаюсь

Вам бы данные слить куда-то

Vladislav

Экспорт тут надолго

Vladislav

Какой объем?

Vladislav

Какой объем?

У меня ~20 тб шли где-то минут 40-80 может

Free

60 ТБ Я однажды делал на этом пуле экспорт-импорт (на тот же сервер). Занимало минут 10.

Free

Вам бы данные слить куда-то

Каким образом? Даже ls зависает.

Vladislav

60 ТБ Я однажды делал на этом пуле экспорт-импорт (на тот же сервер). Занимало минут 10.

Тогда вам ещё часика 2 подождать

Vladislav

Каким образом? Даже ls зависает.

Zpool send recv

riv

Каким образом? Даже ls зависает.

Выключаете сервер, ddrescue долго и мучительно сохраняет raw-образы всех дисков, импортируете их как пул, включаете разрешение zfs send при неисправимых ошибках, запускаете zfs send и ждёте

Free

Zpool send recv

Запланировал. В данный момент дисков нет. Ко вторнику наберу на пул. Может, что-то подготовительное пока сделать...

riv

Запланировал. В данный момент дисков нет. Ко вторнику наберу на пул. Может, что-то подготовительное пока сделать...

Если информация важна, лучше диски не трогать лишний раз.

Free

Непонятно технологически, как лучше это делать. Сейчас пул - это 30 дисков по 3ТБ. Свободных SATA только парочка. Отсоединить все, кроме одного, сохранить его образ, переходить к следующему? И потом из образов как-то можно будет пул собрать? И потом еще в новый пул отправить? То есть для этого минимум 2*90 ТБ объем нужно подготовить?

Free

Если информация важна, лучше диски не трогать лишний раз.

Отдельные кусочки информации особо не важны Там всё из файлов размером в 1-2 МБ, потеря какой-то части не страшна. Но весь пул как целое достаточно ценен

riv

Отдельные кусочки информации особо не важны Там всё из файлов размером в 1-2 МБ, потеря какой-то части не страшна. Но весь пул как целое достаточно ценен

А инфы то 60ТБ?

riv

Отдельные кусочки информации особо не важны Там всё из файлов размером в 1-2 МБ, потеря какой-то части не страшна. Но весь пул как целое достаточно ценен

Какова избыточность?

Free

А инфы то 60ТБ?

root@docker09:~# zfs list NAME USED AVAIL REFER MOUNTPOINT my 59.1T 3.13T 402K /my Ну образы же всех 30 дисков нужно сделать?

Free

Какова избыточность?

raidz2

riv

А что роказывает zpol status -v ?

riv

raidz2

?

Vladislav

root@docker09:~# zfs list NAME USED AVAIL REFER MOUNTPOINT my 59.1T 3.13T 402K /my Ну образы же всех 30 дисков нужно сделать?

Вы делаете образ и с ним уже эксперименты проводите, как я понял идею

Free

А что роказывает zpol status -v ?

errors: No known data errors Полным выводом неприлично, наверное, чат захламлять?

Vladislav

errors: No known data errors Полным выводом неприлично, наверное, чат захламлять?

Pastebin существует по этой причине

riv

errors: No known data errors Полным выводом неприлично, наверное, чат захламлять?

Ну т.е. по 0 там? Хм... Интересно. SMR диски не используются? HBA контроллер не перегревается, не глючит? Чтобы убедится что с дисками все впорядке, при таких вводных, я бы снял всю нагрузку с пула и сделал zpool scrub, и посмотрел бы на счетчики ошибок по его окончании. 30 дисков в одном vdev? Или что то тира 3 по 10?

Free

Вы делаете образ и с ним уже эксперименты проводите, как я понял идею

Для экспериментов много больше 90 ТБ нужно: диски будут по 20ТБ, т.е. на каждом 6 образов только, итого 5*20 = 100. И потом ведь куда-то нужно будет результаты эксперимента отправить...

Vladislav

Для экспериментов много больше 90 ТБ нужно: диски будут по 20ТБ, т.е. на каждом 6 образов только, итого 5*20 = 100. И потом ведь куда-то нужно будет результаты эксперимента отправить...

Вообще, zpool status -s я бы глянул

Vladislav

Вообще, zpool status -s я бы глянул

Display the number of leaf vdev slow I/O operations.

Free

Ну т.е. по 0 там? Хм... Интересно. SMR диски не используются? HBA контроллер не перегревается, не глючит? Чтобы убедится что с дисками все впорядке, при таких вводных, я бы снял всю нагрузку с пула и сделал zpool scrub, и посмотрел бы на счетчики ошибок по его окончании. 30 дисков в одном vdev? Или что то тира 3 по 10?

SMR не должно быть, все в видеонаблюдении ранее были.

Free

Вообще, zpool status -s я бы глянул

Пардон за простыню. Удалил

Vladislav

Пардон за простыню. Удалил

Pastebin.com

Vladislav

Там где slow >0 и есть наш проблемный диск

Vladislav

Типо come on, 3 секунды на отклик диска на 1(!) IO

Free

Типо come on, 3 секунды на отклик диска на 1(!) IO

Replace не думая?

Vladislav

Ну т.е. по 0 там? Хм... Интересно. SMR диски не используются? HBA контроллер не перегревается, не глючит? Чтобы убедится что с дисками все впорядке, при таких вводных, я бы снял всю нагрузку с пула и сделал zpool scrub, и посмотрел бы на счетчики ошибок по его окончании. 30 дисков в одном vdev? Или что то тира 3 по 10?

Это нормальное поведение Надо посмотреть таймер скраба, плюс ошибка zpool выводится только в 3 сценариях 1) read - IO тайм-аут на чтение 2) write - IO тайм-аут на запись 3) checksum - Checksum errors represent events where a disk returned data that was expected to be correct, but was not - это значит, что диск уже полетел или просто поврежден

Vladislav

Replace не думая?

Сейчас ничего не трогайте, ждите resilver, я не могу предсказать поведение системы, если Вы сейчас уберёте один из дисков

Vladislav

Это нормальное поведение Надо посмотреть таймер скраба, плюс ошибка zpool выводится только в 3 сценариях 1) read - IO тайм-аут на чтение 2) write - IO тайм-аут на запись 3) checksum - Checksum errors represent events where a disk returned data that was expected to be correct, but was not - это значит, что диск уже полетел или просто поврежден

И НИ одно из этих состояний не сообщит о том, что битые сектора появляются, оно покажет, когда они уже умирают, то есть немного поздно

Vladislav

Сейчас ничего не трогайте, ждите resilver, я не могу предсказать поведение системы, если Вы сейчас уберёте один из дисков

Может кто-то опытнее может, но я бы не трогал, ребилд дисковой подсистемы даже в 6-м рейде

Vladislav

Export при активном resilver тоже спорная затея

Vladislav

Но ладно

Vladislav

Replace не думая?

Но в целом, да, смотрите лучше zpool status -s или настройте мониторинг смарта

Vladislav

Но опять же slow появится только при обращении к массиву, к примеру устроить du .* -sh ему

Vladislav

Но опять же slow появится только при обращении к массиву, к примеру устроить du .* -sh ему

(не рекомендую)

Vladislav

Пардон за простыню. Удалил

Кстати, глянь scrub timer

Vladislav

systemctl status zfs-scrub-weekly

Vladislav

systemctl status zfs-scrub-weekly@rpool.timer zfs-scrub-monthly@rpool.timer zfs-scrub-weekly@StoragePool.timer zfs-scrub-monthly@StoragePool.timer

Free

systemctl status zfs-scrub-weekly

Unit zfs-scrub-weekly.service could not be found

Vladislav

Unit zfs-scrub-weekly.service could not be found

systemctl list-timers

Vladislav

Вот так

Vladislav

Pastebin

Vladislav

For god sake

Vladislav

Кек, а у Вас кажись timer на скраб не настроен

Free

Pastebin

Да не успеваю зарегаться, отвечаю здесь непрерывно 😉

Vladislav

Да не успеваю зарегаться, отвечаю здесь непрерывно 😉

Не надо регаться

Vladislav

Просто create new paste и галочку private

riv

Replace не думая?

Если будете менять диски, то replace делается не отключая сбойный диск до конца процедуры! Т.е. не вынул, заменил, а добавил, replace, улалил старый.

Vladislav

Да не успеваю зарегаться, отвечаю здесь непрерывно 😉

zpool history

Vladislav

У Вас кажись scrub ни разу не запускался))))

Free

Если будете менять диски, то replace делается не отключая сбойный диск до конца процедуры! Т.е. не вынул, заменил, а добавил, replace, улалил старый.

Да, я прошлый раз так делал на этом пуле. Тогда можно не дожидаясь ресилвенга заменить?

Vladislav

Если будете менять диски, то replace делается не отключая сбойный диск до конца процедуры! Т.е. не вынул, заменил, а добавил, replace, улалил старый.

Надёжно, но можно и на горячую))))))

Vladislav

zpool history

@FreeKopcap можно ещё zpool history | grep scrub

Vladislav

riv

Да, я прошлый раз так делал на этом пуле. Тогда можно не дожидаясь ресилвенга заменить?

Теоритически да, но практически смысла не имеет. Он всеравно поставит рестлвинг с новым диском в очередь (но это не точно)

Free

У Вас кажись scrub ни разу не запускался))))

По крайней мере когда replace делал - видел, что скраб в процессе

Vladislav

@FreeKopcap можно ещё zpool history | grep scrub

Сделайте всё же

Vladislav

или ls /etc/cron.d/zfsutils-linux

Free

Сделайте всё же

Запустил, долго отрабатывает. Но глянул по сохраненной истории (записывал недавно себе) - и в августе, и в октрябре был

Vladislav

Запустил, долго отрабатывает. Но глянул по сохраненной истории (записывал недавно себе) - и в августе, и в октрябре был

Мммм, это довольно редко, он по хорошему минимум раз в неделю, лучше 2, если нет мониторинга смарта

Free

Вот последний 2023-11-12.00:24:12 zpool scrub my

Free

Мммм, это довольно редко, он по хорошему минимум раз в неделю, лучше 2, если нет мониторинга смарта

Он меньше недели не работает 😊 - нагрузка на пул довольно серьезная, в фоне помнится обещал чуть не за месяц закончить

Владимир

Непонятно технологически, как лучше это делать. Сейчас пул - это 30 дисков по 3ТБ. Свободных SATA только парочка. Отсоединить все, кроме одного, сохранить его образ, переходить к следующему? И потом из образов как-то можно будет пул собрать? И потом еще в новый пул отправить? То есть для этого минимум 2*90 ТБ объем нужно подготовить?

Можно же арендовать сервер чтобы не покупать так много

Vladislav

Он меньше недели не работает 😊 - нагрузка на пул довольно серьезная, в фоне помнится обещал чуть не за месяц закончить

Ээээээммм Это не уверен, что должно ТАК работать Но ладно, мониторинг смарта ваше всё

Free

Можно же арендовать сервер чтобы не покупать так много

Ну надеюсь заменой диска сейчас обойдусь...

Free

Ээээээммм Это не уверен, что должно ТАК работать Но ладно, мониторинг смарта ваше всё

Ну вот на соседнем сервере идет с такой скоростью: scan: scrub in progress since Sun Nov 12 00:24:04 2023 85.1T scanned at 12.1M/s, 84.8T issued at 10.9M/s, 211T total 0B repaired, 40.11% done, 140 days 10:48:28 to go Он, правда, побольше, но и диски там новые, ошибок сосвсем не замечено (3*тьфу)

Vladislav

Лучше смарт смотрите...

Free

Ну теперь буду... Но это я к регулярности/скорости скраба. Slow кстати на этом пуле не диагностирует.

Free

Но там кстати тоже что-то не то. ВОт с 12 ноября уже 40% скраба, а оставшиеся 60 за 140 дней запланировал. И что-то сервисам последнее время скорость i/o не очень нравится...

Станислав

Ну вот на соседнем сервере идет с такой скоростью: scan: scrub in progress since Sun Nov 12 00:24:04 2023 85.1T scanned at 12.1M/s, 84.8T issued at 10.9M/s, 211T total 0B repaired, 40.11% done, 140 days 10:48:28 to go Он, правда, побольше, но и диски там новые, ошибок сосвсем не замечено (3*тьфу)

Вам бы мету на SSD вынести, думаю лучше станет