Ivan
лог уже давно полностью развалился
а вот хз понял ли зфс что в него не надо ничего писать
Ivan
понял, он его вырубил
но во время выключения питание же упало
Алексей
но во время выключения питание же упало
ну операции же атомарные) если не завершилось то ничего не удалилось)
Free
The devices below are missing or corrupted, use '-m' to import the pool anyway: mirror-1 [log] ata-Q3DT-128GMCY_2022061700361 ata-Q3DT-128GMCY_2022061700455
Free
Правда, это про логи пишет. А вещь еще кэш был, который он даже и не показывает...
Алексей
Правда, это про логи пишет. А вещь еще кэш был, который он даже и не показывает...
Да хрен с ним с этим кешем. Он уже (странно конечно) в конфигурации пула не существует
Fedor
Рекомендую зарепродюсить ситуацию на тестовом пуле с файлами
Fedor
И там попытаться пул оживить
Fedor
После уже трогать большой пул
Fedor
Создать файлы - диски по гигабайт, файлы по 50мб
Fedor
Сделать из них пул
Алексей
Рекомендую зарепродюсить ситуацию на тестовом пуле с файлами
Забыли упомянуть что доступ к фс пропал (точки монтирования были пусты) во время зависшего процесса удаления логов.
Fedor
Поназаписывать чего-то. Привести в то же состояние и попробовать восстановить
Fedor
На любой вм без writeback
Алексей
Поназаписывать чего-то. Привести в то же состояние и попробовать восстановить
Не выйдет так как там еще и нагрузка была и пул типа отвалился
Fedor
Фио натравить и сломать доступ к файлам
Алексей
А я не знаю - пропадал ли...
Пропадал. Докера ж повылетали. У меня такое же было на том же пуле от одного и того же автора
Free
Не выйдет так как там еще и нагрузка была и пул типа отвалился
Да, если это существенно: ноды не подумал остановить, диски активно работали. Но в описании команд и не было ничего, что нужно всё останавливать...
Алексей
Причем пропадало у меня так раз 5
Free
The devices below are missing or corrupted, use '-m' to import the pool anyway: mirror-1 [log] ata-Q3DT-128GMCY_2022061700361 ata-Q3DT-128GMCY_2022061700455
Ну что, попробовать zpool import -m my ? Или неудачная попытка импорта может испортить ситуацию?
Fedor
Почитай в мане, что делает -m
Free
Вроде как раз то, что нужно: Importing a Pool With a Missing Log Device By default, a pool with a missing log device cannot be imported. You can use zpool import –m command to force a pool to be imported with a missing log device. For example:
Free
Запустил. Зашуршала. Что-то пытается делать. Долго обычно импорт происходит ?
Free
Запустил. Зашуршала. Что-то пытается делать. Долго обычно импорт происходит ?
Данные появились. Кэш исчез. Логи остались. Как их удалить-то правильно? Попробовать еще раз zpool remove my mirror-1 С включенным UPS 😉?
Free
root@storg2:~# zpool status pool: my state: DEGRADED status: One or more devices has experienced an error resulting in data corruption. Applications may be affected. action: Restore the file in question if possible. Otherwise restore the entire pool from backup. see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-8A scan: resilvered 3.34M in 00:00:06 with 0 errors on Thu Sep 7 01:05:34 2023 config: NAME STATE READ WRITE CKSUM my DEGRADED 0 0 0 raidz2-0 ONLINE 0 0 0 ata-WUH721816ALE6L4_2BG23XME ONLINE 0 0 0 ata-WUH721816ALE6L4_2BGTN6DR ONLINE 0 0 0 ata-WUH721816ALE6L4_2BGTZ02R ONLINE 0 0 0 ata-WUH721816ALE6L4_2BH43TRD ONLINE 0 0 0 ata-WUH721816ALE6L4_2BHT1W1N ONLINE 0 0 0 ata-WUH721816ALE6L4_2CG6Y0XN ONLINE 0 0 0 ata-WUH721816ALE6L4_2CG71H5N ONLINE 0 0 0 ata-WUH721816ALE6L4_2CGDDE4P ONLINE 0 0 0 ata-WUH721816ALE6L4_2CH7XYYN ONLINE 0 0 0 ata-WUH721816ALE6L4_2CHE5N8N ONLINE 0 0 0 ata-WUH721816ALE6L4_2CJ39NRJ ONLINE 0 0 0 ata-WUH721816ALE6L4_2CJ9REHJ ONLINE 0 0 0 ata-WUH721816ALE6L4_2CJE6N5J ONLINE 0 0 0 ata-WUH721816ALE6L4_3WGXB0NL ONLINE 0 0 0 ata-WUH721816ALE6L4_3WGXPW8J ONLINE 0 0 0 ata-WUH721816ALE6L4_3WHPKZGP ONLINE 0 0 0 ata-WUH721816ALE6L4_3WJZRWMJ ONLINE 0 0 0 logs mirror-1 UNAVAIL 0 0 0 insufficient replicas 18124350905164369434 UNAVAIL 0 0 0 was /dev/disk/by-id/ata-Q3DT-128GMCY_2022061700361-part1 7049420926383765683 UNAVAIL 0 0 0 was /dev/disk/by-id/ata-Q3DT-128GMCY_2022061700455-part1
Free
Данные появились. Кэш исчез. Логи остались. Как их удалить-то правильно? Попробовать еще раз zpool remove my mirror-1 С включенным UPS 😉?
На этот раз (может, потому что без нагрузки) за секунды отработало. Даже UPS не понадобился. Но в результате вот такой пул - кэш так и не появился. Но для Сторджа, говорят, он и не нужен, так что успокаиваюсь. На этом сервере. PS Тем временем обнаружил, что второй сервер, с дисковой полкой на еще больший объем, отключение питания не пережил. Хотя он и за UPS стоял (не очень мощным - на все время отключения не хватило, но данные из кэша должны были бы записаться). Но это уже с zfs вряд ли связано: он даже не прогружается, хотя первоначальный тест BIOS проходит и уходит на загрузку.
Free
На этот раз (может, потому что без нагрузки) за секунды отработало. Даже UPS не понадобился. Но в результате вот такой пул - кэш так и не появился. Но для Сторджа, говорят, он и не нужен, так что успокаиваюсь. На этом сервере. PS Тем временем обнаружил, что второй сервер, с дисковой полкой на еще больший объем, отключение питания не пережил. Хотя он и за UPS стоял (не очень мощным - на все время отключения не хватило, но данные из кэша должны были бы записаться). Но это уже с zfs вряд ли связано: он даже не прогружается, хотя первоначальный тест BIOS проходит и уходит на загрузку.
❓ Но, может, кто имеющий дело с полками подскажет (этот сервер вместе с полкой также куплен с рук, и никаких инструкций к полке нет): На полке все диски светятся зеленым, а одна сигнальная лампочка красная. Вот что бы это означало: 1) Что-то с полкой, и она не дает загрузиться ОС? или 2) ОС не загрузилась, к полке никто не подклюился и она об этом светит?
Fedor
Искать первоначальную причину поломки
Free
На этот раз (может, потому что без нагрузки) за секунды отработало. Даже UPS не понадобился. Но в результате вот такой пул - кэш так и не появился. Но для Сторджа, говорят, он и не нужен, так что успокаиваюсь. На этом сервере. PS Тем временем обнаружил, что второй сервер, с дисковой полкой на еще больший объем, отключение питания не пережил. Хотя он и за UPS стоял (не очень мощным - на все время отключения не хватило, но данные из кэша должны были бы записаться). Но это уже с zfs вряд ли связано: он даже не прогружается, хотя первоначальный тест BIOS проходит и уходит на загрузку.
Если кому интересно или полезно для будущих проблем, чтобы в поиске осталось: Сделал дополнительно export-import - после этого вдруг появился кэш. Без имен устройств, только их индексы: NAME STATE READ WRITE CKSUM my ONLINE 0 0 0 raidz2-0 ONLINE 0 0 0 ata-WUH721816ALE6L4_2BG23XME ONLINE 0 0 0 ata-WUH721816ALE6L4_2BGTN6DR ONLINE 0 0 0 ata-WUH721816ALE6L4_2BGTZ02R ONLINE 0 0 0 ata-WUH721816ALE6L4_2BH43TRD ONLINE 0 0 0 ata-WUH721816ALE6L4_2BHT1W1N ONLINE 0 0 0 ata-WUH721816ALE6L4_2CG6Y0XN ONLINE 0 0 0 ata-WUH721816ALE6L4_2CG71H5N ONLINE 0 0 0 ata-WUH721816ALE6L4_2CGDDE4P ONLINE 0 0 0 ata-WUH721816ALE6L4_2CH7XYYN ONLINE 0 0 0 ata-WUH721816ALE6L4_2CHE5N8N ONLINE 0 0 0 ata-WUH721816ALE6L4_2CJ39NRJ ONLINE 0 0 0 ata-WUH721816ALE6L4_2CJ9REHJ ONLINE 0 0 0 ata-WUH721816ALE6L4_2CJE6N5J ONLINE 0 0 0 ata-WUH721816ALE6L4_3WGXB0NL ONLINE 0 0 0 ata-WUH721816ALE6L4_3WGXPW8J ONLINE 0 0 0 ata-WUH721816ALE6L4_3WHPKZGP ONLINE 0 0 0 ata-WUH721816ALE6L4_3WJZRWMJ ONLINE 0 0 0 cache sdr ONLINE 0 0 0 sdu ONLINE 0 0 0 Удалил их по одному, снова export-import, reboot - все нормально загруажется, пул только из данных, без логов и кэша теперь. НО: Показывает по-прежнему наличие ошибок (аж 4268 штук) в каких-то странных "файлах" вида my/81:<0x0>. zpool status -v перечисляет их: это те же, что и были при испорченном логе: errors: Permanent errors have been detected in the following files: my/81:<0x0> my/13:<0x0> my/27:<0x0> my/42:<0x0> my/48:<0x0> my/87:<0x0> ...
Free
Если кому интересно или полезно для будущих проблем, чтобы в поиске осталось: Сделал дополнительно export-import - после этого вдруг появился кэш. Без имен устройств, только их индексы: NAME STATE READ WRITE CKSUM my ONLINE 0 0 0 raidz2-0 ONLINE 0 0 0 ata-WUH721816ALE6L4_2BG23XME ONLINE 0 0 0 ata-WUH721816ALE6L4_2BGTN6DR ONLINE 0 0 0 ata-WUH721816ALE6L4_2BGTZ02R ONLINE 0 0 0 ata-WUH721816ALE6L4_2BH43TRD ONLINE 0 0 0 ata-WUH721816ALE6L4_2BHT1W1N ONLINE 0 0 0 ata-WUH721816ALE6L4_2CG6Y0XN ONLINE 0 0 0 ata-WUH721816ALE6L4_2CG71H5N ONLINE 0 0 0 ata-WUH721816ALE6L4_2CGDDE4P ONLINE 0 0 0 ata-WUH721816ALE6L4_2CH7XYYN ONLINE 0 0 0 ata-WUH721816ALE6L4_2CHE5N8N ONLINE 0 0 0 ata-WUH721816ALE6L4_2CJ39NRJ ONLINE 0 0 0 ata-WUH721816ALE6L4_2CJ9REHJ ONLINE 0 0 0 ata-WUH721816ALE6L4_2CJE6N5J ONLINE 0 0 0 ata-WUH721816ALE6L4_3WGXB0NL ONLINE 0 0 0 ata-WUH721816ALE6L4_3WGXPW8J ONLINE 0 0 0 ata-WUH721816ALE6L4_3WHPKZGP ONLINE 0 0 0 ata-WUH721816ALE6L4_3WJZRWMJ ONLINE 0 0 0 cache sdr ONLINE 0 0 0 sdu ONLINE 0 0 0 Удалил их по одному, снова export-import, reboot - все нормально загруажется, пул только из данных, без логов и кэша теперь. НО: Показывает по-прежнему наличие ошибок (аж 4268 штук) в каких-то странных "файлах" вида my/81:<0x0>. zpool status -v перечисляет их: это те же, что и были при испорченном логе: errors: Permanent errors have been detected in the following files: my/81:<0x0> my/13:<0x0> my/27:<0x0> my/42:<0x0> my/48:<0x0> my/87:<0x0> ...
Причем именно эти 0x0 выскакивали на системный монитор, когда SSD сбоили: Что это за "файлы"? PS zpool clear ошибки не убирает 😞
Алексей
Алексей
Нужно запустить скраб
Алексей
Он их либо полечит либо нет)
Free
Это файлы у которых либо не бьется чек сумма либо они безвозвратно повреждены
Какое-то нестандартное название файла: my/81:<0x0> Что это за синтаксис с двоеточием?
Алексей
Autumn
Какое-то нестандартное название файла: my/81:<0x0> Что это за синтаксис с двоеточием?
после скраба появятся нормальные названия (не факт, но должны), но судя по тому что я читал пару раз в сети то это не лечится, надо сливать то что еще читается и пересоздавать пул с нуля
Free
после скраба появятся нормальные названия (не факт, но должны), но судя по тому что я читал пару раз в сети то это не лечится, надо сливать то что еще читается и пересоздавать пул с нуля
Мигрировать 100ТБ нод Сторджа - это тот еще квест 🤯. Там сотни миллионов (скорее всего и миллиард наберется) мелких файлов, rsync один ТБ не менее суток копирует.
Free
Селяви такова.
Ну попробую с такой селяви пока пожить. Вроде ноды с этими ошибками работают. Да и они не в основном статусе пула, а в "примечаниях", и ноды вроде сейчас не жалуются
Fedor
Самое время скопировать данные и сделать систему бекапов, если будет принято решение продолжить пользоваться этим пулом
Mikhail
Пул в ридонли и сливать
Mikhail
Хотя зависит от бизнеса
Mikhail
Если даталосс приемлем то чо бы и нет))
Free
Самое время скопировать данные и сделать систему бекапов, если будет принято решение продолжить пользоваться этим пулом
Ничего себе бекапов на 100ТБ 🤯. Мне кажется, это ошибки какие-то старые, явно были связаны со сбойными логами. Главное, они не растут: видимо, просто записи о них остались и не вычищаются. Показываются только с параметром status -v. Состояние сейчас такое: root@storg2:~# zpool status pool: my state: ONLINE status: One or more devices has experienced an error resulting in data corruption. Applications may be affected. action: Restore the file in question if possible. Otherwise restore the entire pool from backup. see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-8A scan: scrub in progress since Fri Sep 15 21:24:55 2023 14.0T scanned at 242M/s, 8.77T issued at 152M/s, 114T total 0B repaired, 7.70% done, 8 days 10:02:55 to go config: NAME STATE READ WRITE CKSUM my ONLINE 0 0 0 raidz2-0 ONLINE 0 0 0 ata-WUH721816ALE6L4_2BG23XME ONLINE 0 0 0 ata-WUH721816ALE6L4_2BGTN6DR ONLINE 0 0 0 ata-WUH721816ALE6L4_2BGTZ02R ONLINE 0 0 0 ata-WUH721816ALE6L4_2BH43TRD ONLINE 0 0 0 ata-WUH721816ALE6L4_2BHT1W1N ONLINE 0 0 0 ata-WUH721816ALE6L4_2CG6Y0XN ONLINE 0 0 0 ata-WUH721816ALE6L4_2CG71H5N ONLINE 0 0 0 ata-WUH721816ALE6L4_2CGDDE4P ONLINE 0 0 0 ata-WUH721816ALE6L4_2CH7XYYN ONLINE 0 0 0 ata-WUH721816ALE6L4_2CHE5N8N ONLINE 0 0 0 ata-WUH721816ALE6L4_2CJ39NRJ ONLINE 0 0 0 ata-WUH721816ALE6L4_2CJ9REHJ ONLINE 0 0 0 ata-WUH721816ALE6L4_2CJE6N5J ONLINE 0 0 0 ata-WUH721816ALE6L4_3WGXB0NL ONLINE 0 0 0 ata-WUH721816ALE6L4_3WGXPW8J ONLINE 0 0 0 ata-WUH721816ALE6L4_3WHPKZGP ONLINE 0 0 0 ata-WUH721816ALE6L4_3WJZRWMJ ONLINE 0 0 0 errors: 4268 data errors, use '-v' for a list
Free
Пул в ридонли и сливать
А вот такой вариант возможен? Там данных на самом деле немного меньше 100ТБ, и есть еще более 100ТБ свободного пространства. Может, можно сделать на этом свободном новый пул, туда скопировать данные (вроде zfs может делать это быстрее, чем просто zksync), после чего старый грохнуть?
Mikhail
Я поэтому и написал от бизнеса зависит
Aleksei
угу, спасибо!
Mikhail
У мя хп 8096 и лто8 плюс бареос сверху
Aleksei
богато! :)
Mikhail
И отдельный спец у которого такая же бильботека плюс серваки на которые он регулярно всё это восстанавливает и чексуммы проверяет
Mikhail
Не помню где было но это тот случай когда если даталосс - тебя кладут в багажник и увозят в лес 😆😆😆
Aleksei
Не помню где было но это тот случай когда если даталосс - тебя кладут в багажник и увозят в лес 😆😆😆
не, у нас так сильно не бьют, только ключевые датасеты терять нельзя
Aleksei
но данных дофига, примерно пол Пб
Mikhail
Так а че снапшоты на соседний zfs не летят?
Free
Я поэтому и написал от бизнеса зависит
В Сторджах еще такая вот специфика: Данные постоянно новые прилетают, и их сохранность проверяют аудитом. Поэтому если восстановиться из бекапа недельной данности - то за отсутствие новых могут дисквалифицировать. Так что если рассматривать вариант бекапа - то скорее зеркалирование
Free
Главное, чтобы не дезинтегрировали))
Там и то и другое: дисквалифицируют и дезинтегрируют (эту ноду) из проекта 😀 Без выплаты залога, который первые месяцы удерживают 😞
Алексей
Алексей
Autumn
я че такой старый и совсем потерялся в этом мире =)
Autumn
Chia
это же крипта которая кучу людей бортанула, ее еще кто-то генерирует?
Алексей
это же крипта которая кучу людей бортанула, ее еще кто-то генерирует?
Сторж генерирует баксы. То есть твой заработок не зависит от курса токена. Насыпают токенов столько сколько заработал долларей
Autumn
Сторж генерирует баксы. То есть твой заработок не зависит от курса токена. Насыпают токенов столько сколько заработал долларей
причем тут сторж, я про чиа прочитал, ща мы и со стржом разберемся, откуда там 100 терр набегает
Алексей
Их я и мигрирую