Al
Al
4 массива.
Олег
То что Adaptec называет jbod называется по друому))
Al
мне их так просто не разобрать.
Al
там куча всего.
Ivan
там 16 ЖД
ну вы там посчитайте что дешевле. данные потерять или бу сервак купить. на шасии под 16хдд+hba контроллер примерно 50к выйдет.
Ivan
плюс диски новые.
Al
смотрите, я сейчас не могу рассматривать решения - давайте все поломаем, и создадим по новой.
Сейчас если нет возможности поправить ошибки я могу
Я могу либо
забить, т.к. файло помойка жива, все zvol видны. Дождаться конда кто-то скажет что его файл не открывается - и достать его из рез копии
хотя этого может вооще не произойти, там большая файло-помойка.
Убить пул на котором ошибки - ну очень не хочу. т.к. потом придётся перераздавать права на шару.
Ivan
если удастся разобрать, то лучше сразу hba вставить, а не с jbod мучаться.
Al
nikolay
Al
Al
нет, не понимаю, и вы то же этого не знаете.
только предположения.
nikolay
когда я пишу про "аппаратный рейд" - я имею в виду не только сам контроллер, но и volume который он обслуживает.
nikolay
Al
не могу сказать, растёт или нет.
Я так понимаю, что они будут выявлены после scrub?
Al
resilver не делал
George
George
после - scrub пару раз
George
это не гарантия успеха, но если уж очень хочется попробовать не пересобирать - попробуйте, главное что бекапы есть
Al
zfs trim zvol ?
George
вы же именно zvol используете?
George
или датасет всё таки?
George
если датасет - трим не понадобится
George
но наличие бекапов прям обязательно, и не перетрите их случайно чем-то не тем, zfs конечно не должен мусор вместо содержимого отдавать, но если причина точно не известна проблем - вдруг с ОЗУ проблемы и у вас уже каша
Ilya
На всякий случай: у него там не zvol, есть только датасеты, с который truenas раздёт SMB
Ilya
root@FS[/]# zfs list -r -t volume
no datasets available
Al
да, dataset
Al
прошу прощения, ошибся.
Al
но я могу и руками запустить.
Я так понимаю, в этом случае если возникнут еще ошибки, надо копать глубже?
George
перед scrub можете zpool clear сделать, чтобы точно ошибки от скраба только увидеть
Autumn
Приветствую джентльмены. Необходима консультация.
-> Дано:
Сервер + JBOD. OS - Proxmox 6.4. Cобрано зеркало из 4-х raidz2.
Диски SAS подключены через два бэкплейна 12 гигабит каждый.
Собран multipath, т.е. каждый диск для zfs виден как алиас мультипаз устройства с двумя путями.
-> Инцидент:
Ночью во время интенсивного резервного копирования на пул умирает один диск в одном из raidz2. Утром в почте вижу ошибку - таймаут резервного копирования. Весь пул висит намертво как и процесс резервного копирования.
zpool status заявляет "все зашибись" пул бодрячком, но при попытке провалится внутрь каталогов пула по ls - висяк сбрасываемый по Ctrl+C.
smartctl говорил что мертвый диск трудно виден по шине, об этом же после relоad заявляет мультипаз. Выводить всю систему оффлайн нельзя, но можно дропнуть пул. С пулом я ничего сделать не смог - ни размонтировать через zfs unmount -f, ни экспортнуть через -f или отправить в оффлайн т.к. к нему пытался обратится процесс резервного копирования. Сам процесс уже в состоянии зомби, kill -9 его не убивает.
-> Действия:
Т.к. multipath -f ничего не дает ибо диск официально якобы занят в пуле zfs, на горячую вынимаю диск, вставляю резервный. Процесс резервного копирования на пул умер сам. Удалось сделать unmount + export пула, перепрописать новый диск в мультипазе и сделать релоад. Мультпаз увидел диск. После этого делаю импорт пула ... и zpool status заявляет что пул опять же в норме, диск на месте и все ок. Т.е. я не делал replace для диска, zfs просто увидев диск считала что он в норме. Я решил выполнить zpool scrub. Пошел репейр. Новый диск был вообще новый, без фс разделов, таблиц gpt/mbr и всего прочего, просто из запечатанной коробки достал.
-> Вопросы:
Что я сделал не так, что надо было бы сделать, что может пойти не так, есть ли опасность для пула, делать ли ресилвер, и вообще где я облажался. С zfs работаю давно, но вот в такую ситуацию попал впервые.
Ivan
Приветствую джентльмены. Необходима консультация.
-> Дано:
Сервер + JBOD. OS - Proxmox 6.4. Cобрано зеркало из 4-х raidz2.
Диски SAS подключены через два бэкплейна 12 гигабит каждый.
Собран multipath, т.е. каждый диск для zfs виден как алиас мультипаз устройства с двумя путями.
-> Инцидент:
Ночью во время интенсивного резервного копирования на пул умирает один диск в одном из raidz2. Утром в почте вижу ошибку - таймаут резервного копирования. Весь пул висит намертво как и процесс резервного копирования.
zpool status заявляет "все зашибись" пул бодрячком, но при попытке провалится внутрь каталогов пула по ls - висяк сбрасываемый по Ctrl+C.
smartctl говорил что мертвый диск трудно виден по шине, об этом же после relоad заявляет мультипаз. Выводить всю систему оффлайн нельзя, но можно дропнуть пул. С пулом я ничего сделать не смог - ни размонтировать через zfs unmount -f, ни экспортнуть через -f или отправить в оффлайн т.к. к нему пытался обратится процесс резервного копирования. Сам процесс уже в состоянии зомби, kill -9 его не убивает.
-> Действия:
Т.к. multipath -f ничего не дает ибо диск официально якобы занят в пуле zfs, на горячую вынимаю диск, вставляю резервный. Процесс резервного копирования на пул умер сам. Удалось сделать unmount + export пула, перепрописать новый диск в мультипазе и сделать релоад. Мультпаз увидел диск. После этого делаю импорт пула ... и zpool status заявляет что пул опять же в норме, диск на месте и все ок. Т.е. я не делал replace для диска, zfs просто увидев диск считала что он в норме. Я решил выполнить zpool scrub. Пошел репейр. Новый диск был вообще новый, без фс разделов, таблиц gpt/mbr и всего прочего, просто из запечатанной коробки достал.
-> Вопросы:
Что я сделал не так, что надо было бы сделать, что может пойти не так, есть ли опасность для пула, делать ли ресилвер, и вообще где я облажался. С zfs работаю давно, но вот в такую ситуацию попал впервые.
нужно jbod на hba менять
Autumn
нужно jbod на hba менять
в смысле на hba, он через два hba к серверу подключен, все диски с прямым доступом, без рейдов и прочей ерунды.
Ivan
Autumn
Или надо было этот диск который zfs принял за своего в наглую все же выпихнуть из пула и запустить реплейс. Но тогда вопрос, реплейс делать надо было сам на себя? Т.е. его же обартно и пихать?
Владимир
ага
Изучил я доки. Я так понимаю чтобы засинхронить данные с удалённого хоста строить команду надо вот так?
syncoid root@10.0.6.1:HDD/media HDD/media --create-bookmark --no-sync-snap
Вроде всё просто), проще чем я думал)
ТО есть если я верно прописал команду, то по сути я вот могу эту команду воткнуть в системд службу, сделать службе авторестарт через 60 сек) и всё что ли)
Или есть какие-то более подходящие варианты?
Ivan
Владимир
Владимир
а снапшоты это больше для регулярного синхрона
Ivan
вродь как многие репликаторы имеют весьма неплохой меджмент времени жизни снапов по часу,дню,неделе и далее.
Владимир
Владимир
я хочу для начала потестить репликацию с интервалом 60 сек, а потом может вообще секунду поставлю
Владимир
если операция не будет грузить фс, то реально можно хоть постоянно выполнять, а снапшоты только усложнят ситуацию
Владимир
Владимир
А то страшно запускать))
George
George
ох уж эти девопсеры-смузихлёбы, прибежал один, предлагает распространять код для ФС (!) через curl | sudo bash , типа зачем собирать под разные дистры, репы с пакетами это уже не модно и бессмысленно https://github.com/openzfs/zfs/issues/12592
Ivan
Autumn
т.е. в основе лежит скорость
Autumn
все хорошо рассказано тут https://www.youtube.com/watch?v=VolTJ_t4o0M
Autumn
Autumn
конкретно с этого момента https://youtu.be/VolTJ_t4o0M?t=335
Владимир
Владимир
Достаточно маркера
Autumn
Нет
ну ок, на нет и суда нет =)
Владимир
Я же проверил уже)
Autumn
Я же проверил уже)
непрерывную репликацию датасетов с постоянно меняющимися данными?
Владимир
В чем проблема, понимаешь что такое маркер?
Autumn
Autumn
но это все уже на завтра =)
Владимир
Владимир
Почитай про этот аргумент
Autumn
Почитай про этот аргумент
читал, там про закладку, а не про маркер, хотя тут можно их синонимами посчитать, но я то не понял что речь шла про ту опцию, думал, что я где-то в zfs пролюбил понятие маркера =)
Autumn
ну и опять же меня смутило то что --create-bookmark + --no-sync-snap по задумке автора используются для нерегулярных синков, так сказать по необходимости, а не перманентного ежеминутного, про идею которого Вы выше говорили, поэтому я недопонял мысль
Autumn
хотя работать то оно будет, но автор не спроста к опции create-bookmark пишет "This can be very useful for irregular replication", но если работает, то why not? =)