Ivan
сейчас нет такой возможности.
собрать на другом сервере нормально, туда скопировать, потом на этом сервере нормально сделать.
Олег
Adaptec ASR71605
Там нет Jbod)))
Al
4 массива.
Олег
То что Adaptec называет jbod называется по друому))
Al
мне их так просто не разобрать.
Al
там куча всего.
Ivan
там 16 ЖД
ну вы там посчитайте что дешевле. данные потерять или бу сервак купить. на шасии под 16хдд+hba контроллер примерно 50к выйдет.
Ivan
плюс диски новые.
nikolay
один диск помер. заменили. Массив перестроился. Ну хорошо, что-то там не срослось. Где-то ошибки, но как их поправить? На каких файлах не понятно - там HEX какой-то. показал бы файлы - удалили файлы, восстановили из рез. копии.
никак. выше вам правильно советуют скопировать что можно на другой диск/систему, рейд разобрать, сделать аналог jbod (или каждый диск в raid0, хоть это и плохо, но лучше для zfs чем один логический диск) и перенести данные обратно. ну или восстановить из бэкапа
Al
смотрите, я сейчас не могу рассматривать решения - давайте все поломаем, и создадим по новой. Сейчас если нет возможности поправить ошибки я могу Я могу либо забить, т.к. файло помойка жива, все zvol видны. Дождаться конда кто-то скажет что его файл не открывается - и достать его из рез копии хотя этого может вооще не произойти, там большая файло-помойка. Убить пул на котором ошибки - ну очень не хочу. т.к. потом придётся перераздавать права на шару.
Ivan
если удастся разобрать, то лучше сразу hba вставить, а не с jbod мучаться.
nikolay
к этому нет ни каких предпосылок. + есть рез контроллер.
откуда уверенность? вы видимо не понимаете что происходит с вашим логическим диском.
Al
нет, не понимаю, и вы то же этого не знаете. только предположения.
nikolay
когда я пишу про "аппаратный рейд" - я имею в виду не только сам контроллер, но и volume который он обслуживает.
nikolay
нет, не понимаю, и вы то же этого не знаете. только предположения.
счетчик ошибок на уровне zfs растет? resilver делали?
Al
не могу сказать, растёт или нет. Я так понимаю, что они будут выявлены после scrub?
Al
resilver не делал
George
после - scrub пару раз
George
это не гарантия успеха, но если уж очень хочется попробовать не пересобирать - попробуйте, главное что бекапы есть
Al
zfs trim zvol ?
George
zfs trim zvol ?
нет, на ФС из zvol
George
вы же именно zvol используете?
George
или датасет всё таки?
George
если датасет - трим не понадобится
George
но наличие бекапов прям обязательно, и не перетрите их случайно чем-то не тем, zfs конечно не должен мусор вместо содержимого отдавать, но если причина точно не известна проблем - вдруг с ОЗУ проблемы и у вас уже каша
Ilya
На всякий случай: у него там не zvol, есть только датасеты, с который truenas раздёт SMB
Ilya
root@FS[/]# zfs list -r -t volume no datasets available
Al
да, dataset
Al
прошу прощения, ошибся.
Al
после - scrub пару раз
он выполняется 1 раз в 5 дней. по хрону.
Al
но я могу и руками запустить. Я так понимаю, в этом случае если возникнут еще ошибки, надо копать глубже?
George
но я могу и руками запустить. Я так понимаю, в этом случае если возникнут еще ошибки, надо копать глубже?
если второй scrub опять что-то найдёт - у вас где-то проблема с оборудованием или пул совсем развалился и точно придётся пересоздавать
George
перед scrub можете zpool clear сделать, чтобы точно ошибки от скраба только увидеть
Autumn
Приветствую джентльмены. Необходима консультация. -> Дано: Сервер + JBOD. OS - Proxmox 6.4. Cобрано зеркало из 4-х raidz2. Диски SAS подключены через два бэкплейна 12 гигабит каждый. Собран multipath, т.е. каждый диск для zfs виден как алиас мультипаз устройства с двумя путями. -> Инцидент: Ночью во время интенсивного резервного копирования на пул умирает один диск в одном из raidz2. Утром в почте вижу ошибку - таймаут резервного копирования. Весь пул висит намертво как и процесс резервного копирования. zpool status заявляет "все зашибись" пул бодрячком, но при попытке провалится внутрь каталогов пула по ls - висяк сбрасываемый по Ctrl+C. smartctl говорил что мертвый диск трудно виден по шине, об этом же после relоad заявляет мультипаз. Выводить всю систему оффлайн нельзя, но можно дропнуть пул. С пулом я ничего сделать не смог - ни размонтировать через zfs unmount -f, ни экспортнуть через -f или отправить в оффлайн т.к. к нему пытался обратится процесс резервного копирования. Сам процесс уже в состоянии зомби, kill -9 его не убивает. -> Действия: Т.к. multipath -f ничего не дает ибо диск официально якобы занят в пуле zfs, на горячую вынимаю диск, вставляю резервный. Процесс резервного копирования на пул умер сам. Удалось сделать unmount + export пула, перепрописать новый диск в мультипазе и сделать релоад. Мультпаз увидел диск. После этого делаю импорт пула ... и zpool status заявляет что пул опять же в норме, диск на месте и все ок. Т.е. я не делал replace для диска, zfs просто увидев диск считала что он в норме. Я решил выполнить zpool scrub. Пошел репейр. Новый диск был вообще новый, без фс разделов, таблиц gpt/mbr и всего прочего, просто из запечатанной коробки достал. -> Вопросы: Что я сделал не так, что надо было бы сделать, что может пойти не так, есть ли опасность для пула, делать ли ресилвер, и вообще где я облажался. С zfs работаю давно, но вот в такую ситуацию попал впервые.
Ivan
Приветствую джентльмены. Необходима консультация. -> Дано: Сервер + JBOD. OS - Proxmox 6.4. Cобрано зеркало из 4-х raidz2. Диски SAS подключены через два бэкплейна 12 гигабит каждый. Собран multipath, т.е. каждый диск для zfs виден как алиас мультипаз устройства с двумя путями. -> Инцидент: Ночью во время интенсивного резервного копирования на пул умирает один диск в одном из raidz2. Утром в почте вижу ошибку - таймаут резервного копирования. Весь пул висит намертво как и процесс резервного копирования. zpool status заявляет "все зашибись" пул бодрячком, но при попытке провалится внутрь каталогов пула по ls - висяк сбрасываемый по Ctrl+C. smartctl говорил что мертвый диск трудно виден по шине, об этом же после relоad заявляет мультипаз. Выводить всю систему оффлайн нельзя, но можно дропнуть пул. С пулом я ничего сделать не смог - ни размонтировать через zfs unmount -f, ни экспортнуть через -f или отправить в оффлайн т.к. к нему пытался обратится процесс резервного копирования. Сам процесс уже в состоянии зомби, kill -9 его не убивает. -> Действия: Т.к. multipath -f ничего не дает ибо диск официально якобы занят в пуле zfs, на горячую вынимаю диск, вставляю резервный. Процесс резервного копирования на пул умер сам. Удалось сделать unmount + export пула, перепрописать новый диск в мультипазе и сделать релоад. Мультпаз увидел диск. После этого делаю импорт пула ... и zpool status заявляет что пул опять же в норме, диск на месте и все ок. Т.е. я не делал replace для диска, zfs просто увидев диск считала что он в норме. Я решил выполнить zpool scrub. Пошел репейр. Новый диск был вообще новый, без фс разделов, таблиц gpt/mbr и всего прочего, просто из запечатанной коробки достал. -> Вопросы: Что я сделал не так, что надо было бы сделать, что может пойти не так, есть ли опасность для пула, делать ли ресилвер, и вообще где я облажался. С zfs работаю давно, но вот в такую ситуацию попал впервые.
нужно jbod на hba менять
Autumn
нужно jbod на hba менять
в смысле на hba, он через два hba к серверу подключен, все диски с прямым доступом, без рейдов и прочей ерунды.
Ivan
в смысле на hba, он через два hba к серверу подключен, все диски с прямым доступом, без рейдов и прочей ерунды.
оке, чет из описания не очень понятно что jbod просто полка, а не тип массива на контроллере.
Autumn
оке, чет из описания не очень понятно что jbod просто полка, а не тип массива на контроллере.
проехали =), основной вопрос, мне чем-то грозит отсутствие процедуры реплейса диска, и замена всего этого обычным скрабом?
Autumn
Или надо было этот диск который zfs принял за своего в наглую все же выпихнуть из пула и запустить реплейс. Но тогда вопрос, реплейс делать надо было сам на себя? Т.е. его же обартно и пихать?
Владимир
ага
Изучил я доки. Я так понимаю чтобы засинхронить данные с удалённого хоста строить команду надо вот так? syncoid root@10.0.6.1:HDD/media HDD/media --create-bookmark --no-sync-snap Вроде всё просто), проще чем я думал) ТО есть если я верно прописал команду, то по сути я вот могу эту команду воткнуть в системд службу, сделать службе авторестарт через 60 сек) и всё что ли) Или есть какие-то более подходящие варианты?
Владимир
а снапшоты это больше для регулярного синхрона
Ivan
вродь как многие репликаторы имеют весьма неплохой меджмент времени жизни снапов по часу,дню,неделе и далее.
Владимир
я хочу для начала потестить репликацию с интервалом 60 сек, а потом может вообще секунду поставлю
Владимир
если операция не будет грузить фс, то реально можно хоть постоянно выполнять, а снапшоты только усложнят ситуацию
Владимир
А то страшно запускать))
George
А то страшно запускать))
Просто потесть на пулах из файликов)))
Владимир
Просто потесть на пулах из файликов)))
уже так и сделал, вроде всё предсказуемо)
Δαρθ
Просто потесть на пулах из файликов)))
о, я кстати на пуле из 2 дисков и 2 файликов переежал со старого рейд1 на зфс раидз2 об 4 дисках )
George
ох уж эти девопсеры-смузихлёбы, прибежал один, предлагает распространять код для ФС (!) через curl | sudo bash , типа зачем собирать под разные дистры, репы с пакетами это уже не модно и бессмысленно https://github.com/openzfs/zfs/issues/12592
Autumn
А тут вообще кто-то syncoid юзает?, я корректно составил команду?
да корректно, если подразумевалось копирование с хоста 10.0.6.1 на текущий хост где выполняется команда
Autumn
если операция не будет грузить фс, то реально можно хоть постоянно выполнять, а снапшоты только усложнят ситуацию
основная концепция саноида/синкоида это перенос больших объемов данных малыми кусками (за счет снапшетов) без нагрузки на сеть
Autumn
т.е. в основе лежит скорость
Autumn
все хорошо рассказано тут https://www.youtube.com/watch?v=VolTJ_t4o0M
Autumn
в том то и дело, что у меня условно будет непрерывная репликация
вот для этого и потребуются снапшоты, смотрите видео с объяснением от автора саноид/синкоида
Autumn
конкретно с этого момента https://youtu.be/VolTJ_t4o0M?t=335
Владимир
Достаточно маркера
Autumn
Нет
ну ок, на нет и суда нет =)
Владимир
Я же проверил уже)
Autumn
Я же проверил уже)
непрерывную репликацию датасетов с постоянно меняющимися данными?
Владимир
В чем проблема, понимаешь что такое маркер?
Autumn
В чем проблема, понимаешь что такое маркер?
про маркер я где-то что-то я упустил?
Autumn
но это все уже на завтра =)
Владимир
Почитай про этот аргумент
Autumn
Почитай про этот аргумент
читал, там про закладку, а не про маркер, хотя тут можно их синонимами посчитать, но я то не понял что речь шла про ту опцию, думал, что я где-то в zfs пролюбил понятие маркера =)
Autumn
ну и опять же меня смутило то что --create-bookmark + --no-sync-snap по задумке автора используются для нерегулярных синков, так сказать по необходимости, а не перманентного ежеминутного, про идею которого Вы выше говорили, поэтому я недопонял мысль
Autumn
хотя работать то оно будет, но автор не спроста к опции create-bookmark пишет "This can be very useful for irregular replication", но если работает, то why not? =)