@ru_zfs - страница 381 - Telegram web archive

Ivan

сейчас нет такой возможности.

собрать на другом сервере нормально, туда скопировать, потом на этом сервере нормально сделать.

Олег

Adaptec ASR71605

Там нет Jbod)))

Al

собрать на другом сервере нормально, туда скопировать, потом на этом сервере нормально сделать.

там 16 ЖД

Al

4 массива.

Олег

То что Adaptec называет jbod называется по друому))

Al

мне их так просто не разобрать.

Al

там куча всего.

Ivan

там 16 ЖД

ну вы там посчитайте что дешевле. данные потерять или бу сервак купить. на шасии под 16хдд+hba контроллер примерно 50к выйдет.

Ivan

плюс диски новые.

nikolay

один диск помер. заменили. Массив перестроился. Ну хорошо, что-то там не срослось. Где-то ошибки, но как их поправить? На каких файлах не понятно - там HEX какой-то. показал бы файлы - удалили файлы, восстановили из рез. копии.

никак. выше вам правильно советуют скопировать что можно на другой диск/систему, рейд разобрать, сделать аналог jbod (или каждый диск в raid0, хоть это и плохо, но лучше для zfs чем один логический диск) и перенести данные обратно. ну или восстановить из бэкапа

Al

смотрите, я сейчас не могу рассматривать решения - давайте все поломаем, и создадим по новой. Сейчас если нет возможности поправить ошибки я могу Я могу либо забить, т.к. файло помойка жива, все zvol видны. Дождаться конда кто-то скажет что его файл не открывается - и достать его из рез копии хотя этого может вооще не произойти, там большая файло-помойка. Убить пул на котором ошибки - ну очень не хочу. т.к. потом придётся перераздавать права на шару.

Ivan

если удастся разобрать, то лучше сразу hba вставить, а не с jbod мучаться.

Al

ну вы там посчитайте что дешевле. данные потерять или бу сервак купить. на шасии под 16хдд+hba контроллер примерно 50к выйдет.

этот сервер есть, на него рез копии льются.

nikolay

смотрите, я сейчас не могу рассматривать решения - давайте все поломаем, и создадим по новой. Сейчас если нет возможности поправить ошибки я могу Я могу либо забить, т.к. файло помойка жива, все zvol видны. Дождаться конда кто-то скажет что его файл не открывается - и достать его из рез копии хотя этого может вооще не произойти, там большая файло-помойка. Убить пул на котором ошибки - ну очень не хочу. т.к. потом придётся перераздавать права на шару.

если у вас проблемы на уровне аппаратного рейда - есть реальный шанс что скоро все встанет колом и zfs откажется писать на этот логический диск пометив его как failed, другими словами ваши данные станут недоступны для потребителей.

Al

если у вас проблемы на уровне аппаратного рейда - есть реальный шанс что скоро все встанет колом и zfs откажется писать на этот логический диск пометив его как failed, другими словами ваши данные станут недоступны для потребителей.

к этому нет ни каких предпосылок. + есть рез контроллер.

nikolay

к этому нет ни каких предпосылок. + есть рез контроллер.

откуда уверенность? вы видимо не понимаете что происходит с вашим логическим диском.

Al

нет, не понимаю, и вы то же этого не знаете. только предположения.

nikolay

когда я пишу про "аппаратный рейд" - я имею в виду не только сам контроллер, но и volume который он обслуживает.

nikolay

нет, не понимаю, и вы то же этого не знаете. только предположения.

счетчик ошибок на уровне zfs растет? resilver делали?

Al

не могу сказать, растёт или нет. Я так понимаю, что они будут выявлены после scrub?

Al

resilver не делал

George

смотрите, я сейчас не могу рассматривать решения - давайте все поломаем, и создадим по новой. Сейчас если нет возможности поправить ошибки я могу Я могу либо забить, т.к. файло помойка жива, все zvol видны. Дождаться конда кто-то скажет что его файл не открывается - и достать его из рез копии хотя этого может вооще не произойти, там большая файло-помойка. Убить пул на котором ошибки - ну очень не хочу. т.к. потом придётся перераздавать права на шару.

если побиты только данные, а мета цела, то проверяйте просто чексуммы файлов и проблемные из бекапа перезаписывайте. После этого (т.к. у вас zvol, как вы говорите) запускайте внутри zvol trim

George

после - scrub пару раз

George

это не гарантия успеха, но если уж очень хочется попробовать не пересобирать - попробуйте, главное что бекапы есть

Al

zfs trim zvol ?

George

zfs trim zvol ?

нет, на ФС из zvol

George

вы же именно zvol используете?

George

или датасет всё таки?

George

если датасет - трим не понадобится

George

но наличие бекапов прям обязательно, и не перетрите их случайно чем-то не тем, zfs конечно не должен мусор вместо содержимого отдавать, но если причина точно не известна проблем - вдруг с ОЗУ проблемы и у вас уже каша

Ilya

На всякий случай: у него там не zvol, есть только датасеты, с который truenas раздёт SMB

Ilya

root@FS[/]# zfs list -r -t volume no datasets available

Al

да, dataset

Al

прошу прощения, ошибся.

Al

после - scrub пару раз

он выполняется 1 раз в 5 дней. по хрону.

Al

но я могу и руками запустить. Я так понимаю, в этом случае если возникнут еще ошибки, надо копать глубже?

George

но я могу и руками запустить. Я так понимаю, в этом случае если возникнут еще ошибки, надо копать глубже?

если второй scrub опять что-то найдёт - у вас где-то проблема с оборудованием или пул совсем развалился и точно придётся пересоздавать

George

перед scrub можете zpool clear сделать, чтобы точно ошибки от скраба только увидеть

Autumn

Приветствую джентльмены. Необходима консультация. -> Дано: Сервер + JBOD. OS - Proxmox 6.4. Cобрано зеркало из 4-х raidz2. Диски SAS подключены через два бэкплейна 12 гигабит каждый. Собран multipath, т.е. каждый диск для zfs виден как алиас мультипаз устройства с двумя путями. -> Инцидент: Ночью во время интенсивного резервного копирования на пул умирает один диск в одном из raidz2. Утром в почте вижу ошибку - таймаут резервного копирования. Весь пул висит намертво как и процесс резервного копирования. zpool status заявляет "все зашибись" пул бодрячком, но при попытке провалится внутрь каталогов пула по ls - висяк сбрасываемый по Ctrl+C. smartctl говорил что мертвый диск трудно виден по шине, об этом же после relоad заявляет мультипаз. Выводить всю систему оффлайн нельзя, но можно дропнуть пул. С пулом я ничего сделать не смог - ни размонтировать через zfs unmount -f, ни экспортнуть через -f или отправить в оффлайн т.к. к нему пытался обратится процесс резервного копирования. Сам процесс уже в состоянии зомби, kill -9 его не убивает. -> Действия: Т.к. multipath -f ничего не дает ибо диск официально якобы занят в пуле zfs, на горячую вынимаю диск, вставляю резервный. Процесс резервного копирования на пул умер сам. Удалось сделать unmount + export пула, перепрописать новый диск в мультипазе и сделать релоад. Мультпаз увидел диск. После этого делаю импорт пула ... и zpool status заявляет что пул опять же в норме, диск на месте и все ок. Т.е. я не делал replace для диска, zfs просто увидев диск считала что он в норме. Я решил выполнить zpool scrub. Пошел репейр. Новый диск был вообще новый, без фс разделов, таблиц gpt/mbr и всего прочего, просто из запечатанной коробки достал. -> Вопросы: Что я сделал не так, что надо было бы сделать, что может пойти не так, есть ли опасность для пула, делать ли ресилвер, и вообще где я облажался. С zfs работаю давно, но вот в такую ситуацию попал впервые.

Ivan

Приветствую джентльмены. Необходима консультация. -> Дано: Сервер + JBOD. OS - Proxmox 6.4. Cобрано зеркало из 4-х raidz2. Диски SAS подключены через два бэкплейна 12 гигабит каждый. Собран multipath, т.е. каждый диск для zfs виден как алиас мультипаз устройства с двумя путями. -> Инцидент: Ночью во время интенсивного резервного копирования на пул умирает один диск в одном из raidz2. Утром в почте вижу ошибку - таймаут резервного копирования. Весь пул висит намертво как и процесс резервного копирования. zpool status заявляет "все зашибись" пул бодрячком, но при попытке провалится внутрь каталогов пула по ls - висяк сбрасываемый по Ctrl+C. smartctl говорил что мертвый диск трудно виден по шине, об этом же после relоad заявляет мультипаз. Выводить всю систему оффлайн нельзя, но можно дропнуть пул. С пулом я ничего сделать не смог - ни размонтировать через zfs unmount -f, ни экспортнуть через -f или отправить в оффлайн т.к. к нему пытался обратится процесс резервного копирования. Сам процесс уже в состоянии зомби, kill -9 его не убивает. -> Действия: Т.к. multipath -f ничего не дает ибо диск официально якобы занят в пуле zfs, на горячую вынимаю диск, вставляю резервный. Процесс резервного копирования на пул умер сам. Удалось сделать unmount + export пула, перепрописать новый диск в мультипазе и сделать релоад. Мультпаз увидел диск. После этого делаю импорт пула ... и zpool status заявляет что пул опять же в норме, диск на месте и все ок. Т.е. я не делал replace для диска, zfs просто увидев диск считала что он в норме. Я решил выполнить zpool scrub. Пошел репейр. Новый диск был вообще новый, без фс разделов, таблиц gpt/mbr и всего прочего, просто из запечатанной коробки достал. -> Вопросы: Что я сделал не так, что надо было бы сделать, что может пойти не так, есть ли опасность для пула, делать ли ресилвер, и вообще где я облажался. С zfs работаю давно, но вот в такую ситуацию попал впервые.

нужно jbod на hba менять

Autumn

нужно jbod на hba менять

в смысле на hba, он через два hba к серверу подключен, все диски с прямым доступом, без рейдов и прочей ерунды.

Ivan

в смысле на hba, он через два hba к серверу подключен, все диски с прямым доступом, без рейдов и прочей ерунды.

оке, чет из описания не очень понятно что jbod просто полка, а не тип массива на контроллере.

Autumn

оке, чет из описания не очень понятно что jbod просто полка, а не тип массива на контроллере.

проехали =), основной вопрос, мне чем-то грозит отсутствие процедуры реплейса диска, и замена всего этого обычным скрабом?

Autumn

Или надо было этот диск который zfs принял за своего в наглую все же выпихнуть из пула и запустить реплейс. Но тогда вопрос, реплейс делать надо было сам на себя? Т.е. его же обартно и пихать?

Владимир

ага

Изучил я доки. Я так понимаю чтобы засинхронить данные с удалённого хоста строить команду надо вот так? syncoid root@10.0.6.1:HDD/media HDD/media --create-bookmark --no-sync-snap Вроде всё просто), проще чем я думал) ТО есть если я верно прописал команду, то по сути я вот могу эту команду воткнуть в системд службу, сделать службе авторестарт через 60 сек) и всё что ли) Или есть какие-то более подходящие варианты?

Ivan

Изучил я доки. Я так понимаю чтобы засинхронить данные с удалённого хоста строить команду надо вот так? syncoid root@10.0.6.1:HDD/media HDD/media --create-bookmark --no-sync-snap Вроде всё просто), проще чем я думал) ТО есть если я верно прописал команду, то по сути я вот могу эту команду воткнуть в системд службу, сделать службе авторестарт через 60 сек) и всё что ли) Или есть какие-то более подходящие варианты?

а почему снапшоты делать не хочешь ? это ж иногда бывает удобно, когда имеется снап за вчерашний день, например.

Владимир

а почему снапшоты делать не хочешь ? это ж иногда бывает удобно, когда имеется снап за вчерашний день, например.

так я хочу не регулярно синхронить

Владимир

а снапшоты это больше для регулярного синхрона

Ivan

вродь как многие репликаторы имеют весьма неплохой меджмент времени жизни снапов по часу,дню,неделе и далее.

Владимир

вродь как многие репликаторы имеют весьма неплохой меджмент времени жизни снапов по часу,дню,неделе и далее.

в том то и дело, что у меня условно будет непрерывная репликация

Владимир

я хочу для начала потестить репликацию с интервалом 60 сек, а потом может вообще секунду поставлю

Владимир

если операция не будет грузить фс, то реально можно хоть постоянно выполнять, а снапшоты только усложнят ситуацию

Владимир

Изучил я доки. Я так понимаю чтобы засинхронить данные с удалённого хоста строить команду надо вот так? syncoid root@10.0.6.1:HDD/media HDD/media --create-bookmark --no-sync-snap Вроде всё просто), проще чем я думал) ТО есть если я верно прописал команду, то по сути я вот могу эту команду воткнуть в системд службу, сделать службе авторестарт через 60 сек) и всё что ли) Или есть какие-то более подходящие варианты?

А тут вообще кто-то syncoid юзает?, я корректно составил команду?

Владимир

А то страшно запускать))

George

А то страшно запускать))

Просто потесть на пулах из файликов)))

Владимир

Просто потесть на пулах из файликов)))

уже так и сделал, вроде всё предсказуемо)

Δαρθ

Просто потесть на пулах из файликов)))

о, я кстати на пуле из 2 дисков и 2 файликов переежал со старого рейд1 на зфс раидз2 об 4 дисках )

George

о, я кстати на пуле из 2 дисков и 2 файликов переежал со старого рейд1 на зфс раидз2 об 4 дисках )

да, тоже работает)

George

ох уж эти девопсеры-смузихлёбы, прибежал один, предлагает распространять код для ФС (!) через curl | sudo bash , типа зачем собирать под разные дистры, репы с пакетами это уже не модно и бессмысленно https://github.com/openzfs/zfs/issues/12592

Ivan

ох уж эти девопсеры-смузихлёбы, прибежал один, предлагает распространять код для ФС (!) через curl | sudo bash , типа зачем собирать под разные дистры, репы с пакетами это уже не модно и бессмысленно https://github.com/openzfs/zfs/issues/12592

гоните его, насмехайтесь над ним !!!

Autumn

А тут вообще кто-то syncoid юзает?, я корректно составил команду?

да корректно, если подразумевалось копирование с хоста 10.0.6.1 на текущий хост где выполняется команда

Autumn

если операция не будет грузить фс, то реально можно хоть постоянно выполнять, а снапшоты только усложнят ситуацию

основная концепция саноида/синкоида это перенос больших объемов данных малыми кусками (за счет снапшетов) без нагрузки на сеть

Autumn

т.е. в основе лежит скорость

Autumn

все хорошо рассказано тут https://www.youtube.com/watch?v=VolTJ_t4o0M

Autumn

Изучил я доки. Я так понимаю чтобы засинхронить данные с удалённого хоста строить команду надо вот так? syncoid root@10.0.6.1:HDD/media HDD/media --create-bookmark --no-sync-snap Вроде всё просто), проще чем я думал) ТО есть если я верно прописал команду, то по сути я вот могу эту команду воткнуть в системд службу, сделать службе авторестарт через 60 сек) и всё что ли) Или есть какие-то более подходящие варианты?

да, можно в крон можно в таймюнит запихать и синкаться по сетке в свое удовольствие

Autumn

в том то и дело, что у меня условно будет непрерывная репликация

вот для этого и потребуются снапшоты, смотрите видео с объяснением от автора саноид/синкоида

Autumn

конкретно с этого момента https://youtu.be/VolTJ_t4o0M?t=335

Владимир

вот для этого и потребуются снапшоты, смотрите видео с объяснением от автора саноид/синкоида

Нет

Владимир

Достаточно маркера

Autumn

Нет

ну ок, на нет и суда нет =)

Владимир

Я же проверил уже)

Autumn

Я же проверил уже)

непрерывную репликацию датасетов с постоянно меняющимися данными?

Владимир

В чем проблема, понимаешь что такое маркер?

Autumn

В чем проблема, понимаешь что такое маркер?

про маркер я где-то что-то я упустил?

Autumn

но это все уже на завтра =)

Владимир

про маркер я где-то что-то я упустил?

--create-bookmark

Владимир

Почитай про этот аргумент

Autumn

Почитай про этот аргумент

читал, там про закладку, а не про маркер, хотя тут можно их синонимами посчитать, но я то не понял что речь шла про ту опцию, думал, что я где-то в zfs пролюбил понятие маркера =)

Autumn

ну и опять же меня смутило то что --create-bookmark + --no-sync-snap по задумке автора используются для нерегулярных синков, так сказать по необходимости, а не перманентного ежеминутного, про идею которого Вы выше говорили, поэтому я недопонял мысль

Autumn

хотя работать то оно будет, но автор не спроста к опции create-bookmark пишет "This can be very useful for irregular replication", но если работает, то why not? =)