@ru_zfs - страница 622 - Telegram web archive

riv

Для лучшей сохранности данных лучше использовать mirror x3 vdev-ы

riv

Да, это правда. Но когда 5-10% свободно это не нормальная ситуация.

Может быстро наростать фрагментация

Станислав

AFAIK, она не очень любит сценарии когда свободного места 5-10% от всего хранилища и весь массив переписывается за месяц

Для этих сценариев мету выносят на отдельное зеркало

al

Расширчть можно пулы, top-vdev которых mirror. Расширять при этом можно добавляя по одному vdev разом. И даже уменьшать можно, выводя vdev из пула. Совершено точно все будет работать с пулом из mirror-vdev состоящий целиком.

Расширение RAID-Z видимо популярная идея судя по: https://github.com/openzfs/zfs/pull/12225 и https://freebsdfoundation.org/blog/raid-z-expansion-feature-for-zfs/ но походу так до конца и не запилили

riv

Расширение RAID-Z видимо популярная идея судя по: https://github.com/openzfs/zfs/pull/12225 и https://freebsdfoundation.org/blog/raid-z-expansion-feature-for-zfs/ но походу так до конца и не запилили

Я видимо чего-то недопонимаю. Я знаю что с расширением raidz какие-то трудности у разработчиков. Но для меня всегда это было контринтуитивно. Какая принципиальная разница между mirror vdev и raidz vdev? Кто-нибудь может объяснить на пальцах суть сложности?

Art

Я видимо чего-то недопонимаю. Я знаю что с расширением raidz какие-то трудности у разработчиков. Но для меня всегда это было контринтуитивно. Какая принципиальная разница между mirror vdev и raidz vdev? Кто-нибудь может объяснить на пальцах суть сложности?

я сам не владею предметом, но ведь даже на логическом уровне зеркала просты: диск и его копия а рейдZ это диски с данными плюс диски с парити. Если допустим добавим ещё один диск под данные, то как быть с парити? Вообще решение насколько я понимаю готово, просто разрабы не готовы его релизить, ведь для зфс главное это надёжность, надо всё перепроверить несколько раз

Ivan

Ребята, в общем с температурой в серваке разобрался, поставил более мощные вентиляторы, температура стала норм. В обычном простое температура дисков 24-25 градусов. Также проверил память через memtest, тесты пройдены без ошибок. Но проблема не ушла. Стоит начать писать на массив (4 vdev, все на raidz2 6+2, всего 24 диска), система виснет намертво, даже ipmi перестает отзываться. При этом это случается именно при записи большого потока, т.е. скажем если я ставлю заливаться папку на 5-10 гигов хотя бы. 2-5 секунд и система виснет. При этом в обычной работе, когда нагрузки на массив нет все ок, я могу создавать папки, мелкие файлы и т.п. Все диски 24 шт. подключены черед салазки к бэкплейну или далее от бэкплейна (или экспандеру, не знаю в чем разница и есть ли она), которая подключена к SmartHBA. В чем может быть проблема? Куда копать, и как диагностировать, подскажите?

central

Ребята, в общем с температурой в серваке разобрался, поставил более мощные вентиляторы, температура стала норм. В обычном простое температура дисков 24-25 градусов. Также проверил память через memtest, тесты пройдены без ошибок. Но проблема не ушла. Стоит начать писать на массив (4 vdev, все на raidz2 6+2, всего 24 диска), система виснет намертво, даже ipmi перестает отзываться. При этом это случается именно при записи большого потока, т.е. скажем если я ставлю заливаться папку на 5-10 гигов хотя бы. 2-5 секунд и система виснет. При этом в обычной работе, когда нагрузки на массив нет все ок, я могу создавать папки, мелкие файлы и т.п. Все диски 24 шт. подключены черед салазки к бэкплейну или далее от бэкплейна (или экспандеру, не знаю в чем разница и есть ли она), которая подключена к SmartHBA. В чем может быть проблема? Куда копать, и как диагностировать, подскажите?

Что происходит с load перед зависанием ?

Fedor

Ипми работает отдельно от системы. С сетью точно все в порядке?

Fedor

Если имеется ввиду IPMI на BMC

Fedor

Бмц хранит логи, там пусто? Логи включены?

Ivan

Что происходит с load перед зависанием ?

что имеется ввиду? Как мне это посмотреть?

Ivan

Ипми работает отдельно от системы. С сетью точно все в порядке?

С сетью все отлично

Ivan

Если имеется ввиду IPMI на BMC

Да

Ivan

Бмц хранит логи, там пусто? Логи включены?

Проверю, но вроде было пусто

central

что имеется ввиду? Как мне это посмотреть?

Да через что угодно, хоть top хит веб интерфейс pve

Ivan

В смысле мне нужно запустить top, далее пустить закачку и смотреть что в топ?

central

В смысле мне нужно запустить top, далее пустить закачку и смотреть что в топ?

Ну с этого можно было и начать , вторым экраном открыв dmesg

central

А как вы включаете сервер обратно если ipmi умер? Блок питания вообще вывозит

Ivan

Приходится выдерживать провод из системника и подключать снова, чтобы система опять включилась, иначе никак

Ivan

Блока питания 2 с резервированием по 900 ватт каждый

Ivan

Ребята, в общем с температурой в серваке разобрался, поставил более мощные вентиляторы, температура стала норм. В обычном простое температура дисков 24-25 градусов. Также проверил память через memtest, тесты пройдены без ошибок. Но проблема не ушла. Стоит начать писать на массив (4 vdev, все на raidz2 6+2, всего 24 диска), система виснет намертво, даже ipmi перестает отзываться. При этом это случается именно при записи большого потока, т.е. скажем если я ставлю заливаться папку на 5-10 гигов хотя бы. 2-5 секунд и система виснет. При этом в обычной работе, когда нагрузки на массив нет все ок, я могу создавать папки, мелкие файлы и т.п. Все диски 24 шт. подключены черед салазки к бэкплейну или далее от бэкплейна (или экспандеру, не знаю в чем разница и есть ли она), которая подключена к SmartHBA. В чем может быть проблема? Куда копать, и как диагностировать, подскажите?

что за дистр и какая версия zfs ?

Ivan

Arch Linux, ZFS самая свежая стабильная

Ivan

Arch Linux, ZFS самая свежая стабильная

а версия ядра ?

Ivan

Стабильная LTS текущая

Ivan

Стабильная LTS текущая

это 5.10 ?

Ivan

это 5.10 ?

6.1.29-1-lts

Ivan

При этом у меня есть второй сервак, там 1 vdev 5+3 (на raidz3). Работает отлично. Версия ОС, ядра и zfs та же

Ivan

Может проблема в том, что тут 4 vdev'a? Но с другой стороны, почему это должно быть проблемой.

Fedor

Приходится выдерживать провод из системника и подключать снова, чтобы система опять включилась, иначе никак

Что-то не так с аппаратными историями, кажется.

Fedor

В норме бмц из любого состояния системы доступен и нормально может работать с циклами питания системы

Fedor

Но это тут уже кажется оффтоп.

Станислав

В норме бмц из любого состояния системы доступен и нормально может работать с циклами питания системы

Если это не supermicro с двумя Ethernet, один из которых "аппаратно" работает в режиме моста одновременно для IPMI и для обычного сетевого интерфейса для ОС

Станислав

Я его в ступор вводил несколько раз, играясь с настройками сети в ОС.

Ivan

Материнка Asus P12R-E

Ivan

Eth порт отведенный под IPMI работает только на него. Для рабочей сетки стоит даже отдельная карта сетевая.

Fedor

Зфс тут точно не при чем, я думаю

Art

Eth порт отведенный под IPMI работает только на него. Для рабочей сетки стоит даже отдельная карта сетевая.

А система-то установлена на этот же массив, или отдельно где-то?

Ivan

Отдельно на nvme ssd

Vladislav

Что показывает монитор перед зависанием?

Vladislav

Я видимо чего-то недопонимаю. Я знаю что с расширением raidz какие-то трудности у разработчиков. Но для меня всегда это было контринтуитивно. Какая принципиальная разница между mirror vdev и raidz vdev? Кто-нибудь может объяснить на пальцах суть сложности?

Там есть приличное количество ситуаций, которые надо корректно отработать. Несколько основных проблем 1) ширина блока на запись, смысл расширения рейда это не только увеличение пространства, но и максимальной "ширины" записи. Включая старые данные. Иначе получится просто ещё один draid. Это собственно по обоим ссылкам написано 2) решение проблемы с различными нештатными ситуациями. А) Выпал старый диск Б) Выпал новый диск В) Сервер умер и массив в таком статусе импортировали в другой сервер.

Roman

Zfs чисто физически не может быть быстрее, потому что он CoW с чексуммами. Если это не так - дайте мне вариант теста который на Ваш взгляд покажет обратное

Bcachefs обещает быть быстрой. С COW и чек суммами.

Georg🎞️🎥

Bcachefs обещает быть быстрой. С COW и чек суммами.

Насколько распространена ?

central

Насколько распространена ?

Так обещания только, а что будет одному богу известно

Georg🎞️🎥

Так обещания только, а что будет одному богу известно

Ясно … ну это лет через 5 тогда и посмотрим

Art

Отдельно на nvme ssd

ясно... ну история странная конечно, тут остаётся локализовывать проблему на двух уровнях: 1) Я бы загрузил сервер с лайв-сд и импортнул бы пул туда, далее провёл бы тесты. Если не будет виснуть, то значит проблема в багах операционки. Если будет, то переходим к п. 2 https://git.s-morozov.net/sergey/archlive-zfs/releases Это Арч с зфс на борту, разработка одного из участников этого чата, очень годная штука. 2) Физически перенёс бы диски в другой сервер, импортнул бы пулы там, и провёл тесты. Если там виснуть не будет, то значит у вас на первом сервере какие-то аппаратные баги

central

Отдельно на nvme ssd

А вы не подключались к серверу прямо напрямую, минуя сеть ? Мало ли баг в сетевой

Ivan

Пока нет. Буду пробовать

Art

Пока нет. Буду пробовать

я тут ещё подумал, что пожалуй в качестве п.0 неплохо бы чекнуть конфигурации пула и датасета, если к ним применялись какие-то доп настройки

Ivan

Буду пробовать в понедельник

central

я тут ещё подумал, что пожалуй в качестве п.0 неплохо бы чекнуть конфигурации пула и датасета, если к ним применялись какие-то доп настройки

Неплохо было бы вообще весь сет из группы по pve выложить а не только конфиг пула

Vladislav

Что показывает монитор перед зависанием?

Есть ли сообщения от mcelog?

central

Есть ли сообщения от mcelog?

Да спрашивали его с самого начале это, пока молчит

Vladislav

Да спрашивали его с самого начале это, пока молчит

Всегда поражает это

Vladislav

Недоступность ipmi и машины При этом ни слова про физику

riv

я сам не владею предметом, но ведь даже на логическом уровне зеркала просты: диск и его копия а рейдZ это диски с данными плюс диски с парити. Если допустим добавим ещё один диск под данные, то как быть с парити? Вообще решение насколько я понимаю готово, просто разрабы не готовы его релизить, ведь для зфс главное это надёжность, надо всё перепроверить несколько раз

Не не. Понятнр что внутрь vdev просто так диск не добавить. Я и не просто так не могу прилумать как это сделать. Но vdev целиком то это просто блочное устройство, каждый логический блок которого размазан, например по 6 блокам raidz2: 4 данных и 2 паритет. Кстати, по этому такой логический блок будет 16кб для 4кб секторов дисков (ashifr=12). Вопрос в другом. Почему мы не модем добавить ещё один vdev сразу из 6 дисков? Это происходит если top-vdev имеет тип отличный от mirror (отдельный вопрос про draid, там я не в курсе как)

central

Не не. Понятнр что внутрь vdev просто так диск не добавить. Я и не просто так не могу прилумать как это сделать. Но vdev целиком то это просто блочное устройство, каждый логический блок которого размазан, например по 6 блокам raidz2: 4 данных и 2 паритет. Кстати, по этому такой логический блок будет 16кб для 4кб секторов дисков (ashifr=12). Вопрос в другом. Почему мы не модем добавить ещё один vdev сразу из 6 дисков? Это происходит если top-vdev имеет тип отличный от mirror (отдельный вопрос про draid, там я не в курсе как)

в том то и дело что не просто, ато для нас они названы просто vdev. но под капотом они не имеют ничего общего кроме контракта в cli

central

я не лез в исходники, но готов поставить что это так

Art

Не не. Понятнр что внутрь vdev просто так диск не добавить. Я и не просто так не могу прилумать как это сделать. Но vdev целиком то это просто блочное устройство, каждый логический блок которого размазан, например по 6 блокам raidz2: 4 данных и 2 паритет. Кстати, по этому такой логический блок будет 16кб для 4кб секторов дисков (ashifr=12). Вопрос в другом. Почему мы не модем добавить ещё один vdev сразу из 6 дисков? Это происходит если top-vdev имеет тип отличный от mirror (отдельный вопрос про draid, там я не в курсе как)

я может неверно что-то понимаю, но нет же никаких препятствий добавить ещё один вдев в пул? Получится страйп из двух вдевов. Могу в виртуалке опробовать сейчас)

riv

в том то и дело что не просто, ато для нас они названы просто vdev. но под капотом они не имеют ничего общего кроме контракта в cli

не совсем понятен источник трудностей. По идее, трудности должны быть связаны с какими то принуипиалтными отличаями zfs от связки условно mdadm + lvm + fs. А известные отличаи в том, что все уровни zfs более осведомлены о файлах и снимках. Но причем тут структура самого vdev?

central

не совсем понятен источник трудностей. По идее, трудности должны быть связаны с какими то принуипиалтными отличаями zfs от связки условно mdadm + lvm + fs. А известные отличаи в том, что все уровни zfs более осведомлены о файлах и снимках. Но причем тут структура самого vdev?

трудности в том что это разные типы рейда которые работают принципиально по разному и мы ну никак не можешь. использовать код из одного типа рейдов в другом ну ну можем

riv

трудности в том что это разные типы рейда которые работают принципиально по разному и мы ну никак не можешь. использовать код из одного типа рейдов в другом ну ну можем

Я прошу прощение за настырность, но я надеюсь что кто-то ещё прочитает и может быть, прояснит ситуацию. Не ясно в чем значимое отличие этих кодов? И там и там интерфейс принимает команды на чтение и запись блоков с vdev и на vdev. Это не зависит от устройства рейда. В любом случае вы не можете записать данные не на все диски vdev-a, а только на целый логический сектор. И mirror это тоже касается, просто у них размер логического сектора определчется ashift, а в raidz ashift и количеством дисков с данными. Другими словами, что гипотетически должен делать код, что он станомится зависим от структуры vdev?

central

https://github.com/openzfs/zfs/blob/master/module/zfs/vdev_raidz.c реализация vdev для raidz

central

https://github.com/openzfs/zfs/blob/master/module/zfs/vdev_mirror.c а это для мирор

central

не очень похоже

central

там еще дочерта оптимизаций под разный сет доступных в проце инструкций, для мирора такого нету, короче суть думаю понятна, дальше если интересно покопайтесь

Art

Не не. Понятнр что внутрь vdev просто так диск не добавить. Я и не просто так не могу прилумать как это сделать. Но vdev целиком то это просто блочное устройство, каждый логический блок которого размазан, например по 6 блокам raidz2: 4 данных и 2 паритет. Кстати, по этому такой логический блок будет 16кб для 4кб секторов дисков (ashifr=12). Вопрос в другом. Почему мы не модем добавить ещё один vdev сразу из 6 дисков? Это происходит если top-vdev имеет тип отличный от mirror (отдельный вопрос про draid, там я не в курсе как)

Две команды: root@exp2:/home/art# zpool create pool1 raidz1 sde sdf sdg root@exp2:/home/art# zpool add pool1 raidz1 sdh sdi sdj и их результат: root@exp2:/home/art# zpool status pool: pool1 state: ONLINE scan: none requested config: NAME STATE READ WRITE CKSUM pool1 ONLINE 0 0 0 raidz1-0 ONLINE 0 0 0 sde ONLINE 0 0 0 sdf ONLINE 0 0 0 sdg ONLINE 0 0 0 raidz1-1 ONLINE 0 0 0 sdh ONLINE 0 0 0 sdi ONLINE 0 0 0 sdj ONLINE 0 0 0

Art

Не не. Понятнр что внутрь vdev просто так диск не добавить. Я и не просто так не могу прилумать как это сделать. Но vdev целиком то это просто блочное устройство, каждый логический блок которого размазан, например по 6 блокам raidz2: 4 данных и 2 паритет. Кстати, по этому такой логический блок будет 16кб для 4кб секторов дисков (ashifr=12). Вопрос в другом. Почему мы не модем добавить ещё один vdev сразу из 6 дисков? Это происходит если top-vdev имеет тип отличный от mirror (отдельный вопрос про draid, там я не в курсе как)

как видите но проблемо... Или же я не догнал суть вопроса)

riv

Две команды: root@exp2:/home/art# zpool create pool1 raidz1 sde sdf sdg root@exp2:/home/art# zpool add pool1 raidz1 sdh sdi sdj и их результат: root@exp2:/home/art# zpool status pool: pool1 state: ONLINE scan: none requested config: NAME STATE READ WRITE CKSUM pool1 ONLINE 0 0 0 raidz1-0 ONLINE 0 0 0 sde ONLINE 0 0 0 sdf ONLINE 0 0 0 sdg ONLINE 0 0 0 raidz1-1 ONLINE 0 0 0 sdh ONLINE 0 0 0 sdi ONLINE 0 0 0 sdj ONLINE 0 0 0

А удалить, пожалуйста, попробуйте vdev

central

А удалить, пожалуйста, попробуйте vdev

zfs умеет работать вместо дисков с файлами, можете воссоздать сами ситуцию выше

Art

А удалить, пожалуйста, попробуйте vdev

так пул грохнется) Скорее всего даже не даст удалить, ругаться будет. Устойчивость пула может ведь быть только на уровне вдевов. Но я попробую

Art

А удалить, пожалуйста, попробуйте vdev

root@exp2:/home/art# zpool remove pool1 raidz1-1 cannot remove raidz1-1: invalid config; all top-level vdevs must have the same sector size and not be raidz. Ругается таки, но правда как-то непонятно

Ivan

root@exp2:/home/art# zpool remove pool1 raidz1-1 cannot remove raidz1-1: invalid config; all top-level vdevs must have the same sector size and not be raidz. Ругается таки, но правда как-то непонятно

and not be raidz тут главное наверно

Art

and not be raidz тут главное наверно

всё равно непонятно) но по идее это защита пула от разрушения, просто пишет порожняк какой-то)

Evgenii

всё равно непонятно) но по идее это защита пула от разрушения, просто пишет порожняк какой-то)

если бы там не было raid-z, он бы удалил vdev, эвакуировал бы данные и удалил. Удаление добавили в каком-то обновлении. Даже special нельзя удалить из raid-z, а это прям бывает больно.

Art

если бы там не было raid-z, он бы удалил vdev, эвакуировал бы данные и удалил. Удаление добавили в каком-то обновлении. Даже special нельзя удалить из raid-z, а это прям бывает больно.

эвакуировал данные?🤔

Evgenii

эвакуировал данные?🤔

да, в zpool status будет состояние - авакуация и % выполнения. Потом диск исчезнет из пула. Так можно страйпы разбирать понемногу, правда если обратно удлинять, то ребаланса не будет.

Art

да, в zpool status будет состояние - авакуация и % выполнения. Потом диск исчезнет из пула. Так можно страйпы разбирать понемногу, правда если обратно удлинять, то ребаланса не будет.

прикольно как, я был уверен, что страйп разобрать нельзя

Art

да, в zpool status будет состояние - авакуация и % выполнения. Потом диск исчезнет из пула. Так можно страйпы разбирать понемногу, правда если обратно удлинять, то ребаланса не будет.

щас в виртуалке прогоню сценарий

Roman

https://openzfs.github.io/openzfs-docs/man/8/zpool-remove.8.html