riv
Для лучшей сохранности данных лучше использовать mirror x3 vdev-ы
al
Расширчть можно пулы, top-vdev которых mirror. Расширять при этом можно добавляя по одному vdev разом. И даже уменьшать можно, выводя vdev из пула. Совершено точно все будет работать с пулом из mirror-vdev состоящий целиком.
Расширение RAID-Z видимо популярная идея судя по: https://github.com/openzfs/zfs/pull/12225 и https://freebsdfoundation.org/blog/raid-z-expansion-feature-for-zfs/ но походу так до конца и не запилили
riv
Расширение RAID-Z видимо популярная идея судя по: https://github.com/openzfs/zfs/pull/12225 и https://freebsdfoundation.org/blog/raid-z-expansion-feature-for-zfs/ но походу так до конца и не запилили
Я видимо чего-то недопонимаю. Я знаю что с расширением raidz какие-то трудности у разработчиков. Но для меня всегда это было контринтуитивно. Какая принципиальная разница между mirror vdev и raidz vdev? Кто-нибудь может объяснить на пальцах суть сложности?
Art
Я видимо чего-то недопонимаю. Я знаю что с расширением raidz какие-то трудности у разработчиков. Но для меня всегда это было контринтуитивно. Какая принципиальная разница между mirror vdev и raidz vdev? Кто-нибудь может объяснить на пальцах суть сложности?
я сам не владею предметом, но ведь даже на логическом уровне зеркала просты: диск и его копия а рейдZ это диски с данными плюс диски с парити. Если допустим добавим ещё один диск под данные, то как быть с парити? Вообще решение насколько я понимаю готово, просто разрабы не готовы его релизить, ведь для зфс главное это надёжность, надо всё перепроверить несколько раз
Ivan
Ребята, в общем с температурой в серваке разобрался, поставил более мощные вентиляторы, температура стала норм. В обычном простое температура дисков 24-25 градусов. Также проверил память через memtest, тесты пройдены без ошибок. Но проблема не ушла. Стоит начать писать на массив (4 vdev, все на raidz2 6+2, всего 24 диска), система виснет намертво, даже ipmi перестает отзываться. При этом это случается именно при записи большого потока, т.е. скажем если я ставлю заливаться папку на 5-10 гигов хотя бы. 2-5 секунд и система виснет. При этом в обычной работе, когда нагрузки на массив нет все ок, я могу создавать папки, мелкие файлы и т.п. Все диски 24 шт. подключены черед салазки к бэкплейну или далее от бэкплейна (или экспандеру, не знаю в чем разница и есть ли она), которая подключена к SmartHBA. В чем может быть проблема? Куда копать, и как диагностировать, подскажите?
central
Ребята, в общем с температурой в серваке разобрался, поставил более мощные вентиляторы, температура стала норм. В обычном простое температура дисков 24-25 градусов. Также проверил память через memtest, тесты пройдены без ошибок. Но проблема не ушла. Стоит начать писать на массив (4 vdev, все на raidz2 6+2, всего 24 диска), система виснет намертво, даже ipmi перестает отзываться. При этом это случается именно при записи большого потока, т.е. скажем если я ставлю заливаться папку на 5-10 гигов хотя бы. 2-5 секунд и система виснет. При этом в обычной работе, когда нагрузки на массив нет все ок, я могу создавать папки, мелкие файлы и т.п. Все диски 24 шт. подключены черед салазки к бэкплейну или далее от бэкплейна (или экспандеру, не знаю в чем разница и есть ли она), которая подключена к SmartHBA. В чем может быть проблема? Куда копать, и как диагностировать, подскажите?
Что происходит с load перед зависанием ?
Fedor
Ипми работает отдельно от системы. С сетью точно все в порядке?
Fedor
Если имеется ввиду IPMI на BMC
Fedor
Бмц хранит логи, там пусто? Логи включены?
Ivan
Что происходит с load перед зависанием ?
что имеется ввиду? Как мне это посмотреть?
Ivan
Бмц хранит логи, там пусто? Логи включены?
Проверю, но вроде было пусто
central
что имеется ввиду? Как мне это посмотреть?
Да через что угодно, хоть top хит веб интерфейс pve
Ivan
В смысле мне нужно запустить top, далее пустить закачку и смотреть что в топ?
central
В смысле мне нужно запустить top, далее пустить закачку и смотреть что в топ?
Ну с этого можно было и начать , вторым экраном открыв dmesg
central
А как вы включаете сервер обратно если ipmi умер? Блок питания вообще вывозит
Ivan
Приходится выдерживать провод из системника и подключать снова, чтобы система опять включилась, иначе никак
Ivan
Блока питания 2 с резервированием по 900 ватт каждый
Ivan
Ребята, в общем с температурой в серваке разобрался, поставил более мощные вентиляторы, температура стала норм. В обычном простое температура дисков 24-25 градусов. Также проверил память через memtest, тесты пройдены без ошибок. Но проблема не ушла. Стоит начать писать на массив (4 vdev, все на raidz2 6+2, всего 24 диска), система виснет намертво, даже ipmi перестает отзываться. При этом это случается именно при записи большого потока, т.е. скажем если я ставлю заливаться папку на 5-10 гигов хотя бы. 2-5 секунд и система виснет. При этом в обычной работе, когда нагрузки на массив нет все ок, я могу создавать папки, мелкие файлы и т.п. Все диски 24 шт. подключены черед салазки к бэкплейну или далее от бэкплейна (или экспандеру, не знаю в чем разница и есть ли она), которая подключена к SmartHBA. В чем может быть проблема? Куда копать, и как диагностировать, подскажите?
что за дистр и какая версия zfs ?
Ivan
Arch Linux, ZFS самая свежая стабильная
Ivan
Стабильная LTS текущая
Ivan
это 5.10 ?
6.1.29-1-lts
Ivan
При этом у меня есть второй сервак, там 1 vdev 5+3 (на raidz3). Работает отлично. Версия ОС, ядра и zfs та же
Ivan
Может проблема в том, что тут 4 vdev'a? Но с другой стороны, почему это должно быть проблемой.
Fedor
В норме бмц из любого состояния системы доступен и нормально может работать с циклами питания системы
Fedor
Но это тут уже кажется оффтоп.
Станислав
В норме бмц из любого состояния системы доступен и нормально может работать с циклами питания системы
Если это не supermicro с двумя Ethernet, один из которых "аппаратно" работает в режиме моста одновременно для IPMI и для обычного сетевого интерфейса для ОС
Станислав
Я его в ступор вводил несколько раз, играясь с настройками сети в ОС.
Ivan
Материнка Asus P12R-E
Ivan
Eth порт отведенный под IPMI работает только на него. Для рабочей сетки стоит даже отдельная карта сетевая.
Fedor
Зфс тут точно не при чем, я думаю
Ivan
Отдельно на nvme ssd
Vladislav
Что показывает монитор перед зависанием?
Vladislav
Я видимо чего-то недопонимаю. Я знаю что с расширением raidz какие-то трудности у разработчиков. Но для меня всегда это было контринтуитивно. Какая принципиальная разница между mirror vdev и raidz vdev? Кто-нибудь может объяснить на пальцах суть сложности?
Там есть приличное количество ситуаций, которые надо корректно отработать. Несколько основных проблем 1) ширина блока на запись, смысл расширения рейда это не только увеличение пространства, но и максимальной "ширины" записи. Включая старые данные. Иначе получится просто ещё один draid. Это собственно по обоим ссылкам написано 2) решение проблемы с различными нештатными ситуациями. А) Выпал старый диск Б) Выпал новый диск В) Сервер умер и массив в таком статусе импортировали в другой сервер.
Georg🎞️🎥
central
Насколько распространена ?
Так обещания только, а что будет одному богу известно
Georg🎞️🎥
Так обещания только, а что будет одному богу известно
Ясно … ну это лет через 5 тогда и посмотрим
Art
Отдельно на nvme ssd
ясно... ну история странная конечно, тут остаётся локализовывать проблему на двух уровнях: 1) Я бы загрузил сервер с лайв-сд и импортнул бы пул туда, далее провёл бы тесты. Если не будет виснуть, то значит проблема в багах операционки. Если будет, то переходим к п. 2 https://git.s-morozov.net/sergey/archlive-zfs/releases Это Арч с зфс на борту, разработка одного из участников этого чата, очень годная штука. 2) Физически перенёс бы диски в другой сервер, импортнул бы пулы там, и провёл тесты. Если там виснуть не будет, то значит у вас на первом сервере какие-то аппаратные баги
central
Отдельно на nvme ssd
А вы не подключались к серверу прямо напрямую, минуя сеть ? Мало ли баг в сетевой
Ivan
Пока нет. Буду пробовать
Art
Пока нет. Буду пробовать
я тут ещё подумал, что пожалуй в качестве п.0 неплохо бы чекнуть конфигурации пула и датасета, если к ним применялись какие-то доп настройки
Ivan
Буду пробовать в понедельник
Vladislav
central
Есть ли сообщения от mcelog?
Да спрашивали его с самого начале это, пока молчит
Vladislav
Недоступность ipmi и машины При этом ни слова про физику
riv
я сам не владею предметом, но ведь даже на логическом уровне зеркала просты: диск и его копия а рейдZ это диски с данными плюс диски с парити. Если допустим добавим ещё один диск под данные, то как быть с парити? Вообще решение насколько я понимаю готово, просто разрабы не готовы его релизить, ведь для зфс главное это надёжность, надо всё перепроверить несколько раз
Не не. Понятнр что внутрь vdev просто так диск не добавить. Я и не просто так не могу прилумать как это сделать. Но vdev целиком то это просто блочное устройство, каждый логический блок которого размазан, например по 6 блокам raidz2: 4 данных и 2 паритет. Кстати, по этому такой логический блок будет 16кб для 4кб секторов дисков (ashifr=12). Вопрос в другом. Почему мы не модем добавить ещё один vdev сразу из 6 дисков? Это происходит если top-vdev имеет тип отличный от mirror (отдельный вопрос про draid, там я не в курсе как)
central
я не лез в исходники, но готов поставить что это так
riv
в том то и дело что не просто, ато для нас они названы просто vdev. но под капотом они не имеют ничего общего кроме контракта в cli
не совсем понятен источник трудностей. По идее, трудности должны быть связаны с какими то принуипиалтными отличаями zfs от связки условно mdadm + lvm + fs. А известные отличаи в том, что все уровни zfs более осведомлены о файлах и снимках. Но причем тут структура самого vdev?
riv
трудности в том что это разные типы рейда которые работают принципиально по разному и мы ну никак не можешь. использовать код из одного типа рейдов в другом ну ну можем
Я прошу прощение за настырность, но я надеюсь что кто-то ещё прочитает и может быть, прояснит ситуацию. Не ясно в чем значимое отличие этих кодов? И там и там интерфейс принимает команды на чтение и запись блоков с vdev и на vdev. Это не зависит от устройства рейда. В любом случае вы не можете записать данные не на все диски vdev-a, а только на целый логический сектор. И mirror это тоже касается, просто у них размер логического сектора определчется ashift, а в raidz ashift и количеством дисков с данными. Другими словами, что гипотетически должен делать код, что он станомится зависим от структуры vdev?
central
https://github.com/openzfs/zfs/blob/master/module/zfs/vdev_raidz.c реализация vdev для raidz
central
https://github.com/openzfs/zfs/blob/master/module/zfs/vdev_mirror.c а это для мирор
central
не очень похоже
central
там еще дочерта оптимизаций под разный сет доступных в проце инструкций, для мирора такого нету, короче суть думаю понятна, дальше если интересно покопайтесь
central
А удалить, пожалуйста, попробуйте vdev
zfs умеет работать вместо дисков с файлами, можете воссоздать сами ситуцию выше
Art
А удалить, пожалуйста, попробуйте vdev
так пул грохнется) Скорее всего даже не даст удалить, ругаться будет. Устойчивость пула может ведь быть только на уровне вдевов. Но я попробую
Art
А удалить, пожалуйста, попробуйте vdev
root@exp2:/home/art# zpool remove pool1 raidz1-1 cannot remove raidz1-1: invalid config; all top-level vdevs must have the same sector size and not be raidz. Ругается таки, но правда как-то непонятно
Art
and not be raidz тут главное наверно
всё равно непонятно) но по идее это защита пула от разрушения, просто пишет порожняк какой-то)
Evgenii
всё равно непонятно) но по идее это защита пула от разрушения, просто пишет порожняк какой-то)
если бы там не было raid-z, он бы удалил vdev, эвакуировал бы данные и удалил. Удаление добавили в каком-то обновлении. Даже special нельзя удалить из raid-z, а это прям бывает больно.
Evgenii
эвакуировал данные?🤔
да, в zpool status будет состояние - авакуация и % выполнения. Потом диск исчезнет из пула. Так можно страйпы разбирать понемногу, правда если обратно удлинять, то ребаланса не будет.
Roman
https://openzfs.github.io/openzfs-docs/man/8/zpool-remove.8.html