@ru_zfs - страница 348 - Telegram web archive

моя эпопея TiB vs TB продолжается. итого. имею 12 дисков по 4Тб (3.6 настоящих тб) собираю рейдз2 - получаю 32тб. куда еще 4тб делось??? неужели зфс столько съедает под свои структуры?

Ivan

моя эпопея TiB vs TB продолжается. итого. имею 12 дисков по 4Тб (3.6 настоящих тб) собираю рейдз2 - получаю 32тб. куда еще 4тб делось??? неужели зфс столько съедает под свои структуры?

и еще учти что нежелательно наполнение более 80%

Василий

и еще учти что нежелательно наполнение более 80%

меня сейчас интересует куда 4тб делось блин

Ivan

меня сейчас интересует куда 4тб делось блин

https://wintelguy.com/zfs-calc.pl

Ivan

меня сейчас интересует куда 4тб делось блин

https://www.delphix.com/blog/delphix-engineering/zfs-raidz-stripe-width-or-how-i-learned-stop-worrying-and-love-raidz

Василий

капец... 3тб из-за того что сектор 4кб. а не 512... жесть

riv

не увидел в сообщении @Riv1329 что-то про отключение синка

Не было отключения sync. Если внутри вм никто не пишет с sync, то его отключение ни на что не влияет. Запись с sync даже при наличие баз данных - это не настолько частое событие, как обычная запиcь без sync. Но я тогда в эти тонкости не лез, поставил, заработало, оценил эффект, стал изучать. В общем, по моему опыту, zfs реально дает просадку, если взять одну вм, она на zfs будет медленее. Но если взять их 21, то то они точно будут быстрее. Что же касается фрагментации, то по факту она не оказывает фатального воздействия на быстродействие. Как так? А вот смотрите, если ваши данные будут фрагментированы, кусками по 100МБ, то вы не заметите разницу относительно не фрагментированных данных, по 10 мб - тоже не сильно заметно, как и по 1мб. Чтобы фрагментация замедляла работу, она должна быть на уровне 10-ок кб или меньше. А у zfs по умолчанию recordsize 128k - весьма разумный копромис. Другое дело с zvol. Но и там zfs планирует размещение данных так, что фрагментация не накапливается быстро. Конечно чудес не бывает, и фрагментация нарастает. Но у этого есть своя цена как в - так и в +. Как я говорил, запись кусками позволяет разгрузить шпиндели по iops-ам в четверо, а чтение фрагментированных данных, на самом деле кэшируется. Все-же в случае с zvol лучше использовать volblocksize хотя бы 16kb, а если там обычные документы или картинки, то можно и 64кб. Разумеется в виртуальной машине unitsize файловой системы и recordsize баз данных тоже должны быть соответственно 16kb или 64kb Кстати, запись, это как правило 3/4 нагрузки, учтите это. Замедление чтения заметно при копировании файлов, а замедление записи - это залипающий интерфейс и адские тормоза. Ускорение записи важнее ускорения чтения, особенно на большом количестве виртуальных машин, по тому, что отсутствие фрагментации не даст вам в таком случае преимущества при записи, как и при чтении. Но с чтением вы ничего сделать не сможете, а запись можно ускорить с помощью CoW. Кстати, строго говоря, механизм CoW - это классический снимок LVM. Все знают какие они медленные. А вот тонкие снимки LVM как и ZFS - это Redirect on Write, т.е. RoW

riv

моя эпопея TiB vs TB продолжается. итого. имею 12 дисков по 4Тб (3.6 настоящих тб) собираю рейдз2 - получаю 32тб. куда еще 4тб делось??? неужели зфс столько съедает под свои структуры?

Raidz2 разумно делать из 10 дисков или из 18-ти n^2+2 тогда потери места не будет. Но имейте в виду, что в случае с 10-ю дисков с 4k-разметкой, вам нужно использовать recordsize и volblocksize кратные 4*(10-2)=32kb а в случае с 18-ю дисков 64kb. По этому у меня на бекап-серверах я использую raidz1 из 5-ти дисков или raidz2 из 6

Василий

Raidz2 разумно делать из 10 дисков или из 18-ти n^2+2 тогда потери места не будет. Но имейте в виду, что в случае с 10-ю дисков с 4k-разметкой, вам нужно использовать recordsize и volblocksize кратные 4*(10-2)=32kb а в случае с 18-ю дисков 64kb. По этому у меня на бекап-серверах я использую raidz1 из 5-ти дисков или raidz2 из 6

Э. В смысле? 10 дисков норм, а 12 уже хуже?

Sergey

А кто знает есть ли калькулятор отказа дисков в райде? Допустим есть raidz2 на 12 штук sas 7200 16тб, какова вероятность что он рассыпится по причине единовременной смерти трех дисков?

Combot

John Hannah has been banned! Reason: CAS ban.

Ivan

На днях читал интересную статью в блоге Percona - MySQL/ZFS Performance Update. https://www.percona.com/blog/mysql-zfs-performance-update/ Автор не первый раз проводит тестирование производительности Mysql сервера Percona на файловой системе zfs. В этот раз на текущих тестируемых версиях софта (Percona server 8.0.22, zfs 2.0, Debian 10) производительность на ext4 и zfs получилась примерно одинаковой, хотя еще 2 года назад это было не так. На zfs база работала заметно медленнее, о чем он напоминает. То есть мы получаем все плюшки zfs (сжатие данных, дедупликация) и при этом сопоставимую производительность с ext4 или xfs. Автор в итоге делает такое заключение: Было полезно провести очередное тестирование производительности Mysql на ZFS. В общем случае производительность находится на уровне работы на EXT4, но при этом предоставляются дополнительные возможности в виде сжатия данных, снепшотов и т.д. В следующих постах я протестирую облачные хранилища на базе zfs и посмотрю, какая будет производительность. Как по мне, новость знаковая. Раньше я повсеместно видел в тестах падение производительности баз данных на zfs. Считалось, что это неподходящая файловая система для прода, где нужна максимальная производительность. Но сейчас это становится нет так. Так что можно потихоньку пробовать zfs не только под файловое хранилище холодных данных. #mysql #zfs

Василий

После какого объёма записанных данных он совершил скорость? Или на свежем пуле?

Fedor

Очень интересно.

Δαρθ

scan: scrub in progress since Tue Jul 13 16:37:44 2021 1.67T scanned at 6.19G/s, 196G issued at 725M/s, 1.67T total 0B repaired, 11.43% done, 00:35:45 to go как это расшифровать? почему вон те 1.6 терабайт появились сразу и на дикой скорости, хотя пул на обычных винтах? что такое issued?

Sergey

scan: scrub in progress since Tue Jul 13 16:37:44 2021 1.67T scanned at 6.19G/s, 196G issued at 725M/s, 1.67T total 0B repaired, 11.43% done, 00:35:45 to go как это расшифровать? почему вон те 1.6 терабайт появились сразу и на дикой скорости, хотя пул на обычных винтах? что такое issued?

Потому что пустое место

Δαρθ

пустого места там сильно больше 1.6 терабайт

Sergey

пустого места там сильно больше 1.6 терабайт

Это не всё пустое место

Sergey

Такой вопрос: Есть пул из трех дисков ( просто диски без raidz ): NAME STATE READ WRITE CKSUM test ONLINE 0 0 0 loop1 ONLINE 0 0 0 loop2 ONLINE 0 0 0 loop3 ONLINE 0 0 0 Делаем "zpool remove test /dev/loop3" В теории он должен всю информацию с loop3 перекинуть на loop1 и loop2, после чего освобидить loop3 Это так? Есть ли подводные камни у данной процедуры?

edo1

моя эпопея TiB vs TB продолжается. итого. имею 12 дисков по 4Тб (3.6 настоящих тб) собираю рейдз2 - получаю 32тб. куда еще 4тб делось??? неужели зфс столько съедает под свои структуры?

это на пустой фс или на заполненной?

edo1

сжатие включено?

edo1

https://wintelguy.com/zfs-calc.pl

вроде бы эта штука не влияет на расчёт свободного места, она влияет на то сколько данные будут занимать

edo1

а как свободное место смотришь? zfs list или zpool list?

edo1

@gjabu2_2 ещё такая вещь есть как spa_slop_shift по умолчанию стоит 5, это означает 3.125% резерва, это больше терабайта на твоих размерах

edo1

https://openzfs.github.io/openzfs-docs/Performance%20and%20Tuning/Module%20Parameters.html#spa-slop-shift

George

scan: scrub in progress since Tue Jul 13 16:37:44 2021 1.67T scanned at 6.19G/s, 196G issued at 725M/s, 1.67T total 0B repaired, 11.43% done, 00:35:45 to go как это расшифровать? почему вон те 1.6 терабайт появились сразу и на дикой скорости, хотя пул на обычных винтах? что такое issued?

scanned это прочитанная мета для данных объёмом N

George

т.е. сначала вычитывается мета, чтобы эффективно и последовательно потом вычитать дату (issued)

George

^ поправил

George

Такой вопрос: Есть пул из трех дисков ( просто диски без raidz ): NAME STATE READ WRITE CKSUM test ONLINE 0 0 0 loop1 ONLINE 0 0 0 loop2 ONLINE 0 0 0 loop3 ONLINE 0 0 0 Делаем "zpool remove test /dev/loop3" В теории он должен всю информацию с loop3 перекинуть на loop1 и loop2, после чего освобидить loop3 Это так? Есть ли подводные камни у данной процедуры?

да, но это возможно с оговорками (перестанет позволять remove есть в пуле есть raidz к примеру)

Василий

это на пустой фс или на заполненной?

только создал, сжатие+

Василий

а как свободное место смотришь? zfs list или zpool list?

фринас сам пишет. снес фринас, поставил солярку. посмотрим

Василий

спасибо, интересное чтиво, интересно, а в оригинальном зфс оно есть? а то солярка самая хитрая. она мне рав место выдала)

Василий

угадайте где сас диски :)

Василий

это все один рейдз2

Δαρθ

scanned это прочитанная мета для данных объёмом N

примерно понял, спс :)

Aleksandr

Всем здравствуйте, помогите рещить проблему. Есть Proxmox 6.4 на нем пул raidz1 в котором 5 одинаковых ssd Samsung_SSD_870_QVO_2TB висят на контролере LSI 9300-8I SGL 12Gb/s HBA. Периодически на дисках (то на одном то надругом) по команде zpool status вижу ошибки: NAME STATE READ WRITE CKSUM DATA DEGRADED 0 0 0 raidz1-0 DEGRADED 0 0 0 ata-Samsung_SSD_870_QVO_2TB_S5SUNF0NC09296E ONLINE 0 0 0 ata-Samsung_SSD_870_QVO_2TB_S5SUNF0NC09271X ONLINE 0 0 0 spare-2 DEGRADED 0 0 0 ata-Samsung_SSD_870_QVO_2TB_S5SUNF0NC09297X FAULTED 9 20 0 too many errors ata-Samsung_SSD_870_QVO_2TB_S5SUNF0NC09266F ONLINE 0 0 0 ata-Samsung_SSD_870_QVO_2TB_S5SUNF0NC09294J ONLINE 0 0 0 spares ata-Samsung_SSD_870_QVO_2TB_S5SUNF0NC09266F INUSE currently in use errors: No known data errors smart гворит что диск в полном порядке. Всю голову сломал, уже не знаю куда копать

central

Всем здравствуйте, помогите рещить проблему. Есть Proxmox 6.4 на нем пул raidz1 в котором 5 одинаковых ssd Samsung_SSD_870_QVO_2TB висят на контролере LSI 9300-8I SGL 12Gb/s HBA. Периодически на дисках (то на одном то надругом) по команде zpool status вижу ошибки: NAME STATE READ WRITE CKSUM DATA DEGRADED 0 0 0 raidz1-0 DEGRADED 0 0 0 ata-Samsung_SSD_870_QVO_2TB_S5SUNF0NC09296E ONLINE 0 0 0 ata-Samsung_SSD_870_QVO_2TB_S5SUNF0NC09271X ONLINE 0 0 0 spare-2 DEGRADED 0 0 0 ata-Samsung_SSD_870_QVO_2TB_S5SUNF0NC09297X FAULTED 9 20 0 too many errors ata-Samsung_SSD_870_QVO_2TB_S5SUNF0NC09266F ONLINE 0 0 0 ata-Samsung_SSD_870_QVO_2TB_S5SUNF0NC09294J ONLINE 0 0 0 spares ata-Samsung_SSD_870_QVO_2TB_S5SUNF0NC09266F INUSE currently in use errors: No known data errors smart гворит что диск в полном порядке. Всю голову сломал, уже не знаю куда копать

диск в этот момент доступен?

Василий

Всем здравствуйте, помогите рещить проблему. Есть Proxmox 6.4 на нем пул raidz1 в котором 5 одинаковых ssd Samsung_SSD_870_QVO_2TB висят на контролере LSI 9300-8I SGL 12Gb/s HBA. Периодически на дисках (то на одном то надругом) по команде zpool status вижу ошибки: NAME STATE READ WRITE CKSUM DATA DEGRADED 0 0 0 raidz1-0 DEGRADED 0 0 0 ata-Samsung_SSD_870_QVO_2TB_S5SUNF0NC09296E ONLINE 0 0 0 ata-Samsung_SSD_870_QVO_2TB_S5SUNF0NC09271X ONLINE 0 0 0 spare-2 DEGRADED 0 0 0 ata-Samsung_SSD_870_QVO_2TB_S5SUNF0NC09297X FAULTED 9 20 0 too many errors ata-Samsung_SSD_870_QVO_2TB_S5SUNF0NC09266F ONLINE 0 0 0 ata-Samsung_SSD_870_QVO_2TB_S5SUNF0NC09294J ONLINE 0 0 0 spares ata-Samsung_SSD_870_QVO_2TB_S5SUNF0NC09266F INUSE currently in use errors: No known data errors smart гворит что диск в полном порядке. Всю голову сломал, уже не знаю куда копать

Ща Саня расскажет про аттаку про питание, а я уточнить хочу два момента: кабеля не сильно длинные? по питанию вытягивает БП?

George

Всем здравствуйте, помогите рещить проблему. Есть Proxmox 6.4 на нем пул raidz1 в котором 5 одинаковых ssd Samsung_SSD_870_QVO_2TB висят на контролере LSI 9300-8I SGL 12Gb/s HBA. Периодически на дисках (то на одном то надругом) по команде zpool status вижу ошибки: NAME STATE READ WRITE CKSUM DATA DEGRADED 0 0 0 raidz1-0 DEGRADED 0 0 0 ata-Samsung_SSD_870_QVO_2TB_S5SUNF0NC09296E ONLINE 0 0 0 ata-Samsung_SSD_870_QVO_2TB_S5SUNF0NC09271X ONLINE 0 0 0 spare-2 DEGRADED 0 0 0 ata-Samsung_SSD_870_QVO_2TB_S5SUNF0NC09297X FAULTED 9 20 0 too many errors ata-Samsung_SSD_870_QVO_2TB_S5SUNF0NC09266F ONLINE 0 0 0 ata-Samsung_SSD_870_QVO_2TB_S5SUNF0NC09294J ONLINE 0 0 0 spares ata-Samsung_SSD_870_QVO_2TB_S5SUNF0NC09266F INUSE currently in use errors: No known data errors smart гворит что диск в полном порядке. Всю голову сломал, уже не знаю куда копать

в dmesg что? что-то про эти диски было?

Ivan

Всем здравствуйте, помогите рещить проблему. Есть Proxmox 6.4 на нем пул raidz1 в котором 5 одинаковых ssd Samsung_SSD_870_QVO_2TB висят на контролере LSI 9300-8I SGL 12Gb/s HBA. Периодически на дисках (то на одном то надругом) по команде zpool status вижу ошибки: NAME STATE READ WRITE CKSUM DATA DEGRADED 0 0 0 raidz1-0 DEGRADED 0 0 0 ata-Samsung_SSD_870_QVO_2TB_S5SUNF0NC09296E ONLINE 0 0 0 ata-Samsung_SSD_870_QVO_2TB_S5SUNF0NC09271X ONLINE 0 0 0 spare-2 DEGRADED 0 0 0 ata-Samsung_SSD_870_QVO_2TB_S5SUNF0NC09297X FAULTED 9 20 0 too many errors ata-Samsung_SSD_870_QVO_2TB_S5SUNF0NC09266F ONLINE 0 0 0 ata-Samsung_SSD_870_QVO_2TB_S5SUNF0NC09294J ONLINE 0 0 0 spares ata-Samsung_SSD_870_QVO_2TB_S5SUNF0NC09266F INUSE currently in use errors: No known data errors smart гворит что диск в полном порядке. Всю голову сломал, уже не знаю куда копать

потом чистите список ошибок ?

Aleksandr

zpool clear DATA решает все проблемы на несколько дней/недель. Кабель… стандартны до бэкплейна сервера Intel

Ivan

zpool clear DATA решает все проблемы на несколько дней/недель. Кабель… стандартны до бэкплейна сервера Intel

он не решает, а маскирует

Aleksandr

он не решает, а маскирует

Можно как-то доплнительные тесты провести, кроме smart ?

Ivan

а покажите смарт. мб там есть чего. и прошивка hba последняя стоит ?

Aleksandr

прям всю портянку смарта сюда кинуть?

central

прям всю портянку смарта сюда кинуть?

gist.github.com pastebin.com

Aleksandr

https://pastebin.com/raw/YCU01wHu

Aleksandr

прошивка hba последняя

Ivan

https://pastebin.com/raw/YCU01wHu

POR_Recovery_Count=28 сервер реально столько раз питание терял ?

Aleksandr

наврятли

Владимир

POR_Recovery_Count=28 сервер реально столько раз питание терял ?

наверное кто-то любит ресет)

Aleksandr

хотя при инсталяции/переинсталяции может и рубили по питанию

Ivan

наврятли

интересно растет ли это значение после очередного появления ошибок

Ivan

мб питания им не хватает или еще чего не нравится

Alexander

zpool clear DATA решает все проблемы на несколько дней/недель. Кабель… стандартны до бэкплейна сервера Intel

У Сани zpool clear не решал :( Вернее скорее всего решал только очень ненадолго. После сильной атаки ошибки начинают мультиплицироваться даже после ее окончания, даже во время scrub на другом хосте. Причем от "крутизны" и дороговизны устройства в консьюмерских retail пределах это не зависело.

Aleksandr

такая же фигня происходит и на второй ноде кластера (тоже Intel тот же HBA адаптер теже диски)

Ivan

qvo - так себе выбор, но вроде они не проблемные

Aleksandr

интересно растет ли это значение после очередного появления ошибок

ок, буду посмотреть

Aleksandr

qvo - так себе выбор, но вроде они не проблемные

денег в притык было, вот и поставили

George

У Сани zpool clear не решал :( Вернее скорее всего решал только очень ненадолго. После сильной атаки ошибки начинают мультиплицироваться даже после ее окончания, даже во время scrub на другом хосте. Причем от "крутизны" и дороговизны устройства в консьюмерских retail пределах это не зависело.

zpool clear только счётчик ошибок сбрасывает, не более. "Решаются" проблемы в момент их возникновения автоматически, если это не удалось - диск будет выброшен из пула.

Aleksandr

zpool clear только счётчик ошибок сбрасывает, не более. "Решаются" проблемы в момент их возникновения автоматически, если это не удалось - диск будет выброшен из пула.

Поторю тогда вопрос. Можно как-то доплнительные тесты провести, кроме smart ?

Alexander

zpool clear только счётчик ошибок сбрасывает, не более. "Решаются" проблемы в момент их возникновения автоматически, если это не удалось - диск будет выброшен из пула.

Про clear понятно. Диск не выбрасывало из пула при многих тысячах CRC ошибок. У меня сохранилась dd копия пула, занятная такая копия. Ошибки нарастают на любом новом абсолютно исправном устройстве (диске и/или контроллере), а потом пул умирает примерно через несколько дней.

George

в dmesg что? что-то про эти диски было?

^ @kundulun про это ещё расскажите сначала

George

Про clear понятно. Диск не выбрасывало из пула при многих тысячах CRC ошибок. У меня сохранилась dd копия пула, занятная такая копия. Ошибки нарастают на любом новом абсолютно исправном устройстве (диске и/или контроллере), а потом пул умирает примерно через несколько дней.

да, там некоторые ошибки только по привышению лимита

George

Поторю тогда вопрос. Можно как-то доплнительные тесты провести, кроме smart ?

в остальном такие проблемы с кабелями и питанием особо ничем другим кроме нагрузки не проверишь, а при возникновении смотреть dmesg и тип ошибок, ну и смарт

George

9 20 0 too many errors обычно это значит что диск не просто на некоторые вопросы ошибки давал иногда, а что-то разовое было

George

т.е. подряд пачка запросов ошибку доступа к диску получила

George

обычно в dmesg что-то говорящее