Василий
George
но опять же: фрагментация не на ков будет попсовая
только если ФС используется только под конкретную БД
George
я не знаю как дать сырой нве 10 базам мсскл :(
оракл умеет без ФС, к примеру. Это опять же пример про различия реализаций
Василий
только если ФС используется только под конкретную БД
не так: только под БД. если там файло, да, будет беда
George
не так: только под БД. если там файло, да, будет беда
но это всё равно не спасёт от фрагментации, просто на другом уровне (БД)
George
в общем it depends
Василий
но это всё равно не спасёт от фрагментации, просто на другом уровне (БД)
да. но вернемся к "там есть план обслуживания" который нехило решает эту проблему. которого нет в большинстве фс
Василий
собсно дефраг нормальный был только во времена доса офлайновый, остальное копирование файлов туда/сюда
Василий
он не поможет с фрагментацией БД, увы
процитирую юношу выше: "от реализации зависит" :))
Василий
моя эпопея TiB vs TB продолжается. итого. имею 12 дисков по 4Тб (3.6 настоящих тб) собираю рейдз2 - получаю 32тб. куда еще 4тб делось??? неужели зфс столько съедает под свои структуры?
Василий
и еще учти что нежелательно наполнение более 80%
меня сейчас интересует куда 4тб делось блин
Ivan
меня сейчас интересует куда 4тб делось блин
https://www.delphix.com/blog/delphix-engineering/zfs-raidz-stripe-width-or-how-i-learned-stop-worrying-and-love-raidz
Василий
капец... 3тб из-за того что сектор 4кб. а не 512... жесть
riv
не увидел в сообщении @Riv1329 что-то про отключение синка
Не было отключения sync. Если внутри вм никто не пишет с sync, то его отключение ни на что не влияет. Запись с sync даже при наличие баз данных - это не настолько частое событие, как обычная запиcь без sync. Но я тогда в эти тонкости не лез, поставил, заработало, оценил эффект, стал изучать. В общем, по моему опыту, zfs реально дает просадку, если взять одну вм, она на zfs будет медленее. Но если взять их 21, то то они точно будут быстрее. Что же касается фрагментации, то по факту она не оказывает фатального воздействия на быстродействие. Как так? А вот смотрите, если ваши данные будут фрагментированы, кусками по 100МБ, то вы не заметите разницу относительно не фрагментированных данных, по 10 мб - тоже не сильно заметно, как и по 1мб. Чтобы фрагментация замедляла работу, она должна быть на уровне 10-ок кб или меньше. А у zfs по умолчанию recordsize 128k - весьма разумный копромис. Другое дело с zvol. Но и там zfs планирует размещение данных так, что фрагментация не накапливается быстро. Конечно чудес не бывает, и фрагментация нарастает. Но у этого есть своя цена как в - так и в +. Как я говорил, запись кусками позволяет разгрузить шпиндели по iops-ам в четверо, а чтение фрагментированных данных, на самом деле кэшируется. Все-же в случае с zvol лучше использовать volblocksize хотя бы 16kb, а если там обычные документы или картинки, то можно и 64кб. Разумеется в виртуальной машине unitsize файловой системы и recordsize баз данных тоже должны быть соответственно 16kb или 64kb Кстати, запись, это как правило 3/4 нагрузки, учтите это. Замедление чтения заметно при копировании файлов, а замедление записи - это залипающий интерфейс и адские тормоза. Ускорение записи важнее ускорения чтения, особенно на большом количестве виртуальных машин, по тому, что отсутствие фрагментации не даст вам в таком случае преимущества при записи, как и при чтении. Но с чтением вы ничего сделать не сможете, а запись можно ускорить с помощью CoW. Кстати, строго говоря, механизм CoW - это классический снимок LVM. Все знают какие они медленные. А вот тонкие снимки LVM как и ZFS - это Redirect on Write, т.е. RoW
riv
моя эпопея TiB vs TB продолжается. итого. имею 12 дисков по 4Тб (3.6 настоящих тб) собираю рейдз2 - получаю 32тб. куда еще 4тб делось??? неужели зфс столько съедает под свои структуры?
Raidz2 разумно делать из 10 дисков или из 18-ти n^2+2 тогда потери места не будет. Но имейте в виду, что в случае с 10-ю дисков с 4k-разметкой, вам нужно использовать recordsize и volblocksize кратные 4*(10-2)=32kb а в случае с 18-ю дисков 64kb. По этому у меня на бекап-серверах я использую raidz1 из 5-ти дисков или raidz2 из 6
Sergey
А кто знает есть ли калькулятор отказа дисков в райде? Допустим есть raidz2 на 12 штук sas 7200 16тб, какова вероятность что он рассыпится по причине единовременной смерти трех дисков?
Combot
John Hannah has been banned! Reason: CAS ban.
Ivan
​​На днях читал интересную статью в блоге Percona - MySQL/ZFS Performance Update. https://www.percona.com/blog/mysql-zfs-performance-update/ Автор не первый раз проводит тестирование производительности Mysql сервера Percona на файловой системе zfs. В этот раз на текущих тестируемых версиях софта (Percona server 8.0.22, zfs 2.0, Debian 10) производительность на ext4 и zfs получилась примерно одинаковой, хотя еще 2 года назад это было не так. На zfs база работала заметно медленнее, о чем он напоминает. То есть мы получаем все плюшки zfs (сжатие данных, дедупликация) и при этом сопоставимую производительность с ext4 или xfs. Автор в итоге делает такое заключение: Было полезно провести очередное тестирование производительности Mysql на ZFS. В общем случае производительность находится на уровне работы на EXT4, но при этом предоставляются дополнительные возможности в виде сжатия данных, снепшотов и т.д. В следующих постах я протестирую облачные хранилища на базе zfs и посмотрю, какая будет производительность. Как по мне, новость знаковая. Раньше я повсеместно видел в тестах падение производительности баз данных на zfs. Считалось, что это неподходящая файловая система для прода, где нужна максимальная производительность. Но сейчас это становится нет так. Так что можно потихоньку пробовать zfs не только под файловое хранилище холодных данных. #mysql #zfs
Василий
​​На днях читал интересную статью в блоге Percona - MySQL/ZFS Performance Update. https://www.percona.com/blog/mysql-zfs-performance-update/ Автор не первый раз проводит тестирование производительности Mysql сервера Percona на файловой системе zfs. В этот раз на текущих тестируемых версиях софта (Percona server 8.0.22, zfs 2.0, Debian 10) производительность на ext4 и zfs получилась примерно одинаковой, хотя еще 2 года назад это было не так. На zfs база работала заметно медленнее, о чем он напоминает. То есть мы получаем все плюшки zfs (сжатие данных, дедупликация) и при этом сопоставимую производительность с ext4 или xfs. Автор в итоге делает такое заключение: Было полезно провести очередное тестирование производительности Mysql на ZFS. В общем случае производительность находится на уровне работы на EXT4, но при этом предоставляются дополнительные возможности в виде сжатия данных, снепшотов и т.д. В следующих постах я протестирую облачные хранилища на базе zfs и посмотрю, какая будет производительность. Как по мне, новость знаковая. Раньше я повсеместно видел в тестах падение производительности баз данных на zfs. Считалось, что это неподходящая файловая система для прода, где нужна максимальная производительность. Но сейчас это становится нет так. Так что можно потихоньку пробовать zfs не только под файловое хранилище холодных данных. #mysql #zfs
После какого объёма записанных данных он совершил скорость? Или на свежем пуле?
Fedor
​​На днях читал интересную статью в блоге Percona - MySQL/ZFS Performance Update. https://www.percona.com/blog/mysql-zfs-performance-update/ Автор не первый раз проводит тестирование производительности Mysql сервера Percona на файловой системе zfs. В этот раз на текущих тестируемых версиях софта (Percona server 8.0.22, zfs 2.0, Debian 10) производительность на ext4 и zfs получилась примерно одинаковой, хотя еще 2 года назад это было не так. На zfs база работала заметно медленнее, о чем он напоминает. То есть мы получаем все плюшки zfs (сжатие данных, дедупликация) и при этом сопоставимую производительность с ext4 или xfs. Автор в итоге делает такое заключение: Было полезно провести очередное тестирование производительности Mysql на ZFS. В общем случае производительность находится на уровне работы на EXT4, но при этом предоставляются дополнительные возможности в виде сжатия данных, снепшотов и т.д. В следующих постах я протестирую облачные хранилища на базе zfs и посмотрю, какая будет производительность. Как по мне, новость знаковая. Раньше я повсеместно видел в тестах падение производительности баз данных на zfs. Считалось, что это неподходящая файловая система для прода, где нужна максимальная производительность. Но сейчас это становится нет так. Так что можно потихоньку пробовать zfs не только под файловое хранилище холодных данных. #mysql #zfs
Очень интересно.
Δαρθ
scan: scrub in progress since Tue Jul 13 16:37:44 2021 1.67T scanned at 6.19G/s, 196G issued at 725M/s, 1.67T total 0B repaired, 11.43% done, 00:35:45 to go как это расшифровать? почему вон те 1.6 терабайт появились сразу и на дикой скорости, хотя пул на обычных винтах? что такое issued?
Δαρθ
пустого места там сильно больше 1.6 терабайт
Sergey
Такой вопрос: Есть пул из трех дисков ( просто диски без raidz ): NAME STATE READ WRITE CKSUM test ONLINE 0 0 0 loop1 ONLINE 0 0 0 loop2 ONLINE 0 0 0 loop3 ONLINE 0 0 0 Делаем "zpool remove test /dev/loop3" В теории он должен всю информацию с loop3 перекинуть на loop1 и loop2, после чего освобидить loop3 Это так? Есть ли подводные камни у данной процедуры?
edo1
сжатие включено?
edo1
https://wintelguy.com/zfs-calc.pl
вроде бы эта штука не влияет на расчёт свободного места, она влияет на то сколько данные будут занимать
edo1
а как свободное место смотришь? zfs list или zpool list?
edo1
@gjabu2_2 ещё такая вещь есть как spa_slop_shift по умолчанию стоит 5, это означает 3.125% резерва, это больше терабайта на твоих размерах
edo1
https://openzfs.github.io/openzfs-docs/Performance%20and%20Tuning/Module%20Parameters.html#spa-slop-shift
George
т.е. сначала вычитывается мета, чтобы эффективно и последовательно потом вычитать дату (issued)
George
^ поправил
Василий
Василий
а как свободное место смотришь? zfs list или zpool list?
фринас сам пишет. снес фринас, поставил солярку. посмотрим
Василий
спасибо, интересное чтиво, интересно, а в оригинальном зфс оно есть? а то солярка самая хитрая. она мне рав место выдала)
Василий
Василий
угадайте где сас диски :)
Василий
это все один рейдз2
Aleksandr
Всем здравствуйте, помогите рещить проблему. Есть Proxmox 6.4 на нем пул raidz1 в котором 5 одинаковых ssd Samsung_SSD_870_QVO_2TB висят на контролере LSI 9300-8I SGL 12Gb/s HBA. Периодически на дисках (то на одном то надругом) по команде zpool status вижу ошибки: NAME STATE READ WRITE CKSUM DATA DEGRADED 0 0 0 raidz1-0 DEGRADED 0 0 0 ata-Samsung_SSD_870_QVO_2TB_S5SUNF0NC09296E ONLINE 0 0 0 ata-Samsung_SSD_870_QVO_2TB_S5SUNF0NC09271X ONLINE 0 0 0 spare-2 DEGRADED 0 0 0 ata-Samsung_SSD_870_QVO_2TB_S5SUNF0NC09297X FAULTED 9 20 0 too many errors ata-Samsung_SSD_870_QVO_2TB_S5SUNF0NC09266F ONLINE 0 0 0 ata-Samsung_SSD_870_QVO_2TB_S5SUNF0NC09294J ONLINE 0 0 0 spares ata-Samsung_SSD_870_QVO_2TB_S5SUNF0NC09266F INUSE currently in use errors: No known data errors smart гворит что диск в полном порядке. Всю голову сломал, уже не знаю куда копать
Aleksandr
zpool clear DATA решает все проблемы на несколько дней/недель. Кабель… стандартны до бэкплейна сервера Intel
Aleksandr
он не решает, а маскирует
Можно как-то доплнительные тесты провести, кроме smart ?
Ivan
а покажите смарт. мб там есть чего. и прошивка hba последняя стоит ?
Aleksandr
прям всю портянку смарта сюда кинуть?
Aleksandr
https://pastebin.com/raw/YCU01wHu
Aleksandr
прошивка hba последняя
Ivan
https://pastebin.com/raw/YCU01wHu
POR_Recovery_Count=28 сервер реально столько раз питание терял ?
Aleksandr
наврятли
Aleksandr
хотя при инсталяции/переинсталяции может и рубили по питанию
Ivan
наврятли
интересно растет ли это значение после очередного появления ошибок
Ivan
мб питания им не хватает или еще чего не нравится
Alexander
zpool clear DATA решает все проблемы на несколько дней/недель. Кабель… стандартны до бэкплейна сервера Intel
У Сани zpool clear не решал :( Вернее скорее всего решал только очень ненадолго. После сильной атаки ошибки начинают мультиплицироваться даже после ее окончания, даже во время scrub на другом хосте. Причем от "крутизны" и дороговизны устройства в консьюмерских retail пределах это не зависело.
Aleksandr
такая же фигня происходит и на второй ноде кластера (тоже Intel тот же HBA адаптер теже диски)
Ivan
qvo - так себе выбор, но вроде они не проблемные
Aleksandr
qvo - так себе выбор, но вроде они не проблемные
денег в притык было, вот и поставили
Alexander
zpool clear только счётчик ошибок сбрасывает, не более. "Решаются" проблемы в момент их возникновения автоматически, если это не удалось - диск будет выброшен из пула.
Про clear понятно. Диск не выбрасывало из пула при многих тысячах CRC ошибок. У меня сохранилась dd копия пула, занятная такая копия. Ошибки нарастают на любом новом абсолютно исправном устройстве (диске и/или контроллере), а потом пул умирает примерно через несколько дней.
George
в dmesg что? что-то про эти диски было?
^ @kundulun про это ещё расскажите сначала
George
Поторю тогда вопрос. Можно как-то доплнительные тесты провести, кроме smart ?
в остальном такие проблемы с кабелями и питанием особо ничем другим кроме нагрузки не проверишь, а при возникновении смотреть dmesg и тип ошибок, ну и смарт
George
9 20 0 too many errors обычно это значит что диск не просто на некоторые вопросы ошибки давал иногда, а что-то разовое было
George
т.е. подряд пачка запросов ошибку доступа к диску получила
George
обычно в dmesg что-то говорящее