Autumn
То, что zfs на raidz2 показывает результаты вдвое хуже даже опенсорсного mdadm, уже доказанный тестами факт. Не говоря уже про рейд с батарейкой, который, допустим, может онлайн сделать из raid10 луна raid6 и назад, при определённых обстоятельствах.
Не показывает raidz2 результаты в 2 раза хуже чем мдадм, я лично проверял на массе ынтырпрайз дисков, а с ссд лог-ом уделывает мдадм, главное опции подобрать, сжатие врубить. Аппаратному рейду на батарейке проигрывает любой не зеркальный или не 10-й софт рейд, причем в чистую, тут никакие кэши на ссд не спасут. Зеркало или 10-ка +- будут аналогичный аппаратному. Где-то хуже, где-то лучше, но не смертельная разница.
Autumn
Кхэм, там ссылка выше.
Ну ок, но я реально не в состоянии раскапывать результаты 2-х летнего fio на больших массивах, скажу что тестировал на HGST/WD 530-х sas + ssd hgst sas. Мдадм дал те же результаты что и зфс +-, выбор пал на зфс ввиду удобства и плюшек, не более. Но никакой катастрофической двукратной разницы я не увидел.
Autumn
Зато вот что скажу, я имитировал сбои и восстановление массивов, так вот два дохлых дисках на мдадм при большом массиве = восстановление массива вечность. Зфс справлялась за несколько часов. Большой массив в моем понимании это 12-24 х 8-14ТБ ынтырпрайз сас дисков.
Autumn
Зависит от утилизации и профиля нагрузки, конечно же. Я о том и веду разговор, что zfs берут ради фич (ну и при жёстком кроилове, когда бизнес даже на raid ctrl жмёт денег)
Мы брали зфс исходя из реалий, когда HP нам заявило что срод замены по гарантии рейд карты до 1 мес. Ждать до одного месяца замены железной карточки, потому что "просто так" хранить у себя ее ХП-шный интегратор отказался, было такое себе удовольствие. Ну и цена карточки далеко превышала +64ГБ памяти для зфс.
Autumn
Реальный кейс - сдох сервак, вот вообще сдох, БП+Мать + кто его знает еще что. Я 8 дисков на писюк кинул, импортнул пул, и через зфс сенд все отправил на рабочий сервак. Вот из-за этого и брал зфс вместо железки или мдамд.
Autumn
Похоже, что md_raid лопатит всю ёмкость, а zfs только выделенную. При забитом массиве разницы не будет, т.к. нельзя обмануть математику :)
Я никогда не забиваю массивы более чем на 80% от доступной емкости, но вот тесты показали, что замена в 6-м рейде мдадм диска на 8 и более ТБ это боль, на зфс - приемлемо.
Ivan
Похоже, что md_raid лопатит всю ёмкость, а zfs только выделенную. При забитом массиве разницы не будет, т.к. нельзя обмануть математику :)
ну не совсем. zfs может целиком утилизировать принимающий диск, а вот mdadm далеко не всегда.
Autumn
Есть разные SLA, платите деньги, хоть в вашем городе будут хранить. Ну и 64GB памяти дают только arc cache. Если нагрузка 95% read, то ОК.
Ну это понятно, когда цена вопроса не имеет значения. Но увы, у меня таких случаев не было, чаще всего спрашивают - сколько будет стоить =)
Autumn
Нагрузка смешанная, где-то 30 врайт, 70 рид +-, затыки на шпинделях решал через лог на ссд, л2арк давно перестал использовать. Просто на ссд вопросов вообще не было. Ну и я на магнитные даже аппаратные рейди уже не тащу субд и все что хочет быстро - всегда предлагаю nvme.
The
Ну это понятно, когда цена вопроса не имеет значения. Но увы, у меня таких случаев не было, чаще всего спрашивают - сколько будет стоить =)
Ну так и отвечайте: "На zfs это будет стоить 2*N SSD, на хардваре N SSD + raid ctrl". С блинами ситуация не такая плачевная, поэтому ZFS под backup repo подходит лучше.
Fedor
@autumn_river под лог обычное зеркало из двух дисков?
Autumn
Честно, не верю. Есть строгие формулы, разница лишь в том, что mdraid абсолютно пофиг на данные "внизу".
Ну у меня был такой опыт. Точно помню - был момент, собрал я мдадм 6 из 12х8ТБ, пошел и вынул руками диск, вставил и заставил ребилдится. Делал он это очень долго, по итогу в таком состоянии и завис навечно. Да так, что я даже мдадм развалить не смог. Пришлось через dd каждый диск тереть. Ерунда какая-то.
Fedor
да, две ссд в зеркале
сильно ссд расходуется на это?
Autumn
Ну так и отвечайте: "На zfs это будет стоить 2*N SSD, на хардваре N SSD + raid ctrl". С блинами ситуация не такая плачевная, поэтому ZFS под backup repo подходит лучше.
Меня в зфс смутили тесты @kvaps для кубера под linstor. Какая-то дикая разница по сравнению с lvm. Хз, сейчас нет железа гонять тесты на zfs. Все выше из личного опыта.
Autumn
сильно ссд расходуется на это?
Мизер. Можно взять те же samsung pro пару штук и сделать оверпровизионинг. Там много места под лог не надо.
Fedor
да в серваке нет места под nvme и думаю может через pcie карты всякие - есть на 4 штуки
Autumn
да в серваке нет места под nvme и думаю может через pcie карты всякие - есть на 4 штуки
Вполне сгодится, и такое решение делал - заказывал в бомж сборку из китая плату на 4хnvme ssd в pcie. Все работало.
Autumn
С NVMe решений, не гробящих перфоманс, ещё меньше. VROC и парочка карт-контроллеров под R10 с ретаймерами.
Да, согласен, тут с nvme, особенно новыми выдающими овер 4ГБ/с вообще тяжело что-то не гробящее их найти. Либо надеятся на "отборные" чипы в супер дорогой ынтырпрайз ссдхе. У меня так товарищ и делает. У них в серваках под субд стоят именно такие.
Autumn
лог без зеркала на одной не хотелось бы держать
если взять хорошую ссдшку, и сделать оверпровизионинг ну так на 50% от ее объема, шансы что она сдохнет резко уменьшаются, я так однажды делал, брал под лог intel 3610 вроде, делал один раздел на половину ссдшки и его гонял под лог зфс, она отстояла что-то лет 5 наверное, мы успели в пуле из 8 дисков заменить за это время 4 по гарантии, а ссдшка работала. По моему до сих пор там же трудится. Но это все же риск. Хотя любое железо - риск.
Fedor
исходя из каких соображений выбирается размер разделов под LOG?
Fedor
Максимальное прогнозируемое количество данных на запись за интервал между транзакциями
Fedor
Но лучше это на отдельном диске делать
Fedor
Небольшом и быстром
Fedor
SLC чтоль
Fedor
И который протащит множество перезаписей своего обьема в день
Vladislav
И который протащит множество перезаписей своего обьема в день
Любой серверный ssd, SLC вы сейчас не найдёте на рынке физически
Fedor
да собственно я так собирался, на оракле чуть пространственно написано люди пишут, что и 32 с избытком
Fedor
Любой серверный ssd, SLC вы сейчас не найдёте на рынке физически
Это да. В моём случае используется небольшой раздел на диске гигов в 120 шустром каком-то от Интел с большим DWPD
Fedor
Кстати, метрика иопс на гигабайт ещё не потеряла своей актуальности в целом?
Vladislav
Если у Вас есть 32гб с объёмом перезаписи 60+ТБ, то подойдёт. Но я бы всё ещё рекомендовал бы чтобы объем перезаписи был не меньше, чем "количество данных, что сейчас пишутся в день * 365 * 5"
Fedor
спасибо за замечания да, по перезаписи подходит
Fedor
спасибо за замечания да, по перезаписи подходит
Важно разметить отдельный раздел в прошивке диске либо, если не получится, раздел на диске в системе, чтоб как можно больше секторов не аллоцировалось системой. Ну и обязательный трим/очистка перед всем этим
Fedor
Типа ата эрейз
Fedor
fstrim?
Желательно чуть понизкоуровнее
Fedor
Блок дискард
George
Блок дискард
secure erase обычно делает похожее
George
для удобства можно его
Δαρθ
blkdiscard
Fedor
не подскажете, 4 диска (чётное число) в vdev для raidz1 очень сильная потеря производительности в сравнении с 3/5?
Autumn
не подскажете, 4 диска (чётное число) в vdev для raidz1 очень сильная потеря производительности в сравнении с 3/5?
не очень понял вопрос и откуда такое предположение, но касательно raidz1 я бы думал о гарантиях сохранности данных, потери скорости быть не должно.
Fedor
не очень понял вопрос и откуда такое предположение, но касательно raidz1 я бы думал о гарантиях сохранности данных, потери скорости быть не должно.
в целом на это всегда ориентировался 128KiB / (nr_of_drives – parity_drives) = maximum (default) variable stripe size (все это подтверждено и теорией и практикой), получаем таблицу: 3-disk RAID-Z = 128KiB / 2 = 64KiB = удачное выравнивание 4-disk RAID-Z = 128KiB / 3 = ~43KiB = ПЛОХОЕ 5-disk RAID-Z = 128KiB / 4 = 32KiB = удачное выравнивание 9-disk RAID-Z = 128KiB / 8 = 16KiB = удачное выравнивание -- 4-disk RAID-Z2 = 128KiB / 2 = 64KiB = удачное выравнивание 5-disk RAID-Z2 = 128KiB / 3 = ~43KiB = ПЛОХОЕ 6-disk RAID-Z2 = 128KiB / 4 = 32KiB = удачное выравнивание 10-disk RAID-Z2 = 128KiB / 8 = 16KiB = удачное выравнивание
Autumn
Я при современных емкостях уже не собираю raidz, там где надо много и медленно везде собираю raidz2 или страйп из raidz2 - т.е. 60-й. Например у меня есть 6х8ТБ - значит будет raidz2, а если допустим 12х4ТБ, то скорее всего будет страйп из двух raidz2 6x4ТБ + 6x4ТБ
Autumn
Вот погуглил - https://calomel.org/zfs_raid_speed_capacity.html исходя из формулы вариант raidz из таблицы должен быть плох, но я этого не вижу: 12x 4TB, raidz (raid5), 41.3 TB, w=689MB/s , rw=118MB/s , r=993MB/s 12x 4TB, raidz2 (raid6), 37.4 TB, w=317MB/s , rw=98MB/s , r=1065MB/s
George
не подскажете, 4 диска (чётное число) в vdev для raidz1 очень сильная потеря производительности в сравнении с 3/5?
вот полезная статья "от первоисточника" https://www.delphix.com/blog/delphix-engineering/zfs-raidz-stripe-width-or-how-i-learned-stop-worrying-and-love-raidz
George
ну и табличка там суперполезная по полезному пространству
Fedor
поэтому выбрал несколько raidz1
Autumn
вот полезная статья "от первоисточника" https://www.delphix.com/blog/delphix-engineering/zfs-raidz-stripe-width-or-how-i-learned-stop-worrying-and-love-raidz
Ага, согласно статье, получается нужно искать компромисс, ибо есть зависимость скорости и эффективности использования дискового пространства от общего кол-ва дисков в группе. Т.е. что бы увеличить эффективность использования дискового пространства надо наращивать кол-во дисков в группе. При этом будет падать производительность группы. Для увеличения кол-ва операций произвольного чтения/записи, надо уменьшать кол-во дисков. Причем для записи общее кол-во в группе, а для чтения кол-во дисков под данные.
Autumn
raidz2 похуже в производительности и с местом
Естественно он хуже, там же два бита парити, и работы больше, но тут надо учитывать современные объемы дисков. Я диски беру начиная от 4ТБ. Все что до 4 ТБ это имхо диски для домашних ПК. Да и по цене за ГБ они не выгодны. Соответственно на таких дисках собирать raidz мне не нравится. Поэтому я собираю raidz2, а что бы немного ускорить, бью на группы и собираю группы в страйп. Т.е. в своих выводах я +- пришел к тем же выводам что и в статье по ссылке от @gmelikov
George
вообще с raidz очень имеет смысл special vdevs
Autumn
примерно так, да. Если хочется перформанс - только мирроры
согласен, только наборы зеркал в страйпе, но что бы хоть как-то компенсировать тормоза raidz2 на больших дисках спасает страйп групп raidz2 - обычно делаю группы по 6-8 дисков в страйпе
Autumn
raidz2 похуже в производительности и с местом
выше тест на фре с группами дисков, я выборку результата кидал, кастельно того что radiz на четном кол-ве дисков должен иметь просадку по производительности - судя по тестам ерунда это, и приведенной Вами формулой я бы не стал руководствоваться
Egor
Так есть же draid теперь, разве он не убил ещё raid-z* ?
Autumn
Так есть же draid теперь, разве он не убил ещё raid-z* ?
ну не везде zfs новый, да и не увидел я практического бонуса, в реальной эксплуатации у Вас был смысл в draid?
Egor
Ну когда диск вывалится, в этот самый момент на ресильвере и появится смысл )
George
до сих пор не понимаю почему по дефолту spare убрали при создании