@ru_zfs - страница 452 - Telegram web archive

The

классические контроллеры не ведут чексумм на зеркалах и 10 рейде. не могут знать какие данные испорчены, а какие нет.

Откуда такие познания? :)

Autumn

То, что zfs на raidz2 показывает результаты вдвое хуже даже опенсорсного mdadm, уже доказанный тестами факт. Не говоря уже про рейд с батарейкой, который, допустим, может онлайн сделать из raid10 луна raid6 и назад, при определённых обстоятельствах.

Не показывает raidz2 результаты в 2 раза хуже чем мдадм, я лично проверял на массе ынтырпрайз дисков, а с ссд лог-ом уделывает мдадм, главное опции подобрать, сжатие врубить. Аппаратному рейду на батарейке проигрывает любой не зеркальный или не 10-й софт рейд, причем в чистую, тут никакие кэши на ссд не спасут. Зеркало или 10-ка +- будут аналогичный аппаратному. Где-то хуже, где-то лучше, но не смертельная разница.

The

Не показывает raidz2 результаты в 2 раза хуже чем мдадм, я лично проверял на массе ынтырпрайз дисков, а с ссд лог-ом уделывает мдадм, главное опции подобрать, сжатие врубить. Аппаратному рейду на батарейке проигрывает любой не зеркальный или не 10-й софт рейд, причем в чистую, тут никакие кэши на ссд не спасут. Зеркало или 10-ка +- будут аналогичный аппаратному. Где-то хуже, где-то лучше, но не смертельная разница.

Кхэм, там ссылка выше.

Autumn

Кхэм, там ссылка выше.

Ну ок, но я реально не в состоянии раскапывать результаты 2-х летнего fio на больших массивах, скажу что тестировал на HGST/WD 530-х sas + ssd hgst sas. Мдадм дал те же результаты что и зфс +-, выбор пал на зфс ввиду удобства и плюшек, не более. Но никакой катастрофической двукратной разницы я не увидел.

Autumn

Зато вот что скажу, я имитировал сбои и восстановление массивов, так вот два дохлых дисках на мдадм при большом массиве = восстановление массива вечность. Зфс справлялась за несколько часов. Большой массив в моем понимании это 12-24 х 8-14ТБ ынтырпрайз сас дисков.

The

Ну ок, но я реально не в состоянии раскапывать результаты 2-х летнего fio на больших массивах, скажу что тестировал на HGST/WD 530-х sas + ssd hgst sas. Мдадм дал те же результаты что и зфс +-, выбор пал на зфс ввиду удобства и плюшек, не более. Но никакой катастрофической двукратной разницы я не увидел.

Зависит от утилизации и профиля нагрузки, конечно же. Я о том и веду разговор, что zfs берут ради фич (ну и при жёстком кроилове, когда бизнес даже на raid ctrl жмёт денег)

Autumn

Зависит от утилизации и профиля нагрузки, конечно же. Я о том и веду разговор, что zfs берут ради фич (ну и при жёстком кроилове, когда бизнес даже на raid ctrl жмёт денег)

Мы брали зфс исходя из реалий, когда HP нам заявило что срод замены по гарантии рейд карты до 1 мес. Ждать до одного месяца замены железной карточки, потому что "просто так" хранить у себя ее ХП-шный интегратор отказался, было такое себе удовольствие. Ну и цена карточки далеко превышала +64ГБ памяти для зфс.

The

Зато вот что скажу, я имитировал сбои и восстановление массивов, так вот два дохлых дисках на мдадм при большом массиве = восстановление массива вечность. Зфс справлялась за несколько часов. Большой массив в моем понимании это 12-24 х 8-14ТБ ынтырпрайз сас дисков.

Похоже, что md_raid лопатит всю ёмкость, а zfs только выделенную. При забитом массиве разницы не будет, т.к. нельзя обмануть математику :)

Autumn

Реальный кейс - сдох сервак, вот вообще сдох, БП+Мать + кто его знает еще что. Я 8 дисков на писюк кинул, импортнул пул, и через зфс сенд все отправил на рабочий сервак. Вот из-за этого и брал зфс вместо железки или мдамд.

Autumn

Похоже, что md_raid лопатит всю ёмкость, а zfs только выделенную. При забитом массиве разницы не будет, т.к. нельзя обмануть математику :)

Я никогда не забиваю массивы более чем на 80% от доступной емкости, но вот тесты показали, что замена в 6-м рейде мдадм диска на 8 и более ТБ это боль, на зфс - приемлемо.

Ivan

Похоже, что md_raid лопатит всю ёмкость, а zfs только выделенную. При забитом массиве разницы не будет, т.к. нельзя обмануть математику :)

ну не совсем. zfs может целиком утилизировать принимающий диск, а вот mdadm далеко не всегда.

The

Мы брали зфс исходя из реалий, когда HP нам заявило что срод замены по гарантии рейд карты до 1 мес. Ждать до одного месяца замены железной карточки, потому что "просто так" хранить у себя ее ХП-шный интегратор отказался, было такое себе удовольствие. Ну и цена карточки далеко превышала +64ГБ памяти для зфс.

Есть разные SLA, платите деньги, хоть в вашем городе будут хранить. Ну и 64GB памяти дают только arc cache. Если нагрузка 95% read, то ОК.

Autumn

Есть разные SLA, платите деньги, хоть в вашем городе будут хранить. Ну и 64GB памяти дают только arc cache. Если нагрузка 95% read, то ОК.

Ну это понятно, когда цена вопроса не имеет значения. Но увы, у меня таких случаев не было, чаще всего спрашивают - сколько будет стоить =)

The

Я никогда не забиваю массивы более чем на 80% от доступной емкости, но вот тесты показали, что замена в 6-м рейде мдадм диска на 8 и более ТБ это боль, на зфс - приемлемо.

Честно, не верю. Есть строгие формулы, разница лишь в том, что mdraid абсолютно пофиг на данные "внизу".

Autumn

Нагрузка смешанная, где-то 30 врайт, 70 рид +-, затыки на шпинделях решал через лог на ссд, л2арк давно перестал использовать. Просто на ссд вопросов вообще не было. Ну и я на магнитные даже аппаратные рейди уже не тащу субд и все что хочет быстро - всегда предлагаю nvme.

The

Ну это понятно, когда цена вопроса не имеет значения. Но увы, у меня таких случаев не было, чаще всего спрашивают - сколько будет стоить =)

Ну так и отвечайте: "На zfs это будет стоить 2*N SSD, на хардваре N SSD + raid ctrl". С блинами ситуация не такая плачевная, поэтому ZFS под backup repo подходит лучше.

Fedor

@autumn_river под лог обычное зеркало из двух дисков?

Autumn

Честно, не верю. Есть строгие формулы, разница лишь в том, что mdraid абсолютно пофиг на данные "внизу".

Ну у меня был такой опыт. Точно помню - был момент, собрал я мдадм 6 из 12х8ТБ, пошел и вынул руками диск, вставил и заставил ребилдится. Делал он это очень долго, по итогу в таком состоянии и завис навечно. Да так, что я даже мдадм развалить не смог. Пришлось через dd каждый диск тереть. Ерунда какая-то.

Autumn

@autumn_river под лог обычное зеркало из двух дисков?

да, две ссд в зеркале

Fedor

да, две ссд в зеркале

сильно ссд расходуется на это?

Autumn

Ну так и отвечайте: "На zfs это будет стоить 2*N SSD, на хардваре N SSD + raid ctrl". С блинами ситуация не такая плачевная, поэтому ZFS под backup repo подходит лучше.

Меня в зфс смутили тесты @kvaps для кубера под linstor. Какая-то дикая разница по сравнению с lvm. Хз, сейчас нет железа гонять тесты на zfs. Все выше из личного опыта.

The

Нагрузка смешанная, где-то 30 врайт, 70 рид +-, затыки на шпинделях решал через лог на ссд, л2арк давно перестал использовать. Просто на ссд вопросов вообще не было. Ну и я на магнитные даже аппаратные рейди уже не тащу субд и все что хочет быстро - всегда предлагаю nvme.

С NVMe решений, не гробящих перфоманс, ещё меньше. VROC и парочка карт-контроллеров под R10 с ретаймерами.

Autumn

сильно ссд расходуется на это?

Мизер. Можно взять те же samsung pro пару штук и сделать оверпровизионинг. Там много места под лог не надо.

Fedor

да в серваке нет места под nvme и думаю может через pcie карты всякие - есть на 4 штуки

Autumn

да в серваке нет места под nvme и думаю может через pcie карты всякие - есть на 4 штуки

Вполне сгодится, и такое решение делал - заказывал в бомж сборку из китая плату на 4хnvme ssd в pcie. Все работало.

Ivan

Меня в зфс смутили тесты @kvaps для кубера под linstor. Какая-то дикая разница по сравнению с lvm. Хз, сейчас нет железа гонять тесты на zfs. Все выше из личного опыта.

так там nvme. нужно ждать ускоряющих патчей.

Fedor

Вполне сгодится, и такое решение делал - заказывал в бомж сборку из китая плату на 4хnvme ssd в pcie. Все работало.

лог без зеркала на одной не хотелось бы держать

Autumn

С NVMe решений, не гробящих перфоманс, ещё меньше. VROC и парочка карт-контроллеров под R10 с ретаймерами.

Да, согласен, тут с nvme, особенно новыми выдающими овер 4ГБ/с вообще тяжело что-то не гробящее их найти. Либо надеятся на "отборные" чипы в супер дорогой ынтырпрайз ссдхе. У меня так товарищ и делает. У них в серваках под субд стоят именно такие.

Autumn

лог без зеркала на одной не хотелось бы держать

если взять хорошую ссдшку, и сделать оверпровизионинг ну так на 50% от ее объема, шансы что она сдохнет резко уменьшаются, я так однажды делал, брал под лог intel 3610 вроде, делал один раздел на половину ссдшки и его гонял под лог зфс, она отстояла что-то лет 5 наверное, мы успели в пуле из 8 дисков заменить за это время 4 по гарантии, а ссдшка работала. По моему до сих пор там же трудится. Но это все же риск. Хотя любое железо - риск.

The

Да, согласен, тут с nvme, особенно новыми выдающими овер 4ГБ/с вообще тяжело что-то не гробящее их найти. Либо надеятся на "отборные" чипы в супер дорогой ынтырпрайз ссдхе. У меня так товарищ и делает. У них в серваках под субд стоят именно такие.

Если бизнес стоит того, то это кейс для покупки AFA СХД. Если нет, дешевле выйдет децимация отдела разработки.

Autumn

Если бизнес стоит того, то это кейс для покупки AFA СХД. Если нет, дешевле выйдет децимация отдела разработки.

Я с таким бизнесом не работал =) к счастью или к сожалению не знаю.

Fedor

если взять хорошую ссдшку, и сделать оверпровизионинг ну так на 50% от ее объема, шансы что она сдохнет резко уменьшаются, я так однажды делал, брал под лог intel 3610 вроде, делал один раздел на половину ссдшки и его гонял под лог зфс, она отстояла что-то лет 5 наверное, мы успели в пуле из 8 дисков заменить за это время 4 по гарантии, а ссдшка работала. По моему до сих пор там же трудится. Но это все же риск. Хотя любое железо - риск.

о, S4600 когда-то поставил в одном серваке, уже несколько лет аптайма правда прилось перешивать по рекомендации интела из-за какой-то проблемы и минус в том что в этом серваке чтоот с железом и спасают реально ссд - там шина почему то больше 200 не выдаёт

Autumn

Если бизнес стоит того, то это кейс для покупки AFA СХД. Если нет, дешевле выйдет децимация отдела разработки.

слово "децимация" пришлось гуглить =)

Fedor

исходя из каких соображений выбирается размер разделов под LOG?

Fedor

Максимальное прогнозируемое количество данных на запись за интервал между транзакциями

Fedor

Но лучше это на отдельном диске делать

Fedor

Небольшом и быстром

Fedor

SLC чтоль

Fedor

И который протащит множество перезаписей своего обьема в день

Vladislav

И который протащит множество перезаписей своего обьема в день

Любой серверный ssd, SLC вы сейчас не найдёте на рынке физически

Fedor

да собственно я так собирался, на оракле чуть пространственно написано люди пишут, что и 32 с избытком

Fedor

Любой серверный ssd, SLC вы сейчас не найдёте на рынке физически

Это да. В моём случае используется небольшой раздел на диске гигов в 120 шустром каком-то от Интел с большим DWPD

Fedor

да собственно я так собирался, на оракле чуть пространственно написано люди пишут, что и 32 с избытком

Вполне

Vladislav

да собственно я так собирался, на оракле чуть пространственно написано люди пишут, что и 32 с избытком

Проблема не в объеме, проблема в количестве циклов перезаписи

Fedor

Кстати, метрика иопс на гигабайт ещё не потеряла своей актуальности в целом?

Vladislav

Если у Вас есть 32гб с объёмом перезаписи 60+ТБ, то подойдёт. Но я бы всё ещё рекомендовал бы чтобы объем перезаписи был не меньше, чем "количество данных, что сейчас пишутся в день * 365 * 5"

Fedor

Если у Вас есть 32гб с объёмом перезаписи 60+ТБ, то подойдёт. Но я бы всё ещё рекомендовал бы чтобы объем перезаписи был не меньше, чем "количество данных, что сейчас пишутся в день * 365 * 5"

Стандартная цифра, да :) Вместо 5 обычно лет гарантии

Fedor

спасибо за замечания да, по перезаписи подходит

Fedor

спасибо за замечания да, по перезаписи подходит

Важно разметить отдельный раздел в прошивке диске либо, если не получится, раздел на диске в системе, чтоб как можно больше секторов не аллоцировалось системой. Ну и обязательный трим/очистка перед всем этим

Fedor

Типа ата эрейз

Fedor

Типа ата эрейз

fstrim?

Fedor

fstrim?

Желательно чуть понизкоуровнее

Fedor

Блок дискард

George

Блок дискард

secure erase обычно делает похожее

George

для удобства можно его

Fedor

secure erase обычно делает похожее

А, да)

Δαρθ

blkdiscard

Fedor

не подскажете, 4 диска (чётное число) в vdev для raidz1 очень сильная потеря производительности в сравнении с 3/5?

Autumn

не подскажете, 4 диска (чётное число) в vdev для raidz1 очень сильная потеря производительности в сравнении с 3/5?

не очень понял вопрос и откуда такое предположение, но касательно raidz1 я бы думал о гарантиях сохранности данных, потери скорости быть не должно.

Fedor

не очень понял вопрос и откуда такое предположение, но касательно raidz1 я бы думал о гарантиях сохранности данных, потери скорости быть не должно.

в целом на это всегда ориентировался 128KiB / (nr_of_drives – parity_drives) = maximum (default) variable stripe size (все это подтверждено и теорией и практикой), получаем таблицу: 3-disk RAID-Z = 128KiB / 2 = 64KiB = удачное выравнивание 4-disk RAID-Z = 128KiB / 3 = ~43KiB = ПЛОХОЕ 5-disk RAID-Z = 128KiB / 4 = 32KiB = удачное выравнивание 9-disk RAID-Z = 128KiB / 8 = 16KiB = удачное выравнивание -- 4-disk RAID-Z2 = 128KiB / 2 = 64KiB = удачное выравнивание 5-disk RAID-Z2 = 128KiB / 3 = ~43KiB = ПЛОХОЕ 6-disk RAID-Z2 = 128KiB / 4 = 32KiB = удачное выравнивание 10-disk RAID-Z2 = 128KiB / 8 = 16KiB = удачное выравнивание

Autumn

в целом на это всегда ориентировался 128KiB / (nr_of_drives – parity_drives) = maximum (default) variable stripe size (все это подтверждено и теорией и практикой), получаем таблицу: 3-disk RAID-Z = 128KiB / 2 = 64KiB = удачное выравнивание 4-disk RAID-Z = 128KiB / 3 = ~43KiB = ПЛОХОЕ 5-disk RAID-Z = 128KiB / 4 = 32KiB = удачное выравнивание 9-disk RAID-Z = 128KiB / 8 = 16KiB = удачное выравнивание -- 4-disk RAID-Z2 = 128KiB / 2 = 64KiB = удачное выравнивание 5-disk RAID-Z2 = 128KiB / 3 = ~43KiB = ПЛОХОЕ 6-disk RAID-Z2 = 128KiB / 4 = 32KiB = удачное выравнивание 10-disk RAID-Z2 = 128KiB / 8 = 16KiB = удачное выравнивание

А есть результаты тестов производительности? Потому что мне эта таблица ничего касательно производительности не говорит.

Autumn

Я при современных емкостях уже не собираю raidz, там где надо много и медленно везде собираю raidz2 или страйп из raidz2 - т.е. 60-й. Например у меня есть 6х8ТБ - значит будет raidz2, а если допустим 12х4ТБ, то скорее всего будет страйп из двух raidz2 6x4ТБ + 6x4ТБ

Autumn

Вот погуглил - https://calomel.org/zfs_raid_speed_capacity.html исходя из формулы вариант raidz из таблицы должен быть плох, но я этого не вижу: 12x 4TB, raidz (raid5), 41.3 TB, w=689MB/s , rw=118MB/s , r=993MB/s 12x 4TB, raidz2 (raid6), 37.4 TB, w=317MB/s , rw=98MB/s , r=1065MB/s

George

не подскажете, 4 диска (чётное число) в vdev для raidz1 очень сильная потеря производительности в сравнении с 3/5?

вот полезная статья "от первоисточника" https://www.delphix.com/blog/delphix-engineering/zfs-raidz-stripe-width-or-how-i-learned-stop-worrying-and-love-raidz

George

ну и табличка там суперполезная по полезному пространству

Fedor

вот полезная статья "от первоисточника" https://www.delphix.com/blog/delphix-engineering/zfs-raidz-stripe-width-or-how-i-learned-stop-worrying-and-love-raidz

спасибо

Fedor

Я при современных емкостях уже не собираю raidz, там где надо много и медленно везде собираю raidz2 или страйп из raidz2 - т.е. 60-й. Например у меня есть 6х8ТБ - значит будет raidz2, а если допустим 12х4ТБ, то скорее всего будет страйп из двух raidz2 6x4ТБ + 6x4ТБ

raidz2 похуже в производительности и с местом

Fedor

поэтому выбрал несколько raidz1

Autumn

вот полезная статья "от первоисточника" https://www.delphix.com/blog/delphix-engineering/zfs-raidz-stripe-width-or-how-i-learned-stop-worrying-and-love-raidz

Ага, согласно статье, получается нужно искать компромисс, ибо есть зависимость скорости и эффективности использования дискового пространства от общего кол-ва дисков в группе. Т.е. что бы увеличить эффективность использования дискового пространства надо наращивать кол-во дисков в группе. При этом будет падать производительность группы. Для увеличения кол-ва операций произвольного чтения/записи, надо уменьшать кол-во дисков. Причем для записи общее кол-во в группе, а для чтения кол-во дисков под данные.

George

Ага, согласно статье, получается нужно искать компромисс, ибо есть зависимость скорости и эффективности использования дискового пространства от общего кол-ва дисков в группе. Т.е. что бы увеличить эффективность использования дискового пространства надо наращивать кол-во дисков в группе. При этом будет падать производительность группы. Для увеличения кол-ва операций произвольного чтения/записи, надо уменьшать кол-во дисков. Причем для записи общее кол-во в группе, а для чтения кол-во дисков под данные.

примерно так, да. Если хочется перформанс - только мирроры

Autumn

raidz2 похуже в производительности и с местом

Естественно он хуже, там же два бита парити, и работы больше, но тут надо учитывать современные объемы дисков. Я диски беру начиная от 4ТБ. Все что до 4 ТБ это имхо диски для домашних ПК. Да и по цене за ГБ они не выгодны. Соответственно на таких дисках собирать raidz мне не нравится. Поэтому я собираю raidz2, а что бы немного ускорить, бью на группы и собираю группы в страйп. Т.е. в своих выводах я +- пришел к тем же выводам что и в статье по ссылке от @gmelikov

George

вообще с raidz очень имеет смысл special vdevs

Autumn

примерно так, да. Если хочется перформанс - только мирроры

согласен, только наборы зеркал в страйпе, но что бы хоть как-то компенсировать тормоза raidz2 на больших дисках спасает страйп групп raidz2 - обычно делаю группы по 6-8 дисков в страйпе

Autumn

raidz2 похуже в производительности и с местом

выше тест на фре с группами дисков, я выборку результата кидал, кастельно того что radiz на четном кол-ве дисков должен иметь просадку по производительности - судя по тестам ерунда это, и приведенной Вами формулой я бы не стал руководствоваться

Egor

Так есть же draid теперь, разве он не убил ещё raid-z* ?

Fedor

выше тест на фре с группами дисков, я выборку результата кидал, кастельно того что radiz на четном кол-ве дисков должен иметь просадку по производительности - судя по тестам ерунда это, и приведенной Вами формулой я бы не стал руководствоваться

похоже тесты подтверждают это я ещё по одному диску в схеме 2x5 вывел на замену

Autumn

Так есть же draid теперь, разве он не убил ещё raid-z* ?

ну не везде zfs новый, да и не увидел я практического бонуса, в реальной эксплуатации у Вас был смысл в draid?

Egor

Ну когда диск вывалится, в этот самый момент на ресильвере и появится смысл )

George

Ну когда диск вывалится, в этот самый момент на ресильвере и появится смысл )

при этом ещё spare надо было добавить))

George

до сих пор не понимаю почему по дефолту spare убрали при создании