@ru_zfs - страница 485 - Telegram web archive

Georg🎞️🎥

А такой объём не обязательно, так как SSD можно использовать для ZIL

Зил то причём тут

Vladislav

Вопрос. Пробовал на 20.04 (5.4) и на 22.04 (5.15). Кстати ZoL очень хорошо переживает мажорное обновление Есть диск NVMe (форматирован в 512б), который при randwrite direct=1, buf=0, inval=1, bs=8k, iodepth=32, выдаёт 1600 MiB/s Когда на него делается strip zpool: zpool create -o ashift=9 -O compression=lz4 -O atime=off -O recordsize=64k nvme /dev/nvme0n1 Я получаю 147MiB Когда делаю: zpool create -o ashift=9 -O compression=lz4 -O atime=off -O recordsize=8k nvme /dev/nvme0n1 Получаю: 349 MiB/s what the hell? Судя по гуглу - с этим кто-то сталкиваться, но ответы идут из разряда - у вас диск гавно

У кого-то есть идеи на тему этого? Дополнительно собираю mdadm в страйп (3 диска) получаю 5.6к миб/с (на блоках fio 64к), собираю zfs stripe на volblock=8к при блоках fio 64к - получаю 1100 миб/с

Станислав

Зил то причём тут

Потому, что это кеш на запись.

Станислав

У кого-то есть идеи на тему этого? Дополнительно собираю mdadm в страйп (3 диска) получаю 5.6к миб/с (на блоках fio 64к), собираю zfs stripe на volblock=8к при блоках fio 64к - получаю 1100 миб/с

Какая ФС и как тюнингована на zvol?

Vladislav

Какая ФС и как тюнингована на zvol?

https://www.reddit.com/r/zfs/comments/wgyf3p/zolfio_randwrite_nvme_bs8k32io_148mbs/

Vladislav

Сейчас - zpool create -o ashift=12 -O compression=lz4 -O atime=off -O recordsize=8k nvme /dev/nvme0n1 /dev/nvme1n1 /dev/nvme3n1

Fedor

У кого-то есть идеи на тему этого? Дополнительно собираю mdadm в страйп (3 диска) получаю 5.6к миб/с (на блоках fio 64к), собираю zfs stripe на volblock=8к при блоках fio 64к - получаю 1100 миб/с

Смысла в 512 форматировать нвме вроде как давно уже нет. Коллеги, поправьте, если ошибаюсь.

Georg🎞️🎥

Потому, что это кеш на запись.

Это ни разу ни кэш на запись

Станислав

Это ни разу ни кэш на запись

https://docs.oracle.com/cd/E19253-01/820-0836/gfgaa/index.html

Станислав

Первый абзац

Vladislav

Смысла в 512 форматировать нвме вроде как давно уже нет. Коллеги, поправьте, если ошибаюсь.

Пробовал и nvme format -l 0 ashift=9 и nvme format -l 1 ashift=12 - да скорость повысилась (30% примерно), но это увеличение с 154миб до 202 миб

Georg🎞️🎥

Первый абзац

Укажите пожалуйста словосочетание или синоним его - кэш на запись 👋

Fedor

Это не кеш, а быстрая фиксация транзакции

Станислав

Сначала запись происходит в журнал транзакций, а потом уже в пул. Если ZiL вынести на отдельное устройство, то по смыслу он кэш

Vladislav

Это не кэш запись на запись в плане тиринга, где сперва все данные пишутся туда, а потом в свободное время идут на холодное хранилище. Это кэш на запись в плане inode, куда сливаются очень мелкие блоки, чтобы потом отправить их на пул

Georg🎞️🎥

Это не кеш, а быстрая фиксация транзакции

+

Fedor

Это не кэш запись на запись в плане тиринга, где сперва все данные пишутся туда, а потом в свободное время идут на холодное хранилище. Это кэш на запись в плане inode, куда сливаются очень мелкие блоки, чтобы потом отправить их на пул

Айноды это в другой абстракции.

Vladislav

Айноды это в другой абстракции.

Окей, терминология не самая моя сильная сторона

Georg🎞️🎥

Сначала запись происходит в журнал транзакций, а потом уже в пул. Если ZiL вынести на отдельное устройство, то по смыслу он кэш

Возвращаюсь: как это устроисвто помогает ворочать медиа файлы ?🤔

Fedor

Возвращаюсь: как это устроисвто помогает ворочать медиа файлы ?🤔

Почти никак. Но зависит от нагрузки. Если много небольших записей - ускорит отзывчивость. Пример - БД. А на запись линейно больших файлов смысла особо нет

Fedor

Так и так в диски будет упираться

Vladislav

Возвращаюсь: как это устроисвто помогает ворочать медиа файлы ?🤔

Оно поможет если Ваше ПО постоянно куда-то записывает мелкие метки на диски, вместо того, чтобы просто читать с них. Если Ваше ПО целиком выгружает файл в оперативу, а потом сохраняет каждые 5 минут на диск - то никак

Georg🎞️🎥

Почти никак. Но зависит от нагрузки. Если много небольших записей - ускорит отзывчивость. Пример - БД. А на запись линейно больших файлов смысла особо нет

Это то я знаю )) хотел чтобы товарищ написал )) я убрал из своей схемы его давно 🤷🏻‍♂️и так пуляет хорошо на запись

Fedor

Оно поможет если Ваше ПО постоянно куда-то записывает мелкие метки на диски, вместо того, чтобы просто читать с них. Если Ваше ПО целиком выгружает файл в оперативу, а потом сохраняет каждые 5 минут на диск - то никак

Если флюшит только грязные страницы, то может будет немного получше

Georg🎞️🎥

Оно поможет если Ваше ПО постоянно куда-то записывает мелкие метки на диски, вместо того, чтобы просто читать с них. Если Ваше ПО целиком выгружает файл в оперативу, а потом сохраняет каждые 5 минут на диск - то никак

Записывает на локальные ssd кэш монтажки да. Не на хранилку.

Vladislav

Сейчас - zpool create -o ashift=12 -O compression=lz4 -O atime=off -O recordsize=8k nvme /dev/nvme0n1 /dev/nvme1n1 /dev/nvme3n1

lz4 никак не влияет на результаты fio, по крайней мере, не больше 0.5% recordsize=8к режет максимальную скорость до 1200 миб/с, а если ставить 64к, то скорость конечно 2к миб (при блоках fio 64k), но то это полностью убивает нагрузку в 4к и 8к

Fedor

Можно нагрузку раскидывать по разным датасетам или зволам, смотря что у вас там

Vladislav

Можно нагрузку раскидывать по разным датасетам или зволам, смотря что у вас там

zpool create -o ashift=12 -O compression=lz4 -O atime=off -O recordsize=8k nvme /dev/nvme0n1 /dev/nvme1n1 /dev/nvme3n1

Vladislav

Просто 3 диска nvme в stipe

Vladislav

Всё

Fedor

8к практически бессмысленно

Fedor

Почти все ОС делают объединение операций ввода вывода

Fedor

Начать с 64 или 128, а там посмотреть

Fedor

Основное что надо тестить это чтение под рабочей нагрузкой

Vladislav

Начать с 64 или 128, а там посмотреть

То есть при блоке 64к скорость fio с блоками 4k - 60 миб/сек при NVMe дисках это норм?

Fedor

Зависит от количества потоков

Fedor

И тормознутости среды - например через эзернет будет медленнее

Vladislav

Зависит от количества потоков

iodepth=32, numjobs=1, внутри системы

Fedor

Намджобс сделай например 32-64

Fedor

Зфс это не про производительность в однопотоке

Ivan

Смысла в 512 форматировать нвме вроде как давно уже нет. Коллеги, поправьте, если ошибаюсь.

недавно читал что какая-то модель на 512 оказалась быстрее. хотя это исключение из правил.

Fedor

недавно читал что какая-то модель на 512 оказалась быстрее. хотя это исключение из правил.

Тесты покажут

Vladislav

Зфс это не про производительность в однопотоке

Хорошо, в чём тогда такая принципиальная разница при тестах на запись на устройство? Каким образом raid0 из трёх дисков mdadm просто умножает на x3, а у ZFS остаётся производительность одно диска?

Vladislav

Зфс это не про производительность в однопотоке

numjobs=32 и numjobs=4 показывают одинаковую производительность для recordsize=8к с блоком fio 64к ~400 миб/с

Fedor

Настолько глубоко не закапывался, но стоит учитывать это. Райд не транзактная штука. А зфс- да. Транзакции нужны для консистентности. Что в БД, что в ФС без транзакций оно работает быстрее. Ещё по ряду нюансов вроде как для одного потока зфс работает на скорости самого медленного диска.

Fedor

numjobs=32 и numjobs=4 показывают одинаковую производительность для recordsize=8к с блоком fio 64к ~400 миб/с

Значит уже упёрся во что-то

Fedor

Переключи блок в 64

Vladislav

zpool create -o ashift=12 -O compression=lz4 -O atime=off -O recordsize=64k nvme /dev/nvme0n1 /dev/nvme1n1 /dev/nvme3n1 -f fio -name=rndw4k16 -ioengine=libaio -direct=1 -buffered=0 -invalidate=1 -filesize=30G -numjobs=32 -bs=8k -iodepth=32 -rw=randwrite -filename=/nvme/temp.tmp WRITE: bw=448MiB/s (470MB/s), 13.1MiB/s-15.4MiB/s (13.7MB/s-16.2MB/s), io=18.2GiB (19.5GB), run=41455-41539msec

Fedor

Так как смысла в целом в этом тесте нет

Fedor

Ты на каждый блок 8кб читаешь 64кб

Vladislav

Поэтому я и делал изначально recordsize=8k. учитывая, что я планирую выдавать это в vmware - Винда, линукс, Cisco и кучка БД конечно не особо будут рады, когда им скажут, что в 4к писать низя

Fedor

Бд скорее всего в 32кб будет писать

Fedor

Разнести нагрузку по разным датасетам

Fedor

Нфс кстати пишет не кусками по 4-8

Vladislav

Так как смысла в целом в этом тесте нет

При 64к пуле и fio 64к я получаю 3.2 миб, что в целом /50% от mdadm (который упирается уже в шину диска)

Vladislav

Нфс кстати пишет не кусками по 4-8

А он тут причём? Выдаваться это будет по iSER