@ru_zfs - страница 553 - Telegram web archive

George

как раз таймаут на принудительный сброс txg

George

параллельно к лимитам dirty write buffers, но их обычно на небольшом потоке записи мало смысла крутить

Autumn

ещё идея - может прошивку на винтах попробовать обновить?....

по вашей проблеме есть такие мысли https://community.hpe.com/t5/proliant-servers-ml-dl-sl/smart-array-p420i-extremely-slow-writes/td-p/6497596

Georg🎞️🎥

Благодарю 👋👋 Кстати а почему б реально вместо arc большого не использовать большой большой arc2 ? Страйп u2 дисков даст много места и скорости 🤔

Autumn

Благодарю 👋👋 Кстати а почему б реально вместо arc большого не использовать большой большой arc2 ? Страйп u2 дисков даст много места и скорости 🤔

потому что л2арк медленнее?

Georg🎞️🎥

потому что л2арк медленнее?

Медленнее памяти да но в разы быстрее блинов же

Autumn

Медленнее памяти да но в разы быстрее блинов же

тогда может сразу фуллфлеш делать и не париться? сейчас 4ТБ ссд миксед лоад доступны

Georg🎞️🎥

потому что л2арк медленнее?

Ну вот например тайм линия на исходниках это где то 500-1tb может быть 🤷🏻‍♂️это ж оперативны не напасешься

George

Ну вот например тайм линия на исходниках это где то 500-1tb может быть 🤷🏻‍♂️это ж оперативны не напасешься

если данные около 1 раза читаются то смысла мало

Georg🎞️🎥

тогда может сразу фуллфлеш делать и не париться? сейчас 4ТБ ссд миксед лоад доступны

Только массив на две три сотни тер на флэш пока дороговато (((

Autumn

Ну вот например тайм линия на исходниках это где то 500-1tb может быть 🤷🏻‍♂️это ж оперативны не напасешься

а у вас есть алгоритм наполнения л2арк, ну что бы там лежало именно то что вам надо

edo1

Ну вот например тайм линия на исходниках это где то 500-1tb может быть 🤷🏻‍♂️это ж оперативны не напасешься

А нужно, чтобы оно именно в arc/l2arc лежало?

Georg🎞️🎥

если данные около 1 раза читаются то смысла мало

В том и прикол - когда цепляют исходники - идет постоянное туда сюда чтение и не один порой рендер

edo1

В том и прикол - когда цепляют исходники - идет постоянное туда сюда чтение и не один порой рендер

Я предполагаю, что оно идёт достаточно крупными блоками, в чём и hdd сильны

George

В том и прикол - когда цепляют исходники - идет постоянное туда сюда чтение и не один порой рендер

без статистики по доступу не понять. Если чтение несколько раз одного блока данных в узкий период - ARC сам поможет

Georg🎞️🎥

А нужно, чтобы оно именно в arc/l2arc лежало?

Хочется чтобы бегало максимально шустро конечно

Autumn

Только массив на две три сотни тер на флэш пока дороговато (((

у таких массивов параметры "цена" и "производительность" на разных вершинах треугольника =) тут либо денег насыпать и быстро и много, либо много, медленно но дешевле

George

Я предполагаю, что оно идёт достаточно крупными блоками, в чём и hdd сильны

и верно подмечено, по полосе большой пул быстро растёт в производительности и на блинах

Georg🎞️🎥

и верно подмечено, по полосе большой пул быстро растёт в производительности и на блинах

Да но вот порой он явно читает из кэша и скорость рендера так отличается хорошо 😱

George

В том и прикол - когда цепляют исходники - идет постоянное туда сюда чтение и не один порой рендер

я с обратной стороны спрошу - часто ли в итоговом рендере видеоряд повторяется?

edo1

Хочется чтобы бегало максимально шустро конечно

Так вы опишите задачу, какой конфиг сейчас, какие проблемы

George

если нет, то думаю что ARC хватит

edo1

Покажите zpool iostat в процессе работы

edo1

Без этого всего просто гадание

Georg🎞️🎥

я с обратной стороны спрошу - часто ли в итоговом рендере видеоряд повторяется?

Бывает что несколько раз выгоняем одно и то же То есть часто видео ряд один и тот же

Georg🎞️🎥

Покажите zpool iostat в процессе работы

Я на трунасе сижу - там можно это сделать ? И я так понимаю это под нагрузкой надо глянуть ?

Autumn

Я на трунасе сижу - там можно это сделать ? И я так понимаю это под нагрузкой надо глянуть ?

должно мочь, они же себе на сколько помню во фрю втащили zfsonlinux, не обязательно под нагрузкой zpool iostat собирает статистику с момента загрузки системы

Georg🎞️🎥

Так вы опишите задачу, какой конфиг сейчас, какие проблемы

Не скажу что прям проблема ) Разумеется хочется чтобы железо работало на максимум. Пока что вот как: рендер одних и тех же файлов с массива по smb и с локального ssd может отличаться солидно. Хочу добиться максимально возможной скорости чтения с массива , насколько это возможно в текщй конфигурации . 50 блинов в 5 ведев raidz2 200gb оперативки Arc2 убрал Hba 6гигабитный

Georg🎞️🎥

должно мочь, они же себе на сколько помню во фрю втащили zfsonlinux, не обязательно под нагрузкой zpool iostat собирает статистику с момента загрузки системы

Ааа во как - гляну как буду возле хоть какой то машины

edo1

Для линейных операций хорошо иметь recordsize побольше

Shaker

Не скажу что прям проблема ) Разумеется хочется чтобы железо работало на максимум. Пока что вот как: рендер одних и тех же файлов с массива по smb и с локального ssd может отличаться солидно. Хочу добиться максимально возможной скорости чтения с массива , насколько это возможно в текщй конфигурации . 50 блинов в 5 ведев raidz2 200gb оперативки Arc2 убрал Hba 6гигабитный

А hba какой ?

Georg🎞️🎥

Для линейных операций хорошо иметь recordsize побольше

1mb стоит 🤷🏻‍♂️

edo1

1mb стоит 🤷🏻‍♂️

Ну это не так уж и много, я так понимаю у вас 8+2, получается, на дисках кусками по 128к

edo1

А zfs достаточно быстро фрагментируется, случайное чтение блоками по 128к для hdd — не особо удачная нагрузка

Georg🎞️🎥

А hba какой ?

Lsi sas 9201 16i

Georg🎞️🎥

А zfs достаточно быстро фрагментируется, случайное чтение блоками по 128к для hdd — не особо удачная нагрузка

Так вроде 1мб а не 128 ?🤔

edo1

Я почему про 8+2 написал На диски 1мб уйдёт как 8+2 записей по 128к

edo1

8 данные и 2 чексуммы

Georg🎞️🎥

Я почему про 8+2 написал На диски 1мб уйдёт как 8+2 записей по 128к

Аааа )) простите я не глубоко в предмете Больше 1 вроде не выставить

edo1

4 предел ЕМНИП

edo1

я бы и 16 поставил ) @gmelikov есть причины, по которым ограничено?

George

А zfs достаточно быстро фрагментируется, случайное чтение блоками по 128к для hdd — не особо удачная нагрузка

128к для блинов уже близки к последовательному доступу, бОльший блок чем 1М попробовать конечно можно, но обычно он медленнее будет за счёт латенси. Только эффективность хранения повысится

edo1

128к для блинов уже близки к последовательному доступу, бОльший блок чем 1М попробовать конечно можно, но обычно он медленнее будет за счёт латенси. Только эффективность хранения повысится

что-то с математикой не то )))

George

что-то с математикой не то )))

нет, там же префетч и очередь

edo1

hdd выдаёт условно 120 iops в случайном доступе и 200+ мегабайт в секунду в последовательном сейчас табличку сварганю

George

128к для блинов уже близки к последовательному доступу, бОльший блок чем 1М попробовать конечно можно, но обычно он медленнее будет за счёт латенси. Только эффективность хранения повысится

будет интересно чужой опыт с 2М+ блоками послушать, но я пока не видел кейса где они по производительности выигрывают

Georg🎞️🎥

Ну вот и остаётся рвщые что принудительно все пихать в кэш может 🤷🏻‍♂️ но во фри насе видимо команды другие немного 🤔что б он и префетч кэшировал

Georg🎞️🎥

Мож ай скази шустрее будет ))

edo1

https://docs.google.com/spreadsheets/d/1_mHeQxef6JRceyB3P9IpPFF_M5SkZEcFLIf49Dpuh1k/edit?usp=sharing

edo1

будет интересно чужой опыт с 2М+ блоками послушать, но я пока не видел кейса где они по производительности выигрывают

тут надо делить «широкий» raidz и одиночные vdev

George

hdd выдаёт условно 120 iops в случайном доступе и 200+ мегабайт в секунду в последовательном сейчас табличку сварганю

цифры не просто однозначно считаются, повторюсь про префетч и очередь. Вот пример, датасет с 128k recordsize, stripe из 2х консьюмерских сигейтов hdd $ dd if=file of=/dev/null bs=1M count=1000 1000+0 records in 1000+0 records out 1048576000 bytes (1.0 GB, 1000 MiB) copied, 2.733 s, 384 MB/s

George

bs=1M чтобы эмитировать последовательное чтение, если вдруг смущает. Мы же о ней говорим

edo1

скорее там просто фрагментация маленькая )

George

скорее там просто фрагментация маленькая )

ну упороться можно с фрагментацией, да, но на бОльших блоках она так же наступает, даже может быстрее наступить если есть запись мелким блоком параллельно

edo1

не понял почему быстрее

George

не понял почему быстрее

для бОльшего блока нужен бОльший кусок последовательный пустой

George

а на пул и мета пишется, и zil и тд

edo1

и о какой фрагментации речь? ) ЕМНИП фрагментация в общепринятом смысле и фрагментация в zpool list — это разные вещи

edo1

а на пул и мета пишется, и zil и тд

у меня почти везде уже special под мету )

George

и о какой фрагментации речь? ) ЕМНИП фрагментация в общепринятом смысле и фрагментация в zpool list — это разные вещи

фрагментация свободного места приводит и к фрагментации данных в конечном итоге, если не следить за местом

George

у меня почти везде уже special под мету )

ну буду рад примеру где 2+М блоки быстрее, но пока такого не видел

George

даже на синтетических тестах на пустом массиве без фрагментации на кейсе раздачи видео для CDN я не получал выигрыша от 2+М блоков, а там тестил как раз последовательную раздачу

George

дешевле пока ждёшь следующий блок предыдущий обработать, обычно приложение может работать всё же параллельно

edo1

фрагментация свободного места приводит и к фрагментации данных в конечном итоге, если не следить за местом

я не совсем про это. общепринятая трактовка фрагментации — это последовательно ли расположены блоки файла на диске. в zfs же под фрагментацией ЕМНИП понимается сколько блоков пришлось разбить на блоки размером меньшим, чем recordsize, из-за того, что не нашлось свободных блоков подходящего размера

edo1

то есть можно иметь нулевую фрагментацию в терминах zfs, но при этом последовательное чтение из файла превратится по сути в случайное

edo1

даже на синтетических тестах на пустом массиве без фрагментации на кейсе раздачи видео для CDN я не получал выигрыша от 2+М блоков, а там тестил как раз последовательную раздачу

на пустом массиве и не будет, надо на «уставшем». и, повторюсь, это должен быть raidz с кучей дисков

Ivan

ну потому что fio даст цифры как ведет себя zfs и аппаратка, а "восстанавливаю виртуалку полтора часа а на zfs пол часа" а откуда она восстанавливается, в каких условия хз, может там карма и просадка сети идет каждый раз когда крутится аппаратка =)

Чтобы было понимание всей прелести ситуации - это продакшн сервер)) который тупит - вот и разбираюсь. Восстанавливаю ВМ так - чтобы как раз создать максимально одинаковые условия - копирую слепок ВМ на тот же рэйд10 и qmrestore... Слепок весит 50гб. Короче буду ставить какую нибудь машинку вместо этого сервера, всё равно тупит - заберу его - переберу - почищу - потестирую спокойно - Днём, а не ночью 😡 а то похож уже на гребаного вампира 👻🤪

Autumn

Чтобы было понимание всей прелести ситуации - это продакшн сервер)) который тупит - вот и разбираюсь. Восстанавливаю ВМ так - чтобы как раз создать максимально одинаковые условия - копирую слепок ВМ на тот же рэйд10 и qmrestore... Слепок весит 50гб. Короче буду ставить какую нибудь машинку вместо этого сервера, всё равно тупит - заберу его - переберу - почищу - потестирую спокойно - Днём, а не ночью 😡 а то похож уже на гребаного вампира 👻🤪

Да Вы сударь мазохист на проде такое делать =) тут встает вопрос а как этот сервак в прод попал то?

Ivan

Да Вы сударь мазохист на проде такое делать =) тут встает вопрос а как этот сервак в прод попал то?

хз - собрали... видимо никто не тестил скорости. Пока нагрузка была маленькая - всё было ок. Нагрузки подросли - и здассьте))

George

на пустом массиве и не будет, надо на «уставшем». и, повторюсь, это должен быть raidz с кучей дисков

то был как раз не малый raidz, я за натурные тесты тоже. Но 16М блок на "уставших" страйпах (где свободно где-то 1% всего) проигрывают 1М блоку для меня, потестил по фану, т.к. не качественный бенч то и цифры не буду выкладывать, чисто jfyi

Ivan

по вашей проблеме есть такие мысли https://community.hpe.com/t5/proliant-servers-ml-dl-sl/smart-array-p420i-extremely-slow-writes/td-p/6497596

проверил - с этого начал )) да полюбому разберусь )) если интересно - могу отписаться по результатам)) вскрою сервак - а там окажется какая нить банальщина))

Autumn

проверил - с этого начал )) да полюбому разберусь )) если интересно - могу отписаться по результатам)) вскрою сервак - а там окажется какая нить банальщина))

ну по статье там тема в чем, баг в прошивке выдавал "разряд батарейки", что приводило к автоматическому отключению врайткэша и железка превращалась в тыкву, пофиксили обновой фирмвари, но при этом не факт что батарейка например реально живая, это как пример, у меня такое было когда в рейде батарейка сдохла, джентльмены сервер вырубили и оставили на год без питания, батарейка разрядилась и померла, а когда включили не могли понять почему дисковая не в тонусе

Autumn

и там еще был тред, я не кидал, на этот рейд джентльмены посадили самсунговские ссдхи, и оказалось что они не дружат, поменяли на интеловские и все пришло в тонус

Autumn

Вариантов тьма, но если что не так, всегда можно откинуться с аппаратки на mdadm или zfs если не жалко от 128 гиг отдать хотя бы 16. Главное что бы работало :)

Art

Вариантов тьма, но если что не так, всегда можно откинуться с аппаратки на mdadm или zfs если не жалко от 128 гиг отдать хотя бы 16. Главное что бы работало :)

16 гиг кстати дешёвле аппаратного рейда стоят)

Autumn

16 гиг кстати дешёвле аппаратного рейда стоят)

Это если с нуля покупать, а если рейд уже есть и куплен :) так сказать достался в наследство.

Art

Вариантов тьма, но если что не так, всегда можно откинуться с аппаратки на mdadm или zfs если не жалко от 128 гиг отдать хотя бы 16. Главное что бы работало :)

У которого оперативы будет гига 2 или 4

Art

Это если с нуля покупать, а если рейд уже есть и куплен :) так сказать достался в наследство.

А, ну это да)

Autumn

У которого оперативы будет гига 2 или 4

И все равно он будет шустрее zfs, особенно на всяких 5,6 рейдах и их производных.

George

И все равно он будет шустрее zfs, особенно на всяких 5,6 рейдах и их производных.

it depends