George
как раз таймаут на принудительный сброс txg
George
параллельно к лимитам dirty write buffers, но их обычно на небольшом потоке записи мало смысла крутить
Autumn
ещё идея - может прошивку на винтах попробовать обновить?....
по вашей проблеме есть такие мысли https://community.hpe.com/t5/proliant-servers-ml-dl-sl/smart-array-p420i-extremely-slow-writes/td-p/6497596
Georg🎞️🎥
Благодарю 👋👋 Кстати а почему б реально вместо arc большого не использовать большой большой arc2 ? Страйп u2 дисков даст много места и скорости 🤔
Georg🎞️🎥
потому что л2арк медленнее?
Медленнее памяти да но в разы быстрее блинов же
Autumn
Медленнее памяти да но в разы быстрее блинов же
тогда может сразу фуллфлеш делать и не париться? сейчас 4ТБ ссд миксед лоад доступны
Georg🎞️🎥
потому что л2арк медленнее?
Ну вот например тайм линия на исходниках это где то 500-1tb может быть 🤷🏻‍♂️это ж оперативны не напасешься
Georg🎞️🎥
тогда может сразу фуллфлеш делать и не париться? сейчас 4ТБ ссд миксед лоад доступны
Только массив на две три сотни тер на флэш пока дороговато (((
Autumn
Ну вот например тайм линия на исходниках это где то 500-1tb может быть 🤷🏻‍♂️это ж оперативны не напасешься
а у вас есть алгоритм наполнения л2арк, ну что бы там лежало именно то что вам надо
Georg🎞️🎥
если данные около 1 раза читаются то смысла мало
В том и прикол - когда цепляют исходники - идет постоянное туда сюда чтение и не один порой рендер
edo1
В том и прикол - когда цепляют исходники - идет постоянное туда сюда чтение и не один порой рендер
Я предполагаю, что оно идёт достаточно крупными блоками, в чём и hdd сильны
George
В том и прикол - когда цепляют исходники - идет постоянное туда сюда чтение и не один порой рендер
без статистики по доступу не понять. Если чтение несколько раз одного блока данных в узкий период - ARC сам поможет
Georg🎞️🎥
А нужно, чтобы оно именно в arc/l2arc лежало?
Хочется чтобы бегало максимально шустро конечно
Autumn
Только массив на две три сотни тер на флэш пока дороговато (((
у таких массивов параметры "цена" и "производительность" на разных вершинах треугольника =) тут либо денег насыпать и быстро и много, либо много, медленно но дешевле
George
Я предполагаю, что оно идёт достаточно крупными блоками, в чём и hdd сильны
и верно подмечено, по полосе большой пул быстро растёт в производительности и на блинах
Georg🎞️🎥
и верно подмечено, по полосе большой пул быстро растёт в производительности и на блинах
Да но вот порой он явно читает из кэша и скорость рендера так отличается хорошо 😱
George
В том и прикол - когда цепляют исходники - идет постоянное туда сюда чтение и не один порой рендер
я с обратной стороны спрошу - часто ли в итоговом рендере видеоряд повторяется?
edo1
Хочется чтобы бегало максимально шустро конечно
Так вы опишите задачу, какой конфиг сейчас, какие проблемы
George
если нет, то думаю что ARC хватит
edo1
Покажите zpool iostat в процессе работы
edo1
Без этого всего просто гадание
Georg🎞️🎥
я с обратной стороны спрошу - часто ли в итоговом рендере видеоряд повторяется?
Бывает что несколько раз выгоняем одно и то же То есть часто видео ряд один и тот же
Georg🎞️🎥
Покажите zpool iostat в процессе работы
Я на трунасе сижу - там можно это сделать ? И я так понимаю это под нагрузкой надо глянуть ?
Autumn
Я на трунасе сижу - там можно это сделать ? И я так понимаю это под нагрузкой надо глянуть ?
должно мочь, они же себе на сколько помню во фрю втащили zfsonlinux, не обязательно под нагрузкой zpool iostat собирает статистику с момента загрузки системы
Georg🎞️🎥
Так вы опишите задачу, какой конфиг сейчас, какие проблемы
Не скажу что прям проблема ) Разумеется хочется чтобы железо работало на максимум. Пока что вот как: рендер одних и тех же файлов с массива по smb и с локального ssd может отличаться солидно. Хочу добиться максимально возможной скорости чтения с массива , насколько это возможно в текщй конфигурации . 50 блинов в 5 ведев raidz2 200gb оперативки Arc2 убрал Hba 6гигабитный
edo1
Для линейных операций хорошо иметь recordsize побольше
edo1
1mb стоит 🤷🏻‍♂️
Ну это не так уж и много, я так понимаю у вас 8+2, получается, на дисках кусками по 128к
edo1
А zfs достаточно быстро фрагментируется, случайное чтение блоками по 128к для hdd — не особо удачная нагрузка
Georg🎞️🎥
А hba какой ?
Lsi sas 9201 16i
edo1
Я почему про 8+2 написал На диски 1мб уйдёт как 8+2 записей по 128к
edo1
8 данные и 2 чексуммы
Georg🎞️🎥
Я почему про 8+2 написал На диски 1мб уйдёт как 8+2 записей по 128к
Аааа )) простите я не глубоко в предмете Больше 1 вроде не выставить
edo1
4 предел ЕМНИП
edo1
я бы и 16 поставил ) @gmelikov есть причины, по которым ограничено?
George
А zfs достаточно быстро фрагментируется, случайное чтение блоками по 128к для hdd — не особо удачная нагрузка
128к для блинов уже близки к последовательному доступу, бОльший блок чем 1М попробовать конечно можно, но обычно он медленнее будет за счёт латенси. Только эффективность хранения повысится
George
что-то с математикой не то )))
нет, там же префетч и очередь
edo1
hdd выдаёт условно 120 iops в случайном доступе и 200+ мегабайт в секунду в последовательном сейчас табличку сварганю
Georg🎞️🎥
Ну вот и остаётся рвщые что принудительно все пихать в кэш может 🤷🏻‍♂️ но во фри насе видимо команды другие немного 🤔что б он и префетч кэшировал
Georg🎞️🎥
Мож ай скази шустрее будет ))
edo1
https://docs.google.com/spreadsheets/d/1_mHeQxef6JRceyB3P9IpPFF_M5SkZEcFLIf49Dpuh1k/edit?usp=sharing
George
hdd выдаёт условно 120 iops в случайном доступе и 200+ мегабайт в секунду в последовательном сейчас табличку сварганю
цифры не просто однозначно считаются, повторюсь про префетч и очередь. Вот пример, датасет с 128k recordsize, stripe из 2х консьюмерских сигейтов hdd $ dd if=file of=/dev/null bs=1M count=1000 1000+0 records in 1000+0 records out 1048576000 bytes (1.0 GB, 1000 MiB) copied, 2.733 s, 384 MB/s
George
bs=1M чтобы эмитировать последовательное чтение, если вдруг смущает. Мы же о ней говорим
edo1
скорее там просто фрагментация маленькая )
George
скорее там просто фрагментация маленькая )
ну упороться можно с фрагментацией, да, но на бОльших блоках она так же наступает, даже может быстрее наступить если есть запись мелким блоком параллельно
edo1
не понял почему быстрее
George
не понял почему быстрее
для бОльшего блока нужен бОльший кусок последовательный пустой
George
а на пул и мета пишется, и zil и тд
edo1
и о какой фрагментации речь? ) ЕМНИП фрагментация в общепринятом смысле и фрагментация в zpool list — это разные вещи
edo1
а на пул и мета пишется, и zil и тд
у меня почти везде уже special под мету )
George
и о какой фрагментации речь? ) ЕМНИП фрагментация в общепринятом смысле и фрагментация в zpool list — это разные вещи
фрагментация свободного места приводит и к фрагментации данных в конечном итоге, если не следить за местом
George
у меня почти везде уже special под мету )
ну буду рад примеру где 2+М блоки быстрее, но пока такого не видел
George
даже на синтетических тестах на пустом массиве без фрагментации на кейсе раздачи видео для CDN я не получал выигрыша от 2+М блоков, а там тестил как раз последовательную раздачу
George
дешевле пока ждёшь следующий блок предыдущий обработать, обычно приложение может работать всё же параллельно
edo1
фрагментация свободного места приводит и к фрагментации данных в конечном итоге, если не следить за местом
я не совсем про это. общепринятая трактовка фрагментации — это последовательно ли расположены блоки файла на диске. в zfs же под фрагментацией ЕМНИП понимается сколько блоков пришлось разбить на блоки размером меньшим, чем recordsize, из-за того, что не нашлось свободных блоков подходящего размера
edo1
то есть можно иметь нулевую фрагментацию в терминах zfs, но при этом последовательное чтение из файла превратится по сути в случайное
Ivan
ну потому что fio даст цифры как ведет себя zfs и аппаратка, а "восстанавливаю виртуалку полтора часа а на zfs пол часа" а откуда она восстанавливается, в каких условия хз, может там карма и просадка сети идет каждый раз когда крутится аппаратка =)
Чтобы было понимание всей прелести ситуации - это продакшн сервер)) который тупит - вот и разбираюсь. Восстанавливаю ВМ так - чтобы как раз создать максимально одинаковые условия - копирую слепок ВМ на тот же рэйд10 и qmrestore... Слепок весит 50гб. Короче буду ставить какую нибудь машинку вместо этого сервера, всё равно тупит - заберу его - переберу - почищу - потестирую спокойно - Днём, а не ночью 😡 а то похож уже на гребаного вампира 👻🤪
Ivan
Да Вы сударь мазохист на проде такое делать =) тут встает вопрос а как этот сервак в прод попал то?
хз - собрали... видимо никто не тестил скорости. Пока нагрузка была маленькая - всё было ок. Нагрузки подросли - и здассьте))
George
на пустом массиве и не будет, надо на «уставшем». и, повторюсь, это должен быть raidz с кучей дисков
то был как раз не малый raidz, я за натурные тесты тоже. Но 16М блок на "уставших" страйпах (где свободно где-то 1% всего) проигрывают 1М блоку для меня, потестил по фану, т.к. не качественный бенч то и цифры не буду выкладывать, чисто jfyi
Ivan
по вашей проблеме есть такие мысли https://community.hpe.com/t5/proliant-servers-ml-dl-sl/smart-array-p420i-extremely-slow-writes/td-p/6497596
проверил - с этого начал )) да полюбому разберусь )) если интересно - могу отписаться по результатам)) вскрою сервак - а там окажется какая нить банальщина))
Autumn
проверил - с этого начал )) да полюбому разберусь )) если интересно - могу отписаться по результатам)) вскрою сервак - а там окажется какая нить банальщина))
ну по статье там тема в чем, баг в прошивке выдавал "разряд батарейки", что приводило к автоматическому отключению врайткэша и железка превращалась в тыкву, пофиксили обновой фирмвари, но при этом не факт что батарейка например реально живая, это как пример, у меня такое было когда в рейде батарейка сдохла, джентльмены сервер вырубили и оставили на год без питания, батарейка разрядилась и померла, а когда включили не могли понять почему дисковая не в тонусе
Autumn
и там еще был тред, я не кидал, на этот рейд джентльмены посадили самсунговские ссдхи, и оказалось что они не дружат, поменяли на интеловские и все пришло в тонус
Autumn
Вариантов тьма, но если что не так, всегда можно откинуться с аппаратки на mdadm или zfs если не жалко от 128 гиг отдать хотя бы 16. Главное что бы работало :)
Autumn
16 гиг кстати дешёвле аппаратного рейда стоят)
Это если с нуля покупать, а если рейд уже есть и куплен :) так сказать достался в наследство.
Autumn
У которого оперативы будет гига 2 или 4
И все равно он будет шустрее zfs, особенно на всяких 5,6 рейдах и их производных.