@ru_zfs - страница 116 - Telegram web archive

LordMerlin

то-есть ресильвер он только при замене диска на пустой. А если синхронизация сбойного диска то скраб все поправит, а клеар просто снимет метки о сбое и напишет что все ок?

George

у меня недавно, к примеру, толи порт на материнке, толи провод давали регулярные chksum errors

Владимир

проц, память, контроллер, провода, БП, диски что-то из этого сбоит, нужно искать

это уже всё другое)

Владимир

разве кроме проца))

Сергей

то-есть ресильвер он только при замене диска на пустой. А если синхронизация сбойного диска то скраб все поправит, а клеар просто снимет метки о сбое и напишет что все ок?

в целом да.

Владимир

то есть проц и диски переехали на новую платформу

Владимир

сбоило на старой, продолжает на новой

Сергей

то-есть ресильвер он только при замене диска на пустой. А если синхронизация сбойного диска то скраб все поправит, а клеар просто снимет метки о сбое и напишет что все ок?

scrub - это и есть по сути синхронизация + проверка

George

сбоило на старой, продолжает на новой

один и тот же диск?

Владимир

ага

Владимир

один разок был другой, но я полагаю могло быть из-за грубого выключения питания

George

ага

а, ну если не поможет смена порта, то значит диск и проблемый

Igor

и дальше то чего, вот дождусь я выполнения команды, он деградировал, мне просто чистить ошибки?? ИЛи что-то надо делать

дня начала показать смарт. возможно там шнурок отходит

Владимир

Igor

все идеально

Igor

странно

Igor

crc у меня в проксе пропали после ZOL 0.8

Sergey

103 power cycle на 700 часов аптайма, это ноут или десктоп?

riv

один разок был другой, но я полагаю могло быть из-за грубого выключения питания

Ошибки на нормально работающем оборудовании просто так никогда не появляются, тем более, что у вашей SSD есть "intel Enhanced Power Loss Data Protection", так что питание не причем. Проблема, скорее всего в ошибках на PCI-шине или на SATA. Переставьте в другой слот или на другой канал. в dmesg ошибок нет?

Nikolay

Что-то не очень. Особенно в синхронном режиме 🙄🤔 Или без служебных vdev это норма ?

Nikolay

riv

Я думаю, это норма, если диски механические. У вас полторы тысячи iops на 6 дисках на чтение и столько же на запись. Каждый дисков даёт в честном синхронном режиме, максимум 100iops, ну 200, если 10к RPM, ну хорошо, 300, если это 15к. Добавление небольшого special vdev и SLOG vdev на SSD повысит скорость в разы, а может быть и на порядок. Но тестирование в синхронном режиме, на мой взгляд, бесполезная затея. zfs создан таким образом, чтобы как раз этого синхронного избежать. Именно для этого zfs использует транзакционную запись и сохраняет косистентность без использования синхронной записи. Т.е. это самый не удобный, и часто бесполезный case.

Сергей

Я думаю, это норма, если диски механические. У вас полторы тысячи iops на 6 дисках на чтение и столько же на запись. Каждый дисков даёт в честном синхронном режиме, максимум 100iops, ну 200, если 10к RPM, ну хорошо, 300, если это 15к. Добавление небольшого special vdev и SLOG vdev на SSD повысит скорость в разы, а может быть и на порядок. Но тестирование в синхронном режиме, на мой взгляд, бесполезная затея. zfs создан таким образом, чтобы как раз этого синхронного избежать. Именно для этого zfs использует транзакционную запись и сохраняет косистентность без использования синхронной записи. Т.е. это самый не удобный, и часто бесполезный case.

Если не рассматривать кейс, когда на ZFS размещается СУБД. И тогда вопрос производительности синхронной записи выходит на первое место. Что PG, что MySQL со своим innodb используют fsync

Сергей

Что-то не очень. Особенно в синхронном режиме 🙄🤔 Или без служебных vdev это норма ?

Под какие цели будет использоваться пул? Как правильно отметили - добавление SLOG поможет увеличить синхронную запись, но возможно это вам и не требуется.

Nikolay

Под какие цели будет использоваться пул? Как правильно отметили - добавление SLOG поможет увеличить синхронную запись, но возможно это вам и не требуется.

под vps. Есть вм с mssql и контейнеры с postgres, mysql

Сергей

под vps. Есть вм с mssql и контейнеры с postgres, mysql

Без slog будет тяжко. А почему не сделали пул на ссд? Я конечно понимаю что ответ будет про финансы. Но в 2020 собирать из хдд хранилище под базы и виртуалки уже как-то неприлично)

Nikolay

SSD в пути. Будет slog и special. На одном зеркале правда. Ничего же криминального нет в этом ?

Сергей

SSD в пути. Будет slog и special. На одном зеркале правда. Ничего же криминального нет в этом ?

Главное что в зеркале.

Nikolay

Без slog будет тяжко. А почему не сделали пул на ссд? Я конечно понимаю что ответ будет про финансы. Но в 2020 собирать из хдд хранилище под базы и виртуалки уже как-то неприлично)

Да, дело в финансах )) Хотя я не считал сколько денег на ssd уйдёт. Хранился на 18 Тб (полезной ёмкости) диски по 6т hdd.

Сергей

Да, дело в финансах )) Хотя я не считал сколько денег на ssd уйдёт. Хранился на 18 Тб (полезной ёмкости) диски по 6т hdd.

А сколько ОЗУ будет на хосте?

Nikolay

А сколько ОЗУ будет на хосте?

сейчас 256. Можно доабвит ьещё 16*8

Nikolay

под арк я выделил минимум 4 Гб а максимум 26 Гб

George

Ну блин, нормальные цифры же для синхронной записи на hdd. Однопоток не сможет все vdevs заюзать же всё равно. Хочется нормальных цифр - slog нужен, он для этого и придуман

Сергей

под арк я выделил минимум 4 Гб а максимум 26 Гб

Маловато для пула из дисков по 18Тб. Возможно вам лучше будет l2arc из ссд добавить ещё в пул

Nikolay

1Гб на 1Тб руководствовался этим )

Nikolay

Маловато для пула из дисков по 18Тб. Возможно вам лучше будет l2arc из ссд добавить ещё в пул

не, не, это весь пул 18Тб. Диски 6 по 6 стоят

Nikolay

опечатался вверху

George

1Гб на 1Тб руководствовался этим )

чем больше тем лучше, без надобности ограничивать не рекомендую, если что. Вопрос даже не "на ТБ", это же аналог pagecache

Nikolay

Ну блин, нормальные цифры же для синхронной записи на hdd. Однопоток не сможет все vdevs заюзать же всё равно. Хочется нормальных цифр - slog нужен, он для этого и придуман

это само собой. Просто ожидал что будет быстрее 🙂

George

это само собой. Просто ожидал что будет быстрее 🙂

почему?)

Nikolay

почему?)

Просто казалось что SAS диск 7200rpm может писать больше чем 4,5 Мб в секунду :) у меня нет опыта в этой сфере, бенчи никогда не делал до этого.

Alexander

Просто казалось что SAS диск 7200rpm может писать больше чем 4,5 Мб в секунду :) у меня нет опыта в этой сфере, бенчи никогда не делал до этого.

Qd поставьте хотя бы 32

Alexander

С 1 как то не прилично))

George

Просто казалось что SAS диск 7200rpm может писать больше чем 4,5 Мб в секунду :) у меня нет опыта в этой сфере, бенчи никогда не делал до этого.

ну так дело в размере блока и глубине очереди. средний iops у hdd 70 в худшем случае ведь. Измерять по пропускной способности тут просто так нельзя

Nikolay

Qd ?)

Alexander

Qd ?)

Iodepth

George

С 1 как то не прилично))

так наоборот самый честный тест на синхронную запись

Alexander

так наоборот самый честный тест на синхронную запись

Я не думаю что в боевой нагрузке это будет именно так

Alexander

Боюсь по ом может человек оазочароваться

Nikolay

Iodepth

так там 4 и 16 IOD

Alexander

так там 4 и 16 IOD

andReadWrite: (g=0): rw=randrw, bs=(R) 16.0KiB-16.0KiB, (W) 16.0KiB-16.0KiB, (T) 16.0KiB-16.0KiB, ioengine=libaio, iodepth=1 randReadWrite/sync: (g=1): rw=randrw, bs=(R) 16.0KiB-16.0KiB, (W) 16.0KiB-16.0KiB, (T) 16.0KiB-16.0KiB, ioengine=libaio, iodepth=1

Alexander

Уверены?

George

Я не думаю что в боевой нагрузке это будет именно так

ну это уже другой вопрос - соответствие бенчей и боевой нагрузке. Лучше на бенчах понять ситуацию, чем потом на боевой нагрузке воткнуться Хочется ближе к реальному - pgbench можно тот же потестить тогда проще

Nikolay

Уверены?

Хм. Посомтрю. Там через скрипт должно было подставляться.

Alexander

Хм. Посомтрю. Там через скрипт должно было подставляться.

Вообще в конфиге задается фио

George

https://fio.readthedocs.io/en/latest/fio_doc.html#i-o-depth > Note that increasing iodepth beyond 1 will not affect synchronous ioengines если что, не просто так)

Alexander

ну это уже другой вопрос - соответствие бенчей и боевой нагрузке. Лучше на бенчах понять ситуацию, чем потом на боевой нагрузке воткнуться Хочется ближе к реальному - pgbench можно тот же потестить тогда проще

А смысл🤷‍♂️кто то использует базу с 1 клиентом))

George

это ж синхронная запись

George

А смысл🤷‍♂️кто то использует базу с 1 клиентом))

так я повторюсь же - вопрос методики бенча. Хотите проверить 100 юзеров - надо не iodepth менять а numjobs

riv

Для 18Тб, если там хотя бы 10% займут реально работающие базы данных, может не хватить производительности. Special обязательно, но можно и в чтение упереться. В крайнем случае, всегда можно включить sync=disabled. Я вообще не особенно понимаю смысл sync=enable когда используются sas диски с резервированеым линком, сервер с двумя БП каждый из которых на своем резерве + байпасс. Это что должно произойти, чтобы что-то разрушилось? С другой стороны, в режиме sync=disabled данеые всегда в консистентном состоянии. Если у вас нет систем, которые не переживут откат на несколько секунд назад, это неплохой выход.

riv

ну это уже другой вопрос - соответствие бенчей и боевой нагрузке. Лучше на бенчах понять ситуацию, чем потом на боевой нагрузке воткнуться Хочется ближе к реальному - pgbench можно тот же потестить тогда проще

Существуют утилиты захвата и воспроизведения боевой нагрузки, кстати. Можно запусать активность за день и воспроизвести.

George

Существуют утилиты захвата и воспроизведения боевой нагрузки, кстати. Можно запусать активность за день и воспроизвести.

+1, я тут уже кидал когда то

riv

Сейчас не скажу, как именно, у меня в базе знаний записано. Вечерком, если напомните, скину методику.

Ivan

Для 18Тб, если там хотя бы 10% займут реально работающие базы данных, может не хватить производительности. Special обязательно, но можно и в чтение упереться. В крайнем случае, всегда можно включить sync=disabled. Я вообще не особенно понимаю смысл sync=enable когда используются sas диски с резервированеым линком, сервер с двумя БП каждый из которых на своем резерве + байпасс. Это что должно произойти, чтобы что-то разрушилось? С другой стороны, в режиме sync=disabled данеые всегда в консистентном состоянии. Если у вас нет систем, которые не переживут откат на несколько секунд назад, это неплохой выход.

иногда случается так, что сервер просто зависает, кстати.

Сергей

Хм. Посомтрю. Там через скрипт должно было подставляться.

должен. я знаю откуда ноги этого скрипта растут))) Но посморите точно остался ли там цикл по QD

Сергей

так я повторюсь же - вопрос методики бенча. Хотите проверить 100 юзеров - надо не iodepth менять а numjobs

кстати раз уже многие полагаются на тот скрипт, то наверное нужно в него добавить и разные numjobs. Но он и так уже выполняется под полчаса, а так ещё будет мультиплицирован на число вариантов

George

кстати раз уже многие полагаются на тот скрипт, то наверное нужно в него добавить и разные numjobs. Но он и так уже выполняется под полчаса, а так ещё будет мультиплицирован на число вариантов

а есть какой-то скрипт?) на zfs на большом количестве numjobs как раз хорошо должно быть, он умеет агрегировать отлично

riv

иногда случается так, что сервер просто зависает, кстати.

Согласен. Бывает. По этому надо рассчитывать на откат в несколько секунд. Коесистентность не разрушится. С другой стороны, есть ещё один подход: разделить нагрузку. Как я выше писал, даже 1Тб, да что теробайт даже бвза в 100Гб при "удачном" стечении обстоятельст прогрузит этот пул из 6 дисков. Но ведь можно создать относительно небольшой пул из SSD и разместить на нем только базы данных, через отдельные блочные устройства небольшого объема. Будет и ёмко и дёшево.

Сергей

а есть какой-то скрипт?) на zfs на большом количестве numjobs как раз хорошо должно быть, он умеет агрегировать отлично

я в марте и сюда и в группу прокса бросал

Сергей

я для своего типа нагрузки оставил по сути только два варианта: RandomRW (70/30) и syncRandomRW. И в скрипте перебираю разные варианты с IOdepth (а раньше и размер блока менял для проверки zvol). Можно аналогично и recsize менять и проверять.

Сергей

поправил на предмет numjobs. не проверял - может ошибки остались

Сергей

при запуске bench.sh можно указать идентификатор, который будет добавлен в имя файла

Сергей

при запуске bench.sh можно указать идентификатор, который будет добавлен в имя файла

в результате теста будут 9 файлов: для глубины 1,4,16 и numjobs 1,8,64. Каждый тест работает с файлом в 32Гб (можно изменить в bench.fio), либо длится две минуты (120 секунд) - что наступит раньше (размер VS время). Я создавал для пулов из ssd/nvme

Сергей

поправил размер блока (сделал 8К)

Владимир

Всем привет

Владимир

Вот я тут чего нарыл

George

Всем привет

так пробовал уже переставить в другой слот диск?