Сергей

для постгри совсем базово тут http://www.open-zfs.org/wiki/Performance_tuning#PostgreSQL

я взял компромисные 16к для рекордсайз, это позволило иметь наиболее комфортные показатели pg_bench и поднять коэфициент компрессии. ну и для логов primary cache=meta

George

я взял компромисные 16к для рекордсайз, это позволило иметь наиболее комфортные показатели pg_bench и поднять коэфициент компрессии. ну и для логов primary cache=meta

в целом поддерживаю, но оно зависит от фактической нагрузки на БД, будут кейсы когда read-write amplification весь бонус съест

George

ну всё, zfsonlinux теперь официально мейнстрим https://github.com/openzfs/zfs

George

старые ссылки работают, там редирект со старого проекта

Fedor

Есть рекомендации по настройке связок бд и зфс

Fedor

Надо поискать будет

Fedor

Например, чтоб два раза данные не фиксировать :)

Vladislav

Решил таки делать экспорт настроек ZFS пула. Хочется придумать названия проекту. Пока придумал названия скриптов zpool_export и zpool_import

George

Решил таки делать экспорт настроек ZFS пула. Хочется придумать названия проекту. Пока придумал названия скриптов zpool_export и zpool_import

zfs pool config replicate import export воткните потом в описание плиз ключевики, чтобы гуглилось)

Vladislav

добавил

Vladislav

Подскажите утилиты синхронизации (типа master-slave) двух пулов на разных машинах

Vladislav

Смотрю zrepl, но он слишком сложный в использовании

George

Подскажите утилиты синхронизации (типа master-slave) двух пулов на разных машинах

их много уже, есть sanoid/syncoid ещё, но мне их подход не очень, присматриваюсь к https://github.com/psy0rz/zfs_autobackup

Vladislav

мне нужна частая синхронизация, а не автобэкапер по расписанию

George

мне нужна частая синхронизация, а не автобэкапер по расписанию

а чем это отличается?))))

George

только частотой

Vladislav

типа lsync, но снапшотами

Сергей

мне нужна частая синхронизация, а не автобэкапер по расписанию

pve-zsync чем не устраивает?

Vladislav

pve-zsync чем не устраивает?

у меня там нет Proxmox'a

Сергей

у меня там нет Proxmox'a

так он отдельно работает от pve

Сергей

ему только perl нужен

Сергей

Package: pve-zsync Version: 2.0-2 Priority: optional Section: perl Maintainer: Proxmox Support Team <support@proxmox.com> Installed-Size: 56.3 kB Depends: perl:any Download-Size: 14.9 kB APT-Sources: http://download.proxmox.com/debian buster/pve-no-subscription amd64 Packages Description: Proxmox VE ZFS syncing tool Tool for automated syncing of ZFS subvolumes and pools.

Vladislav

так он отдельно работает от pve

Не совсем. Его почти наполовину надо переписать, чтоб отделить от логики PVE

Сергей

Не совсем. Его почти наполовину надо переписать, чтоб отделить от логики PVE

ну вот так всегда))))

George

Не совсем. Его почти наполовину надо переписать, чтоб отделить от логики PVE

возьмите любой инструмент выше, если на слейве надо писать - сделайте свой доп. шаг по промоуту снапшота. Всё.

Vladislav

Мне нужна проверка на мастере, если файл изменился/добавился в течении короткого промежутка времени, тогда создаем репликацию на слейв

Vladislav

Список пока выглядит так: zrepl sanoid psy0rz/zfs_autobackup Rsnapshot zxfer sysutils/zfs-replicate sysutils/zap/

George

Мне нужна проверка на мастере, если файл изменился/добавился в течении короткого промежутка времени, тогда создаем репликацию на слейв

такого не видел (но и не сильно искал)

Vladislav

Вопрос по реогранизации ZFS разделов. ZFS раздел tank/video занимает 10ТБ, контент в основном лежит во взложенной директории serials Свободно еще 24T /tank/video/ serial_fragments/ serials/ video_parts/Нужно как-то один из последних снимков tank/video, малой жертвой, склонировать в /tank/video/serials_new/

Vladislav

делаю клонировние zfs clone tank/video@2020-03-04_00.01.00--1w tank/video/serials_new

Vladislav

Получаю : NAME USED AVAIL REFER MOUNTPOINT tank 10,5T 24,4T 96K /tank tank/video 10,5T 24,4T 10,3T /tank/video tank/video/serial_fragments 22,9G 24,4T 22,9G /tank/video/serial_fragments tank/video/serials_new 0 24,4T 10,3T /tank/video/serials_new tank/video/video_parts 65,6G 24,4T 65,5G /tank/video/video_parts

Vladislav

Помогло cd /tank/video/serials_new/serials/ mv * ..

nikolay

кто может подсказать в какую сторону копать? две системы centos7.6.1810 ( 3.10.0-957.12.1.el7.x86_64) и centos7.7.1908 (3.10.0-1062.12.1.el7.x86_64), в каждой собран zfs pool. при подаче нагрузки по разным дискам в произвольном порядке в messages возникают ошибки вида

nikolay

Mar 4 01:09:13 test kernel: sd 0:0:14:0: [sdn] tag#50 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE Mar 4 01:09:13 test kernel: sd 0:0:14:0: [sdn] tag#50 Sense Key : Hardware Error [current] [descriptor] Mar 4 01:09:13 test kernel: sd 0:0:14:0: [sdn] tag#50 Add. Sense: Track following error Mar 4 01:09:13 test kernel: sd 0:0:14:0: [sdn] tag#50 CDB: Read(16) 88 00 00 00 00 00 18 d8 5b a0 00 00 00 28 00 00 Mar 4 01:09:13 test kernel: blk_update_request: critical target error, dev sdn, sector 416832416

nikolay

или Mar 4 14:26:13 tmn-metro kernel: sd 0:0:32:0: [sdaf] CDB: Write(16) 8a 00 00 00 00 01 e0 29 05 00 00 00 00 08 00 00 Mar 4 14:26:13 tmn-metro kernel: sd 0:0:32:0: [sdaf] FAILED Result: hostbyte=DID_TIME_OUT driverbyte=DRIVER_OK Mar 4 14:26:13 tmn-metro kernel: sd 0:0:32:0: [sdaf] CDB: Write(16) 8a 00 00 00 00 01 e0 29 05 00 00 00 00 08 00 00 Mar 4 14:26:13 tmn-metro kernel: blk_update_request: I/O error, dev sdaf, sector 8055751936

nikolay

zfs помечает диски как degraded или как failed. smartctl ничего криминального не показывает. zpool clear сбрасывает ошибки, пул помечается как чистый, потом по новой. ошибки могут возникать по разным дискам, в том числе по тем, по которым уже возникали.

nikolay

для примера вывод smartctl по одному из таких дисков SMART Attributes Data Structure revision number: 10 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAGS VALUE WORST THRESH FAIL RAW_VALUE 1 Raw_Read_Error_Rate POSR-- 084 064 044 - 237523488 3 Spin_Up_Time PO---- 091 091 000 - 0 4 Start_Stop_Count -O--CK 100 100 020 - 8 5 Reallocated_Sector_Ct PO--CK 100 100 010 - 0 7 Seek_Error_Rate POSR-- 091 060 045 - 1200119420 9 Power_On_Hours -O--CK 092 092 000 - 7431 10 Spin_Retry_Count PO--C- 100 100 097 - 0 12 Power_Cycle_Count -O--CK 100 100 020 - 7 184 End-to-End_Error -O--CK 100 100 099 - 0 187 Reported_Uncorrect -O--CK 100 100 000 - 0 188 Command_Timeout -O--CK 100 100 000 - 0 189 High_Fly_Writes -O-RCK 100 100 000 - 0 190 Airflow_Temperature_Cel -O---K 063 053 040 - 37 (Min/Max 36/38) 191 G-Sense_Error_Rate -O--CK 097 097 000 - 6212 192 Power-Off_Retract_Count -O--CK 100 100 000 - 147 193 Load_Cycle_Count -O--CK 100 100 000 - 963 194 Temperature_Celsius -O---K 037 047 000 - 37 (0 21 0 0 0) 195 Hardware_ECC_Recovered -O-RC- 084 064 000 - 237523488 197 Current_Pending_Sector -O--C- 100 100 000 - 0 198 Offline_Uncorrectable ----C- 100 100 000 - 0 199 UDMA_CRC_Error_Count -OSRCK 200 200 000 - 0 240 Head_Flying_Hours ------ 100 253 000 - 6493 (160 111 0) 241 Total_LBAs_Written ------ 100 253 000 - 29081211719 242 Total_LBAs_Read ------ 100 253 000 - 8966702844

Vladislav

контроллер или интерфейсный кабель виноват

nikolay

в обоих серверах сразу? два lsi 9305 в одном сервере + две jbod полки. один lsi 9305 во втором + один jbod.

nikolay

в сервере где подключены два jbod по 40 дисков в каждом ошибки идут по дискам в каждой внешней полке.

Gustavo Imputsa

Это сейчас температура 47 у него? У меня такое было при перегреве, сначала разные сектора не читались и clear помогал, потом помогать перестал)

Gustavo Imputsa

Но это на правах кулстори, я не шарю особо. Ещё такая была история, на блейдовых серверах (с общим питальником) было что то с статикой и отваливался pci синхронно на двух нодах, и кстати этого нет в dmesg по дефолту

Vladislav

в обоих серверах сразу? два lsi 9305 в одном сервере + две jbod полки. один lsi 9305 во втором + один jbod.

тебе поискать истории, как накосячили в прошивках RAID и SSD ?

Gustavo Imputsa

История: lsi брендированный dell при нагреве уходил в какую то странную защиту при которой на несколько порядков падали иопсы. И температуру там вроде не посмотреть стандартными средствами, только через утилиту короче я бы посмотрел температуру везде где она есть, особенно на hba

Сергей

кто может подсказать в какую сторону копать? две системы centos7.6.1810 ( 3.10.0-957.12.1.el7.x86_64) и centos7.7.1908 (3.10.0-1062.12.1.el7.x86_64), в каждой собран zfs pool. при подаче нагрузки по разным дискам в произвольном порядке в messages возникают ошибки вида

версия zfs и ядра?

nikolay

История: lsi брендированный dell при нагреве уходил в какую то странную защиту при которой на несколько порядков падали иопсы. И температуру там вроде не посмотреть стандартными средствами, только через утилиту короче я бы посмотрел температуру везде где она есть, особенно на hba

47 градусов по smart как текущая на уровне hdd это много?

Сергей

47 градусов по smart как текущая на уровне hdd это много?

Эта ошибка не связана с температурой дисков.

Сергей

контроллер или интерфейсный кабель виноват

Я тоже грешил на это. У меня была похожая ошибка в проксе на достаточно старом сервере. Но после обновления до последнего ядра уже более 2 недель не вылазит.

nikolay

Я тоже грешил на это. У меня была похожая ошибка в проксе на достаточно старом сервере. Но после обновления до последнего ядра уже более 2 недель не вылазит.

сервер с одной полкой centos7.7.1908 (3.10.0-1062.12.1.el7.x86_64), версия zfs zfs-0.8.3-1, zfs-kmod-0.8.3-1 сервер с двумя полками centos7.6.1810 ( 3.10.0-957.12.1.el7.x86_64), версия zfs 0.7.13 - по этому хосту ошибки возникают много и часто

nikolay

еще общий вопрос - имеет ли смысл обновлять драйвер mpt3sas на версию с сайта broadcom? fw дисков обновил, прошивки на hba вроде тоже свежие..

Сергей

сервер с одной полкой centos7.7.1908 (3.10.0-1062.12.1.el7.x86_64), версия zfs zfs-0.8.3-1, zfs-kmod-0.8.3-1 сервер с двумя полками centos7.6.1810 ( 3.10.0-957.12.1.el7.x86_64), версия zfs 0.7.13 - по этому хосту ошибки возникают много и часто

На ядре 5.3.18 с zfs 0.8.3 ошибки уже более двух недель не вижу. Но специально через час-два специально скраб запущу чтобы дать нагрузку

nikolay

На ядре 5.3.18 с zfs 0.8.3 ошибки уже более двух недель не вижу. Но специально через час-два специально скраб запущу чтобы дать нагрузку

у меня не получиться ставить свежие ядра, только то, что есть в офф репо..

Сергей

у меня не получиться ставить свежие ядра, только то, что есть в офф репо..

Можно поискать отдельные репо со свежими ядрами или собрать самому

nikolay

на сервере с одной полкой последнее ядро из офф репо и актуальная версия zol к нему.. ошибки пока были один раз по одному диску, сейчас гоняем на нем синтетику и смотрим на результаты.

nikolay

Можно поискать отдельные репо со свежими ядрами или собрать самому

без вариантов, на сервер ставиться проприетарное по, которое требует офф версий ядер, на кастомное просто не встанет

George

на сервере с одной полкой последнее ядро из офф репо и актуальная версия zol к нему.. ошибки пока были один раз по одному диску, сейчас гоняем на нем синтетику и смотрим на результаты.

ну у вас проблема не в zfs, а ниже, у многих были проблемы с драйвером для hba, поэкспериментируйте с ним, ага

nikolay

ну у вас проблема не в zfs, а ниже, у многих были проблемы с драйвером для hba, поэкспериментируйте с ним, ага

проблема сразу с 50+ дисками? как можно поэксперементировать с драйвером hba, кроме как установить самую свежую версию?

George

проблема сразу с 50+ дисками? как можно поэксперементировать с драйвером hba, кроме как установить самую свежую версию?

уточнил ответ)

George

проблема сразу с 50+ дисками? как можно поэксперементировать с драйвером hba, кроме как установить самую свежую версию?

а диски у вас какие, кстати, не SMR?

nikolay

еще общий вопрос - имеет ли смысл обновлять драйвер mpt3sas на версию с сайта broadcom? fw дисков обновил, прошивки на hba вроде тоже свежие..

@gmelikov а по поводу драйвера имеет смысл заморачиваться или generic оставить и не париться?

nikolay

а диски у вас какие, кстати, не SMR?

не диски hgst, в одном случае sas, в другом sata, модели разные если что..

George

@gmelikov а по поводу драйвера имеет смысл заморачиваться или generic оставить и не париться?

вот пример по поводу драйвера, что он может аффектить https://git.kernel.org/pub/scm/linux/kernel/git/torvalds/linux.git/commit/drivers/scsi/scsi_error.c?id=14216561e164671ce147458653b1fea06a4ada1e

George

@gmelikov а по поводу драйвера имеет смысл заморачиваться или generic оставить и не париться?

какой лучше работает выбирайте))

George

вот интересный топик по теме с кучей инфы https://github.com/openzfs/zfs/issues/4713

George

вот это смягчает проблему для zfs https://github.com/openzfs/zfs/issues/6885

George

в общем по какой-то причине у вас некоторые диски таймаутятся, в тредах выше есть примеры как люди подключивают таймауты (костыль), посмотрите

George

а конкретные диски или рандомно валятся?

George

если конкретные - проблема с диском, если рандомные - всё, что выше надо смотреть

nikolay

если конкретные - проблема с диском, если рандомные - всё, что выше надо смотреть

Рандомно. Спасибо за ссылки, уже стал смотреть в этом направлении. Вариант с обновлением ос и zfs также проработаю

Сергей

Рандомно. Спасибо за ссылки, уже стал смотреть в этом направлении. Вариант с обновлением ос и zfs также проработаю

запускал scrub. Отработало без ошибок, на предыдущей версии ядра+zfs стабильно вылазила ошибка то на одном, то на другом дисках. Возможно что в последних версиях ядра что-то починили на предмет таймаутов.

Konstantin

Привет всем. #вопрос: Нормально ли использовать FreeNas с огромным объемом RAM, SSD под SLOG и включенной дедупликацией на одном сервере, и при этом делать бэкапы в другой FreeNas/чистый ZFS с ресурсами на несколько порядков скромнее? Собственно вопрос наверно в том, как будет работать при этом дедупликация и сжатие? Умрет ли второй сервер от требуемого RAM для дедупликации большого zpool или zfs как-то умеет "перекидывать" DDT между своими "братьями"? В целом, хотелось бы услышать, как правильно организовать подобную схему? Данных много, один сервер боевой (с большим кол-вом ресурсов), второй только для бэкапа и восстановления с него (не для пользовательской нагрузки). Спасибо!

Vladislav

и какая разница в RAM ?

Konstantin

4TB и 128GB например.

Vladislav

с головой хватит бэкапному серверу

Vladislav

dedup и компрессия используют CPU

Konstantin

Я правильно понял, что правило 5GB RAM на 1TB zpool не работает в таком случае?

Vladislav

грубо говоря нет.

Konstantin

А если все таки разобраться? :) Если zpool будет больше 1PB, то как будет жить второй сервер?

Vladislav

грубо говоря 1GB RAM на 1TB zpool + сколько то гигов RAM выделить под горячий кеш

Vladislav

и мониторить через zfs-stats