@ru_zfs - страница 627 - Telegram web archive

Maksim

сдох диск -> надо ребилд -> ребилд будет идти хорошо если сутки, может быть больше (при таких объемах) -> есть шанс что во время ребилда ещё один диск сдохнет -> пропадут все данные

Maksim

диски, надеюсь, не SMR?)

Ivan

SMR?

Maksim

модель дисков скиньте, скажем) SMR - технология "черепичной" записи, при которой записанные данные частично накладываются на соседнюю дорожку, которую тоже надо переписать. при ребилде это превращается в 10 дней ребилда вместо 1. надо искать диски с CMR (вроде бы ещё PMR может зваться), обычная запись

Ivan

seagate ST16000NM004J

Maksim

seagate ST16000NM004J

гугл говорит, что CMR, всё хорошо

Ivan

Ну я про это не знал, но это радует ))

Maksim

16тб каждый

где-то бывают суровые рекомендации что raidz не стоит использовать для дисков больше 1ТБ. имхо это перебор, но 16 точно надо хотя бы raidz2

Ivan

Ок ))

Ivan

smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.10.0-21-amd64] (local build) Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org === START OF INFORMATION SECTION === Model Family: Toshiba MG07ACA... Enterprise Capacity HDD Device Model: TOSHIBA MG07ACA14TE Serial Number: 91H0A0CCF94G LU WWN Device Id: 5 000039 b28d1e0ec Firmware Version: 0104 User Capacity: 14 000 519 643 136 bytes [14,0 TB] Sector Sizes: 512 bytes logical, 4096 bytes physical Rotation Rate: 7200 rpm Form Factor: 3.5 inches Device is: In smartctl database [for details use: -P show] ATA Version is: ACS-3 T13/2161-D revision 5 SATA Version is: SATA 3.3, 6.0 Gb/s (current: 6.0 Gb/s) Local Time is: Wed May 31 22:16:44 2023 MSK SMART support is: Available - device has SMART capability. SMART support is: Enabled === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED General SMART Values: Offline data collection status: (0x82) Offline data collection activity was completed without error. Auto Offline Data Collection: Enabled. Self-test execution status: ( 0) The previous self-test routine completed without error or no self-test has ever been run. Total time to complete Offline data collection: ( 120) seconds. Offline data collection capabilities: (0x5b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. No Conveyance Self-test supported. Selective Self-test supported. SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. General Purpose Logging supported. Short self-test routine recommended polling time: ( 2) minutes. Extended self-test routine recommended polling time: (1339) minutes. SCT capabilities: (0x003d) SCT Status supported. SCT Error Recovery Control supported. SCT Feature Control supported. SCT Data Table supported.

Ivan

SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000b 100 100 050 Pre-fail Always - 0 2 Throughput_Performance 0x0005 100 100 050 Pre-fail Offline - 0 3 Spin_Up_Time 0x0027 100 100 001 Pre-fail Always - 7756 4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 27 5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 0 7 Seek_Error_Rate 0x000b 100 100 050 Pre-fail Always - 0 8 Seek_Time_Performance 0x0005 100 100 050 Pre-fail Offline - 0 9 Power_On_Hours 0x0032 072 072 000 Old_age Always - 11207 10 Spin_Retry_Count 0x0033 100 100 030 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 26 23 Helium_Condition_Lower 0x0023 100 100 075 Pre-fail Always - 0 24 Helium_Condition_Upper 0x0023 100 100 075 Pre-fail Always - 0 191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 3 192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 4 193 Load_Cycle_Count 0x0032 100 100 000 Old_age Always - 2261 194 Temperature_Celsius 0x0022 100 100 000 Old_age Always - 29 (Min/Max 18/57) 196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0 197 Current_Pending_Sector 0x0032 100 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0030 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 9 220 Disk_Shift 0x0002 100 100 000 Old_age Always - 235012097 222 Loaded_Hours 0x0032 086 086 000 Old_age Always - 5818 223 Load_Retry_Count 0x0032 100 100 000 Old_age Always - 0 224 Load_Friction 0x0022 100 100 000 Old_age Always - 0 226 Load-in_Time 0x0026 100 100 000 Old_age Always - 533 240 Head_Flying_Hours 0x0001 100 100 001 Pre-fail Offline - 0 SMART Error Log Version: 1 ATA Error Count: 9 (device log contains only the most recent five errors) CR = Command Register [HEX] FR = Features Register [HEX] SC = Sector Count Register [HEX] SN = Sector Number Register [HEX] CL = Cylinder Low Register [HEX] CH = Cylinder High Register [HEX] DH = Device/Head Register [HEX] DC = Device Command Register [HEX] ER = Error register [HEX] ST = Status register [HEX] Powered_Up_Time is measured from power on, and printed as DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes, SS=sec, and sss=millisec. It "wraps" after 49.710 days. Error 9 occurred at disk power-on lifetime: 11206 hours (466 days + 22 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 84 43 a0 8f dc 16 40 Error: ICRC, ABRT at LBA = 0x0016dc8f = 1498255 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- 60 08 70 78 dd 16 40 00 13d+12:36:57.632 READ FPDMA QUEUED 60 08 c8 70 dd 16 40 00 13d+12:36:57.632 READ FPDMA QUEUED 60 08 c0 68 dd 16 40 00 13d+12:36:57.631 READ FPDMA QUEUED 60 08 b8 60 dd 16 40 00 13d+12:36:57.631 READ FPDMA QUEUED 60 08 20 58 dd 16 40 00 13d+12:36:57.631 READ FPDMA QUEUED

Ivan

Error 8 occurred at disk power-on lifetime: 11206 hours (466 days + 22 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 84 43 98 17 49 f8 40 Error: ICRC, ABRT at LBA = 0x00f84917 = 16271639 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- 60 08 00 90 49 f8 40 00 13d+12:36:57.107 READ FPDMA QUEUED 60 08 f8 98 49 f8 40 00 13d+12:36:57.107 READ FPDMA QUEUED 60 08 f0 a0 49 f8 40 00 13d+12:36:57.107 READ FPDMA QUEUED 60 08 e8 c8 4a f8 40 00 13d+12:36:57.107 READ FPDMA QUEUED 60 08 e0 d8 4a f8 40 00 13d+12:36:57.107 READ FPDMA QUEUED Error 7 occurred at disk power-on lifetime: 11206 hours (466 days + 22 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 84 43 70 17 49 f8 40 Error: ICRC, ABRT at LBA = 0x00f84917 = 16271639 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- 60 08 28 d8 4a f8 40 00 13d+12:36:56.643 READ FPDMA QUEUED 60 08 30 d0 4a f8 40 00 13d+12:36:56.620 READ FPDMA QUEUED 60 08 20 c8 4a f8 40 00 13d+12:36:56.619 READ FPDMA QUEUED 60 08 28 c8 48 f8 40 00 13d+12:36:56.618 READ FPDMA QUEUED 60 08 68 c0 49 f8 40 00 13d+12:36:56.618 READ FPDMA QUEUED Error 6 occurred at disk power-on lifetime: 11206 hours (466 days + 22 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 84 43 c0 9f 4a f8 40 Error: ICRC, ABRT at LBA = 0x00f84a9f = 16272031 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- 60 08 b0 48 49 f8 40 00 13d+12:36:56.113 READ FPDMA QUEUED 60 08 b8 50 49 f8 40 00 13d+12:36:56.113 READ FPDMA QUEUED 60 08 a8 d8 48 f8 40 00 13d+12:36:56.113 READ FPDMA QUEUED 60 08 a0 e0 48 f8 40 00 13d+12:36:56.113 READ FPDMA QUEUED 60 08 98 e8 48 f8 40 00 13d+12:36:56.113 READ FPDMA QUEUED Error 5 occurred at disk power-on lifetime: 11206 hours (466 days + 22 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 84 43 e8 cf 48 f8 40 Error: ICRC, ABRT at LBA = 0x00f848cf = 16271567 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- 60 08 e0 c0 49 f8 40 00 13d+12:36:55.669 READ FPDMA QUEUED 60 08 d8 b8 49 f8 40 00 13d+12:36:55.669 READ FPDMA QUEUED 60 08 d0 b0 49 f8 40 00 13d+12:36:55.669 READ FPDMA QUEUED 60 08 c8 a8 49 f8 40 00 13d+12:36:55.669 READ FPDMA QUEUED 60 08 a0 a0 49 f8 40 00 13d+12:36:55.669 READ FPDMA QUEUED SMART Self-test log structure revision number 1 No self-tests have been logged. [To run self-tests, use: smartctl -t] SMART Selective self-test log data structure revision number 1 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 1 0 0 Not_testing 2 0 0 Not_testing 3 0 0 Not_testing 4 0 0 Not_testing 5 0 0 Not_testing Selective self-test flags (0x0): After scanning selected spans, do NOT read-scan remainder of disk. If Selective self-test is pending on power-up, resume after 0 minute delay.

Ivan

Ребята, тут на старом рейде. Относительно старом диск отвалился

Ivan

Я если честно не очень умею читать эти отчеты смарта. Скажите, диску кранты, или типо просто контакт отошел?

Ivan

Вообще диску порядка 2 лет

Artem

Похоже на проводок. См Reallocated_Sector_Count и UDMA_CRC_Error_Count

Ivan

Ага, похоже. Потому что mdadm написал, что он просто Removed

Ivan

Может просто отошёл контакт

Ivan

Но я решил все же в смарт заглянуть

Art

Ребятки всем привет! Пожалуйста, просветите меня, теоретический вопрос! У меня рекордсайз 4М, сжатие zle, сколько места займёт файл на диске если его размер 2,5МБ? Спасибо!

Ставлю на 2,5 или меньше, если пожмётся сколько-нибудь Проверим: zpool create epool mirror sde sdf -o ashift=12 echo 16777216 >> /sys/module/zfs/parameters/zfs_max_recordsize zfs set recordsize=4M epool zfs set compression=zle epool dd if=/dev/urandom bs=1KB count=2500 of=testfile_001 2500+0 records in 2500+0 records out 2500000 bytes (2.5 MB, 2.4 MiB) copied, 0.0482634 s, 51.8 MB/s du -sh * 2.4M testfile_001 А ты чего ждал?)

Nick

Ребятки всем привет! Пожалуйста, просветите меня, теоретический вопрос! У меня рекордсайз 4М, сжатие zle, сколько места займёт файл на диске если его размер 2,5МБ? Спасибо!

2.5 и займёт, примерно. Рекорд сайз - это максимальный размер , если файл меньше - будет меньше, с округлением до размера ashift.

Алексей

Спасибо, ребята!

Алексей

2.5 и займёт, примерно. Рекорд сайз - это максимальный размер , если файл меньше - будет меньше, с округлением до размера ashift.

Не знал что гранулярность редуцирования неполного блока до размера ашифт

central

Ставлю на 2,5 или меньше, если пожмётся сколько-нибудь Проверим: zpool create epool mirror sde sdf -o ashift=12 echo 16777216 >> /sys/module/zfs/parameters/zfs_max_recordsize zfs set recordsize=4M epool zfs set compression=zle epool dd if=/dev/urandom bs=1KB count=2500 of=testfile_001 2500+0 records in 2500+0 records out 2500000 bytes (2.5 MB, 2.4 MiB) copied, 0.0482634 s, 51.8 MB/s du -sh * 2.4M testfile_001 А ты чего ждал?)

А du разве имеет хит какое то понятие о размере сектора? Он же берет данные из меты условно говоря а не реально занимаемый обеим

central

Zfs знает что файл 2.5 и исправно покажет тебе именно эту цифру и это ну никак не зависит от того какой оверхед будет у этого файла

Алексей

Zfs знает что файл 2.5 и исправно покажет тебе именно эту цифру и это ну никак не зависит от того какой оверхед будет у этого файла

Вот у меня сомнения такого же рода

Алексей

И более того я думал редуцируется только кратно степени двойки а не до ашифта

Алексей

И более того я думал редуцируется только кратно степени двойки а не до ашифта

А это говорило мне о том что занимать будет все 4

central

Нужно создать пару миллионы этих файлов и глянуть занимаемый объем в zpool list тогда примерно можно будет прикинуть оверхед

Алексей

А это говорило мне о том что занимать будет все 4

Но, чисто технически может редуцироваться до 2 + 0,5

Алексей

Наверное

Vladislav

Поставить его в чтение и отслеживать используемые сектора через blktrace

Станислав

где-то бывают суровые рекомендации что raidz не стоит использовать для дисков больше 1ТБ. имхо это перебор, но 16 точно надо хотя бы raidz2

Вообще про 8Тб диски я такой видел, а 1Тб это уже слишком

Ivan

Ставлю на 2,5 или меньше, если пожмётся сколько-нибудь Проверим: zpool create epool mirror sde sdf -o ashift=12 echo 16777216 >> /sys/module/zfs/parameters/zfs_max_recordsize zfs set recordsize=4M epool zfs set compression=zle epool dd if=/dev/urandom bs=1KB count=2500 of=testfile_001 2500+0 records in 2500+0 records out 2500000 bytes (2.5 MB, 2.4 MiB) copied, 0.0482634 s, 51.8 MB/s du -sh * 2.4M testfile_001 А ты чего ждал?)

а с файлом оазмером 4.1мб что получается ?

Art

Zfs знает что файл 2.5 и исправно покажет тебе именно эту цифру и это ну никак не зависит от того какой оверхед будет у этого файла

хм, а как тогда наверняка выяснить, сколько реально занято? Просто сама зфс показывает вот что: zfs list -o space NAME AVAIL USED USEDSNAP USEDDS USEDREFRESERV USEDCHILD epool 7.26G 2.80M 0B 2.49M 0B 324K 324K не знаю что такое) Этот объём в датасете был занят изначально, при создании пула. Никогда не понимал, откуда это берётся.

Art

а с файлом оазмером 4.1мб что получается ?

так-с, вот что получается: Пустой датасет: zfs list -o space NAME AVAIL USED USEDSNAP USEDDS USEDREFRESERV USEDCHILD epool 7.27G 420K 0B 96K 0B 324K Генерю файл, и замеряю что получилось: root@exp2:/epool# dd if=/dev/urandom bs=1KB count=4100 of=testfile_002 4100+0 records in 4100+0 records out 4100000 bytes (4.1 MB, 3.9 MiB) copied, 1.78433 s, 2.3 MB/s root@exp2:/epool# du -sh * 4.0M testfile_002 root@exp2:/epool# zfs list -o space NAME AVAIL USED USEDSNAP USEDDS USEDREFRESERV USEDCHILD epool 7.26G 4.33M 0B 4.01M 0B 324K

central

Нужно создать пару миллионы этих файлов и глянуть занимаемый объем в zpool list тогда примерно можно будет прикинуть оверхед

Я бы начал с этого

Ivan

подскажите инструмент которым можно определить медианный размер файлов

Станислав

А du разве имеет хит какое то понятие о размере сектора? Он же берет данные из меты условно говоря а не реально занимаемый обеим

root@s2:~# du --apparent-size -h /var/log/syslog 146K /var/log/syslog root@s2:~# du -h /var/log/syslog 25K /var/log/syslog

Станислав

Для полноты картины: root@s2:~# ll /var/log/syslog -rw-r----- 1 syslog adm 146K июн 1 11:50 /var/log/syslog

central

Если верить манам по stat2 du все таки вернет размер файла а не занимаемой им место

Станислав

Если верить манам по stat2 du все таки вернет размер файла а не занимаемой им место

А я ман просто по du читал, там --apparent-size описан так: --apparent-size print apparent sizes, rather than disk usage; although the apparent size is usually smaller, it may be larger due to holes in ('sparse') files, internal fragmentation, indirect blocks, and the like

Art

root@s2:~# du --apparent-size -h /var/log/syslog 146K /var/log/syslog root@s2:~# du -h /var/log/syslog 25K /var/log/syslog

У меня одинаковый вывод и с этим ключом и без du -h testfile_002 4.0M testfile_002 du --apparent-size -h testfile_002 4.0M testfile_002 Что по идее логично, ведь файл сгенерен из /dev/urandom , то есть в нём не должно быть дыр из нулей

central

А я ман просто по du читал, там --apparent-size описан так: --apparent-size print apparent sizes, rather than disk usage; although the apparent size is usually smaller, it may be larger due to holes in ('sparse') files, internal fragmentation, indirect blocks, and the like

Я не шибко спец в сях, но насколько вижу du берет данные из fts и если он про реальный размер не знает то откуда du узнает ?

Nick

Так, пункт первый интересный: stripe width in RAIDZ is dynamic, and starts with at least one data block part, or up to disks count minus parity number parts of data block То есть при записи файла размером меньше, чем recordsize у нас не будет 1 диск с файлом и 5 с 0. А будет играться от ashift

возвращаясь к . example a 5-wide RAIDZ-1 ... A 11-sector block will use 1 parity + 4 data + 1 parity + 4 data + 1 parity + 3 data , что вполне ожидаемо. Подробнее на https://www.delphix.com/blog/zfs-raidz-stripe-width-or-how-i-learned-stop-worrying-and-love-raidz RAID-Z also requires that each allocation be a multiple of (p+1) - оттуда же Примеры на https://openzfs.github.io/openzfs-docs/Basic%20Concepts/RAIDZ.html плохо понятны. А ситуация, когда "if recordsize is less or equal to sector size" если и может быть вообще, то только на чистом zfs без raidz. Да и то сложно придумать зачем делать рекордсайз маленьким. Его уменьшать в принципе нужно лишь в очень узких случаях - базы данных и редкие оптимизации write amplification. Ещё одно хорошее объяснение про padding block внезапно нашлось на https://www.reddit.com/r/zfs/comments/ujba3i/does_allocation_overhead_still_exist_with/ The larger your record size, the less impact this has. ... Sometimes it even works out to 0%, with RAID-Z2, a 16KB record is 4 sectors + 2 parity, is already a multiple of 3, so no padding is required.

central

Я не шибко спец в сях, но насколько вижу du берет данные из fts и если он про реальный размер не знает то откуда du узнает ?

В итоге никто не знает где собака зарыта?

Vladislav

возвращаясь к . example a 5-wide RAIDZ-1 ... A 11-sector block will use 1 parity + 4 data + 1 parity + 4 data + 1 parity + 3 data , что вполне ожидаемо. Подробнее на https://www.delphix.com/blog/zfs-raidz-stripe-width-or-how-i-learned-stop-worrying-and-love-raidz RAID-Z also requires that each allocation be a multiple of (p+1) - оттуда же Примеры на https://openzfs.github.io/openzfs-docs/Basic%20Concepts/RAIDZ.html плохо понятны. А ситуация, когда "if recordsize is less or equal to sector size" если и может быть вообще, то только на чистом zfs без raidz. Да и то сложно придумать зачем делать рекордсайз маленьким. Его уменьшать в принципе нужно лишь в очень узких случаях - базы данных и редкие оптимизации write amplification. Ещё одно хорошее объяснение про padding block внезапно нашлось на https://www.reddit.com/r/zfs/comments/ujba3i/does_allocation_overhead_still_exist_with/ The larger your record size, the less impact this has. ... Sometimes it even works out to 0%, with RAID-Z2, a 16KB record is 4 sectors + 2 parity, is already a multiple of 3, so no padding is required.

Так речь как раз о том, что 2+2 4+2 8+2 16+2 как раз и хорошо бьются по padding

Vladislav

В итоге никто не знает где собака зарыта?

Компрессия покажется с -A у du, а вот если речь про разницу в размере, когда recordsize такой большой уже хороший вопрос

Animal

нубский вопрос по кэшу. если присобачить к пулу кэш раздел с ссд то это просто кэш на чтение. а если добавить ссд как LOG к пулу - это кэш на запись получается или я чет путаю. спасибо

Animal

L2ARC (про ARC в ОЗУ речь не идет сейчас)

Aleksandr

нубский вопрос по кэшу. если присобачить к пулу кэш раздел с ссд то это просто кэш на чтение. а если добавить ссд как LOG к пулу - это кэш на запись получается или я чет путаю. спасибо

Путаешь, слог только для синхоронных записей

Animal

те если zpool add log.... это для синхронных записей?

Animal

ладно)) пошел вспоминать листать мануалы... )))

𝚔𝚟𝚊𝚙𝚜

Парни, а кто-нибудь люстру под убунтой держит? Как с кроссплатформенностью у неё сейчас?

Alexander

А какой смысл держать люстру под убунтой? Есть проверенные/протестированные серверные пакеты lustre + zfs (хотя и не самый свежий) под RHEL, которые можно просто взять и установить.. Клиентские пакеты есть готовые для некоторых RHEL/SLES/Ubuntu, также клиента люстры можно легко собрать под многие линуксы...

Dmitriy

Коллеги! Всем добра! может кто-то сталкивался с такой ситуацией ловлю на забиксе предупреждения от разных пулов zfs, на разных хостах. Железо проверил, причин для паники не вижу. Ниже типичное сообщение: Problem: sdd: Disk read/write request responses are too high (read > 20 ms for 15m or write > 20 ms for 15m) Problem started at 14:15:01 on 2023.06.04 Problem name: sdd: Disk read/write request responses are too high (read > 20 ms for 15m or write > 20 ms for 15m)

Dmitriy

пул как правило примитивный raidz1 5*SAS

Dmitriy

в какую сторону копать?

Fedor

Диски могут быть перегружены, это стандартная заббиксовская алертилка.

Mikhail

в какую сторону копать?

А нагрузка есть?

Fedor

Если устраивает такое время ответа дисков, можно в триггере поднять лимиты

𝚔𝚟𝚊𝚙𝚜

А какой смысл держать люстру под убунтой? Есть проверенные/протестированные серверные пакеты lustre + zfs (хотя и не самый свежий) под RHEL, которые можно просто взять и установить.. Клиентские пакеты есть готовые для некоторых RHEL/SLES/Ubuntu, также клиента люстры можно легко собрать под многие линуксы...

Я подумываю запихнуть люстру в куб 🫠 а потому хочется чтобы было distro-unspecific

𝚔𝚟𝚊𝚙𝚜

В моём понимании после того как люстра стала независима от ldiskfs её стало возможно принести на любое ядро

Mikhail

В моём понимании после того как люстра стала независима от ldiskfs её стало возможно принести на любое ядро

у меня не получилось :( но она прекрасно в кубе крутится

𝚔𝚟𝚊𝚙𝚜

у меня не получилось :( но она прекрасно в кубе крутится

Я и серверную часть хотел кубернетизировать в смысле)

Mikhail

ну - на alma 8.7 в кубе оно работает все три демона

Mikhail

единственное что dne не завелось

Mikhail

но это я особо не старался

Mikhail

а ну и я не кластеризовал mgs mds

Mikhail

в общем забил я на эту идею в итоге

George

возвращаясь к . example a 5-wide RAIDZ-1 ... A 11-sector block will use 1 parity + 4 data + 1 parity + 4 data + 1 parity + 3 data , что вполне ожидаемо. Подробнее на https://www.delphix.com/blog/zfs-raidz-stripe-width-or-how-i-learned-stop-worrying-and-love-raidz RAID-Z also requires that each allocation be a multiple of (p+1) - оттуда же Примеры на https://openzfs.github.io/openzfs-docs/Basic%20Concepts/RAIDZ.html плохо понятны. А ситуация, когда "if recordsize is less or equal to sector size" если и может быть вообще, то только на чистом zfs без raidz. Да и то сложно придумать зачем делать рекордсайз маленьким. Его уменьшать в принципе нужно лишь в очень узких случаях - базы данных и редкие оптимизации write amplification. Ещё одно хорошее объяснение про padding block внезапно нашлось на https://www.reddit.com/r/zfs/comments/ujba3i/does_allocation_overhead_still_exist_with/ The larger your record size, the less impact this has. ... Sometimes it even works out to 0%, with RAID-Z2, a 16KB record is 4 sectors + 2 parity, is already a multiple of 3, so no padding is required.

хороший пример про padding, если кто первее меня доберётся PR сделать - с удовольствием поревьюю

Ivan

Ребята, пытаюсь тестировать массив на скорость записи. Есть пул на 12 дисков SAS 7200rpm из 6 vdev по 2 диска mirrror в каждом.

Ivan

Скорость записи около 144 Мб/сек

Ivan

У меня есть стойкое ощущение, что это очень мало для такой конфигурации?

Ivan

Как думаете?

Алексей

Как думаете?

, а ты как тестируешь?

Ivan

Просто поставил папку с файлами заливаться и засек время

Vladislav

Берёшь: 1 диск - тестируешь скорость локально Берёшь этот же диск тестируешь его скорость через сетку (тот же linux и iscsi/NFS/smb) Берёшь собираешь такой же рейд на mdadm - тестируешь

Vladislav

Здравствуйте, у меня диски с неизвестной начальной скоростью, с неизвестным объемом рама, с неизвестной сетевухой и клиентом (iscsi/nfs/smb) Что-то медленно копируются файлы

Vladislav

Телепаты спят уже