Maksim
А почему?
сдох диск -> надо ребилд -> ребилд будет идти хорошо если сутки, может быть больше (при таких объемах) -> есть шанс что во время ребилда ещё один диск сдохнет -> пропадут все данные
Maksim
диски, надеюсь, не SMR?)
Ivan
SMR?
Maksim
модель дисков скиньте, скажем) SMR - технология "черепичной" записи, при которой записанные данные частично накладываются на соседнюю дорожку, которую тоже надо переписать. при ребилде это превращается в 10 дней ребилда вместо 1. надо искать диски с CMR (вроде бы ещё PMR может зваться), обычная запись
Ivan
seagate ST16000NM004J
Ivan
Ну я про это не знал, но это радует ))
Maksim
16тб каждый
где-то бывают суровые рекомендации что raidz не стоит использовать для дисков больше 1ТБ. имхо это перебор, но 16 точно надо хотя бы raidz2
Ivan
Ок ))
Ivan
Error 8 occurred at disk power-on lifetime: 11206 hours (466 days + 22 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
84 43 98 17 49 f8 40 Error: ICRC, ABRT at LBA = 0x00f84917 = 16271639
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
60 08 00 90 49 f8 40 00 13d+12:36:57.107 READ FPDMA QUEUED
60 08 f8 98 49 f8 40 00 13d+12:36:57.107 READ FPDMA QUEUED
60 08 f0 a0 49 f8 40 00 13d+12:36:57.107 READ FPDMA QUEUED
60 08 e8 c8 4a f8 40 00 13d+12:36:57.107 READ FPDMA QUEUED
60 08 e0 d8 4a f8 40 00 13d+12:36:57.107 READ FPDMA QUEUED
Error 7 occurred at disk power-on lifetime: 11206 hours (466 days + 22 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
84 43 70 17 49 f8 40 Error: ICRC, ABRT at LBA = 0x00f84917 = 16271639
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
60 08 28 d8 4a f8 40 00 13d+12:36:56.643 READ FPDMA QUEUED
60 08 30 d0 4a f8 40 00 13d+12:36:56.620 READ FPDMA QUEUED
60 08 20 c8 4a f8 40 00 13d+12:36:56.619 READ FPDMA QUEUED
60 08 28 c8 48 f8 40 00 13d+12:36:56.618 READ FPDMA QUEUED
60 08 68 c0 49 f8 40 00 13d+12:36:56.618 READ FPDMA QUEUED
Error 6 occurred at disk power-on lifetime: 11206 hours (466 days + 22 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
84 43 c0 9f 4a f8 40 Error: ICRC, ABRT at LBA = 0x00f84a9f = 16272031
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
60 08 b0 48 49 f8 40 00 13d+12:36:56.113 READ FPDMA QUEUED
60 08 b8 50 49 f8 40 00 13d+12:36:56.113 READ FPDMA QUEUED
60 08 a8 d8 48 f8 40 00 13d+12:36:56.113 READ FPDMA QUEUED
60 08 a0 e0 48 f8 40 00 13d+12:36:56.113 READ FPDMA QUEUED
60 08 98 e8 48 f8 40 00 13d+12:36:56.113 READ FPDMA QUEUED
Error 5 occurred at disk power-on lifetime: 11206 hours (466 days + 22 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
84 43 e8 cf 48 f8 40 Error: ICRC, ABRT at LBA = 0x00f848cf = 16271567
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
60 08 e0 c0 49 f8 40 00 13d+12:36:55.669 READ FPDMA QUEUED
60 08 d8 b8 49 f8 40 00 13d+12:36:55.669 READ FPDMA QUEUED
60 08 d0 b0 49 f8 40 00 13d+12:36:55.669 READ FPDMA QUEUED
60 08 c8 a8 49 f8 40 00 13d+12:36:55.669 READ FPDMA QUEUED
60 08 a0 a0 49 f8 40 00 13d+12:36:55.669 READ FPDMA QUEUED
SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
Ivan
Ребята, тут на старом рейде. Относительно старом диск отвалился
Ivan
Я если честно не очень умею читать эти отчеты смарта. Скажите, диску кранты, или типо просто контакт отошел?
Ivan
Вообще диску порядка 2 лет
Artem
Ivan
Ага, похоже. Потому что mdadm написал, что он просто Removed
Ivan
Может просто отошёл контакт
Ivan
Но я решил все же в смарт заглянуть
Art
Ребятки всем привет!
Пожалуйста, просветите меня, теоретический вопрос!
У меня рекордсайз 4М, сжатие zle, сколько места займёт файл на диске если его размер 2,5МБ?
Спасибо!
Ставлю на 2,5
или меньше, если пожмётся сколько-нибудь
Проверим:
zpool create epool mirror sde sdf -o ashift=12
echo 16777216 >> /sys/module/zfs/parameters/zfs_max_recordsize
zfs set recordsize=4M epool
zfs set compression=zle epool
dd if=/dev/urandom bs=1KB count=2500 of=testfile_001
2500+0 records in
2500+0 records out
2500000 bytes (2.5 MB, 2.4 MiB) copied, 0.0482634 s, 51.8 MB/s
du -sh *
2.4M testfile_001
А ты чего ждал?)
Nick
Алексей
Спасибо, ребята!
Алексей
central
central
Zfs знает что файл 2.5 и исправно покажет тебе именно эту цифру и это ну никак не зависит от того какой оверхед будет у этого файла
Алексей
Алексей
И более того я думал редуцируется только кратно степени двойки а не до ашифта
Алексей
central
Нужно создать пару миллионы этих файлов и глянуть занимаемый объем в zpool list тогда примерно можно будет прикинуть оверхед
Алексей
Наверное
Vladislav
Поставить его в чтение и отслеживать используемые сектора через blktrace
Станислав
Ivan
Art
а с файлом оазмером 4.1мб что получается ?
так-с, вот что получается:
Пустой датасет:
zfs list -o space
NAME AVAIL USED USEDSNAP USEDDS USEDREFRESERV USEDCHILD
epool 7.27G 420K 0B 96K 0B 324K
Генерю файл, и замеряю что получилось:
root@exp2:/epool# dd if=/dev/urandom bs=1KB count=4100 of=testfile_002
4100+0 records in
4100+0 records out
4100000 bytes (4.1 MB, 3.9 MiB) copied, 1.78433 s, 2.3 MB/s
root@exp2:/epool# du -sh *
4.0M testfile_002
root@exp2:/epool# zfs list -o space
NAME AVAIL USED USEDSNAP USEDDS USEDREFRESERV USEDCHILD
epool 7.26G 4.33M 0B 4.01M 0B 324K
central
Ivan
подскажите инструмент которым можно определить медианный размер файлов
Станислав
Станислав
Для полноты картины:
root@s2:~# ll /var/log/syslog
-rw-r----- 1 syslog adm 146K июн 1 11:50 /var/log/syslog
central
Если верить манам по stat2 du все таки вернет размер файла а не занимаемой им место
central
Nick
Так, пункт первый интересный:
stripe width in RAIDZ is dynamic, and starts with at least one data block part, or up to disks count minus parity number parts of data block
То есть при записи файла размером меньше, чем recordsize у нас не будет 1 диск с файлом и 5 с 0.
А будет играться от ashift
возвращаясь к .
example a 5-wide RAIDZ-1 ... A 11-sector block will use 1 parity + 4 data + 1 parity + 4 data + 1 parity + 3 data , что вполне ожидаемо. Подробнее на https://www.delphix.com/blog/zfs-raidz-stripe-width-or-how-i-learned-stop-worrying-and-love-raidz RAID-Z also requires that each allocation be a multiple of (p+1) - оттуда же
Примеры на https://openzfs.github.io/openzfs-docs/Basic%20Concepts/RAIDZ.html плохо понятны. А ситуация, когда "if recordsize is less or equal to sector size" если и может быть вообще, то только на чистом zfs без raidz. Да и то сложно придумать зачем делать рекордсайз маленьким. Его уменьшать в принципе нужно лишь в очень узких случаях - базы данных и редкие оптимизации write amplification.
Ещё одно хорошее объяснение про padding block внезапно нашлось на https://www.reddit.com/r/zfs/comments/ujba3i/does_allocation_overhead_still_exist_with/
The larger your record size, the less impact this has. ... Sometimes it even works out to 0%, with RAID-Z2, a 16KB record is 4 sectors + 2 parity, is already a multiple of 3, so no padding is required.
central
Vladislav
Animal
нубский вопрос по кэшу. если присобачить к пулу кэш раздел с ссд то это просто кэш на чтение. а если добавить ссд как LOG к пулу - это кэш на запись получается или я чет путаю. спасибо
Animal
L2ARC (про ARC в ОЗУ речь не идет сейчас)
Aleksandr
Animal
те если zpool add log.... это для синхронных записей?
Animal
ладно)) пошел вспоминать листать мануалы... )))
𝚔𝚟𝚊𝚙𝚜
Парни, а кто-нибудь люстру под убунтой держит?
Как с кроссплатформенностью у неё сейчас?
Alexander
А какой смысл держать люстру под убунтой? Есть проверенные/протестированные серверные пакеты lustre + zfs (хотя и не самый свежий) под RHEL, которые можно просто взять и установить..
Клиентские пакеты есть готовые для некоторых RHEL/SLES/Ubuntu, также клиента люстры можно легко собрать под многие линуксы...
Dmitriy
Коллеги! Всем добра!
может кто-то сталкивался с такой ситуацией
ловлю на забиксе предупреждения от разных пулов zfs, на разных хостах. Железо проверил, причин для паники не вижу.
Ниже типичное сообщение:
Problem: sdd: Disk read/write request responses are too high (read > 20 ms for 15m or write > 20 ms for 15m)
Problem started at 14:15:01 on 2023.06.04
Problem name: sdd: Disk read/write request responses are too high (read > 20 ms for 15m or write > 20 ms for 15m)
Dmitriy
пул как правило примитивный raidz1 5*SAS
Dmitriy
в какую сторону копать?
Fedor
Диски могут быть перегружены, это стандартная заббиксовская алертилка.
Mikhail
Fedor
Если устраивает такое время ответа дисков, можно в триггере поднять лимиты
𝚔𝚟𝚊𝚙𝚜
𝚔𝚟𝚊𝚙𝚜
В моём понимании после того как люстра стала независима от ldiskfs её стало возможно принести на любое ядро
Mikhail
𝚔𝚟𝚊𝚙𝚜
Mikhail
ну - на alma 8.7 в кубе оно работает все три демона
Mikhail
единственное что dne не завелось
Mikhail
но это я особо не старался
Mikhail
а ну и я не кластеризовал mgs mds
Mikhail
в общем забил я на эту идею в итоге
George
Ivan
Ребята, пытаюсь тестировать массив на скорость записи. Есть пул на 12 дисков SAS 7200rpm из 6 vdev по 2 диска mirrror в каждом.
Ivan
Скорость записи около 144 Мб/сек
Ivan
У меня есть стойкое ощущение, что это очень мало для такой конфигурации?
Ivan
Как думаете?
Ivan
Просто поставил папку с файлами заливаться и засек время
Vladislav
Берёшь:
1 диск - тестируешь скорость локально
Берёшь этот же диск тестируешь его скорость через сетку (тот же linux и iscsi/NFS/smb)
Берёшь собираешь такой же рейд на mdadm - тестируешь
Vladislav
Здравствуйте, у меня диски с неизвестной начальной скоростью, с неизвестным объемом рама, с неизвестной сетевухой и клиентом (iscsi/nfs/smb)
Что-то медленно копируются файлы
Vladislav
Телепаты спят уже