Free
и если мы видим перезагруженный сервер в данном случае, то это должно быть аппаратная проблема.
Не объясняет, почему при уменьшении количества запущенных нод перезагрузки становятся реже (и даже совсем пропадают при количестве нод примерно менее половины).
Не говоря о том, что аптайм до апгрейда был несколько месяцев в полной загрузке.
И вообще исходный вопрос был: чем так интенсивно занимаются arc_prune и arc_evict при primarycache=none на всех датасетах и как этого избежать.
Ivan
Vladislav
Как вариант открыть issue на Гите
Vladislav
https://github.com/openzfs/zfs/pull/17065
Vladislav
Тут спрашивали почему использовать кэш плохо
Vladislav
Так вот
Vladislav
ZFS игнорирует ошибки flush (потому что изначально не предназначено, что они будут ему поступать)
Free
ну сделайте даунгрейд и надейтесь что нагрузка станет меньше.
Нагрузка от storj не уменьшится.
А иногда будет и увеличиваться (было уже так несколько месяцев назад когда разработчики проводили нагрузочное тестирование).
Вопрос в том, как заставить zfs не пытаться при этом всё в кэш упихивать, даже если мне это не требуется (когда от storj идут массовые загрузки для долгого хранения)
Alexey
Alexey
Arc Вам наоборот снижает нагрузку ввода-вывода на диски...
Artem
Alexey
Каждый раз, когда идет обращение на чтение к диску, zfs проверяет есть ли запрашиваемые данные в arc. Если есть, то они из arc берутся, с диска не читается.
Alexey
Если данные пишутся на диск, то они тоже попадают в arc.
Alexey
Данные из arc "вымываются" по хитрому алгоритму. Если данные часто запрашиваются, то они "живут" в arc долго.
Alexey
если есть память zfs ее использует. Она "не знает", что у Вас за данные: бэкап или виртуалки....
Alexey
нет-нет. процессор не насилуется записью в память и чтением. Нагрузка может быть из-за например сильного сжатия данных при записи. Тогда да... Может быть занято ядром при записи из-за например того, что диск тупит и iowait висит.
Alexey
у Вас случаем не gzip-9 сжатие настроено?
Alexey
у меня была ситуация на паре серверов на дисках samsung 860 pro. Диски замирают, на них не возможно что-либо записать, считать. iowaite под 100%, система висит, кроме zabbix
Free
Alexey
это быстрый метод сжатия, быстрее только lzo, но он сжимает очень просто и быстро
Free
Vladislav
Vladislav
Вообще, поставь metadata only и дай ему хотя бы гигов 16
Alexey
не знаю, я бы вернул настройки в значения по-умолчанию. Затем отключил бы все пулы. Убедился, что эти процессы не занимают проц. (что с оборудованием и ос все в порядке.) Затем подключал бы каждый пул и смотрел на каком будет проявляться симптом.
Vladislav
Free
Alexey
если не интересно разобраться, то можно все снести, переустановить Ос, zfs, пересоздать пулы и наблюдать. Если будут проблемы, то это железо...
Vladislav
Vladislav
Никак не отменяет это
Alexey
только на одной ноде?
Alexey
так не делается: "а давайте сделаем что-то, посмотрим, что будет...". Нужно ожидать какого-либо результата, простите за нравоучения...
Alexey
Вы вроде писали, что у Вас несколько таких серверов? Или я путаю?
Alexey
у Вас ядро 6.12... по умолчанию стоит 6.1.0...
Free
Как я понял только на одной, которую обновили до свежей версии
Нет, контейнеры нод вообще автоматически обновляются довольно часто.
Я там по другим причинам общий upgrade сделал.
Сейчас склоняюсь к тому, что не само обновление виновато, а факт одновременногоо запуска всех нод после обновления.
У них в самом начале более интенсивная работа с диском, чем в "крейсерском" режиме.
Надеюсь, если без перезагрузки сейчас обойдется плавное подключение - то потом снова будет многомесячный крейсерский режим
Alexey
это ядро находится в backports
Free
Alexey
Вы вручную установили ядро из backports?
Alexey
Free
Alexey
нет из backports нужно вручную ядро поставить
Alexey
какие ядра на остальных серверах?
Free
нет из backports нужно вручную ядро поставить
На этом сервере (в отличие от остальных) непосредственно после апгрейда появилось сообщение
The ZFS modules cannot be auto-loaded.
Try running 'modprobe zfs' as root to manually load them.
что я и сделал.
Остальное - upgrade автоматом
Free
А, вот еще было
E: dpkg was interrupted, you must manually run 'dpkg --configure -a' to correct the problem.
Что тоже сделал руками
Alexey
если сомневаетесь, что правильно скомпелировались модули zfs, то можно их перекомпелировать:
dpkg-reconfigure zfs-dkms
update-initramfs -u -k all
update-grub
reboot
Alexey
но это мало вероятно...
Alexey
а что с версией ядра на остальных серверах?
Free
какие ядра на остальных серверах?
Посмотрю попозже.
Хотя вот что:
Остальные я не перегружал - значит, у них сейчас покажет старое ядро ведь?
А перегружать сейчас я уже не рискну, чтобы не спровоцировать такие же проблемы, как на этом
Alexey
посмотрите какие ядра:
ls -l /boot
Alexey
текущее ядро
uname -a
Vladislav
Vladislav
Найти бы только эту ситуацию, у меня была такая на arm бордах после обновления ядра. Обычно это значит, что у тебя криво ядро/хедеры встали и dkms не смог нормально собрать
Free
посмотрите какие ядра:
ls -l /boot
На остальных серверах всё гораздо старше.
Где-то 6.1, а где-то даже 5.10.
Сейчас вспоминаю:
На днях то я везде только автоматом обнавлялся, а на этом сервере несколько месяцев назад, действительно, вручную собирал.
В связи с другой проблемой, связанной со storj.
Alexey
По умолчанию ядро для debian12.9 6.1.0
Alexey
Это может не сильно важно, но стоит наверное привести к стандарту
Free
Это может не сильно важно, но стоит наверное привести к стандарту
Пока попробую вытащить (без перезагрузок) эту конфигурацию.
Вот 20 минут назад запустил еще 3 ноды, а вместо роста нагрузки CPU arc тем временем освободил его.
Возможно, ранее запущенные ноды в "крейсерский режим" переходят/
PS iowait, кстати, по-прежнему высокий: 77%
Dexex
Здорово всем. Ну вот и наступил у меня полный кринж. pool читаемый, но txg_sync просто фризится.
Dexex
Dexex
Такие вот сюрпризы^^
Dexex
Идет resilvering вообще. Заменяю два диска на ssd из массива на 4х RAIDZ2
Dexex
Dexex
И вот чешу репу, а че делать то?
Dexex
У меня фишка в том, что на моей матери многие диски постоянно меняют буквы.
Dexex
И еще проблема в том, что zfs собака такая грузится ДО networking. Я в import.service поставил грузится перед самбой. Надеюсь в случае перезагрузки оно загрузится. Если честно это полная шляпа которую не понятно кто так сделал, ведь это же тупо грузить импорт ДО появления управления.
Vladislav
Dexex
Я загружен сейчас из рековер
Dexex
Vladislav
Vladislav
Ты же корень ФС не грузишь после сети?