@ru_zfs - страница 216 - Telegram web archive

Алексей

Только если из 4 дисков)

Andrey

Если для файлопомойки - то р10 перебор, а если под БД - то самое то

Fedor

Файлопомойка тоже иногда очень активно может использоваться 😁

Autumn

Р10 под бакапы это расточительно

Ну это смотря откуда и в каком количестве эти бэкапы сливать =) например надо забэкапить 10-к виртуалок у которых дисковая ну гиг по 100 у каждой в кратчайшие сроки по 10 гигабитной сети. Вот 10-й тут как раз у меня давал серьезный буст, а z2 к утру не успевал все проглотить. Все ситуативно.

Мих

Алексей

Нет, 10гбит это гигабайт в секунду, это максимум 5xraidz2

Autumn

Я его вообще не люблю р10

Что порекомендуете в замен? Ну так что бы с такой же производительностью и не надо было бы покупать хард рейд с кешем и батарейкой? Потому что все что не страйп и не рейд 10 софтовое, просто проигрывает хард рейду с батарейкой. Вчистую.

Алексей

И я вот не уверен что 10гбит у вас там утилизировался на все сто

Autumn

btrfs под приличной нагрузкой имеет свойство разваливаться, за zfs пока такого не замечено

лично не сталкивался, ходят слухи что btrfs сейчас "прокачали", и RH его резко в ядро вернул зачем-то

Autumn

Если для файлопомойки - то р10 перебор, а если под БД - то самое то

вот как выше заметили, смотря какая =)

Мих

Грамотно построить zfs с кешами и логгершами...

Autumn

И я вот не уверен что 10гбит у вас там утилизировался на все сто

утилизировался, потому что сейчас там же 40 гигабит =)

Алексей

А

Алексей

Ну я у тому что есть статистика по успешному ребилду зеркал? Больших?

Алексей

Достаточно выйти из строя двум не любым хардам и всё

Алексей

Похоже ща будет большой пост)

Autumn

Достаточно выйти из строя двум не любым хардам и всё

Ну так это проблема любого массива с избыточностью (что 10-й, что 6-й рейд). Наша задача найти баланс между отказоустойчивостью и производительностью. Я в таком случае предпочту zfs raid10 и что-нибудь типа glasterfs на 3-х севрерах если бюджет позволяет, и вот тут 10 гигабит и 10-й рейд сильно решают (даже для тупой бэкапилки куда льется непрерывный поток данных), хотя больше решает переход с магнитных дисков на ссд, но опять же все ситуативно. А так, в чистом виде что mdadm, что zfs, что btrfs создают по сути одно и то же решение, с одним и тем же уровнем устойчивости. Вопрос лишь в стоимости и производительности.

Autumn

Похоже ща будет большой пост)

=)

George

для бэкапов возьмите raid z2, нарежьте несколько пулов и объедините в страйп (как я вчера Вам предлагал, там по 6 дисков в raid z2 в примере обхеденены в страйп)

вы видимо под пулами vdevs имеете в виду

Алексей

Лучше не испытывать судьбу с бтрфс

Autumn

вы видимо под пулами vdevs имеете в виду

ну да, я не уточнял более глубоко =) так у коллеги похоже есть проблемы в понимании, писал относительно вчерашнего краткого хауту

Алексей

Лучше не испытывать судьбу с бтрфс

В чате про зфс)

George

zfs удобен и хорош на больших массивах дисков - 8 и больше, а для 3-6 дисков я бы собирал mdadm или смотрел на btrfs (надо бы самому освежить в памяти ее =))

ymmv, но я использую zfs от одного диска, скорее вопрос функционала какой нужен, ну и про btrfs рекомендую тестить, все тесты до последнего момента говорят что btrfs самый тормозной обычно

Autumn

Ну господа, это ж не тема холивара, я лишь упомянул btrfs в контексе конкретного решения как пример на фоне mdadm/lvmraid (и не агитировал). Опять же ИМХО, я лично не буду поднимать zfs на допустим машине с одним или двумя дисками.

Autumn

Всем мир =)

George

вообще у меня мысли о btrfs обрываются когда я вижу их парадигму управления томом, ни разу не интуитивно, и гибкость страдает. По сути один zfs умеет для каждого тома гибко настраивать многие вещи, киллер фича

George

Ну господа, это ж не тема холивара, я лишь упомянул btrfs в контексе конкретного решения как пример на фоне mdadm/lvmraid (и не агитировал). Опять же ИМХО, я лично не буду поднимать zfs на допустим машине с одним или двумя дисками.

для того ymmv и пишут)

Aleksey

Ну так это проблема любого массива с избыточностью (что 10-й, что 6-й рейд). Наша задача найти баланс между отказоустойчивостью и производительностью. Я в таком случае предпочту zfs raid10 и что-нибудь типа glasterfs на 3-х севрерах если бюджет позволяет, и вот тут 10 гигабит и 10-й рейд сильно решают (даже для тупой бэкапилки куда льется непрерывный поток данных), хотя больше решает переход с магнитных дисков на ссд, но опять же все ситуативно. А так, в чистом виде что mdadm, что zfs, что btrfs создают по сути одно и то же решение, с одним и тем же уровнем устойчивости. Вопрос лишь в стоимости и производительности.

тут вопрос не в одном и том же решении а в то какой технологический стек изучать и применять. Потому что учить это все не быстро, опыт нарабатывать еще дольше. И получается что гораздо лучше использовать то что лучше знаешь. То есть сориентировался на zfs и вперед и всегда занешь как если что диски менять как бекапить как востанавливать. Или же наоборот, убедил себя что zfs это слишком сложно сыро и в продакшене спорно и сориентировался на чем то другом и тоже фперед. А так чтобы вот на 3 диска mdadm а на 6 дисков уже zfs это какая то нереальная ситуация, таких людей не видел. Именно специалистов, а не пробующих ради интереса одно другое третье. Да и зоопарк разводить тоже ничего хорошего

d

https://habr.com/ru/post/504692/

Назрела необходимость написать CLI-калькулятор, который бы брал инфу о наличии дисков и рисовал варианты и вероятности Годнота бы получилась

Alexandr

да, но есть диски которые врут о себе

Alexandr

взять туже еву от самсунга

Alexandr

говорит что 512, а по факту лучше даже 8к ей ставить

d

Можно учесть, как в smartctl учитываются всякие нюансы. Может даже они там уже учтены.

George

в openzfs если что уже есть список исключений размера сектора для дисков

d

в openzfs если что уже есть список исключений размера сектора для дисков

по каким словам гуглить?

George

по каким словам гуглить?

по коду)

George

https://github.com/openzfs/zfs/blob/5b525165e9113e7faabd230b504ae4e9b85d35a5/cmd/zpool/os/linux/zpool_vdev_os.c#L103

Alexander

по коду)

Приветствую! Подскажи, плиз, сейчас использую 0.7 версию, хочу обновится до 2.0.1 возможно ли это вообще или только все сносить и ставить заного?

Alexandr

можно конечно

Alexander

можно конечно

Что можно?)Могли бы по подробнее рассказать, как это провернуть

Alexandr

все можно

Alexandr

шага всего 2

Alexander

Что то инфы я не нашел)

Alexander

Zfs upgrade не срабатывает)

Alexandr

1. обновляете сам модуль zfs свежей версии

Alexandr

2. обновляете пулл

Alexandr

и все

Alexandr

я так обновлялся

Alexander

1. обновляете сам модуль zfs свежей версии

Ни ткнете носом в доку, чтот не нашел как это сделать

George

Приветствую! Подскажи, плиз, сейчас использую 0.7 версию, хочу обновится до 2.0.1 возможно ли это вообще или только все сносить и ставить заного?

всё возможно, но я бы пока до 0.8 обновлялся

Alexandr

Ни ткнете носом в доку, чтот не нашел как это сделать

https://openzfs.github.io/openzfs-docs/Getting%20Started/Debian/index.html#installation

Alexander

https://openzfs.github.io/openzfs-docs/Getting%20Started/Debian/index.html#installation

🙏 спс

George

до 2.0 только если бекапы есть, всё же ещё свежая версия

Alexander

до 2.0 только если бекапы есть, всё же ещё свежая версия

Мне чисто для тестов

George

2. обновляете пулл

обновлять пул тоже не стоит спешить, чтобы иметь возможность откатываться

George

Мне чисто для тестов

а, если тесты то хоть на мастер, свежий код всегда поддерживает старые пулы

George

а вот в обратную сторону, если пул обновили - нет, старый код в лучшем случае только на чтение его сможет открыть

Alexander

а вот в обратную сторону, если пул обновили - нет, старый код в лучшем случае только на чтение его сможет открыть

Старый я всегда вкачу)

Alexander

Тестовая железка хочу потыкать в новых версиях

Dmitry

коллеги, а подскажите пожалуйста как работают вместе ARC cache и page cache (или ткните плз где это уже описано), интересует в разрезе postgresql - при обращении к ОС за блоком с диска в случае ext4 он может быть по факту получен из кеша, а вот в случае с zfs он может быть прочитан из двух видов кеша?

Владимир

pagecache же не работает в случае с ZFS? или я чего не в курсе?

Сергей

коллеги, а подскажите пожалуйста как работают вместе ARC cache и page cache (или ткните плз где это уже описано), интересует в разрезе postgresql - при обращении к ОС за блоком с диска в случае ext4 он может быть по факту получен из кеша, а вот в случае с zfs он может быть прочитан из двух видов кеша?

насколько я предполагаю в случае zfs - paqe cache пропускается (bypass)

Владимир

насколько я предполагаю в случае zfs - paqe cache пропускается (bypass)

слава богу), а то я засомневался))

Сергей

т.е. arc выполняет его функции

Сергей

давно это уже было: https://github.com/openzfs/zfs/issues/9

Dmitry

спасибо!

Dmitry

подскажите еще пожалуйста, как будет чтение из arc cache видно в getrusage(), как чтение из кеша?

Dmitry

гуглеж пока ни к чему не привел

Сергей

подскажите еще пожалуйста, как будет чтение из arc cache видно в getrusage(), как чтение из кеша?

а для ext4/page cache - как выглядят результаты этой функции ?

Dmitry

она позволяет разделить когда чтения были реально с диска а когда из page cache

Dmitry

в postgres есть обертка для этой функции, и мы можем видеть сколько чтений мы делаем с диска а сколько из кеша ОС

Сергей

она позволяет разделить когда чтения были реально с диска а когда из page cache

это в какой переменной? struct rusage { struct timeval ru_utime; /* user CPU time used */ struct timeval ru_stime; /* system CPU time used */ long ru_maxrss; /* maximum resident set size */ long ru_ixrss; /* integral shared memory size */ long ru_idrss; /* integral unshared data size */ long ru_isrss; /* integral unshared stack size */ long ru_minflt; /* page reclaims (soft page faults) */ long ru_majflt; /* page faults (hard page faults) */ long ru_nswap; /* swaps */ long ru_inblock; /* block input operations */ long ru_oublock; /* block output operations */ long ru_msgsnd; /* IPC messages sent */ long ru_msgrcv; /* IPC messages received */ long ru_nsignals; /* signals received */ long ru_nvcsw; /* voluntary context switches */ long ru_nivcsw; /* involuntary context switches */

Dmitry

код обертки не мой, займет время ответить на ваш вопрос

Сергей

я думаю не стоит искать. ПГ - это вообще процесс в userspace, он возможно ведёт внутренний учёт для оценки эффективности кэширования в СУБД. А ZFS - это файловая система и не думаю что корректно сравнивать между собой приложение и ФС. Если найдёте как для обычной ext4/page cache - получать необходимые данные, то и ответ про ZFS будет рядом.

d

2. обновляете пулл

Может и без этого обойдётся. У меня обошлось.

Alexandr

да, можно и без этого

Alexandr

но если нужны новые фишки, то без этого никак

d

https://github.com/openzfs/zfs/blob/5b525165e9113e7faabd230b504ae4e9b85d35a5/cmd/zpool/os/linux/zpool_vdev_os.c#L103

А где это используется? я ashift руками ставил, помнится

Dmitry

это в какой переменной? struct rusage { struct timeval ru_utime; /* user CPU time used */ struct timeval ru_stime; /* system CPU time used */ long ru_maxrss; /* maximum resident set size */ long ru_ixrss; /* integral shared memory size */ long ru_idrss; /* integral unshared data size */ long ru_isrss; /* integral unshared stack size */ long ru_minflt; /* page reclaims (soft page faults) */ long ru_majflt; /* page faults (hard page faults) */ long ru_nswap; /* swaps */ long ru_inblock; /* block input operations */ long ru_oublock; /* block output operations */ long ru_msgsnd; /* IPC messages sent */ long ru_msgrcv; /* IPC messages received */ long ru_nsignals; /* signals received */ long ru_nvcsw; /* voluntary context switches */ long ru_nivcsw; /* involuntary context switches */

ru_inblock

Николай Орлов

Вопрос сделал я 2 пула один mirror, второй страйп. Есть ли вариант их расшарить через самбу одной шарой?