@ru_zfs - страница 237 - Telegram web archive

Коллеги, посоветуйте, как правильнее распределить железо. На текущий момент мощности серверные избыточные, но самое грустное - поделены на 2 кластера - prox и ESXI. Целевое будет конечно ESXI, и как раз в процессе миграции хочется оптимально раскидать железо. Сейчас в каждом Prox собраны рейды на HDD на ZFS. На одном есть аналогичный рейд на SSD. Везде добавлены диски для LOG's И вот есть 2 шасси (8 серверов), в которых понапихано черт знает что, в сумме: 2 диска 1 ТБ 2 диска 6 ТБ (разных вендоров бл**) 1 диск 4 ТБ 1 диск 500 Гб 1 диск 250 Гб 2 диска 500 Гб SSD 2 диска 250 Гб SSD 1 диск 275 Гб SSD Само собой, докупать никто ничего не будет. И как лучше поступить? Собрать рейды там, где можно, и поверх создать Ceph? Он эффективно будет работать при разных дисках / объемах? Плюнуть на все, собрать 4 рейда на 4 сервера, а остальное по офисным компам растащить? Третий вариант?

Александр

Коллеги, посоветуйте, как правильнее распределить железо. На текущий момент мощности серверные избыточные, но самое грустное - поделены на 2 кластера - prox и ESXI. Целевое будет конечно ESXI, и как раз в процессе миграции хочется оптимально раскидать железо. Сейчас в каждом Prox собраны рейды на HDD на ZFS. На одном есть аналогичный рейд на SSD. Везде добавлены диски для LOG's И вот есть 2 шасси (8 серверов), в которых понапихано черт знает что, в сумме: 2 диска 1 ТБ 2 диска 6 ТБ (разных вендоров бл**) 1 диск 4 ТБ 1 диск 500 Гб 1 диск 250 Гб 2 диска 500 Гб SSD 2 диска 250 Гб SSD 1 диск 275 Гб SSD Само собой, докупать никто ничего не будет. И как лучше поступить? Собрать рейды там, где можно, и поверх создать Ceph? Он эффективно будет работать при разных дисках / объемах? Плюнуть на все, собрать 4 рейда на 4 сервера, а остальное по офисным компам растащить? Третий вариант?

Я бы поискал аргументы за - выкинуть нафиг диски в терабайт и меньше. Им не место в серверах, они будут тормозить - понять, сколько места нужно в перспективе 1-2 лет - и от этого уже танцевать Основной тезис на тему "дорого": дешевле всего продать все по остаточной цене и закрыть дело

Dmitry

На удивление места хватает с большим запасом, в основном на всех гипервизорах упирается именно в память. А на эти тачки планировал контейнерами скинуть простые ns, radius, и другие мелкие сервисы.

Александр

Я вижу четыре пары дисков. В принципе, можно из всего этого зоопарка делать кластер, но только если вопрос производительности вообще не интересует никого. Два шасси, 8 серверов - блейды?

Міхаіл So

Господа есть вопрос. Собираюсь ставить трунас на Dell 740xd. 2 ssd зеркале под Ос и 16-18 дисков по 14 тб. Стоит ли передавать фринасу диски или просто отдать хардверный рейд 6? Как стоит поступать с ссд ? Если есть какие рекомендации\гайды по зфс для долгосрочных холодных хранилок с радостью выслушаю.

Dmitry

Я вижу четыре пары дисков. В принципе, можно из всего этого зоопарка делать кластер, но только если вопрос производительности вообще не интересует никого. Два шасси, 8 серверов - блейды?

Да, блейды. 4 по 2xE5-2670 | 8x8 DDR3 1333 - 64 4 по 2xX5675 | 6x4 DDR3 1333 - 24 Так то выглядит вкусно, 300 гигов оперативки) Под микросервисы самое оно) Или например на SSD мелкую базу забикса закинуть... Кластер - в смысле Ceph?

Александр

Да, блейды. 4 по 2xE5-2670 | 8x8 DDR3 1333 - 64 4 по 2xX5675 | 6x4 DDR3 1333 - 24 Так то выглядит вкусно, 300 гигов оперативки) Под микросервисы самое оно) Или например на SSD мелкую базу забикса закинуть... Кластер - в смысле Ceph?

Да любая попытка склеить эту массу во что-то однородное, как мне кажется, малоосмыслена.

Dmitry

Да любая попытка склеить эту массу во что-то однородное, как мне кажется, малоосмыслена.

как говорится - не всегда есть выбор)

Dmitry

Хорошо, задам тогда вопрос по другому - если у меня зоопарк из жесктих дисков - реально поверх этого поднять Ceph? например на 2х серверах поставить HDD по 6тб, на одном на 1 Тб, и в сумме получить хранилку для контейнеров, которые можно быстро между ними перемещать

Dmitry

или это не так работает?

Aleksey

Уволишся потом и будешь икать. Так вспоминать будут

Ivan

Хорошо, задам тогда вопрос по другому - если у меня зоопарк из жесктих дисков - реально поверх этого поднять Ceph? например на 2х серверах поставить HDD по 6тб, на одном на 1 Тб, и в сумме получить хранилку для контейнеров, которые можно быстро между ними перемещать

с ceph нужны диски не более 2тб желательно.

Ivan

и самый минимум 3 ноды

Dmitry

с ceph нужны диски не более 2тб желательно.

одинаковые?

Ivan

одинаковые?

пофиг, гланое раскидать так, чтоб при потере одной из нод целиком, была задублированная инфа на других нодах.

=Андрей=

Господа есть вопрос. Собираюсь ставить трунас на Dell 740xd. 2 ssd зеркале под Ос и 16-18 дисков по 14 тб. Стоит ли передавать фринасу диски или просто отдать хардверный рейд 6? Как стоит поступать с ссд ? Если есть какие рекомендации\гайды по зфс для долгосрочных холодных хранилок с радостью выслушаю.

Отдать диски - через HBA

Ivan

пофиг, гланое раскидать так, чтоб при потере одной из нод целиком, была задублированная инфа на других нодах.

т.е. на каждой ноде может быть разное количество дисков, но суммарный объём должен быть одинаковым. иначе фигня получится

edo1

я правильно понимаю, что в arc record (размер которой определяется параметром recordsize) может храниться/не храниться только целиком?

edo1

и (если памяти достаточно) большой recordsize позволить избежать случайного чтения

George

я правильно понимаю, что в arc record (размер которой определяется параметром recordsize) может храниться/не храниться только целиком?

iirc да, целиком

George

и (если памяти достаточно) большой recordsize позволить избежать случайного чтения

да

Alexander

Помоему вопросы из другого чатика )) по sds

Dmitry

т.е. на каждой ноде может быть разное количество дисков, но суммарный объём должен быть одинаковым. иначе фигня получится

а суммарный объем в смысле на ноде? Или можно на двух нодах сделать по 6 тер, а на трех например по 1 теру? И под SSD отдельный "кластер" (или как там это называется) собирать? Я ща уйду читай хаутушки по Ceph, просто быстро понять хочется)

Ivan

а суммарный объем в смысле на ноде? Или можно на двух нодах сделать по 6 тер, а на трех например по 1 теру? И под SSD отдельный "кластер" (или как там это называется) собирать? Я ща уйду читай хаутушки по Ceph, просто быстро понять хочется)

ceph_ru

=Андрей=

Приветствую! Как оценить потребный DWPD для SSD под SLOG? Есть сервак с Trunas 12 (RAM 128 gb) , который будет крутить 5-6 виртуалок ну и на нем же в отдельном dataset будет и файловый сервер. 12 дисков по 6тб, объединены в пул из 6 зеркальных vdev. Планирую включить SYNC=Always. В данный момент на пуле из HDD (sas3) получаю в однопотоке 1GB/s по записи и 650-700mb/s по чтению (sync = standard) на простых файловых операциях. В принципе нет преград попробовать Optan в качестве LOG (и возможно отдельного зеркального vdev для метаданных) . Но перед тем как потратиться - хочется убедиться какой DWPD потребен, как его оценить.... Если бы речь шла о периодических файловых операциях... а то ведь виртуалки висеть будут, а там обмен круглые сутки.... Приводы, которые в первом приближении собираюсь использовать - это Intel 900P 280гб c DWPD=10.... Достаточен ли он на ближайшие 3-5 лет )) Что скажете уважаемые?

Сергей

Приветствую! Как оценить потребный DWPD для SSD под SLOG? Есть сервак с Trunas 12 (RAM 128 gb) , который будет крутить 5-6 виртуалок ну и на нем же в отдельном dataset будет и файловый сервер. 12 дисков по 6тб, объединены в пул из 6 зеркальных vdev. Планирую включить SYNC=Always. В данный момент на пуле из HDD (sas3) получаю в однопотоке 1GB/s по записи и 650-700mb/s по чтению (sync = standard) на простых файловых операциях. В принципе нет преград попробовать Optan в качестве LOG (и возможно отдельного зеркального vdev для метаданных) . Но перед тем как потратиться - хочется убедиться какой DWPD потребен, как его оценить.... Если бы речь шла о периодических файловых операциях... а то ведь виртуалки висеть будут, а там обмен круглые сутки.... Приводы, которые в первом приближении собираюсь использовать - это Intel 900P 280гб c DWPD=10.... Достаточен ли он на ближайшие 3-5 лет )) Что скажете уважаемые?

arc_summary, внизу ZIL committed transactions. Сравниваете два значения в начале и конце наблюдения. Но, имхо - ваш оптан скорее от старости умрёт, чем от исчерпания ресурса

=Андрей=

arc_summary, внизу ZIL committed transactions. Сравниваете два значения в начале и конце наблюдения. Но, имхо - ваш оптан скорее от старости умрёт, чем от исчерпания ресурса

Благодарю за мнение. )

edo1

а где посмотреть количество dirty данных?

=Андрей=

Приветствую! Как оценить потребный DWPD для SSD под SLOG? Есть сервак с Trunas 12 (RAM 128 gb) , который будет крутить 5-6 виртуалок ну и на нем же в отдельном dataset будет и файловый сервер. 12 дисков по 6тб, объединены в пул из 6 зеркальных vdev. Планирую включить SYNC=Always. В данный момент на пуле из HDD (sas3) получаю в однопотоке 1GB/s по записи и 650-700mb/s по чтению (sync = standard) на простых файловых операциях. В принципе нет преград попробовать Optan в качестве LOG (и возможно отдельного зеркального vdev для метаданных) . Но перед тем как потратиться - хочется убедиться какой DWPD потребен, как его оценить.... Если бы речь шла о периодических файловых операциях... а то ведь виртуалки висеть будут, а там обмен круглые сутки.... Приводы, которые в первом приближении собираюсь использовать - это Intel 900P 280гб c DWPD=10.... Достаточен ли он на ближайшие 3-5 лет )) Что скажете уважаемые?

Есть еще мнения по этому вопросу? )

Александр

А чем отличается openzfs в портах от openzfs в 13.0?

Mikhail

А чем отличается openzfs в портах от openzfs в 13.0?

в портах свежее

Александр

в портах свежее

Ага, и ловить, что они пишут в changelog

Александр

В 13-шке какая версия?

Konstantin

Господа есть вопрос. Собираюсь ставить трунас на Dell 740xd. 2 ssd зеркале под Ос и 16-18 дисков по 14 тб. Стоит ли передавать фринасу диски или просто отдать хардверный рейд 6? Как стоит поступать с ссд ? Если есть какие рекомендации\гайды по зфс для долгосрочных холодных хранилок с радостью выслушаю.

Отдать диски чере hba.

Александр

Отдать диски чере hba.

+

edo1

а где посмотреть количество dirty данных?

? в arc_summary не вижу

George

? в arc_summary не вижу

per pool тут например для каждого txg cat /proc/spl/kstat/zfs/rpool/txgs

ArtAnt

хотелось бы обсудить этот вопрос все же

ArtAnt

Доброго времени суток, кто-нибудь думал над тем, что например опция zfs_vdev_sync_write_max_active и множество ей подобных, включая на чтение и т.д. по сути не позволяют эффективно использовать разные типы носителей на одном хосте организованные в самостоятельные пулы, Т.е. если для nvme можно хоть 100 поставить и более, то в случае наличия HDD это уже может снижать производительность, а указывать отдельно для пула их нельзя. Правильный ли вывод напрашивается, что nvme, ssd, 3d-xpoin можно использовать, только как l2arc или slog в случаях когда в системе имеется хотя бы один пул состоящий из механических дисков? Т.е. можно ли однозначно утверждать, что система хранения на zfs организована неправильно (неэффективно) если одновременно присутствуют отдельные пулы, как на HDD так и на флэш памяти на одном хосте для которых выше указанные опции применяются одинаково?

ArtAnt

пока я вижу один только выход, это к пулам на механических дисках добавить ZIL и L2ARC на SSD после чего выкрутить параметры модуля ZFS под флеш носители. В официальной документации на oracle везде где речь заходит про flash носители, везде они значатся в контексте ZIL или L2ARC.

George

Доброго времени суток, кто-нибудь думал над тем, что например опция zfs_vdev_sync_write_max_active и множество ей подобных, включая на чтение и т.д. по сути не позволяют эффективно использовать разные типы носителей на одном хосте организованные в самостоятельные пулы, Т.е. если для nvme можно хоть 100 поставить и более, то в случае наличия HDD это уже может снижать производительность, а указывать отдельно для пула их нельзя. Правильный ли вывод напрашивается, что nvme, ssd, 3d-xpoin можно использовать, только как l2arc или slog в случаях когда в системе имеется хотя бы один пул состоящий из механических дисков? Т.е. можно ли однозначно утверждать, что система хранения на zfs организована неправильно (неэффективно) если одновременно присутствуют отдельные пулы, как на HDD так и на флэш памяти на одном хосте для которых выше указанные опции применяются одинаково?

> zfs_vdev_sync_write_max_active Да, параметр сейчас глобальный, > Т.е. можно ли однозначно утверждать, что система хранения на zfs организована неправильно нет, однозначно нельзя, т.к. для некоторых нагрузок такие параметры могут быть адекватными по дефолту но да, 2 пула с абсолютно разными требованиями для таким параметров на одном ядре могут портить жизнь друг другу в граничных кейсах

George

пока я вижу один только выход, это к пулам на механических дисках добавить ZIL и L2ARC на SSD после чего выкрутить параметры модуля ZFS под флеш носители. В официальной документации на oracle везде где речь заходит про flash носители, везде они значатся в контексте ZIL или L2ARC.

вообще эти параметры про обычные vdevs, насколько они пересекаются с slog и l2arc надо смотреть (iirc не пересекаются)

ArtAnt

> zfs_vdev_sync_write_max_active Да, параметр сейчас глобальный, > Т.е. можно ли однозначно утверждать, что система хранения на zfs организована неправильно нет, однозначно нельзя, т.к. для некоторых нагрузок такие параметры могут быть адекватными по дефолту но да, 2 пула с абсолютно разными требованиями для таким параметров на одном ядре могут портить жизнь друг другу в граничных кейсах

> нет, однозначно нельзя, т.к. для некоторых нагрузок такие параметры могут быть адекватными по дефолту при таком подходе SSD используется неэффективно (с дефолтными параметрами), а если выкрутить их значения, то HDD однозначно работают медленнее, поэтому я и считаю, что если есть два пула на разных типах носителях, значит будет либо одно, либо другое, либо середина - ни туда ни сюда. Напрашивается вывод, не использовать разные типы носителей на одном хосте либо добавить к пулам с HDD ZIL и L2ARC. Да, я понимаю, что при дефолтных значения SSD тоже всегда быстрее HDD, но КПД далеко не максимальный.

George

> нет, однозначно нельзя, т.к. для некоторых нагрузок такие параметры могут быть адекватными по дефолту при таком подходе SSD используется неэффективно (с дефолтными параметрами), а если выкрутить их значения, то HDD однозначно работают медленнее, поэтому я и считаю, что если есть два пула на разных типах носителях, значит будет либо одно, либо другое, либо середина - ни туда ни сюда. Напрашивается вывод, не использовать разные типы носителей на одном хосте либо добавить к пулам с HDD ZIL и L2ARC. Да, я понимаю, что при дефолтных значения SSD тоже всегда быстрее HDD, но КПД далеко не максимальный.

нужно тестировать, и если будет видна явная разница - хорошая идея в апстриме поменять логику

ArtAnt

нужно тестировать, и если будет видна явная разница - хорошая идея в апстриме поменять логику

какие с вашей точки зрения использовать правильные тесты с какими параметрами. Ранее вы критиковали тестирование OpenZFS на FreeBSD. в статье на phoronix