Yuriy
Через Juju можно в мониторинг поставить бэкенд, и если он недоступен, менять его по умолчанию на другой.
Yuriy
Там 5 строчек скрипта на баше максимум.
Artemy
Вот это как раз плохое решение, неудачное. Я бы поднял два волюм-бакэнда каждый в своем конфиге со своей зоной доступности, а volume_backend_name сделал ceph.
Artemy
Да-да-да. Классическая ашипка "деплоим как умеем" у не "деплоим как положено"
Artemy
Почему неудачное?
Вот смотри - предположим тебе надо создать два идентичных инстанса в разных ДЦ (в разных зонах). Если ты делаешь как положено то ты а) указываешь у инстанса зону доступности б) указываешь волюм тайп ceph. После чего волюмы автоматом приезжают на правильные бакэнды. А если сделать как сделал ты - то тебе надо у каждого инстанса выбрать правильный тип.
Alexey
Так может просто дефаулт оставить )))
Artemy
Так может просто дефаулт оставить )))
Да делай что хочешь, твой же деплой
Artemy
Но есть один нюанс. Чтобы это дело заработало нужно включать cross_az_attach=no в нове, и тогда волюмы нельзя быдет зааттачить к ВМ другой зоны :)
Artemy
Как миниумум в йоге такое ограничение было
Artemy
Там какая-то упоротая система коммитинга, пошли они нафиг с ней 😊
Sid
ты гонишь
Sid
ты про sell забыл
Artemy
ты про sell забыл
Это уже чисто новашное шардирование
Sid
Это уже чисто новашное шардирование
не это зондироание myskl rbbit
Stanley
Коллеги, может тогда распишите правильное решение под задачу Мороза? Ну чисто для истории.
Stanley
Волум тайпы не использовать, белое не надевать, не танцевать
Stanley
Кто лишил? Наказать
Stanley
Не, я то все понял. Кроме того что Артём написал. Но пофиг, я волум тайпы только для qos использовал и чтобы отдельный пул от большого цефа вынести (HDD) для холодных бекапов.
Pavel
А нефиг дефолт без указания бека использовать.
Рамиль
Всем привет. Думаю тут мне проще будет найти помощи) У меня есть железный сервер Inspur: 2*25 Gb под iscsi, mtu 9000, Mellanox MT27710, PCIeGen3 x8, MaxReadReq 4096 bytes ОС Oracle linux 8 LUN на 9 ТБ СХД Dorado с 8-мю 25 Gb интерфейсами с той стороны. Я пытаюсь выжать из всего этого как можно больше iops'ов или как можно меньшего времени ответа. Пока результаты на скрине. Тесты гонял с помощью fio [randrw] blocksize=8k #готовлю машину под postgres filename=/dev/dm-6 rw=randrw direct=1 buffered=0 ioengine=libaio iodepth=32 fsync=1 rwmixread=70 rwmixwrite=30 Что я делал: - увеличил буферы tcp (тут не ясно где и как измерить пользу) - попробовал планировщики: mq-deadline kyber bfq - без них попугаев больше. Сейчас стоит none на всех БУ Помогите, пожалуйста, ответить на следующие вопросы: 1) Можно ли из этого всего выжать больше? Коммутатор и СХД не под моим управлением, но попросить что-то сделать можно. 2) Как найти причину полок на графиках? Во что уперся?
Artemy
В латенси ты уперся, в процессор, в очередь и в sync. Убери fsync=1, скажи sync=1
Artemy
Дело в том что вызов fsync является условно (внутри) блокирующим и приводит к дрейну очереди
Nikolay
iscsi это же fc?
Nikolay
или прям он самый
Nikolay
а вижу, слепой
Nikolay
Поэтому и вопрос был, поверх чего
Nikolay
Не понимаю я ваши кадры пакеты маки ИП, просто включаю компутер и там Ютуб есть
Nikolay
Кстати надо пересмотреть... На очередном архитектурном коммитете
Nikolay
Тебя нет чтобы херами крыть
Nikolay
Реально жесть, из пустого в порожнее сколько можно переливать
Рамиль
В латенси ты уперся, в процессор, в очередь и в sync. Убери fsync=1, скажи sync=1
Готово. Каардинально ничего не изменилось. Добавил график переключения контекста
Рамиль
да
Рамиль
наверное( что значит независимая? агрегат не собран. оба интерфейса сейчас нагружены на ~2.5 Гбит/с
Artemy
Готово. Каардинально ничего не изменилось. Добавил график переключения контекста
Неинтересно. У тебя латенси средняя порядка 0.3ms, у тебя 32 потока, сколько IOPS должно быть? И сколько иопсов у тебя на графиках?
Рамиль
Неинтересно. У тебя латенси средняя порядка 0.3ms, у тебя 32 потока, сколько IOPS должно быть? И сколько иопсов у тебя на графиках?
на графиках ~110 килоопсов. Вопрос в сторону вот этого расчета? 32(очередь) * 3333 (иопса за одну секунду ) = ~106 килоопса
Рамиль
1000 милисенд / 0.3 мс = 3333
Artemy
Остынь. Он уперся в латенси. М - математика
Artemy
Л-А-Т-Е-Н-С-И. 32 очереди по 3.4K иопс в каждой.
Artemy
Сделает iodepth=128 - получит больше IOPS, сделает blocksize=64K - получит больше банвич
Рамиль
Дело было не в бабине!
kn
строго говоря - fc(fcp) это все таки протокол, а среда передачи у него может быть и оптика и медь
Рамиль
Сейчас проверю и узнаю погрешность и/или еще одно узкое место
kn
ну так то да, но которое время назад были диски с интерфейсом fc (https://www.disctech.com/Sun-540-6343-Fiber-Fibre-Channel-Hard-Drive), но в них из оптики был только светодиод :)
kn
сдаюсь :)
Рамиль
Сейчас проверю и узнаю погрешность и/или еще одно узкое место
+/- бьется. Что влияет на latency кроме скорости света, коммутатора и СХД? Как я могу попробовать им поуправлять?
J
+/- бьется. Что влияет на latency кроме скорости света, коммутатора и СХД? Как я могу попробовать им поуправлять?
С выяснения из чего складывается задержка нужно начинать. iperf3 для измерения сетевых задержек Чем-нить померить локальную задержку на СХД. С помощью sysdig, strace и прочего такого стеки вызовов при записи\чтении смотреть и строить флеймграфы, чтобы понять что на хосте занимает больше всего времени.
J
Ну а дальше будешь уже оптимизировать. Включать\выключть оффлоды на картах, пинить ядра, играть с io планировщиками и все в таком духе. Небыстрый процесс, короче.
J
У тебя результаты то близкие к расчетным. ХЗ много ли там можно улучшить)
J
Ну да) Столько работы проделать, конечно)
J
Вот эт ты лихо) Сразу ROCE)
Denis
Предлагаю сразу InfiniBand )))
Denis
Роки шляпа, не масштабируется нормально
J
Предлагаю сразу InfiniBand )))
Та он чахнет. Так и останется, конечно, в продуктах нвидии теперь. Но кроме мелланокса никто и не занимался. По задержкам эзернет его уже перегнал всяко с ROCE) Остаются только другие плюхи инфинибенда. Но в них вникать мало кто станет, потому что очень нишевый он.
Denis
да что ж ты все мимо-то? )
Я и твой кот
Загуглите уж его.
Denis
Загуглите уж его.
ну началось )
Я и твой кот
ну началось )
Слишком известен, сорри)
J
Смотря где, в наших задачах только на нем и выезжаем
Я скептически отношусь к утверждениям что "только на нем выезжаем". Обычно бывает так что на него сели несколько лет назад, когда эзернет не подошел. А теперь эзернет уже вполне подходит, но слезать с IB очень трудозатратно будет. Вот и говорят все что только IB одним и живут)
Denis
парни, с удовольствием подискутирую, но сейчас времени нет, надо документацию на BeeGFS допиливать
Denis
эх, если бы
Denis
Слишком известен, сорри)
не пали контору)))
J
парни, с удовольствием подискутирую, но сейчас времени нет, надо документацию на BeeGFS допиливать
Да не то чтоб очень хочется. Если можешь, лучше коротко расскажи какие задачи, как пара минут будет)
Denis
=)))
Denis
пусть будет так
Рамиль
Я не совсем верно выразился в последнем вопросе, но все же что теперь делать понятно. Буду искать причины цифр с картинки. Тут тест такой поверх xfs: [randrw] blocksize=8k directory=/mnt size=100GB rw=randrw direct=1 buffered=0 ioengine=libaio iodepth=32 sync=1 rwmixread=70 rwmixwrite=30
Рамиль
Всем спасибо
kn
а откуда kolla может брать неправильный (сломанный) адрес репозитория?: INFO:kolla.common.utils.rabbitmq:E: Failed to fetch https://dl.cloudsmith.io/public/rabbitmq/rabbitmq-server/deb/ubuntu/dists/jammy/InRelease 402 Payment Required [IP: cut] INFO:kolla.common.utils.rabbitmq:E: The repository 'https://dl.cloudsmith.io/public/rabbitmq/rabbitmq-server/deb/ubuntu jammy InRelease' is not signed. INFO:kolla.common.utils.rabbitmq: в template/repos.yaml адрес правильный
kn
ещё как. спасибо!
Denis
Нет, вчера был у заказчиков, приехал поздно.
Denis
Сразу говорю, что это к стеку не относится и может быть офтопом
Denis
По поводу задач: в основном это сильносвязные hpc задачи, такие как гидрогазодинакима, прочность, обучение языковых моделей. В этих задачах, особенно в обучении, критична задержка, которая не позволяет масштабировать вычисления.
Denis
Из последнего - запускали тесты на роки в одной биолабе, так вот там расчет больше чем на 8 нод не масштабировался, производительность выходила на полку и там оставалась. Точные цифры не помню, надо логи поднимать.