Sergei
у меня на самом деле праздный вопрос, но с долей нормального смысла.
например, я к вам приду и скажу "мне нужен быстрый распределенный сторадж для виртуалок на 10 терабайт". вы мне скажете "говно вопрос".
я приду и скажу "на 100 терабайт". скорее всего вы мне тоже скажете "говно вопрос".
если я буду так увеличивать цифры, вы в определенный момент скажете "а какие конкретно условия эксплуатации?" и будете задавать дополнительные вопросы.
тут интересны два момента: 1) когда вы начнете задавать уточняющие вопросы и 2) когда вы начнете сразу говорить "это не наш кейс".
Anton
Сразу. Что такое быстрый, что за виртуалки
Anton
и нет, мы не продаем сторадж под виртуалки
Anton
DSF - Distributed Storage Fabric - хоть и ключевой компонент Nutanix, но не единственный.
Sergei
>Сразу. Что такое быстрый, что за виртуалки
прекрасно. это уже ответ по существу.
да, я понимаю, что HC и вот это все. задача уровнем чуть повыше, чем сторадж для виртуалок (я согласен, что в условиях вашего продукта я употребил некорректный термин), ее можно сформулировать как "мне надо запускать io-нагруженные виртуалки".
и опять же, совершенно неважно, какая именно у меня нагрузка на самом деле. я могу сказать вам, что у меня приложение делает write 4k, потом сразу sync, потом снова write 4k на соседний "сектор" и снова сразу sync. и так до бесконечности.
естественно, я ожидаю, что если я дернул sync и мне вернулся ответ, то данные записались, причем не только на локальную ноду, но и куда-то в другое место, чтобы после героической смерти локальной ноды записанный и синкнутый кусок был успешно прочитан с нового места жизни виртуалки..
и если я приду с последовательно возрастающими запросами "хочу 100 таких операций в секунду, потом 1000 и т.д.", то рано или поздно у вас наступит предел. опыт подсказывает, что предел наступит раньше, чем у рамдиска (хотя какая консистентность и синк у рамдиска...) и, вполне вероятно, раньше, чем у локального NVMe например, хотя тут есть варианты.
точно так же я могу прийти с любой другой выдуманной метрикой и при попытке ее увеличении мы нащупаем предел платформы.
так вот, мой вопрос: можете ли вы сказать какую угодно, любую на ваш вкус (если можете много - давайте много) точку ограничения применимости технологии?
Anton
Разговор за общую теорию лишен смысла. Есть конкретные продуктивные системы с конкретной на них нагрузкой. От этого сильно зависит сайзинг и даже выбор моделей.
Anton
И мы под нагруженные системы всегда предлагаем тест-драйв, в том числе для понимания специфики нагрузки.
Anton
Например, есть специфичный кейс, который сейчас идет в тесте - пачка клонов оракловых баз, на которых идет test & dev. Осложнено все тем, что гипервизор VMware и на каждой машине в среднем по 3 снапшота VMware
Roman
предел локального NVMe, а ничего что одна с догм нутаникса это дата локалити?
Roman
Выжимать максимум с локальных накопителей
Sergei
хотя кейс конечно совершенно метеоритный
Anton
Сергей, давайте вы сначала прочитаете, а потом будем обсуждать.
Anton
Запись идет синхронная.
Sergei
ок, вопросов больше не имею (:
спасибо!
Anton
Nutanix в принципе построен для работы с корпоративными данными. Максимум надежности.
Anton
никаких кэшей на запись в оперативной памяти, в рейд-контроллерах, никаких несинхронных операций записи
Anton
Но мне кажется это слегка оффтопик здесь. Желающие обсудить Nutanix могут сделать это вот тут - https://t.me/nutanix_russia
Anonymous
Подскажите, при монтировании rbd появляется следующее: image uses unsupported features: 0x38
насколько я понимаю, ядерный клиент пока не умеет layering, но QEMU-RBD умеет?
Михаил
Михаил
а еще может быть слишком большой размер тома
хотя там вроде другая ошибка
J
Anonymous
CentOS7, 3.10.0-514.el7.x86_64
J
А тип RBD 1 или 2 используется?
Anonymous
2
J
Тут ничего не могу, к сожалению, сказать насчет того какую из фич не поддерживает ядро центоси, но дело да, в этом.
Выключать руками надо, видимо.
Anonymous
ага, все, разобрался)
Anonymous
у меня просто были сомнения, не наталкивается ли на ту же ошибку qemu-rbd
Anonymous
оказалось нет, qemu-rbd все поддерживает, а образ у меня был коцаный с самого начала
J
В битом образе все дело?
Сергей Казенный
Коллеги, у меня rbd snap rollback за пару часов добежал до 99% и уже пару часов так висит. Пора начинать волноваться?
Mark ☢️
у меня вобще гигантский вопрос почему роллбек такой медленный
Mark ☢️
поэтому если надо откатиться я от снапшота делаю новый образ (отфоркиваю тоесть)
Mark ☢️
и юзаю его. сильно быстрее
Евгений
Сергей Казенный
Уже завтра узнаем.
Mark ☢️
А на мой вопрос ответит кто?
Сергей Казенный
Так и не развис, пришлось прибивать. Получается 3 подряд идущих снапшота при попытке на них откатиться зависают на 99%.
Сергей Казенный
При этом снапшот можно смонтировать, данные там в норме.
Сергей Казенный
Непонятно, что происходит.
Сергей Казенный
Попытка сделать клон удалась, но kvm с таким диском не стартует, пишет error reading headers.
Сергей Казенный
Все чудесатее и чудесатее
Leonid
Что то было у proxmox и снапшоты. Склероз. Мувнул их и стартовало.
Leonid
Sorry for delay 🙁
J
Хей, ребята.
Не знаю было или нет, но я ща наткнулся и нашел документ очень полезным.
http://storageconference.us/2017/Papers/CephObjectStore.pdf
Анализиуют усиление записи с разными бэкэндами и размерами блока для OSD.
Alex^
Alex^
FS
Mark ☢️
Это какими
Alex^
BeeFS например
Mark ☢️
Beegfs?
Alex^
ага
Alex^
Alex^
Ceph хорошо что еть RBD но в этом он не одинок
Alex^
S3 в сефе вообще говоно по производительности
Старый
Старый
вариантов море, а недоктатков у каждого ещё больше
Старый
кстати, у меня первое рабочее место, где меня ругают за излишнее беспокойство и приписывание себе ответственности
Старый
как мне сказали в среду, я ни за что не отвечаю
Старый
😂
Старый
пара набросов и будет обсуждение часика на 3
J
Anonymous
Старый
он согласен 😊
Mike
Старый
Зачем тут ceph? Слишком мало места
просто других аналогов с rdb не особо знаю, нужно иногда выделять будет целый диск целиком из пула, к тому же хотелось бы хранить все виртуалки со всех серверов, кроме pci ssd в 1 месте
J
Mike
Нормально места)
Мало. Либо совмещать на текущих серверах с другими типами дисков, либо делать all flash. Для второго варианта - места мало, в итоге решение будет ощутимо дороже.
Alex^
Alex^
Старый
я половину условий не знаю, тупо не говорят, а под закупку хотят уже примеры, вот и предусматриваю всё возможное
Mike
В твоём мире видимо розовые пони по небу летают?
Mike
И что значит городить любой? Проповедь интегратора? Городить зоопарк?
Mike
А кто-то пробовал RDMA messenger на чистом infiniband? Не через ipoib или RoCE.
J