Александр

Ацтань, я эникей

Denis

ты понь

Александр

ты понь

Не мешает быть Царём-Эникеем

Nikita

а насколько плохо юзать опенстек без raid 1?

Sheridan

Не мешает быть Царём-Эникеем

хвост мешает. Под стол к конпутеру хер подлезеш, цепляецо

Михаил

а насколько плохо юзать опенстек без raid 1?

эмм

Михаил

что ты имеешь ввиду?

Nikita

в доке указано что рекомендед Raid1

Nikita

но проблема в том что у меня нет аппаратных рейд-контроллеров

Михаил

в доке указано что рекомендед Raid1

где? подо что?

Nikita

Storage Hardware RAID 1 controller with at least 500 GB capacity for the host operating system disk

Nikita

fuel умеет в mdadm?

Nikita

ага, спасибо

Nikita

еще правда у меня вторых дисков нет

Nikita

но это решаемо :)

Mark ☢️

http://xn--80abuggrg4a.xn--p1ai/ru

Mark ☢️

что это, кто-нибудь знает ?

Михаил

пахнет импортозамещением

Mark ☢️

именно. и это наверняка перелицованное что-то.

Михаил

http://полибайт.рф/assets/data/polibyte_about_1.pdf

Михаил

Протоколы обмена RBD

Михаил

вот те и ответ

Mark ☢️

как я чётенько отгадал!

Александр

Михаил

ну это было не сложно

Etki

как раз для вечерней булимии

Mark ☢️

пахнет импортозамещением

http://ru.pcmag.com/company-life-1/28030/news/flagmanskii-produkt-rcntec-vkliuchion-v-gosudarstvennyi-rees

Denis

полибайт крутое название

Denis

лучше б квазибайтом назвали

Vlad

Там Ceph под капотом

Михаил

Там Ceph под капотом

А вы имеете отношение?

Vlad

А вы имеете отношение?

Я догадываюсь :)

Михаил

Я догадываюсь :)

Так уже выяснили по ключевым словам

Tverd

Уважаемые, подскажите, а какой либвирт нужен для митаки? может где кто видел? ибо уже 3-й либвирт... а в убунте 1.3.1. Как бы понять какой ему ближе...

Anonymous

митака отлично работает на убунтушном 1.3.1

Tverd

Да работает, это понятно. Живая миграция как часы работает?

Anonymous

на счет как часы - не уверен, но работает

Tverd

У нас бывает либвирт подвисает... При миграции, думаем с чем связано.

Anonymous

в моем юзкейсе живая миграция - скорее исключение. но зависаний не было ни разу

Tverd

Спасибо, будем копать

Anonymous

а что у вас в качестве дисков используется? у нас были определенные сложности с миграцией при использовании sheepdog в качестве блочных устройств

Tverd

диски - ceph, через cinder конечно

Михаил

@socketpair а ты fio мерил с помощью ioengine=rbd ?

Mark ☢️

@socketpair а ты fio мерил с помощью ioengine=rbd ?

да, разумеется

Михаил

да, разумеется

есть у меня подозрение, что она кривая и глючная

Mark ☢️

а что у вас в качестве дисков используется? у нас были определенные сложности с миграцией при использовании sheepdog в качестве блочных устройств

а какие проблемы ? я всё тоже никак не доберусь до sheepdog

Mark ☢️

есть у меня подозрение, что она кривая и глючная

воу. а как тогда тестить ?

Mark ☢️

сделать блокдевайс ?

Mikhail

[ceph-users] fio rbd engine "perfectly" fragments filestore file systems http://lists.ceph.com/pipermail/ceph-users-ceph.com/2016-August/012138.html

Михаил

я беру блок девайс, указываю его в fio получаю 4к iops создаю блок девайс с теми же параметрами, подключаю его в виртуалку опенстека и получаю 12к иопс

Михаил

как те разница?)

Михаил

5 раз проверил на 2х разных кластерах

Mikhail

такой вопрос - не могу понять логику tier пула есть tier пул 1ТБ в нем image 10GB NAME ID USED %USED MAX AVAIL OBJECTS rbd 0 1024k 0 13712G 4 cache-rbd 1 1036k 0 989G 130 пишем туда 1ГБ dd if=/dev/zero of=/dev/rbd/rbd/test bs=1024M count=1 1+0 records in 1+0 records out 1073741824 bytes (1.1 GB) copied, 10.0676 s, 107 MB/s результат: NAME ID USED %USED MAX AVAIL OBJECTS rbd 0 1024M 0 13706G 259 cache-rbd 1 244M 0.02 989G 191

Mikhail

а после dd if=/dev/zero of=/dev/rbd/rbd/test все попадает в cache-rbd

Mark ☢️

я беру блок девайс, указываю его в fio получаю 4к iops создаю блок девайс с теми же параметрами, подключаю его в виртуалку опенстека и получаю 12к иопс

вотэто поворот. а не свзяано ли это с обработкой sync ?

Mikhail

с fio соответственно тоже самое, пока имидж не залит полностью, процентов 10-20 при записи льется в тиер, остальное в основной

Mark ☢️

вотэто поворот. а не свзяано ли это с обработкой sync ?

я вот что сделал: проверил время пинга между нодами (по 10г-сети которая для обмена между осд). получилось никак не менее 0.1 мс. тоесть это получается, что более 10К иопсов не получить вобще никак только на пуле размером один (ну вы понели) (кстати, подтверждается экспериментально)

Mark ☢️

поэтому, раз у тебя более 10К иопсов, значит что-то шло параллельно или смерджилось. а значит режима синканья после каждого блока не было.

Mark ☢️

ну может у тебя сеть побыстрее. эт. да. но по факту у меня даже 6К не получается (через fio rbd)

Михаил

поэтому, раз у тебя более 10К иопсов, значит что-то шло параллельно или смерджилось. а значит режима синканья после каждого блока не было.

пустой новый кластер

Михаил

с fio соответственно тоже самое, пока имидж не залит полностью, процентов 10-20 при записи льется в тиер, остальное в основной

а в документации что написано?

Mikhail

в документации по ceph или fio ? по fio где-то видел рекомендацию перезаписывать нулями перед тестом, но раньше с этим не замечал проблем, вернее замечал конечно с thin дисками, но там логика процесса была вполне ясна если речь о ceph, то я пока не нашел или имеется в виду это? RBD with replicated cache and erasure-coded base: This is a common request, but usually does not perform well. Even reasonably skewed workloads still send some small writes to cold objects, and because small writes are not yet supported by the erasure-coded pool, entire (usually 4 MB) objects must be migrated into the cache in order to satisfy a small (often 4 KB) write. Only a handful of users have successfully deployed this configuration, and it only works for them because their data is extremely cold (backups) and they are not in any way sensitive to performance. RBD with replicated cache and base: RBD with a replicated base tier does better than when the base is erasure coded, but it is still highly dependent on the amount of skew in the workload, and very difficult to validate. The user will need to have a good understanding of their workload and will need to tune the cache tiering parameters carefully.

Михаил

в документации по ceph или fio ? по fio где-то видел рекомендацию перезаписывать нулями перед тестом, но раньше с этим не замечал проблем, вернее замечал конечно с thin дисками, но там логика процесса была вполне ясна если речь о ceph, то я пока не нашел или имеется в виду это? RBD with replicated cache and erasure-coded base: This is a common request, but usually does not perform well. Even reasonably skewed workloads still send some small writes to cold objects, and because small writes are not yet supported by the erasure-coded pool, entire (usually 4 MB) objects must be migrated into the cache in order to satisfy a small (often 4 KB) write. Only a handful of users have successfully deployed this configuration, and it only works for them because their data is extremely cold (backups) and they are not in any way sensitive to performance. RBD with replicated cache and base: RBD with a replicated base tier does better than when the base is erasure coded, but it is still highly dependent on the amount of skew in the workload, and very difficult to validate. The user will need to have a good understanding of their workload and will need to tune the cache tiering parameters carefully.

а вы цеф к чему прикручиваете?

Mikhail

да собстно пока ни к чему, доку опенстека я не читал, если об этом разговор

Михаил

просто к фио при параметре ioengine=rbd у меня есть ряд вопросов

Михаил

и подозрений

Mikhail

вроде да, есть странности с ним, я выше ссылку кидал, как раз тоже хотел у себя проверить

Mikhail

если так, побыстрому, то у меня разница между ioengine=libaio и rbd раза в 1.5 по иопсам на одном и том же имидже

Mikhail

в пользу libaio

Михаил

мда

Mark ☢️

А мне кажется, всё дело в комбинации —sync и —fsync

Михаил

А мне кажется, всё дело в комбинации —sync и —fsync

Ну расскажи нам

Mark ☢️

--direct=1

Mark ☢️

я так и не понял какого болта, но все 4 варианта (по каждому ключу вкл и выкл) дают на libaio на HDD разные результаты. прям совсем разные.

Mark ☢️

ну и на rbd они тоже влияют

Mark ☢️

ещё. про заполнение нулями

Mark ☢️

чтобы зааллокейтить чо-то там на XFS надо синкать в XFS-ном журнале метаданные от XFS. Когда же файл аллоцирован, то доступ к его данным (а цеф, вроде. вобще к ним в режиме O_DIRECT обращается) не требует записывания изменений в журнал

Mark ☢️

поэтому предварительное прописывание образа перед бенчмарком имеет реальный смысел

Mark ☢️

ну мож тока mtime + atime. но это отключаемо в опциях монтирования

Mikhail

поэтому предварительное прописывание образа перед бенчмарком имеет реальный смысел

здесь я согласен насчет бенчмарка, но спрашивал я о логике процесса - не могу понять почему 90% записи попадает в холодный пул, а 10% в горячий