Михаил

сколько читал мануалы - почти везде натыкался на советы перенести журнал на ssd

только это при создании осд обычно делается

Roman

я задам глупый вопрос: а в ceph в журнал пишутся данные?

Anonymous

да, с filestore же

タキ

Я до создания в конфиг прописываю путь до журнала. При указании журнала во время создания осд через деплой - получается какая-то дичь

Александр

Буду сидеть ждать

О да, теперь присоденюсь к ceph в проде...

Михаил

О да, теперь присоденюсь к ceph в проде...

одобрили?

Александр

Да, сейчас по кол-во опредлятся, 4 или 6 или 9

Александр

😊

Михаил

https://indico.cern.ch/event/542464/contributions/2202311/attachments/1291014/1922810/20160614_ceph_day_cern.pdf

Александр

Будет что в метро почитать

Михаил

ну это так, будущее судя по всему

Михаил

Я до создания в конфиг прописываю путь до журнала. При указании журнала во время создания осд через деплой - получается какая-то дичь

ceph osd prepare потом ceph osd activate и ок)

Mark ☢️

ceph osd prepare потом ceph osd activate и ок)

не ceph, а ceph-deploy

Александр

Бюджет на 4 машины подтвердили, интересно когда закупки ((

Mark ☢️

https://www.mankier.com/8/vfs_ceph

Mark ☢️

Я наркоман и попробую в проде

Mark ☢️

Backend ( Calamari Server ) — the Calamari backend is written in Python 2.6+, using Saltstack, ZeroRPC, gevent, Django, django-rest-framework, graphite and instantiates a new REST API for integration with other systems.

Mark ☢️

ко-ко-ко-ко-КОМБО

Mark ☢️

и да, я пытаюсь

Mark ☢️

Calamari Server side components include : Apache, salt-master , supervisord , cthulhu , carbon-cache Calamari Client side components include : salt-minion , diamond

Mark ☢️

ктулху

Mark ☢️

фхтагн

Polnoch

Я наркоман и попробую в проде

Уже 12 часов пробуешь :)?

✠ FLASh ✠

доброе утро! кто может подсказать по резкому как забить ceph кластер на 60% и проверить что он действительно забился?

Mark ☢️

доброе утро! кто может подсказать по резкому как забить ceph кластер на 60% и проверить что он действительно забился?

создать rbd-образ большой и срать в него fio линейной записью в несколько смычков

Mark ☢️

Уже 12 часов пробуешь :)?

я не осилил

✠ FLASh ✠

а как проверить что он действительно забился?

Mark ☢️

ceph osd df

✠ FLASh ✠

many thanks!

Mark ☢️

и да, лучше создать несколько образов, и каждый засрать

Mark ☢️

+ смотреть used / avail

✠ FLASh ✠

и да, лучше создать несколько образов, и каждый засрать

вот таким образом например? rbd create --size 1024 pool_name/image_name

Mark ☢️

ну например да

Mark ☢️

только размер побольше, наверно

Mark ☢️

но это не засрёт цеф, ибо это thin provisioning

✠ FLASh ✠

а как тогда правильнее?

✠ FLASh ✠

создать, например, файл на N гигабайт и пхать его в цеф чем-то типа rbd import ... ?

Mark ☢️

ну ёмоё

Mark ☢️

ну например с помощью fio засрать

Mark ☢️

fio --ioengine=rbd --direct=1 --name=test --bs=64m --iodepth=32 --readwrite=write --clientname=admin --pool=pool_name --rbdname=image_name

✠ FLASh ✠

воу, спасибо. Я не пользовался такой штукой

Михаил

fio --ioengine=rbd --direct=1 --name=test --bs=64m --iodepth=32 --readwrite=write --clientname=admin --pool=pool_name --rbdname=image_name

я смотрю ты делаешь успехи

Mark ☢️

я смотрю ты делаешь успехи

да ну перестань :)

Sergei

Коллеги, вы не сталкивались с залипшим backfill'ом? картина маслом: кластер jewel, 8 нод, 80 osd, XFS, CentOS, backfilling зависает на последних нескольких десятках тысяч объектов. из 5000 PG 5 не хотят бекфиллиться, все должны залиться на определенную osd. кластер почти не нагружен. диск хороший, менял трижды. ceph-osd на этом диске потребляет 270% CPU, при этом ничего не делает с диском, в iostat пустота. если выбросить эту OSD и дождаться рекавери, то появится другая OSD, которая не сможет принять в себя несколько последних PG, при этом это будут другие PG, не те, которые страдают на текущей OSD.

Александр

А логах что?

Sergei

А логах что?

ничего фактически

Sergei

ну то есть в дебаг-режиме там мясо, конечно, но понятнее (во всяком случае мне) не становится. могу куда-нибудь залить эту многогигабайтную портянку.

Александр

Много то зачем, начало когда cpu уходит ввысь

Sergei

на старте, бро.

Александр

O_o

Sergei

ну то есть, мм, смотри. пустой диск вставляешь, он начинает бекфиллиться. поток 120 Мб/с, как положено. при этом CPU потребляется хорошо (те же 250-280%) когда бекфилл почти завершен - потребление CPU остается, но процесс встает. в strace мясо, но нет глубокой разницы по статистике по сравнению с живым osd.

Александр

Сложна:-(

Михаил

какие-то кастомные хитрые crushmap правила есть?

Sergei

какие-то кастомные хитрые crushmap правила есть?

нет, краш сходится

Михаил

или просто плоский кластер?

Sergei

или просто плоский кластер?

плоский, да, один рулсет с выбором хоста, хосты в одной иерархии.

Sergei

причем, по-видимому бекфилл каким-то образом там чуть-чуть идет. 10-20 объектов в час таки уходят из degraded/misplaced

Александр

А из-за чего вообще такая проблема может быть? Идеи хоть есть?

Александр

Начал гуглить, но что-то похожего ничего нет, может не так гуглю.

Sergei

я уже обгуглился. у меня первично было подозрение, что в какой-то PG оказалось огромное количество маленьких объектов. но не подтвердилось.

Anonymous

я уже обгуглился. у меня первично было подозрение, что в какой-то PG оказалось огромное количество маленьких объектов. но не подтвердилось.

напиши в #ceph, народ из redhat поможет

Михаил

напиши в #ceph, народ из redhat поможет

Ты задолбал

Михаил

Если есть ответ на вопрос, то напиши его в чат, если нет, то не надо флудить

Михаил

Посыл в другой чат не ответ на вопрос.

Александр

Ты задолбал

😄👍

タキ

Я пробовал так делать, указывал журнал при создании через деплой, только проявлялась проблема с которой ты мне помог тогда 😒 Хотя у меня не последний jewel уже, может поправили

タキ

ceph osd prepare потом ceph osd activate и ок)

Mark ☢️

я уже обгуглился. у меня первично было подозрение, что в какой-то PG оказалось огромное количество маленьких объектов. но не подтвердилось.

А у тебя это не пул размером один случаем ?

Sergei

нет, 3.

Sergei

я дебил что ли, ожидать репликацию в пуле с размером 1

Mark ☢️

я дебил что ли, ожидать репликацию в пуле с размером 1

там просто проблема была, что если пул размером один то там перенос пг на другой осд —реально спецкейс с похожими спецэффектами.

Sergei

с размером 2 - тоже есть интересности.

Mark ☢️

опаопа

Mark ☢️

какие ?

Mark ☢️

(с размером один — они задокументированы и даже сказано почему)

Михаил

Примерно те же, по тем же причинам

Sergei

мм, при выпадении одной ноды из восьми с размером 2 на полупустом кластере мы имели health_err больше часа.

Mark ☢️

мм, при выпадении одной ноды из восьми с размером 2 на полупустом кластере мы имели health_err больше часа.

а что именно там err ?

Sergei

честно говоря, давно было, я не помню, что там было конкретно написано. насколько я понял, кластер не хотел позволять писать в PG, которые были в backfilling, несмотря на min_size 1