Roman
я задам глупый вопрос: а в ceph в журнал пишутся данные?
Anonymous
да, с filestore же
タキ
Я до создания в конфиг прописываю путь до журнала. При указании журнала во время создания осд через деплой - получается какая-то дичь
Александр
Буду сидеть ждать
О да, теперь присоденюсь к ceph в проде...
Александр
Да, сейчас по кол-во опредлятся, 4 или 6 или 9
Александр
😊
Михаил
https://indico.cern.ch/event/542464/contributions/2202311/attachments/1291014/1922810/20160614_ceph_day_cern.pdf
Александр
Будет что в метро почитать
Михаил
ну это так, будущее судя по всему
Александр
Бюджет на 4 машины подтвердили, интересно когда закупки ((
Mark ☢️
https://www.mankier.com/8/vfs_ceph
Mark ☢️
Я наркоман и попробую в проде
Mark ☢️
Backend ( Calamari Server ) — the Calamari backend is written in Python 2.6+, using Saltstack, ZeroRPC, gevent, Django, django-rest-framework, graphite and instantiates a new REST API for integration with other systems.
Mark ☢️
ко-ко-ко-ко-КОМБО
Mark ☢️
и да, я пытаюсь
Mark ☢️
Calamari Server side components include : Apache, salt-master , supervisord , cthulhu , carbon-cache Calamari Client side components include : salt-minion , diamond
Mark ☢️
ктулху
Mark ☢️
фхтагн
Polnoch
Я наркоман и попробую в проде
Уже 12 часов пробуешь :)?
✠ FLASh ✠
доброе утро! кто может подсказать по резкому как забить ceph кластер на 60% и проверить что он действительно забился?
Mark ☢️
доброе утро! кто может подсказать по резкому как забить ceph кластер на 60% и проверить что он действительно забился?
создать rbd-образ большой и срать в него fio линейной записью в несколько смычков
Mark ☢️
✠ FLASh ✠
а как проверить что он действительно забился?
Mark ☢️
ceph osd df
✠ FLASh ✠
many thanks!
Mark ☢️
и да, лучше создать несколько образов, и каждый засрать
Mark ☢️
Mark ☢️
+ смотреть used / avail
✠ FLASh ✠
и да, лучше создать несколько образов, и каждый засрать
вот таким образом например? rbd create --size 1024 pool_name/image_name
Mark ☢️
ну например да
Mark ☢️
только размер побольше, наверно
Mark ☢️
но это не засрёт цеф, ибо это thin provisioning
✠ FLASh ✠
а как тогда правильнее?
✠ FLASh ✠
создать, например, файл на N гигабайт и пхать его в цеф чем-то типа rbd import ... ?
Mark ☢️
ну ёмоё
Mark ☢️
ну например с помощью fio засрать
Mark ☢️
fio --ioengine=rbd --direct=1 --name=test --bs=64m --iodepth=32 --readwrite=write --clientname=admin --pool=pool_name --rbdname=image_name
✠ FLASh ✠
воу, спасибо. Я не пользовался такой штукой
Mark ☢️
Sergei
Коллеги, вы не сталкивались с залипшим backfill'ом? картина маслом: кластер jewel, 8 нод, 80 osd, XFS, CentOS, backfilling зависает на последних нескольких десятках тысяч объектов. из 5000 PG 5 не хотят бекфиллиться, все должны залиться на определенную osd. кластер почти не нагружен. диск хороший, менял трижды. ceph-osd на этом диске потребляет 270% CPU, при этом ничего не делает с диском, в iostat пустота. если выбросить эту OSD и дождаться рекавери, то появится другая OSD, которая не сможет принять в себя несколько последних PG, при этом это будут другие PG, не те, которые страдают на текущей OSD.
Александр
А логах что?
Sergei
А логах что?
ничего фактически
Sergei
ну то есть в дебаг-режиме там мясо, конечно, но понятнее (во всяком случае мне) не становится. могу куда-нибудь залить эту многогигабайтную портянку.
Александр
Много то зачем, начало когда cpu уходит ввысь
Sergei
на старте, бро.
Александр
O_o
Sergei
ну то есть, мм, смотри. пустой диск вставляешь, он начинает бекфиллиться. поток 120 Мб/с, как положено. при этом CPU потребляется хорошо (те же 250-280%) когда бекфилл почти завершен - потребление CPU остается, но процесс встает. в strace мясо, но нет глубокой разницы по статистике по сравнению с живым osd.
Александр
Сложна:-(
Михаил
какие-то кастомные хитрые crushmap правила есть?
Михаил
или просто плоский кластер?
Sergei
или просто плоский кластер?
плоский, да, один рулсет с выбором хоста, хосты в одной иерархии.
Sergei
причем, по-видимому бекфилл каким-то образом там чуть-чуть идет. 10-20 объектов в час таки уходят из degraded/misplaced
Александр
А из-за чего вообще такая проблема может быть? Идеи хоть есть?
Александр
Начал гуглить, но что-то похожего ничего нет, может не так гуглю.
Sergei
я уже обгуглился. у меня первично было подозрение, что в какой-то PG оказалось огромное количество маленьких объектов. но не подтвердилось.
Михаил
Если есть ответ на вопрос, то напиши его в чат, если нет, то не надо флудить
Михаил
Посыл в другой чат не ответ на вопрос.
Александр
タキ
Я пробовал так делать, указывал журнал при создании через деплой, только проявлялась проблема с которой ты мне помог тогда 😒 Хотя у меня не последний jewel уже, может поправили
タキ
ceph osd prepare потом ceph osd activate и ок)
Sergei
нет, 3.
Sergei
я дебил что ли, ожидать репликацию в пуле с размером 1
Mark ☢️
я дебил что ли, ожидать репликацию в пуле с размером 1
там просто проблема была, что если пул размером один то там перенос пг на другой осд —реально спецкейс с похожими спецэффектами.
Sergei
с размером 2 - тоже есть интересности.
Mark ☢️
опаопа
Mark ☢️
какие ?
Mark ☢️
(с размером один — они задокументированы и даже сказано почему)
Михаил
Примерно те же, по тем же причинам
Sergei
мм, при выпадении одной ноды из восьми с размером 2 на полупустом кластере мы имели health_err больше часа.
Sergei
честно говоря, давно было, я не помню, что там было конкретно написано. насколько я понял, кластер не хотел позволять писать в PG, которые были в backfilling, несмотря на min_size 1