
AnswerX
21.12.2016
06:49:45
many thanks!

Марк ☢
21.12.2016
06:52:07
и да, лучше создать несколько образов, и каждый засрать
+ смотреть used / avail

AnswerX
21.12.2016
07:06:00

Google

Марк ☢
21.12.2016
11:22:23
ну например да
только размер побольше, наверно
но это не засрёт цеф, ибо это thin provisioning

AnswerX
21.12.2016
11:24:28
а как тогда правильнее?
создать, например, файл на N гигабайт и пхать его в цеф чем-то типа rbd import ... ?

Марк ☢
21.12.2016
13:19:39
ну ёмоё
ну например с помощью fio засрать
fio --ioengine=rbd --direct=1 --name=test --bs=64m --iodepth=32 --readwrite=write --clientname=admin --pool=pool_name --rbdname=image_name

AnswerX
21.12.2016
13:22:55
воу, спасибо. Я не пользовался такой штукой

Михаил
21.12.2016
13:55:39

Марк ☢
21.12.2016
14:34:19

Sergey
21.12.2016
14:48:58
Коллеги, вы не сталкивались с залипшим backfill'ом?
картина маслом:
кластер jewel, 8 нод, 80 osd, XFS, CentOS, backfilling зависает на последних нескольких десятках тысяч объектов.
из 5000 PG 5 не хотят бекфиллиться, все должны залиться на определенную osd.
кластер почти не нагружен. диск хороший, менял трижды. ceph-osd на этом диске потребляет 270% CPU, при этом ничего не делает с диском, в iostat пустота.
если выбросить эту OSD и дождаться рекавери, то появится другая OSD, которая не сможет принять в себя несколько последних PG, при этом это будут другие PG, не те, которые страдают на текущей OSD.

Александр
21.12.2016
15:28:38
А логах что?

Google

Sergey
21.12.2016
15:28:59
ну то есть в дебаг-режиме там мясо, конечно, но понятнее (во всяком случае мне) не становится. могу куда-нибудь залить эту многогигабайтную портянку.

Александр
21.12.2016
15:30:13
Много то зачем, начало когда cpu уходит ввысь

Sergey
21.12.2016
15:30:20
на старте, бро.

Александр
21.12.2016
15:30:33
O_o

Sergey
21.12.2016
15:31:18
ну то есть, мм, смотри.
пустой диск вставляешь, он начинает бекфиллиться. поток 120 Мб/с, как положено. при этом CPU потребляется хорошо (те же 250-280%)
когда бекфилл почти завершен - потребление CPU остается, но процесс встает.
в strace мясо, но нет глубокой разницы по статистике по сравнению с живым osd.

Александр
21.12.2016
15:32:17
Сложна:-(

Михаил
21.12.2016
15:42:05
какие-то кастомные хитрые crushmap правила есть?

Sergey
21.12.2016
15:42:09

Михаил
21.12.2016
15:42:12
или просто плоский кластер?

Sergey
21.12.2016
15:42:34
причем, по-видимому бекфилл каким-то образом там чуть-чуть идет. 10-20 объектов в час таки уходят из degraded/misplaced

Александр
21.12.2016
16:14:59
А из-за чего вообще такая проблема может быть? Идеи хоть есть?
Начал гуглить, но что-то похожего ничего нет, может не так гуглю.

Sergey
21.12.2016
16:16:09
я уже обгуглился.
у меня первично было подозрение, что в какой-то PG оказалось огромное количество маленьких объектов.
но не подтвердилось.

Старый
21.12.2016
16:17:39

Михаил
21.12.2016
16:19:22
Если есть ответ на вопрос, то напиши его в чат, если нет, то не надо флудить
Посыл в другой чат не ответ на вопрос.

Александр
21.12.2016
16:30:27

Google

Taki
21.12.2016
16:55:08
Я пробовал так делать, указывал журнал при создании через деплой, только проявлялась проблема с которой ты мне помог тогда ? Хотя у меня не последний jewel уже, может поправили
ceph osd prepare потом ceph osd activate и ок)

Марк ☢
21.12.2016
17:30:28

Sergey
21.12.2016
17:30:52
нет, 3.
я дебил что ли, ожидать репликацию в пуле с размером 1

Марк ☢
21.12.2016
17:32:38

Sergey
21.12.2016
17:32:51
с размером 2 - тоже есть интересности.

Марк ☢
21.12.2016
17:32:55
опаопа
какие ?
(с размером один — они задокументированы и даже сказано почему)

Михаил
21.12.2016
17:35:32
Примерно те же, по тем же причинам

Sergey
21.12.2016
17:36:14
мм, при выпадении одной ноды из восьми с размером 2 на полупустом кластере мы имели health_err больше часа.

Марк ☢
21.12.2016
17:37:52

Sergey
21.12.2016
17:38:50
честно говоря, давно было, я не помню, что там было конкретно написано.
насколько я понял, кластер не хотел позволять писать в PG, которые были в backfilling, несмотря на min_size 1
я с тех пор избегаю size 2

Марк ☢
21.12.2016
17:40:27
а я сегодня вот что сделал: у меня было osd_crush_chooseleaf_type = 0

Михаил
21.12.2016
17:40:37
Ну так она реплика упала и вот у тебя min_size 1

Марк ☢
21.12.2016
17:41:03
тут нас ждал сюпрайз мазафака
в виде сообщения... ммм. щщас попробую найти его в истории поиска гугла

Google

Михаил
21.12.2016
17:42:04

Sergey
21.12.2016
17:42:16
1.0000 везде

Марк ☢
21.12.2016
17:42:36

Михаил
21.12.2016
17:42:48
Их там два веса

Sergey
21.12.2016
17:43:06
80 одинаковых OSD 60 1.81850 osd.60 up 1.00000 1.00000

Марк ☢
21.12.2016
17:43:18

Sergey
21.12.2016
17:43:38
впрочем, кажется я выкинул три OSD'шки последовательно и кластер наконец приходит в состояние health_ok

Марк ☢
21.12.2016
17:43:42
и всё перепроперчилось так как мне надо !

Михаил
21.12.2016
17:43:58

Sergey
21.12.2016
17:44:02
что, впрочем, не добавляет мне понимания.

Михаил
21.12.2016
17:44:06
Ага

Марк ☢
21.12.2016
17:45:30

Sergey
21.12.2016
17:45:47
интересного ничего.
анфаундов не было.
список объектов был.
объекты были доступны.

Марк ☢
21.12.2016
17:46:02
"blocked": "peering is blocked due to down osds",

Sergey
21.12.2016
17:46:06
нет
все PG были active

Марк ☢
21.12.2016
17:46:32
а прямо сейчас проблема проявляется ?

Sergey
21.12.2016
17:47:05
к сожалению, уже нет, это все-таки прод.
я планирую дождаться схождения кластера и потом вернуть эту подозрительную osd с маленьким весом.

Михаил
21.12.2016
17:49:12

Google

Марк ☢
22.12.2016
14:28:44
ЗАЕБЦА
но это не блюсторный осд

Михаил
22.12.2016
14:29:59
зачем и как?