@pro_openstack

« Назад

Страница 75 из 117

Далее »

AnswerX

21.12.2016
06:49:45

many thanks!

Марк ☢

21.12.2016
06:52:07

и да, лучше создать несколько образов, и каждый засрать

+ смотреть used / avail

AnswerX

21.12.2016
07:06:00

и да, лучше создать несколько образов, и каждый засрать

вот таким образом например? rbd create --size 1024 pool_name/image_name

Google

Марк ☢

21.12.2016
11:22:23

ну например да

только размер побольше, наверно

но это не засрёт цеф, ибо это thin provisioning

AnswerX

21.12.2016
11:24:28

а как тогда правильнее?

создать, например, файл на N гигабайт и пхать его в цеф чем-то типа rbd import ... ?

Марк ☢

21.12.2016
13:19:39

ну ёмоё

ну например с помощью fio засрать

fio --ioengine=rbd --direct=1 --name=test --bs=64m --iodepth=32 --readwrite=write --clientname=admin --pool=pool_name --rbdname=image_name

AnswerX

21.12.2016
13:22:55

воу, спасибо. Я не пользовался такой штукой

Михаил

21.12.2016
13:55:39

fio --ioengine=rbd --direct=1 --name=test --bs=64m --iodepth=32 --readwrite=write --clientname=admin --pool=pool_name --rbdname=image_name

я смотрю ты делаешь успехи

Марк ☢

21.12.2016
14:34:19

я смотрю ты делаешь успехи

да ну перестань :)

Sergey

21.12.2016
14:48:58

Коллеги, вы не сталкивались с залипшим backfill'ом? картина маслом: кластер jewel, 8 нод, 80 osd, XFS, CentOS, backfilling зависает на последних нескольких десятках тысяч объектов. из 5000 PG 5 не хотят бекфиллиться, все должны залиться на определенную osd. кластер почти не нагружен. диск хороший, менял трижды. ceph-osd на этом диске потребляет 270% CPU, при этом ничего не делает с диском, в iostat пустота. если выбросить эту OSD и дождаться рекавери, то появится другая OSD, которая не сможет принять в себя несколько последних PG, при этом это будут другие PG, не те, которые страдают на текущей OSD.

Александр

21.12.2016
15:28:38

А логах что?

Google

Sergey

21.12.2016
15:28:59

А логах что?

ничего фактически

ну то есть в дебаг-режиме там мясо, конечно, но понятнее (во всяком случае мне) не становится. могу куда-нибудь залить эту многогигабайтную портянку.

Александр

21.12.2016
15:30:13

Много то зачем, начало когда cpu уходит ввысь

Sergey

21.12.2016
15:30:20

на старте, бро.

Александр

21.12.2016
15:30:33

O_o

Sergey

21.12.2016
15:31:18

ну то есть, мм, смотри. пустой диск вставляешь, он начинает бекфиллиться. поток 120 Мб/с, как положено. при этом CPU потребляется хорошо (те же 250-280%) когда бекфилл почти завершен - потребление CPU остается, но процесс встает. в strace мясо, но нет глубокой разницы по статистике по сравнению с живым osd.

Александр

21.12.2016
15:32:17

Сложна:-(

Михаил

21.12.2016
15:42:05

какие-то кастомные хитрые crushmap правила есть?

Sergey

21.12.2016
15:42:09

какие-то кастомные хитрые crushmap правила есть?

нет, краш сходится

Михаил

21.12.2016
15:42:12

или просто плоский кластер?

Sergey

21.12.2016
15:42:34

или просто плоский кластер?

плоский, да, один рулсет с выбором хоста, хосты в одной иерархии.

причем, по-видимому бекфилл каким-то образом там чуть-чуть идет. 10-20 объектов в час таки уходят из degraded/misplaced

Александр

21.12.2016
16:14:59

А из-за чего вообще такая проблема может быть? Идеи хоть есть?

Начал гуглить, но что-то похожего ничего нет, может не так гуглю.

Sergey

21.12.2016
16:16:09

я уже обгуглился. у меня первично было подозрение, что в какой-то PG оказалось огромное количество маленьких объектов. но не подтвердилось.

Старый

21.12.2016
16:17:39

я уже обгуглился. у меня первично было подозрение, что в какой-то PG оказалось огромное количество маленьких объектов. но не подтвердилось.

напиши в #ceph, народ из redhat поможет

Михаил

21.12.2016
16:19:22

напиши в #ceph, народ из redhat поможет

Ты задолбал

Если есть ответ на вопрос, то напиши его в чат, если нет, то не надо флудить

Посыл в другой чат не ответ на вопрос.

Александр

21.12.2016
16:30:27

Ты задолбал

??

Google

Taki

21.12.2016
16:55:08

Я пробовал так делать, указывал журнал при создании через деплой, только проявлялась проблема с которой ты мне помог тогда ? Хотя у меня не последний jewel уже, может поправили

ceph osd prepare потом ceph osd activate и ок)

Марк ☢

21.12.2016
17:30:28

я уже обгуглился. у меня первично было подозрение, что в какой-то PG оказалось огромное количество маленьких объектов. но не подтвердилось.

А у тебя это не пул размером один случаем ?

Sergey

21.12.2016
17:30:52

нет, 3.

я дебил что ли, ожидать репликацию в пуле с размером 1

Марк ☢

21.12.2016
17:32:38

я дебил что ли, ожидать репликацию в пуле с размером 1

там просто проблема была, что если пул размером один то там перенос пг на другой осд —реально спецкейс с похожими спецэффектами.

Sergey

21.12.2016
17:32:51

с размером 2 - тоже есть интересности.

Марк ☢

21.12.2016
17:32:55

опаопа

какие ?

(с размером один — они задокументированы и даже сказано почему)

Михаил

21.12.2016
17:35:32

Примерно те же, по тем же причинам

Sergey

21.12.2016
17:36:14

мм, при выпадении одной ноды из восьми с размером 2 на полупустом кластере мы имели health_err больше часа.

Марк ☢

21.12.2016
17:37:52

мм, при выпадении одной ноды из восьми с размером 2 на полупустом кластере мы имели health_err больше часа.

а что именно там err ?

Sergey

21.12.2016
17:38:50

честно говоря, давно было, я не помню, что там было конкретно написано. насколько я понял, кластер не хотел позволять писать в PG, которые были в backfilling, несмотря на min_size 1

я с тех пор избегаю size 2

Марк ☢

21.12.2016
17:40:27

а я сегодня вот что сделал: у меня было osd_crush_chooseleaf_type = 0

Михаил

21.12.2016
17:40:37

Ну так она реплика упала и вот у тебя min_size 1

Марк ☢

21.12.2016
17:41:03

а я сегодня вот что сделал: у меня было osd_crush_chooseleaf_type = 0

ну так вот я круш мап сдекомпилил, поправил на host и типа отел заинсталлить, но!

тут нас ждал сюпрайз мазафака

в виде сообщения... ммм. щщас попробую найти его в истории поиска гугла

Google

Михаил

21.12.2016
17:42:04

ну то есть, мм, смотри. пустой диск вставляешь, он начинает бекфиллиться. поток 120 Мб/с, как положено. при этом CPU потребляется хорошо (те же 250-280%) когда бекфилл почти завершен - потребление CPU остается, но процесс встает. в strace мясо, но нет глубокой разницы по статистике по сравнению с живым osd.

А с весами что?

Sergey

21.12.2016
17:42:16

1.0000 везде

Марк ☢

21.12.2016
17:42:36

в виде сообщения... ммм. щщас попробую найти его в истории поиска гугла

Error EINVAL: Failed crush map test: *** Error in `crush tool': munmap_chunk(): invalid pointer 0x(тут цифры)"

Михаил

21.12.2016
17:42:48

1.0000 везде

Weight or reweight?

Их там два веса

Sergey

21.12.2016
17:43:06

80 одинаковых OSD 60 1.81850 osd.60 up 1.00000 1.00000

Марк ☢

21.12.2016
17:43:18

Error EINVAL: Failed crush map test: *** Error in `crush tool': munmap_chunk(): invalid pointer 0x(тут цифры)"

но я, знаете, не пальцем деланный. узнал что именно не так и пофиксил crush map!

Sergey

21.12.2016
17:43:38

впрочем, кажется я выкинул три OSD'шки последовательно и кластер наконец приходит в состояние health_ok

Марк ☢

21.12.2016
17:43:42

и всё перепроперчилось так как мне надо !

Михаил

21.12.2016
17:43:58

впрочем, кажется я выкинул три OSD'шки последовательно и кластер наконец приходит в состояние health_ok

Не вижу логики

Sergey

21.12.2016
17:44:02

что, впрочем, не добавляет мне понимания.

Михаил

21.12.2016
17:44:06

Ага

Марк ☢

21.12.2016
17:45:30

что, впрочем, не добавляет мне понимания.

ceph pg XXXX query чё-нть говорит?

Sergey

21.12.2016
17:45:47

интересного ничего. анфаундов не было. список объектов был. объекты были доступны.

Марк ☢

21.12.2016
17:46:02

"blocked": "peering is blocked due to down osds",

Sergey

21.12.2016
17:46:06

нет

все PG были active

Марк ☢

21.12.2016
17:46:32

а прямо сейчас проблема проявляется ?

Sergey

21.12.2016
17:47:05

к сожалению, уже нет, это все-таки прод. я планирую дождаться схождения кластера и потом вернуть эту подозрительную osd с маленьким весом.

Михаил

21.12.2016
17:49:12

к сожалению, уже нет, это все-таки прод. я планирую дождаться схождения кластера и потом вернуть эту подозрительную osd с маленьким весом.

Ну, тоже вариант

Google

Марк ☢

22.12.2016
14:28:44

ЗАЕБЦА

но это не блюсторный осд

Михаил

22.12.2016
14:29:59

зачем и как?

« Назад

Страница 75 из 117

Далее »

Открыть в Telegram