Михаил

давайте двальше в лс, я минут через 30 почищу

Михаил

хочется, что бы канал оставался в рамках сабжа

Nick

ага, уже

Oleg

есть P3600 (NVMe 2.5!!!) для тестов. могу давать в тест для тех кто хочет попробовать

Oleg

скоро придут 3dxpoint в демо

Oleg

есть некие сервера в демо для желающих. Но только все ИНТЕЛ

Oleg

по всем вопросам в личку чтобы не засорять

Mike

Мне nvme дайте

Oleg

не вопрос. пиши. условие одно-не убивать и возврат.

Oleg

гарантийное письмо надо бужет. и они в формате 2.5 диска-платформа должна быть.

Mike

Спрошу начальство

Logan

@SinTeZoiD ты мануал-то дописал? Публика жаждет

Михаил

@SinTeZoiD ты мануал-то дописал? Публика жаждет

Я дописал текстовую версию своего доклада о том как не надо готовить CEPH и как надо начнем с этого надеюсь завтра заанонсирую местную базу знаний, которую можно будет пополнять. сообществом

Михаил

а что ты хочешь видеть в мануале?

Михаил

ну то есть как поставить цеф есть на ceph.com

Vladimir

Добрый день. Кто-нибудь сталкивался с ситуацией, когда часть OSD, при наличии большого объёма свободной памяти уходит в swap ?

Vladimir

7 гигов попало в swap

Vladimir

Постепенно уменьшаю значение /proc/sys/vm/swappiness

Denis

swapoff -a

🅅aleriy

тогда придет OOM KIller :))

🅅aleriy

кстати, кто-нибудь пробовал использовать на хостах с osd всякие штуки типа zram?

Михаил

кстати, кто-нибудь пробовал использовать на хостах с osd всякие штуки типа zram?

настолько всё плохо с памятью?

🅅aleriy

в ceph то??? шутите? :))

🅅aleriy

с такой реализацией ему сколько не скорми - всё мало будет

Vladimir

Видел, на последней саммите по OpenStack доклад о оптимизации CEPH.. Индус там рекомендует использовать vm.swappiness = 0.

Vladimir

Есть какой-то бэстпрактис по этому поводу ?))

Vladimir

Кому интересно, доклад тут:

Vladimir

https://www.youtube.com/watch?v=GJCNWeZE7rk&list=PLoS_h-qeyLeeRyNOi5trGXkHHibUITzGM&index=3

Vladimir

Было свбодно более 200Gb )

Vladimir

Сейчас каждая osd на 150 метров в свопе.

Vladimir

Не понятно, как они туда попали.

Mike

Видел, на последней саммите по OpenStack доклад о оптимизации CEPH.. Индус там рекомендует использовать vm.swappiness = 0.

По этому параметру нет конкретики. Каждый по своему советует. Тенденция к снижению этого значения, что бы как можно больше оставлять в ram.

Mike

Может потек osd? Бывает.

Polnoch

Уважаемые пользователи. В связи с тем, что тематика канала перерастает в ceph only, то канал переименовывается в @ceph_ru. Обсуждение openstack переноситься в @openstack_russia для обсуждения облачных технологий создан канал @cloud_ru. Для беспробудного флуда и холиваров канал @cloud_flood.

Давно пора было

Vladimir

Может потек osd? Бывает.

Если бы потек один, я бы не сильно беспокоился, .. в своп залезли все OSD, котороые были на сервере... сейчас каждая по 150мегабайт..

Vladimir

free -mh total used free shared buff/cache available Mem: 251G 11G 18G 28M 220G 236G Swap: 13G 1.6G 12G

Михаил

с такой реализацией ему сколько не скорми - всё мало будет

Ну гиг на тер, ну ладно, полтора в нормальном режиме

Sergey

Добрый день. Кто-нибудь сталкивался с ситуацией, когда часть OSD, при наличии большого объёма свободной памяти уходит в swap ?

Попробуй убавить размер журнала, если больше 2Гб

Vladimir

Попробуй убавить размер журнала, если больше 2Гб

Размер журнала 25 гигов партиция, но не уверен, что он заполняется даже на половину.

Sergey

Скорее всего в этом и проблема, зачем такой большой журнал?

Vladimir

При первой инсталляции не учли особенности, кажется в то время ceph-deploy лепил дефолтовый журнал размером 10g, мы взяли размер больше

Vladimir

С другой стороны, какая разница , какого он размера, если есть параметры перемешения данных из журнала на медленный диск.. Он вроде не успевает наполнится за это время большим обьемом

Logan

а что ты хочешь видеть в мануале?

ты обещал мануал о том, как правильно ставить ceph, чтобы не пришлось его потом сразу же переделывать :)

Mike

ты обещал мануал о том, как правильно ставить ceph, чтобы не пришлось его потом сразу же переделывать :)

Почитать документацию и поставить.

Mike

Достаточно один раз поставить не используя ceph-deploy. Понимание приходит быстро.

Pavel

Достаточно один раз поставить не используя ceph-deploy. Понимание приходит быстро.

Зачем? В доках расписан же алгоритм действий ceph-deploy

Mike

Зачем? В доках расписан же алгоритм действий ceph-deploy

Когда делаешь руками, понимаешь как это работает и связано между собой. Как надо помечать партиции, как отформатировать журнал отдельно, структуру каталогов и т.д.

VVSina

угу, первый раз так наебался... теперь можно с закрытыми глазами собирать ;)

Михаил

Когда делаешь руками, понимаешь как это работает и связано между собой. Как надо помечать партиции, как отформатировать журнал отдельно, структуру каталогов и т.д.

А зачем знать о том, как форматировать журнал отдельно?

Mike

А зачем знать о том, как форматировать журнал отдельно?

Вылетает у тебя диск с журналом. Меняешь и форматируешь без пересоздания osd. Бывает из-за ошибки или невнимательности повесили два osd на один журнал. Разводишь и раздельно форматируешь журналы.

Pavel

Вылетает у тебя диск с журналом. Меняешь и форматируешь без пересоздания osd. Бывает из-за ошибки или невнимательности повесили два osd на один журнал. Разводишь и раздельно форматируешь журналы.

Ну вообще про это отдельно в доках написано. Не, я не спорю, может кто-то лучше запоминает руками команды прогоняя... Мне хватило доков и чтения вывода ceph-deploy)

Logan

Ну вообще про это отдельно в доках написано. Не, я не спорю, может кто-то лучше запоминает руками команды прогоняя... Мне хватило доков и чтения вывода ceph-deploy)

проблема в том, что о том, что что-то написано в доках - надо знать. Чтобы пойти именно нужное в доках искать

Sergey

Р.

Sergey

Журнал так просто не изменить, там так же свои тонкости

Pavel

Журнал так просто не изменить, там так же свои тонкости

Там 3 команды

Pavel

http://ceph.com/planet/ceph-recover-osds-after-ssd-journal-failure/

Dmitry

Размер журнала 25 гигов партиция, но не уверен, что он заполняется даже на половину.

Кстати, интересно сколько у вас журналы размером ? Я вот думаю может увеличить размер , сейчас у меня по 25gb

Vladimir

Кстати, интересно сколько у вас журналы размером ? Я вот думаю может увеличить размер , сейчас у меня по 25gb

30gb журнал, но у меня сильные сомнения, что он нужен такого размера, на бэкэнде у нас диски 10k

Pavel

Есть формула для расчёта журнала

Mark ☢️

Есть формула для расчёта журнала

И видимо в ней будет параметр -- время в течение которого должна быть возможна запись данных на пиковых скоростях. Другими словами чем больше нужно чтобы осд мог проглотить пиковые иопсы и или мегабайты в секунду, тем больше журнал. Разве нет ?

Михаил

И видимо в ней будет параметр -- время в течение которого должна быть возможна запись данных на пиковых скоростях. Другими словами чем больше нужно чтобы осд мог проглотить пиковые иопсы и или мегабайты в секунду, тем больше журнал. Разве нет ?

Ну погугли формулу

Брандашмыг

Блин, когда "погугли" будет считаться нецензурным?

Михаил

Блин, когда "погугли" будет считаться нецензурным?

Вообще да, но нет. Есть то, что хрен нагуглишь, но эту формулу не сложно найти

Брандашмыг

Дело не в том, что несложно, дело в том, что тебе самому погуглить и найти нужную ссылку проще во сто крат, чем тем, кто не участвует, а наблюдает за дискуссией, ты более глубоко в теме

Брандашмыг

Я гуглить буду до морковкина заговения

Ilia

Я гуглить буду до морковкина заговения

тада самый жизненный вариант - на сколько денег хватит

Михаил

osd journal size = {2 * (expected throughput * filestore max sync interval)}

Михаил

http://docs.ceph.com/docs/jewel/rados/configuration/osd-config-ref/

Alexey Tselitan UTC+7

Коллеги, привет. Сейчас будет длиннопост. Нужна помощь. Если не по адресу, подскажите ресурс, куда лучше обратиться? Желательно на Русском, т.к. на Английсом так подробно расписать не смогу. В ЦЕФе и даже в Линуксе новичок. Начинал с десяток лет назад вообще с FreeBSD, но успел многое позабыть. Появилась задача запустить ЦЕФ. Пришлось вспоминать и разбираться. Получилось. Имеется: - 14 узлов хранения. В каждом 36x HDD 6Tb для хранения данных. 2x SSD 80Gb под систему. 2x NVME SSD 800Gb под журналы. Памяти в каждом узле 128Gb. 4 сетевых интерфейса 10G. CPU 2x E5-2630v3. В сумме на кластер получается 504 OSD - 3 узла монитора. Под систему 2x SSD 80Gb. Памяти 64Gb. Сеть 2x 10G Взял релиз Jewel. CentOS 7. Документация: http://docs.ceph.com/ и http://onreader.mdl.ru/CephCookbook/content/index.html Всё установилось и заработало. Единственный пул. Емкость кластера 1.5Пб при коэффициенте репликации 2. Размер журнала для каждого OSD примерно 40Gb (просто тупо разделил доступное пространство на NVME SSD поровну между всеми OSD). Разделены между собой public и cluster сети. osd pool default pg num = 32768 (считал pg num по статье на docs.ceph.com, но в этом вопросе до сих пор плаваю). Но в итоге при любой необходимости ребалансировки кластера, он помирает. В первый раз необходимость ребалансировки возникла после изменения CRUSH MAP - распределил узлы хранения по серверным шкафам. Во второй раз понадобилось перезагрузить один из узлов хранения с целью понять, какой из HDD вышел из строя (физически). В итоге тоже пошла ребалансировка. В обоих случаях результат ребалансировки таков: падает примерно половина всех OSD служб. Остаются в работе от 200 до 300 OSD, равномерно по всем узлам хранения. Кластер в статусе HEALTH_ERR. При попытке вручную запускать OSD, они либо не запускаются, либо запускаются, но при этом падают соседние. Больше 300 OSD запустить не удалось - в процессе recovery они снова падают. Это всё при том, что кластер практически пустой - успели залить в него примерно 20Gb тестовых данных. В продуктив ещё не выпускали. После первого случая вернул кластер к работе удалив единственный существующий пул с данными. После этого все OSD поднялись с пол пинка. Во второй раз удалять данные не стал. Т.к. надо разобраться, что не так, и как это побороть. В данном канале нашел, что причина может быть в том, что кончается память - OOM. Помогите советом, что надо переконфигурировать в кластере, чтоб такого не возникало? Очень хочется уже перейти к тестированию производительности, но не могу. Всем заранее спасибо.

Pavel

Я гуглить буду до морковкина заговения

Значит возможно цеф не для тебя)

Михаил

Коллеги, привет. Сейчас будет длиннопост. Нужна помощь. Если не по адресу, подскажите ресурс, куда лучше обратиться? Желательно на Русском, т.к. на Английсом так подробно расписать не смогу. В ЦЕФе и даже в Линуксе новичок. Начинал с десяток лет назад вообще с FreeBSD, но успел многое позабыть. Появилась задача запустить ЦЕФ. Пришлось вспоминать и разбираться. Получилось. Имеется: - 14 узлов хранения. В каждом 36x HDD 6Tb для хранения данных. 2x SSD 80Gb под систему. 2x NVME SSD 800Gb под журналы. Памяти в каждом узле 128Gb. 4 сетевых интерфейса 10G. CPU 2x E5-2630v3. В сумме на кластер получается 504 OSD - 3 узла монитора. Под систему 2x SSD 80Gb. Памяти 64Gb. Сеть 2x 10G Взял релиз Jewel. CentOS 7. Документация: http://docs.ceph.com/ и http://onreader.mdl.ru/CephCookbook/content/index.html Всё установилось и заработало. Единственный пул. Емкость кластера 1.5Пб при коэффициенте репликации 2. Размер журнала для каждого OSD примерно 40Gb (просто тупо разделил доступное пространство на NVME SSD поровну между всеми OSD). Разделены между собой public и cluster сети. osd pool default pg num = 32768 (считал pg num по статье на docs.ceph.com, но в этом вопросе до сих пор плаваю). Но в итоге при любой необходимости ребалансировки кластера, он помирает. В первый раз необходимость ребалансировки возникла после изменения CRUSH MAP - распределил узлы хранения по серверным шкафам. Во второй раз понадобилось перезагрузить один из узлов хранения с целью понять, какой из HDD вышел из строя (физически). В итоге тоже пошла ребалансировка. В обоих случаях результат ребалансировки таков: падает примерно половина всех OSD служб. Остаются в работе от 200 до 300 OSD, равномерно по всем узлам хранения. Кластер в статусе HEALTH_ERR. При попытке вручную запускать OSD, они либо не запускаются, либо запускаются, но при этом падают соседние. Больше 300 OSD запустить не удалось - в процессе recovery они снова падают. Это всё при том, что кластер практически пустой - успели залить в него примерно 20Gb тестовых данных. В продуктив ещё не выпускали. После первого случая вернул кластер к работе удалив единственный существующий пул с данными. После этого все OSD поднялись с пол пинка. Во второй раз удалять данные не стал. Т.к. надо разобраться, что не так, и как это побороть. В данном канале нашел, что причина может быть в том, что кончается память - OOM. Помогите советом, что надо переконфигурировать в кластере, чтоб такого не возникало? Очень хочется уже перейти к тестированию производительности, но не могу. Всем заранее спасибо.

О, вы все таки добрались до этого чата?) В логах OSD что?

Брандашмыг

Значит возможно цеф не для тебя)

Ну если учесть, что я управленец, который деньгами проверяет программистов и админов, то ты не совсем прав. У нас с той разные шкурки, а ты свою на меня примерить хочешь

Etki

Значит возможно цеф не для тебя)

- Ребят, тут проходил слух про мануал, он уже готов? - Зачем тебе мануал? Просто поставь вручную, все вопросы отпадут - Я только-только начал знакомиться с областью. И что там за формула про журнал? - Погугли - Погугли что? Я не владею контекстом, я не знаю по каким ключевым словам искать - Пфф, парень, эта технология явно не для тебя!

Pavel

Ой всё

Михаил

Ой всё

Ты всегда так говоришь!

Pavel

Ну если человек не может ввести "ceph journal size", то кто ему доктор

Брандашмыг

Ну если человек не может ввести "ceph journal size", то кто ему доктор

Ну так получается, что вы считаете, что гугл даст абсолютно релевантный ответ в каждой из своих ссылок?

Брандашмыг

Я все правильно понял?

Pavel

Там гуглится ссылка на оф. документация

タキ

Коллеги, привет. Сейчас будет длиннопост. Нужна помощь. Если не по адресу, подскажите ресурс, куда лучше обратиться? Желательно на Русском, т.к. на Английсом так подробно расписать не смогу. В ЦЕФе и даже в Линуксе новичок. Начинал с десяток лет назад вообще с FreeBSD, но успел многое позабыть. Появилась задача запустить ЦЕФ. Пришлось вспоминать и разбираться. Получилось. Имеется: - 14 узлов хранения. В каждом 36x HDD 6Tb для хранения данных. 2x SSD 80Gb под систему. 2x NVME SSD 800Gb под журналы. Памяти в каждом узле 128Gb. 4 сетевых интерфейса 10G. CPU 2x E5-2630v3. В сумме на кластер получается 504 OSD - 3 узла монитора. Под систему 2x SSD 80Gb. Памяти 64Gb. Сеть 2x 10G Взял релиз Jewel. CentOS 7. Документация: http://docs.ceph.com/ и http://onreader.mdl.ru/CephCookbook/content/index.html Всё установилось и заработало. Единственный пул. Емкость кластера 1.5Пб при коэффициенте репликации 2. Размер журнала для каждого OSD примерно 40Gb (просто тупо разделил доступное пространство на NVME SSD поровну между всеми OSD). Разделены между собой public и cluster сети. osd pool default pg num = 32768 (считал pg num по статье на docs.ceph.com, но в этом вопросе до сих пор плаваю). Но в итоге при любой необходимости ребалансировки кластера, он помирает. В первый раз необходимость ребалансировки возникла после изменения CRUSH MAP - распределил узлы хранения по серверным шкафам. Во второй раз понадобилось перезагрузить один из узлов хранения с целью понять, какой из HDD вышел из строя (физически). В итоге тоже пошла ребалансировка. В обоих случаях результат ребалансировки таков: падает примерно половина всех OSD служб. Остаются в работе от 200 до 300 OSD, равномерно по всем узлам хранения. Кластер в статусе HEALTH_ERR. При попытке вручную запускать OSD, они либо не запускаются, либо запускаются, но при этом падают соседние. Больше 300 OSD запустить не удалось - в процессе recovery они снова падают. Это всё при том, что кластер практически пустой - успели залить в него примерно 20Gb тестовых данных. В продуктив ещё не выпускали. После первого случая вернул кластер к работе удалив единственный существующий пул с данными. После этого все OSD поднялись с пол пинка. Во второй раз удалять данные не стал. Т.к. надо разобраться, что не так, и как это побороть. В данном канале нашел, что причина может быть в том, что кончается память - OOM. Помогите советом, что надо переконфигурировать в кластере, чтоб такого не возникало? Очень хочется уже перейти к тестированию производительности, но не могу. Всем заранее спасибо.

Если по мануалу - то на ноде хранения должно быть > 216гб памяти 🤔