Михаил
давайте двальше в лс, я минут через 30 почищу
Михаил
хочется, что бы канал оставался в рамках сабжа
Nick
ага, уже
Oleg
есть P3600 (NVMe 2.5!!!) для тестов. могу давать в тест для тех кто хочет попробовать
Oleg
скоро придут 3dxpoint в демо
Oleg
есть некие сервера в демо для желающих. Но только все ИНТЕЛ
Oleg
по всем вопросам в личку чтобы не засорять
Mike
Мне nvme дайте
Oleg
не вопрос. пиши. условие одно-не убивать и возврат.
Oleg
гарантийное письмо надо бужет. и они в формате 2.5 диска-платформа должна быть.
Mike
Спрошу начальство
Logan
@SinTeZoiD ты мануал-то дописал? Публика жаждет
Михаил
@SinTeZoiD ты мануал-то дописал? Публика жаждет
Я дописал текстовую версию своего доклада о том как не надо готовить CEPH и как надо начнем с этого надеюсь завтра заанонсирую местную базу знаний, которую можно будет пополнять. сообществом
Михаил
а что ты хочешь видеть в мануале?
Михаил
ну то есть как поставить цеф есть на ceph.com
Vladimir
Добрый день. Кто-нибудь сталкивался с ситуацией, когда часть OSD, при наличии большого объёма свободной памяти уходит в swap ?
Vladimir
7 гигов попало в swap
Vladimir
Постепенно уменьшаю значение /proc/sys/vm/swappiness
Denis
swapoff -a
🅅aleriy
тогда придет OOM KIller :))
🅅aleriy
кстати, кто-нибудь пробовал использовать на хостах с osd всякие штуки типа zram?
🅅aleriy
в ceph то??? шутите? :))
🅅aleriy
с такой реализацией ему сколько не скорми - всё мало будет
Vladimir
Видел, на последней саммите по OpenStack доклад о оптимизации CEPH.. Индус там рекомендует использовать vm.swappiness = 0.
Vladimir
Есть какой-то бэстпрактис по этому поводу ?))
Vladimir
Кому интересно, доклад тут:
Vladimir
https://www.youtube.com/watch?v=GJCNWeZE7rk&list=PLoS_h-qeyLeeRyNOi5trGXkHHibUITzGM&index=3
Vladimir
Было свбодно более 200Gb )
Vladimir
Сейчас каждая osd на 150 метров в свопе.
Vladimir
Не понятно, как они туда попали.
Mike
Видел, на последней саммите по OpenStack доклад о оптимизации CEPH.. Индус там рекомендует использовать vm.swappiness = 0.
По этому параметру нет конкретики. Каждый по своему советует. Тенденция к снижению этого значения, что бы как можно больше оставлять в ram.
Mike
Может потек osd? Бывает.
Vladimir
Может потек osd? Бывает.
Если бы потек один, я бы не сильно беспокоился, .. в своп залезли все OSD, котороые были на сервере... сейчас каждая по 150мегабайт..
Vladimir
free -mh total used free shared buff/cache available Mem: 251G 11G 18G 28M 220G 236G Swap: 13G 1.6G 12G
Михаил
с такой реализацией ему сколько не скорми - всё мало будет
Ну гиг на тер, ну ладно, полтора в нормальном режиме
Vladimir
Попробуй убавить размер журнала, если больше 2Гб
Размер журнала 25 гигов партиция, но не уверен, что он заполняется даже на половину.
Sergey
Скорее всего в этом и проблема, зачем такой большой журнал?
Vladimir
При первой инсталляции не учли особенности, кажется в то время ceph-deploy лепил дефолтовый журнал размером 10g, мы взяли размер больше
Vladimir
С другой стороны, какая разница , какого он размера, если есть параметры перемешения данных из журнала на медленный диск.. Он вроде не успевает наполнится за это время большим обьемом
Logan
а что ты хочешь видеть в мануале?
ты обещал мануал о том, как правильно ставить ceph, чтобы не пришлось его потом сразу же переделывать :)
Mike
Достаточно один раз поставить не используя ceph-deploy. Понимание приходит быстро.
Pavel
Mike
Зачем? В доках расписан же алгоритм действий ceph-deploy
Когда делаешь руками, понимаешь как это работает и связано между собой. Как надо помечать партиции, как отформатировать журнал отдельно, структуру каталогов и т.д.
VVSina
угу, первый раз так наебался... теперь можно с закрытыми глазами собирать ;)
Mike
А зачем знать о том, как форматировать журнал отдельно?
Вылетает у тебя диск с журналом. Меняешь и форматируешь без пересоздания osd. Бывает из-за ошибки или невнимательности повесили два osd на один журнал. Разводишь и раздельно форматируешь журналы.
Pavel
Вылетает у тебя диск с журналом. Меняешь и форматируешь без пересоздания osd. Бывает из-за ошибки или невнимательности повесили два osd на один журнал. Разводишь и раздельно форматируешь журналы.
Ну вообще про это отдельно в доках написано. Не, я не спорю, может кто-то лучше запоминает руками команды прогоняя... Мне хватило доков и чтения вывода ceph-deploy)
Logan
Ну вообще про это отдельно в доках написано. Не, я не спорю, может кто-то лучше запоминает руками команды прогоняя... Мне хватило доков и чтения вывода ceph-deploy)
проблема в том, что о том, что что-то написано в доках - надо знать. Чтобы пойти именно нужное в доках искать
Sergey
Р.
Sergey
Журнал так просто не изменить, там так же свои тонкости
Pavel
http://ceph.com/planet/ceph-recover-osds-after-ssd-journal-failure/
Dmitry
Размер журнала 25 гигов партиция, но не уверен, что он заполняется даже на половину.
Кстати, интересно сколько у вас журналы размером ? Я вот думаю может увеличить размер , сейчас у меня по 25gb
Vladimir
Кстати, интересно сколько у вас журналы размером ? Я вот думаю может увеличить размер , сейчас у меня по 25gb
30gb журнал, но у меня сильные сомнения, что он нужен такого размера, на бэкэнде у нас диски 10k
Pavel
Есть формула для расчёта журнала
Mark ☢️
Есть формула для расчёта журнала
И видимо в ней будет параметр -- время в течение которого должна быть возможна запись данных на пиковых скоростях. Другими словами чем больше нужно чтобы осд мог проглотить пиковые иопсы и или мегабайты в секунду, тем больше журнал. Разве нет ?
Брандашмыг
Блин, когда "погугли" будет считаться нецензурным?
Михаил
Блин, когда "погугли" будет считаться нецензурным?
Вообще да, но нет. Есть то, что хрен нагуглишь, но эту формулу не сложно найти
Брандашмыг
Дело не в том, что несложно, дело в том, что тебе самому погуглить и найти нужную ссылку проще во сто крат, чем тем, кто не участвует, а наблюдает за дискуссией, ты более глубоко в теме
Брандашмыг
Я гуглить буду до морковкина заговения
Ilia
Я гуглить буду до морковкина заговения
тада самый жизненный вариант - на сколько денег хватит
Михаил
osd journal size = {2 * (expected throughput * filestore max sync interval)}
Михаил
http://docs.ceph.com/docs/jewel/rados/configuration/osd-config-ref/
Alexey Tselitan UTC+7
Коллеги, привет. Сейчас будет длиннопост. Нужна помощь. Если не по адресу, подскажите ресурс, куда лучше обратиться? Желательно на Русском, т.к. на Английсом так подробно расписать не смогу. В ЦЕФе и даже в Линуксе новичок. Начинал с десяток лет назад вообще с FreeBSD, но успел многое позабыть. Появилась задача запустить ЦЕФ. Пришлось вспоминать и разбираться. Получилось. Имеется: - 14 узлов хранения. В каждом 36x HDD 6Tb для хранения данных. 2x SSD 80Gb под систему. 2x NVME SSD 800Gb под журналы. Памяти в каждом узле 128Gb. 4 сетевых интерфейса 10G. CPU 2x E5-2630v3. В сумме на кластер получается 504 OSD - 3 узла монитора. Под систему 2x SSD 80Gb. Памяти 64Gb. Сеть 2x 10G Взял релиз Jewel. CentOS 7. Документация: http://docs.ceph.com/ и http://onreader.mdl.ru/CephCookbook/content/index.html Всё установилось и заработало. Единственный пул. Емкость кластера 1.5Пб при коэффициенте репликации 2. Размер журнала для каждого OSD примерно 40Gb (просто тупо разделил доступное пространство на NVME SSD поровну между всеми OSD). Разделены между собой public и cluster сети. osd pool default pg num = 32768 (считал pg num по статье на docs.ceph.com, но в этом вопросе до сих пор плаваю). Но в итоге при любой необходимости ребалансировки кластера, он помирает. В первый раз необходимость ребалансировки возникла после изменения CRUSH MAP - распределил узлы хранения по серверным шкафам. Во второй раз понадобилось перезагрузить один из узлов хранения с целью понять, какой из HDD вышел из строя (физически). В итоге тоже пошла ребалансировка. В обоих случаях результат ребалансировки таков: падает примерно половина всех OSD служб. Остаются в работе от 200 до 300 OSD, равномерно по всем узлам хранения. Кластер в статусе HEALTH_ERR. При попытке вручную запускать OSD, они либо не запускаются, либо запускаются, но при этом падают соседние. Больше 300 OSD запустить не удалось - в процессе recovery они снова падают. Это всё при том, что кластер практически пустой - успели залить в него примерно 20Gb тестовых данных. В продуктив ещё не выпускали. После первого случая вернул кластер к работе удалив единственный существующий пул с данными. После этого все OSD поднялись с пол пинка. Во второй раз удалять данные не стал. Т.к. надо разобраться, что не так, и как это побороть. В данном канале нашел, что причина может быть в том, что кончается память - OOM. Помогите советом, что надо переконфигурировать в кластере, чтоб такого не возникало? Очень хочется уже перейти к тестированию производительности, но не могу. Всем заранее спасибо.
Pavel
Я гуглить буду до морковкина заговения
Значит возможно цеф не для тебя)
Михаил
Коллеги, привет. Сейчас будет длиннопост. Нужна помощь. Если не по адресу, подскажите ресурс, куда лучше обратиться? Желательно на Русском, т.к. на Английсом так подробно расписать не смогу. В ЦЕФе и даже в Линуксе новичок. Начинал с десяток лет назад вообще с FreeBSD, но успел многое позабыть. Появилась задача запустить ЦЕФ. Пришлось вспоминать и разбираться. Получилось. Имеется: - 14 узлов хранения. В каждом 36x HDD 6Tb для хранения данных. 2x SSD 80Gb под систему. 2x NVME SSD 800Gb под журналы. Памяти в каждом узле 128Gb. 4 сетевых интерфейса 10G. CPU 2x E5-2630v3. В сумме на кластер получается 504 OSD - 3 узла монитора. Под систему 2x SSD 80Gb. Памяти 64Gb. Сеть 2x 10G Взял релиз Jewel. CentOS 7. Документация: http://docs.ceph.com/ и http://onreader.mdl.ru/CephCookbook/content/index.html Всё установилось и заработало. Единственный пул. Емкость кластера 1.5Пб при коэффициенте репликации 2. Размер журнала для каждого OSD примерно 40Gb (просто тупо разделил доступное пространство на NVME SSD поровну между всеми OSD). Разделены между собой public и cluster сети. osd pool default pg num = 32768 (считал pg num по статье на docs.ceph.com, но в этом вопросе до сих пор плаваю). Но в итоге при любой необходимости ребалансировки кластера, он помирает. В первый раз необходимость ребалансировки возникла после изменения CRUSH MAP - распределил узлы хранения по серверным шкафам. Во второй раз понадобилось перезагрузить один из узлов хранения с целью понять, какой из HDD вышел из строя (физически). В итоге тоже пошла ребалансировка. В обоих случаях результат ребалансировки таков: падает примерно половина всех OSD служб. Остаются в работе от 200 до 300 OSD, равномерно по всем узлам хранения. Кластер в статусе HEALTH_ERR. При попытке вручную запускать OSD, они либо не запускаются, либо запускаются, но при этом падают соседние. Больше 300 OSD запустить не удалось - в процессе recovery они снова падают. Это всё при том, что кластер практически пустой - успели залить в него примерно 20Gb тестовых данных. В продуктив ещё не выпускали. После первого случая вернул кластер к работе удалив единственный существующий пул с данными. После этого все OSD поднялись с пол пинка. Во второй раз удалять данные не стал. Т.к. надо разобраться, что не так, и как это побороть. В данном канале нашел, что причина может быть в том, что кончается память - OOM. Помогите советом, что надо переконфигурировать в кластере, чтоб такого не возникало? Очень хочется уже перейти к тестированию производительности, но не могу. Всем заранее спасибо.
О, вы все таки добрались до этого чата?) В логах OSD что?
Брандашмыг
Значит возможно цеф не для тебя)
Ну если учесть, что я управленец, который деньгами проверяет программистов и админов, то ты не совсем прав. У нас с той разные шкурки, а ты свою на меня примерить хочешь
Etki
Значит возможно цеф не для тебя)
- Ребят, тут проходил слух про мануал, он уже готов? - Зачем тебе мануал? Просто поставь вручную, все вопросы отпадут - Я только-только начал знакомиться с областью. И что там за формула про журнал? - Погугли - Погугли что? Я не владею контекстом, я не знаю по каким ключевым словам искать - Пфф, парень, эта технология явно не для тебя!
Pavel
Ой всё
Михаил
Ой всё
Ты всегда так говоришь!
Pavel
Ну если человек не может ввести "ceph journal size", то кто ему доктор
Брандашмыг
Ну если человек не может ввести "ceph journal size", то кто ему доктор
Ну так получается, что вы считаете, что гугл даст абсолютно релевантный ответ в каждой из своих ссылок?
Брандашмыг
Я все правильно понял?
Pavel
Там гуглится ссылка на оф. документация
タキ
Коллеги, привет. Сейчас будет длиннопост. Нужна помощь. Если не по адресу, подскажите ресурс, куда лучше обратиться? Желательно на Русском, т.к. на Английсом так подробно расписать не смогу. В ЦЕФе и даже в Линуксе новичок. Начинал с десяток лет назад вообще с FreeBSD, но успел многое позабыть. Появилась задача запустить ЦЕФ. Пришлось вспоминать и разбираться. Получилось. Имеется: - 14 узлов хранения. В каждом 36x HDD 6Tb для хранения данных. 2x SSD 80Gb под систему. 2x NVME SSD 800Gb под журналы. Памяти в каждом узле 128Gb. 4 сетевых интерфейса 10G. CPU 2x E5-2630v3. В сумме на кластер получается 504 OSD - 3 узла монитора. Под систему 2x SSD 80Gb. Памяти 64Gb. Сеть 2x 10G Взял релиз Jewel. CentOS 7. Документация: http://docs.ceph.com/ и http://onreader.mdl.ru/CephCookbook/content/index.html Всё установилось и заработало. Единственный пул. Емкость кластера 1.5Пб при коэффициенте репликации 2. Размер журнала для каждого OSD примерно 40Gb (просто тупо разделил доступное пространство на NVME SSD поровну между всеми OSD). Разделены между собой public и cluster сети. osd pool default pg num = 32768 (считал pg num по статье на docs.ceph.com, но в этом вопросе до сих пор плаваю). Но в итоге при любой необходимости ребалансировки кластера, он помирает. В первый раз необходимость ребалансировки возникла после изменения CRUSH MAP - распределил узлы хранения по серверным шкафам. Во второй раз понадобилось перезагрузить один из узлов хранения с целью понять, какой из HDD вышел из строя (физически). В итоге тоже пошла ребалансировка. В обоих случаях результат ребалансировки таков: падает примерно половина всех OSD служб. Остаются в работе от 200 до 300 OSD, равномерно по всем узлам хранения. Кластер в статусе HEALTH_ERR. При попытке вручную запускать OSD, они либо не запускаются, либо запускаются, но при этом падают соседние. Больше 300 OSD запустить не удалось - в процессе recovery они снова падают. Это всё при том, что кластер практически пустой - успели залить в него примерно 20Gb тестовых данных. В продуктив ещё не выпускали. После первого случая вернул кластер к работе удалив единственный существующий пул с данными. После этого все OSD поднялись с пол пинка. Во второй раз удалять данные не стал. Т.к. надо разобраться, что не так, и как это побороть. В данном канале нашел, что причина может быть в том, что кончается память - OOM. Помогите советом, что надо переконфигурировать в кластере, чтоб такого не возникало? Очень хочется уже перейти к тестированию производительности, но не могу. Всем заранее спасибо.
Если по мануалу - то на ноде хранения должно быть > 216гб памяти 🤔