Михаил
давайте двальше в лс, я минут через 30 почищу
Михаил
хочется, что бы канал оставался в рамках сабжа
Nick
ага, уже
Oleg
есть P3600 (NVMe 2.5!!!) для тестов. могу давать в тест для тех кто хочет попробовать
Oleg
скоро придут 3dxpoint в демо
Oleg
есть некие сервера в демо для желающих. Но только все ИНТЕЛ
Oleg
по всем вопросам в личку чтобы не засорять
Mike
Мне nvme дайте
Oleg
не вопрос. пиши. условие одно-не убивать и возврат.
Oleg
гарантийное письмо надо бужет. и они в формате 2.5 диска-платформа должна быть.
Mike
Спрошу начальство
Logan
@SinTeZoiD ты мануал-то дописал? Публика жаждет
Михаил
@SinTeZoiD ты мануал-то дописал? Публика жаждет
Я дописал текстовую версию своего доклада о том как не надо готовить CEPH и как надо
начнем с этого
надеюсь завтра заанонсирую местную базу знаний, которую можно будет пополнять. сообществом
Михаил
а что ты хочешь видеть в мануале?
Михаил
ну то есть как поставить цеф есть на ceph.com
Vladimir
Добрый день. Кто-нибудь сталкивался с ситуацией, когда часть OSD, при наличии большого объёма свободной памяти уходит в swap ?
Vladimir
7 гигов попало в swap
Vladimir
Постепенно уменьшаю значение /proc/sys/vm/swappiness
Denis
swapoff -a
🅅aleriy
тогда придет OOM KIller :))
🅅aleriy
кстати, кто-нибудь пробовал использовать на хостах с osd всякие штуки типа zram?
Михаил
🅅aleriy
в ceph то??? шутите? :))
🅅aleriy
с такой реализацией ему сколько не скорми - всё мало будет
Vladimir
Видел, на последней саммите по OpenStack доклад о оптимизации CEPH.. Индус там рекомендует использовать vm.swappiness = 0.
Vladimir
Есть какой-то бэстпрактис по этому поводу ?))
Vladimir
Кому интересно, доклад тут:
Vladimir
https://www.youtube.com/watch?v=GJCNWeZE7rk&list=PLoS_h-qeyLeeRyNOi5trGXkHHibUITzGM&index=3
Vladimir
Было свбодно более 200Gb )
Vladimir
Сейчас каждая osd на 150 метров в свопе.
Vladimir
Не понятно, как они туда попали.
Mike
Может потек osd? Бывает.
Polnoch
Vladimir
Может потек osd? Бывает.
Если бы потек один, я бы не сильно беспокоился, .. в своп залезли все OSD, котороые были на сервере... сейчас каждая по 150мегабайт..
Vladimir
free -mh
total used free shared buff/cache available
Mem: 251G 11G 18G 28M 220G 236G
Swap: 13G 1.6G 12G
Михаил
Sergey
Sergey
Скорее всего в этом и проблема, зачем такой большой журнал?
Vladimir
При первой инсталляции не учли особенности, кажется в то время ceph-deploy лепил дефолтовый журнал размером 10g, мы взяли размер больше
Vladimir
С другой стороны, какая разница , какого он размера, если есть параметры перемешения данных из журнала на медленный диск.. Он вроде не успевает наполнится за это время большим обьемом
Mike
Mike
Достаточно один раз поставить не используя ceph-deploy. Понимание приходит быстро.
Pavel
VVSina
угу, первый раз так наебался... теперь можно с закрытыми глазами собирать ;)
Михаил
Pavel
Logan
Sergey
Р.
Sergey
Журнал так просто не изменить, там так же свои тонкости
Pavel
Pavel
http://ceph.com/planet/ceph-recover-osds-after-ssd-journal-failure/
Vladimir
Pavel
Есть формула для расчёта журнала
Mark ☢️
Есть формула для расчёта журнала
И видимо в ней будет параметр -- время в течение которого должна быть возможна запись данных на пиковых скоростях. Другими словами чем больше нужно чтобы осд мог проглотить пиковые иопсы и или мегабайты в секунду, тем больше журнал. Разве нет ?
Михаил
Брандашмыг
Блин, когда "погугли" будет считаться нецензурным?
Брандашмыг
Дело не в том, что несложно, дело в том, что тебе самому погуглить и найти нужную ссылку проще во сто крат, чем тем, кто не участвует, а наблюдает за дискуссией, ты более глубоко в теме
Брандашмыг
Я гуглить буду до морковкина заговения
Михаил
osd journal size = {2 * (expected throughput * filestore max sync interval)}
Михаил
http://docs.ceph.com/docs/jewel/rados/configuration/osd-config-ref/
Alexey Tselitan UTC+7
Коллеги, привет.
Сейчас будет длиннопост. Нужна помощь. Если не по адресу, подскажите ресурс, куда лучше обратиться? Желательно на Русском, т.к. на Английсом так подробно расписать не смогу.
В ЦЕФе и даже в Линуксе новичок. Начинал с десяток лет назад вообще с FreeBSD, но успел многое позабыть. Появилась задача запустить ЦЕФ. Пришлось вспоминать и разбираться. Получилось.
Имеется:
- 14 узлов хранения. В каждом 36x HDD 6Tb для хранения данных. 2x SSD 80Gb под систему. 2x NVME SSD 800Gb под журналы. Памяти в каждом узле 128Gb. 4 сетевых интерфейса 10G. CPU 2x E5-2630v3. В сумме на кластер получается 504 OSD
- 3 узла монитора. Под систему 2x SSD 80Gb. Памяти 64Gb. Сеть 2x 10G
Взял релиз Jewel. CentOS 7. Документация: http://docs.ceph.com/ и http://onreader.mdl.ru/CephCookbook/content/index.html
Всё установилось и заработало. Единственный пул. Емкость кластера 1.5Пб при коэффициенте репликации 2. Размер журнала для каждого OSD примерно 40Gb (просто тупо разделил доступное пространство на NVME SSD поровну между всеми OSD). Разделены между собой public и cluster сети. osd pool default pg num = 32768 (считал pg num по статье на docs.ceph.com, но в этом вопросе до сих пор плаваю).
Но в итоге при любой необходимости ребалансировки кластера, он помирает.
В первый раз необходимость ребалансировки возникла после изменения CRUSH MAP - распределил узлы хранения по серверным шкафам.
Во второй раз понадобилось перезагрузить один из узлов хранения с целью понять, какой из HDD вышел из строя (физически). В итоге тоже пошла ребалансировка.
В обоих случаях результат ребалансировки таков: падает примерно половина всех OSD служб. Остаются в работе от 200 до 300 OSD, равномерно по всем узлам хранения. Кластер в статусе HEALTH_ERR. При попытке вручную запускать OSD, они либо не запускаются, либо запускаются, но при этом падают соседние. Больше 300 OSD запустить не удалось - в процессе recovery они снова падают. Это всё при том, что кластер практически пустой - успели залить в него примерно 20Gb тестовых данных. В продуктив ещё не выпускали.
После первого случая вернул кластер к работе удалив единственный существующий пул с данными. После этого все OSD поднялись с пол пинка.
Во второй раз удалять данные не стал. Т.к. надо разобраться, что не так, и как это побороть.
В данном канале нашел, что причина может быть в том, что кончается память - OOM. Помогите советом, что надо переконфигурировать в кластере, чтоб такого не возникало? Очень хочется уже перейти к тестированию производительности, но не могу.
Всем заранее спасибо.
Pavel
Михаил
Коллеги, привет.
Сейчас будет длиннопост. Нужна помощь. Если не по адресу, подскажите ресурс, куда лучше обратиться? Желательно на Русском, т.к. на Английсом так подробно расписать не смогу.
В ЦЕФе и даже в Линуксе новичок. Начинал с десяток лет назад вообще с FreeBSD, но успел многое позабыть. Появилась задача запустить ЦЕФ. Пришлось вспоминать и разбираться. Получилось.
Имеется:
- 14 узлов хранения. В каждом 36x HDD 6Tb для хранения данных. 2x SSD 80Gb под систему. 2x NVME SSD 800Gb под журналы. Памяти в каждом узле 128Gb. 4 сетевых интерфейса 10G. CPU 2x E5-2630v3. В сумме на кластер получается 504 OSD
- 3 узла монитора. Под систему 2x SSD 80Gb. Памяти 64Gb. Сеть 2x 10G
Взял релиз Jewel. CentOS 7. Документация: http://docs.ceph.com/ и http://onreader.mdl.ru/CephCookbook/content/index.html
Всё установилось и заработало. Единственный пул. Емкость кластера 1.5Пб при коэффициенте репликации 2. Размер журнала для каждого OSD примерно 40Gb (просто тупо разделил доступное пространство на NVME SSD поровну между всеми OSD). Разделены между собой public и cluster сети. osd pool default pg num = 32768 (считал pg num по статье на docs.ceph.com, но в этом вопросе до сих пор плаваю).
Но в итоге при любой необходимости ребалансировки кластера, он помирает.
В первый раз необходимость ребалансировки возникла после изменения CRUSH MAP - распределил узлы хранения по серверным шкафам.
Во второй раз понадобилось перезагрузить один из узлов хранения с целью понять, какой из HDD вышел из строя (физически). В итоге тоже пошла ребалансировка.
В обоих случаях результат ребалансировки таков: падает примерно половина всех OSD служб. Остаются в работе от 200 до 300 OSD, равномерно по всем узлам хранения. Кластер в статусе HEALTH_ERR. При попытке вручную запускать OSD, они либо не запускаются, либо запускаются, но при этом падают соседние. Больше 300 OSD запустить не удалось - в процессе recovery они снова падают. Это всё при том, что кластер практически пустой - успели залить в него примерно 20Gb тестовых данных. В продуктив ещё не выпускали.
После первого случая вернул кластер к работе удалив единственный существующий пул с данными. После этого все OSD поднялись с пол пинка.
Во второй раз удалять данные не стал. Т.к. надо разобраться, что не так, и как это побороть.
В данном канале нашел, что причина может быть в том, что кончается память - OOM. Помогите советом, что надо переконфигурировать в кластере, чтоб такого не возникало? Очень хочется уже перейти к тестированию производительности, но не могу.
Всем заранее спасибо.
О, вы все таки добрались до этого чата?) В логах OSD что?
Брандашмыг
Значит возможно цеф не для тебя)
Ну если учесть, что я управленец, который деньгами проверяет программистов и админов, то ты не совсем прав. У нас с той разные шкурки, а ты свою на меня примерить хочешь
Etki
Значит возможно цеф не для тебя)
- Ребят, тут проходил слух про мануал, он уже готов?
- Зачем тебе мануал? Просто поставь вручную, все вопросы отпадут
- Я только-только начал знакомиться с областью. И что там за формула про журнал?
- Погугли
- Погугли что? Я не владею контекстом, я не знаю по каким ключевым словам искать
- Пфф, парень, эта технология явно не для тебя!
Pavel
Ой всё
Михаил
Ой всё
Ты всегда так говоришь!
Pavel
Ну если человек не может ввести "ceph journal size", то кто ему доктор
Брандашмыг
Я все правильно понял?
Pavel
Там гуглится ссылка на оф. документация
タキ
Коллеги, привет.
Сейчас будет длиннопост. Нужна помощь. Если не по адресу, подскажите ресурс, куда лучше обратиться? Желательно на Русском, т.к. на Английсом так подробно расписать не смогу.
В ЦЕФе и даже в Линуксе новичок. Начинал с десяток лет назад вообще с FreeBSD, но успел многое позабыть. Появилась задача запустить ЦЕФ. Пришлось вспоминать и разбираться. Получилось.
Имеется:
- 14 узлов хранения. В каждом 36x HDD 6Tb для хранения данных. 2x SSD 80Gb под систему. 2x NVME SSD 800Gb под журналы. Памяти в каждом узле 128Gb. 4 сетевых интерфейса 10G. CPU 2x E5-2630v3. В сумме на кластер получается 504 OSD
- 3 узла монитора. Под систему 2x SSD 80Gb. Памяти 64Gb. Сеть 2x 10G
Взял релиз Jewel. CentOS 7. Документация: http://docs.ceph.com/ и http://onreader.mdl.ru/CephCookbook/content/index.html
Всё установилось и заработало. Единственный пул. Емкость кластера 1.5Пб при коэффициенте репликации 2. Размер журнала для каждого OSD примерно 40Gb (просто тупо разделил доступное пространство на NVME SSD поровну между всеми OSD). Разделены между собой public и cluster сети. osd pool default pg num = 32768 (считал pg num по статье на docs.ceph.com, но в этом вопросе до сих пор плаваю).
Но в итоге при любой необходимости ребалансировки кластера, он помирает.
В первый раз необходимость ребалансировки возникла после изменения CRUSH MAP - распределил узлы хранения по серверным шкафам.
Во второй раз понадобилось перезагрузить один из узлов хранения с целью понять, какой из HDD вышел из строя (физически). В итоге тоже пошла ребалансировка.
В обоих случаях результат ребалансировки таков: падает примерно половина всех OSD служб. Остаются в работе от 200 до 300 OSD, равномерно по всем узлам хранения. Кластер в статусе HEALTH_ERR. При попытке вручную запускать OSD, они либо не запускаются, либо запускаются, но при этом падают соседние. Больше 300 OSD запустить не удалось - в процессе recovery они снова падают. Это всё при том, что кластер практически пустой - успели залить в него примерно 20Gb тестовых данных. В продуктив ещё не выпускали.
После первого случая вернул кластер к работе удалив единственный существующий пул с данными. После этого все OSD поднялись с пол пинка.
Во второй раз удалять данные не стал. Т.к. надо разобраться, что не так, и как это побороть.
В данном канале нашел, что причина может быть в том, что кончается память - OOM. Помогите советом, что надо переконфигурировать в кластере, чтоб такого не возникало? Очень хочется уже перейти к тестированию производительности, но не могу.
Всем заранее спасибо.
Если по мануалу - то на ноде хранения должно быть > 216гб памяти 🤔