Mark ☢️
Mark ☢️
Mark ☢️
О, точно. при бэкфиллинге стло память жрать
Mark ☢️
в 2 раза увеличилось
Anonymous
У кого-то (grnet?) еще на хаммере была проблема что некие несколько осд на одном хосте пытались пометить весь остальной кластер как down :)
Anonymous
А весь остальной кластер - пометил их:)
Mark ☢️
в увеличил pg_num у пула и пошёл перчинг
Pavel
Anonymous
Сетепроблемы?
Pavel
Скорее нагрузкопроблемы
Pavel
Осд не отвечала вовремя
Михаил
спс за идею — сделаю и это
Я надеюсь ты как хороший мальчик потом напишешь пост или хотя бы табличку, которую мы вынесем в вики канала?
Mark ☢️
Mark ☢️
идея в плане того что именно сделать
Михаил
Михаил
Что бы мы понимали
Mark ☢️
окей. прям сюда дампить?
Anonymous
Еще интересно как себя ведет конкретная осд если она отдает данные но из-за глюка железа именно на ней вдруг резко снизился iops
Михаил
Anonymous
Ну например да
Anonymous
Кейс: убитый ssd
Михаил
Ну например да
На текущий момент это приводит к падению иопс всего кластера
Anonymous
Зачем симулировать? Просто каким параметром это управляется, я хочу такую осд поставить в down
Mark ☢️
Anonymous
Т.е. наш метод - если вдруг какие-то пг начинают дурить, лезем в мониторинг и смотрим латенси, идем и убиваем дурную осд, если это возможно?
Mark ☢️
Anonymous
Но сама осд не может себя выбить из кластера если под ней диску явно плохо?
Mark ☢️
Anonymous
Anonymous
Я помню там есть что-то типа partial degrade
Anonymous
Для упоротых случаев типа осд на рейде
Anonymous
Хм, ну наверное это может сделать внешний тул, просто придти и выполнить какие-то действия (хотя конечно автоматом опускать осд... рисково!
Anonymous
Ну и по идее при явной I/o error снизу от девайса, осд тоже должна становиться раком
Mark ☢️
Mark ☢️
не до нуля
Mark ☢️
по идее, надо регулировать так количество пг на каждом винте чтобы их утилизейшен (в иостат) было выравненным
Anonymous
Но ведь если этот осд отдает один i/o две минуты, то клиенту в любом случае будет ой как плохо
Mark ☢️
наверно так правильно
Anonymous
У меня была такая гадость с интеловскими ssd
Anonymous
Они тормозили, жрали кактус но ошибку не отдавали
Mark ☢️
а он у тебя под журнал или под основное хранилище ?
Anonymous
В результате раком встал flashcache с постгре ;)
Pavel
Тут можно в частности посоветовать максимально гранулировать кластер по пулам с привязкой осд к пулам. В этом случае дегрейд диска по крайней мере приведет к дегрейду пула, а не всего кластера
Anonymous
Михаил
Anonymous
Ну я понял как это сделать
Mark ☢️
Страдать?)
почему нужно страдать если ргв?
Anonymous
Mark ☢️
во. я искал этот стикер
Anonymous
Наверное поэтому
Михаил
Mark ☢️
в 8 доебане оказывается dbus искаропки не ставится
Mark ☢️
в итоге timedatectl например не работает с марзматической ошибкой
Mark ☢️
аштрисёт
Михаил
@socketpair ты понял, что тестировать и что надо в комьюнити потом вернуть?)
Mark ☢️
Mark ☢️
а что вернуть — особенности конфигурации — винты, схему и параметры фио с резултатами
Михаил
Ага
Mark ☢️
а что за вики в которую нужно писануть?
Mark ☢️
sudo rbd map —pool=rbdbench image03
Mark ☢️
[ 207.630701] Key type ceph registered
[ 207.630856] libceph: loaded (mon/osd proto 15/24)
[ 207.634388] rbd: loaded (major 252)
[ 207.640609] libceph: mon1 10.80.20.100:6789 session established
[ 207.641417] libceph: client14101 fsid 56ed206b-67cf-42a6-be65-9baf32334fc9
[ 207.909058] rbd: image image03: image uses unsupported features: 0x3c
Mark ☢️
жованный крот
Mark ☢️
кагбы хуйс
Mark ☢️
https://www.mail-archive.com/ceph-users@lists.ceph.com/msg29997.html
Mark ☢️
вот уж точно.... анус конский
Mark ☢️
а на словах-то как красиво.
Mark ☢️
у меня ведро 4.8.0
Mark ☢️
@SinTeZoiD а не поможешь мне перейти от односетевого варианта к двусетевому ?
Михаил
Михаил
Это в конфиге пишется
Mark ☢️
мде. жрёт больше гига на терабайт
Mark ☢️
надеюсь, не утечка
Anonymous
Я попробую в ПН профилить
Mark ☢️
3.25 ТБ на ноде, схавано 4.5 Гб оперативы
Mark ☢️
хотяяяяя