Pavel
1045 ceph osd crush remove osd.54
1046 ceph auth del osd.54
1047 ceph osd rm 54
Pavel
вот так
Pavel
предварительно стопнув демон конечно
Михаил
оок, вот ты вывел, потом поднимаешь оставшиеся?
Pavel
оставшиеся не падают
Pavel
т.е. у меня есть около 100 дисков
Pavel
на 3 нодах
Pavel
на каждой ноде лежит 2 диска
Михаил
ceph osd out OSD_ID
Михаил
хотя поидее оно и так уже не должно быть
Pavel
вывожу один лежащий из кластера и на этой же ноде падает ещё один
Pavel
и как итог получаю всегда два лежащих диска на каждой ноде
Михаил
о_О
Pavel
ага
Михаил
глупое конечно предложение, но
ребут ноды?
Михаил
нельзя?
Pavel
прод
Pavel
боюсь не переживёт
Михаил
replica_level?
Михаил
2 ?
Pavel
3
Михаил
тогда должно пережить точно_
Михаил
если не хочешь что бы перестраивалось выведи в set noout
Pavel
у меня уже наблюдаются проблемы с доступом к данным
Михаил
хуёва
Pavel
есть мысли как диагностировать проблему?
Михаил
а в логах че-то интересное еще есть?
Pavel
могу кинуть файл логов с osd которую я пытаюсь поднять
Михаил
а давай
Pavel
кинул в личку
Dmitry
мне тоже
Dmitry
логи
Pavel
http://dropmefiles.com/3uHpl
Dmitry
версия ceph, система, ядро
Dmitry
в ядрах 4.4-4.7rc5 есть бага которая вылезает с ceph
Pavel
[root@cephosd3 ~]# ceph -v
ceph version 0.80.7 (6c0127fcb58008793d3c8b62d925bc91963672a3)
[root@cephosd3 ~]# uname -a
Linux cephosd3 3.10.0-327.10.1.el7.x86_64 #1 SMP Tue Feb 16 17:03:50 UTC 2016 x86_64 x86_64 x86_64 GNU/Linux
centos 7
Dmitry
вернее 4.2-4.7rc5
Pavel
cluster 3ee239a5-f8a1-49e8-8abf-d22bf81a8ab3
health HEALTH_WARN 150 pgs degraded; 178 pgs stuck unclean; recovery 85103/5078536 objects degraded (1.676%)
monmap e5: 3 mons at {cephmon1=192.168.2.200:6789/0,cephmon2=192.168.2.201:6789/0,cephmon3=192.168.2.202:6789/0}, election epoch 78, quorum 0,1,2 cephmon1,cephmon2,cephmon3
osdmap e62089: 97 osds: 91 up, 91 in
pgmap v10784800: 2700 pgs, 2 pools, 7109 GB data, 1819 kobjects
19940 GB used, 282 TB / 301 TB avail
85103/5078536 objects degraded (1.676%)
13 active+degraded+remapped
2522 active+clean
137 active+degraded
28 active+remapped
client io 22724 kB/s rd, 7712 kB/s wr, 1387 op/s
Dmitry
ceph health detail
Pavel
http://dropmefiles.com/5mtJ5
Dmitry
ceph osd tree
Pavel
http://dropmefiles.com/XevuI
Pavel
крашмап выгрузить?
Dmitry
да
Pavel
http://dropmefiles.com/64mFg
Dmitry
на самой машине в dmesg что-нить есть странное ?
Pavel
не вижу
Pavel
http://dropmefiles.com/2asPl
Pavel
но вот на всякий случай
Dmitry
прям как у тебя баг https://access.redhat.com/solutions/1585713
Dmitry
selinux включен ?
Pavel
SOLUTION UNVERIFIED
Pavel
выключен
Dmitry
карты какие - HBA
Pavel
ты про контроллеры дисков?
Dmitry
ага
Pavel
dell h830
Dmitry
он в JBOD режиме я так понимаю
Dmitry
cache tiering врублен ?
Pavel
Он в hda режиме
Pavel
кэши вырублены
Pavel
а вообще свои вероятны из-за этого?
Pavel
+ текущую ситуацию надо как-то исправлять
Pavel
но особых соображений на этот счёт у меня пока нет
Dmitry
снапшоты ?
Pavel
пулов?
Dmitry
rbd
Pavel
я правильно понимаю, что ты предлагаешь сделать снапшоты и пересобрать кластер?
Dmitry
нет - спрашиваю, есть ли клоны, снэпшоты
Pavel
нет
Pavel
есть снапшоты пулов которые делались пару недель назад средствами цефа
Pavel
но это не вариант
Pavel
поэтому нет
Dmitry
почитай вот тред http://tracker.ceph.com/issues/12665
Dmitry
есть у меня ощущение что это ваш случай
Pavel
походу да
Dmitry
попробуй обновиться до 0.80.11
Dmitry
там есть фикс
Pavel
думаешь безопасно обновлять прод? :)
Dmitry
ну вернее фикс есть раньше - не могу сходу найти в каком апдейте