@pro_openstack

« Назад

Страница 2 из 117

Далее »

Михаил

15.07.2016
10:54:47

хотя поидее оно и так уже не должно быть

Pavel

15.07.2016
10:54:51

вывожу один лежащий из кластера и на этой же ноде падает ещё один

и как итог получаю всегда два лежащих диска на каждой ноде

Михаил

15.07.2016
10:55:15

о_О

Google

Pavel

15.07.2016
10:55:29

ага

Михаил

15.07.2016
10:56:19

глупое конечно предложение, но ребут ноды?

нельзя?

Pavel

15.07.2016
10:56:23

прод

боюсь не переживёт

Михаил

15.07.2016
10:56:38

replica_level?

2 ?

Pavel

15.07.2016
10:56:40

3

Михаил

15.07.2016
10:56:54

тогда должно пережить точно_

если не хочешь что бы перестраивалось выведи в set noout

Pavel

15.07.2016
10:57:12

у меня уже наблюдаются проблемы с доступом к данным

Михаил

15.07.2016
10:57:23

хуёва

Pavel

15.07.2016
10:58:13

есть мысли как диагностировать проблему?

Google

Михаил

15.07.2016
11:01:51

а в логах че-то интересное еще есть?

Pavel

15.07.2016
11:02:13

могу кинуть файл логов с osd которую я пытаюсь поднять

Михаил

15.07.2016
11:03:00

а давай

Pavel

15.07.2016
11:03:12

кинул в личку

Dmitry

15.07.2016
11:28:02

мне тоже

логи

Pavel

15.07.2016
11:28:22

http://dropmefiles.com/3uHpl

Dmitry

15.07.2016
11:28:25

версия ceph, система, ядро

в ядрах 4.4-4.7rc5 есть бага которая вылезает с ceph

Pavel

15.07.2016
11:29:21

[root@cephosd3 ~]# ceph -v ceph version 0.80.7 (6c0127fcb58008793d3c8b62d925bc91963672a3) [root@cephosd3 ~]# uname -a Linux cephosd3 3.10.0-327.10.1.el7.x86_64 #1 SMP Tue Feb 16 17:03:50 UTC 2016 x86_64 x86_64 x86_64 GNU/Linux centos 7

Dmitry

15.07.2016
11:29:21

вернее 4.2-4.7rc5

Pavel

15.07.2016
11:29:50

cluster 3ee239a5-f8a1-49e8-8abf-d22bf81a8ab3 health HEALTH_WARN 150 pgs degraded; 178 pgs stuck unclean; recovery 85103/5078536 objects degraded (1.676%) monmap e5: 3 mons at {cephmon1=192.168.2.200:6789/0,cephmon2=192.168.2.201:6789/0,cephmon3=192.168.2.202:6789/0}, election epoch 78, quorum 0,1,2 cephmon1,cephmon2,cephmon3 osdmap e62089: 97 osds: 91 up, 91 in pgmap v10784800: 2700 pgs, 2 pools, 7109 GB data, 1819 kobjects 19940 GB used, 282 TB / 301 TB avail 85103/5078536 objects degraded (1.676%) 13 active+degraded+remapped 2522 active+clean 137 active+degraded 28 active+remapped client io 22724 kB/s rd, 7712 kB/s wr, 1387 op/s

Dmitry

15.07.2016
11:32:38

ceph health detail

Pavel

15.07.2016
11:34:07

http://dropmefiles.com/5mtJ5

Dmitry

15.07.2016
11:34:21

ceph osd tree

Pavel

15.07.2016
11:35:20

http://dropmefiles.com/XevuI

крашмап выгрузить?

Dmitry

15.07.2016
11:39:37

да

Pavel

15.07.2016
11:42:33

http://dropmefiles.com/64mFg

Dmitry

15.07.2016
11:47:44

на самой машине в dmesg что-нить есть странное ?

Google

Pavel

15.07.2016
11:49:25

не вижу

http://dropmefiles.com/2asPl

но вот на всякий случай

Dmitry

15.07.2016
11:51:02

прям как у тебя баг https://access.redhat.com/solutions/1585713

selinux включен ?

Pavel

15.07.2016
11:52:51

SOLUTION UNVERIFIED

выключен

Dmitry

15.07.2016
11:53:46

карты какие - HBA

Pavel

15.07.2016
11:54:06

ты про контроллеры дисков?

Dmitry

15.07.2016
11:54:20

ага

Pavel

15.07.2016
11:54:38

dell h830

Dmitry

15.07.2016
11:56:19

он в JBOD режиме я так понимаю

Dmitry

15.07.2016
12:04:07

cache tiering врублен ?

Pavel

15.07.2016
12:04:38

Он в hda режиме

кэши вырублены

а вообще свои вероятны из-за этого?

+ текущую ситуацию надо как-то исправлять

но особых соображений на этот счёт у меня пока нет

Dmitry

15.07.2016
12:06:45

снапшоты ?

Pavel

15.07.2016
12:06:51

пулов?

Google

Dmitry

15.07.2016
12:07:03

rbd

Pavel

15.07.2016
12:07:35

я правильно понимаю, что ты предлагаешь сделать снапшоты и пересобрать кластер?

Dmitry

15.07.2016
12:10:28

нет - спрашиваю, есть ли клоны, снэпшоты

Pavel

15.07.2016
12:10:33

нет

есть снапшоты пулов которые делались пару недель назад средствами цефа

но это не вариант

поэтому нет

Dmitry

15.07.2016
12:14:27

почитай вот тред http://tracker.ceph.com/issues/12665

Admin

ERROR: S client not available

Dmitry

15.07.2016
12:22:31

есть у меня ощущение что это ваш случай

Pavel

15.07.2016
12:22:41

походу да

Dmitry

15.07.2016
12:22:42

попробуй обновиться до 0.80.11

там есть фикс

Pavel

15.07.2016
12:23:07

думаешь безопасно обновлять прод? :)

Dmitry

15.07.2016
12:23:09

ну вернее фикс есть раньше - не могу сходу найти в каком апдейте

я обновляю - раза 2 уже обновлял

но внутри одной мажорной

можно попробовать то что чуваки пишут

By setting osd pg max concurrent snap trims = 0 and noscrub and nodeep-scrub, the cluster was able to finish replicating and we have then re-added all down osd's again. But these 3 parameters/flags need to remain set to prevent "random" OSD's to go down.

и поглядеть - не уйдет ли

Google

Pavel

15.07.2016
12:24:57

слушай

хотел спросить

нормально будет сейчас убивать снап?

ceph osd pool rmsnap pool pool-snap

таким вот образом

видимо вся фигня именно из-за снапов и пошла

Dmitry

15.07.2016
12:26:32

да - скорее всего

Pavel

15.07.2016
12:26:42

да - скорее всего

это к безопасности?

Dmitry

15.07.2016
12:26:55

да

Pavel

15.07.2016
12:27:39

626 requests are blocked > 32 sec

омг

2889 requests are blocked > 32 sec

ОМГ

Dmitry

15.07.2016
12:29:13

чорт

Pavel

15.07.2016
12:29:17

12930 requests are blocked > 32 sec

24624 requests are blocked > 32 sec

пиздец

Михаил

15.07.2016
12:31:59

а я смотрю ceph профи в этом чате нашлись

Dmitry

15.07.2016
12:32:19

да если бы

тут похоже пиздец подкрался

Михаил

15.07.2016
12:32:55

это была ирония сейчас)

« Назад

Страница 2 из 117

Далее »

Открыть в Telegram