
Александр
16.10.2018
10:39:05
Но это идиотизи

Aleks
16.10.2018
10:39:50
а если журналы будут не на ssd будут проблемы?

Александр
16.10.2018
10:39:57

Aleks
16.10.2018
10:40:21
ssd обязательно SAS?

Google

Александр
16.10.2018
10:42:09
Вопроса не понял

Aleks
16.10.2018
10:42:40
есть ssd sas а есть ssd sata

Александр
16.10.2018
10:43:04
Смысл разъема сас вообще есть понимание?

Aleks
16.10.2018
10:43:21
скорость 12gb
у меня такое понимание)

Eduard
16.10.2018
11:05:48

Access
16.10.2018
11:06:51
может дуплексный всё таки?
а то мы сейчас дойдём до того что хабы были одноканальные, а свичи двухканальные ...

Александр
16.10.2018
11:09:18

Eduard
16.10.2018
11:24:46
может дуплексный всё таки?
Найду детальеую спецификацию. Брошу сюда. Может я уже что - то путаю. Но когда внимательно читал про стандарт SAS, там работа с конечным устройством идет в два потока.
Могу ошибаться, на гуру не претендую.
Дописал следующую часть по oVirt + Ceph RBD.
https://github.com/lantaris/Ceph-docs/blob/master/Doc/Ceph-oVirt-Part2.md
Если есть какие - то пожелания либо возражения. Буду рад...

Google

Dan
16.10.2018
12:33:53

Nikita
16.10.2018
12:34:26
Гугл не помог, в рассылку отправил, но не уверен что ответят, в ирке чет тоже тухляк

Dan
16.10.2018
12:34:32

Eduard
16.10.2018
12:37:13
Что в логе VDSM ?
Похожая проблема тут была. Правда по причине обновлений.

Nikita
16.10.2018
12:38:58
Ничего

Eduard
16.10.2018
12:39:00
hostId='39215015-2537-4329-921f-c11256f99e04'
Смотри на нем vdsm.log за то же время.
Значит в первую очередь мониторить сеть. Загрузку, потери и т.д.
1G сеть ?

Nikita
16.10.2018
12:40:26
10

Eduard
16.10.2018
12:41:16
Ошибка все - время на одном хосте ?
В Not Operational вылетает ?

Nikita
16.10.2018
12:42:04
Нет, рандомно по разным вылазит
В vdsm есть только ошибки по гластеру
То есть проблема скорее с ним

Eduard
16.10.2018
12:42:36
А по гластеру почему ?

Nikita
16.10.2018
12:43:02
Якобы брик недоступен, и он поднимает службу
То есть таймаут, машины в нон респондинг, а потомуведомление что гластер был запущен

Eduard
16.10.2018
12:43:22
Если что - то с сетью, то и здоровичка гластера тоже будет страдать из за рассинхронизации бриков.

Google

Eduard
16.10.2018
12:43:32
Поведение очень похоже на сеть.
В этот момент происходит создание/удаление/перемещение какое - либо томов гластера ?

Nikita
16.10.2018
12:45:52
Нет, происходит в случайное время

Eduard
16.10.2018
12:46:26
Поднимай мониторинг сети и IOPSос на диски. Что - бы ты видел что и когда у тебя происходит.
С хоста на хост погоняй трафик, посмотри на потери.

Nikita
16.10.2018
12:46:59
иопсы настроены

Eduard
16.10.2018
12:47:21
У свича сумарная пропускная какая по спецификации ?
QOS не используешь ?

Nikita
16.10.2018
12:48:29
До свичей пока не добрался, с этим пока сложно
косов нету

Eduard
16.10.2018
12:49:20
Все - же глянь на хостах
tc -s q
на наличие overlimits/drops
А на свич лучше посмотри.
Проблема похоже на сетевую.

Nikita
16.10.2018
12:51:10
Это ведь иммелось в виду tc -s q | grep -E "dropped|overlimits" ?

Eduard
16.10.2018
12:51:35
Да
флудом поколоти с хоста на хост, с размером чуть меньше твоего MTU

Nikita
16.10.2018
13:21:22
@Edik_Ponomarenko а если на виртуальных интерфейсах много дропов?
vnet27: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
inet6 fe80::fc1a:4aff:fe16:151 prefixlen 64 scopeid 0x20<link>
ether fe:1a:4a:16:01:51 txqueuelen 1000 (Ethernet)
RX packets 2 bytes 84 (84.0 ?
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 92100348 bytes 24629322539 (22.9 GiB)
TX errors 0 dropped 9241 overruns 0 carrier 0 collisions 0

Google

Nikita
16.10.2018
13:21:34
Вот так к примеру

Eduard
16.10.2018
13:23:23
Это не много, к общему числу переданных
Посмотри еще логи гластера. Он тоже должен писать, что пропадает связь с бриками.
А что на энжине ?
На интерфейсах ?
MTU в сети какой ?

Nikita
16.10.2018
13:31:38
Максимум пару варнингов
И то в другое время
mtu дефолтный
1500

Eduard
16.10.2018
13:34:48
Ты говоришь, что у тебя мониторятся IOPSы на дисках. В моменты отвала у тебя гластер из за не правильного расположения бриков или еще чего - либо не озадачивает систему по самые немогу ?
Карту тома дай.

Nikita
16.10.2018
13:35:27
Нет, иопсы в порядке

Eduard
16.10.2018
13:35:31
У тебя один том отпадает в гластере ?

Nikita
16.10.2018
13:35:42
По всех хостам значения одинаковые
Брик?

Eduard
16.10.2018
13:36:49
Овирт ругается при отвалах ноды, что причина по отвалу какого - то тома GlusterFS ?

Nikita
16.10.2018
13:37:57

Google

Eduard
16.10.2018
13:40:24
А смонтируй любой том гластера, чисто ради эксперемента, только с хоста, где нет его бриков.
mount.glusterfs .....
И лупание его с помощью fio
Разобрался как ?
fio --ioengine=libaio --direct=1 --name=test --runtime=60 --bs=4M --size=10G --rw=randrw --directory=/tmp
Создай каталог для теста, потом пристрелишь.

Nikita
16.10.2018
13:52:43
Сделаю, если найди где гластер с вольюмом создать

Eduard
16.10.2018
13:53:11
У тебя тома уже есть.
Где у тебя oVirt тома хранит ?
gluster volume info
gluster volume status

Nikita
16.10.2018
13:54:13

Eduard
16.10.2018
13:54:59
Какие тома созданы в Glusterfs ?
gluster volume info
gluster volume status

Nikita
16.10.2018
13:55:34
1 вольюм репликейт
на 3 хоста

Eduard
16.10.2018
13:57:07
три брика без арбитра. Полноценные ?

Nikita
16.10.2018
13:57:27
Да

Eduard
16.10.2018
13:57:38
Всего три хоста ?

Nikita
16.10.2018
13:57:57
да

Eduard
16.10.2018
13:59:11
На любом делаем
mkdir -p /mnt/glu
mount.glusterfs <любой хост>:/<название тома> /mnt/glu
Название тома берем из
gluster volume info
Проверяем смонтировался или нет через mount
Смотрим свободное место df -h
У вас на каждом из серверов получается и том HostedEngine лежит и дата том oVirt`а ?

Nikita
16.10.2018
14:02:26
Хостед лежит на внешнем хранилище