
Ruslan
11.10.2018
10:35:11
так не нужно енжин перезапускать или не нужно ям апдейт ?

Eduard
11.10.2018
10:37:43
Энжин пока не обновляем.
Перезапускаем его.

Ruslan
11.10.2018
10:38:21
пошел на перезапуск

Google

Eduard
11.10.2018
10:38:45
ok


Ruslan
11.10.2018
10:38:50
[root@ovmgmt dbutils]# systemctl restart ovirt-engine.service
[root@ovmgmt dbutils]# systemctl status ovirt-engine
● ovirt-engine.service - oVirt Engine
Loaded: loaded (/usr/lib/systemd/system/ovirt-engine.service; enabled; vendor preset: disabled)
Active: active (running) since Чт 2018-10-11 13:38:21 MSK; 15s ago
Main PID: 19355 (ovirt-engine.py)
CGroup: /system.slice/ovirt-engine.service
├─19355 /usr/bin/python /usr/share/ovirt-engine/services/ovirt-engine/ovirt-engine.py --redirect-output --syste...
└─19397 ovirt-engine -server -XX:+TieredCompilation -Xms4081M -Xmx4081M -Xss1M -Djava.awt.headless=true -Dsun.r...
окт 11 13:38:20 ovmgmt.ins.ru systemd[1]: Starting oVirt Engine...
окт 11 13:38:20 ovmgmt.ins.ru ovirt-engine.py[19355]: 2018-10-11 13:38:20,458+0300 ovirt-engine: INFO _detectJBossV...l=36
окт 11 13:38:21 ovmgmt.ins.ru ovirt-engine.py[19355]: 2018-10-11 13:38:21,276+0300 ovirt-engine: INFO _detectJBossV...'[]'
окт 11 13:38:21 ovmgmt.ins.ru systemd[1]: Started oVirt Engine.
Hint: Some lines were ellipsized, use -l to show in full.
тщву 1 в состоянии Connecting


Eduard
11.10.2018
10:41:16
О
Хост в дауне ?

Ruslan
11.10.2018
10:41:47

Eduard
11.10.2018
10:42:14
Ждем когда закончится поднятие энжина, поднятие роли SPM на живой ноде.

Ruslan
11.10.2018
10:42:48

Eduard
11.10.2018
10:43:20
Выводим ноду битую в meintenance.
Что - бы не сделать шкоду работающим виртуалкам пройдем еще раз по здоровью гластера
По всем томам.
gluster volume heal <имя тома> info |grep "Status\|Number"
Нода в обслуживание ушла ?

Ruslan
11.10.2018
10:45:58
Nfr jyf yt ds[jlbn d vfqyntyfyct

Google

Ruslan
11.10.2018
10:46:12
Так она не хочет в майнтенансе выходить
Опять Нон респонсиве

Eduard
11.10.2018
10:46:53
iptables-save с нее ?

Ruslan
11.10.2018
10:47:56
Ее в ребут увело
видимо енжин

Eduard
11.10.2018
10:48:06
Отключаем временно на кластере fencing

Ruslan
11.10.2018
10:48:20
Блин, это где ?

Eduard
11.10.2018
10:48:40
Compute/clusters
Свойства клайстера, раздел fancing.

Ruslan
11.10.2018
10:49:08
нашел, сделал

Eduard
11.10.2018
10:49:11
Power Managment на нодах настроен ?

Ruslan
11.10.2018
10:49:21
да
Как бы он ее в ребут отправил
Но, по крайней мере, виртуалки с нее слезли

Eduard
11.10.2018
10:49:52
Это был HARD Fancing через ILO видимо.
Загрузится нода.
В фаирволе ее обять от энжина блокируем.

Ruslan
11.10.2018
10:50:18
Она долго ребутается. минут 5

Eduard
11.10.2018
10:51:07
Напиши карту томов гластера. Сервера и где какие брики.
Вслепую очень тяжело.

Google

Ruslan
11.10.2018
10:51:45
все ноды держат на себе по одному брику каждого тома.

Eduard
11.10.2018
10:52:41
Карту лучше дай. Ноды и что где лежит. В том числе и энжин.

Ruslan
11.10.2018
10:52:53
нода1-iso
node2-iso
node3 - iso
node1 - data
node2 - data
node3 - data
node1-engine
node2-engine
node3-engine
node1-export
node2-export
node3 - export

Eduard
11.10.2018
10:53:27
Engine на отдельной машине ?

Ruslan
11.10.2018
10:54:18
engine yf jnltkmyjq vfibyt/ ukecnthyjt ty;by - ctqxfc yt bcgjkmpetncz
гластерное енжине сейчас не используется.
эта сцука встала в АП

Eduard
11.10.2018
10:55:09
Ну вот.
Я тебе очень рекомендую дотянуть все до одной версии.

Ruslan
11.10.2018
10:55:31
Это не от того что фенсинг отключили на кластере?

Eduard
11.10.2018
10:55:38
Только делать это акуратно.

Eduard
11.10.2018
10:55:47

Ruslan
11.10.2018
10:56:02
т.е. можно сейчас его включать?

Eduard
11.10.2018
10:56:15
Это видимо все - таки где - то разные версии. Потому - что энжин node1 не сильно по VDSM понимает.

Ruslan
11.10.2018
10:56:55
Мне не совсем понятно как дотягивать до одной версии. Ладно, когда висят ящики, можно провести апдейт на нодах. а когда их нет, а версии разные ?
вручную при помощи yum update - тоже не всегда получается ... чего-то не понимаю.

Eduard
11.10.2018
10:57:45
Я бы его включил уже после обновлений.
Но их на рабочей системе нужно очень акуратно ставить. Тем более у тебя гластер. Это нужно делать по этапно. Выдерживая 10-15 после перезагрузки каждой ноды, где живут брики, потом проверяя здоровье томов двигаться дальше.

Runinterface ?
11.10.2018
10:58:07
/taskcleaner

Google

Eduard
11.10.2018
10:58:08

Ruslan
11.10.2018
10:58:52
Я от гластера хочу отказаться. он меня глюками своими уже задалбывать начал. уйти на iSCSI или NFS

Eduard
11.10.2018
10:59:10
ISCSI лучше не стоит.
Но от гластера лучше уйти.

Ruslan
11.10.2018
10:59:57
Почему ? У меня 10Гбит сетка выделена специально под работу с хранилищем
Неужно НФС лучще iSCSI ?

Eduard
11.10.2018
11:00:31
Глюки у гластера конечно есть, но он тоже имеет правл на жизнь. Скоростей на нем больших не получишь, да и эксплуатационные человекочасы на него нужны больше, чем на тот - же CEPH.
Я - бы рекомендовал - бы тебе Ceph + NFS-Ganesha. А если нужны быстрые диски, то можно туда досыпать Ceph RBD.
Головной боли будет меньша. Но на старте изучения Ceph, головной боли будет не мало. Но оно того стоит.

Admin
ERROR: S client not available

Eduard
11.10.2018
11:02:54
А сейчас просто акуратно проведи обновления, только не зафризь гластер тома, выдерживай паузы. Да и работай пока, изучай что - то в замену Gluster.
Неужно НФС лучще iSCSI ?
Сам по себе NFS - это точка отказа. Если идет речь о класическом NFS. Падает у тебя сервер NFS - падает весь кластер.

Ruslan
11.10.2018
11:04:01
Эх FC бы......

Eduard
11.10.2018
11:04:12
Нужно стремиться к такой схеме, в которой не будет единой точки отказа.

Ruslan
11.10.2018
11:04:43
Это я понимаю, и в принципе к ней и движусь. но пока медленно

Eduard
11.10.2018
11:05:30
И себистоимость 1М очень высока, а при совместном доступе под большой нагрузкой иногда бывают неприятности.

Ruslan
11.10.2018
11:06:24

Eduard
11.10.2018
11:06:26
Дотягивай версии пакетов обновлениями, не жди очередного отказа.

Ruslan
11.10.2018
11:07:09
Ага, вот только памяти дадут еще. у меня не умещаются виртуалки с одной из нод на двух других по памяти.

Google

Eduard
11.10.2018
11:07:20
SAN включается двумя контроллерами в два свича. Иначе два свича бессмысленны.
Не делай единые точки отказа !

Ruslan
11.10.2018
11:08:53
Свич тут модульный, 2 мозгов, 2 блока питания, дублирующиеся модули. на самих нодах по 2 платы 2 порта 10Гбит, включенные в режиме бондинга портов с разных карт на разные модули коммутатора.

Eduard
11.10.2018
11:09:09

Ruslan
11.10.2018
11:09:17
этоя схематично рисовал, в принципе вместо нескольких по схеме - один модульный

Eduard
11.10.2018
11:12:59
SAN подсистема - это немного другие свичи это уже Fibre Channel. Там свичи уже свои. Зонирование балансировка, multipath и т.д.
Просто взвесьте все, перед тем, как вкладывать в это "много" денег.
Стоимость высокая, оперативности, маштабируемости там нет. Только досыпка корзин и свичей.
Оно конечно проще, но...
Тут уже решение за вами.
У меня в практике были случаи вылета корзин HP MSA полностью. Два контроллера, два БП не помогли. Одна корзинка по грозе, даже не понятно как, прошило UPS, UPS целый корзина труп, вместе с половиной винтов. Хотя нормализаторы, потом UPSы. Корзина оптическая.... Вот такое тоже бывает. Так что можно наверное корзину тоже считать точкой отказа :) Смешно, но вот...
Да и на больших проектах уже давно SDS - это уже базовый уровень.


Ruslan
11.10.2018
11:22:46
С SAN свичами , я слава богу справляюсь ? и есть у меня одна фабрика незадействованная.
Сеф - читал про него, но пока много народу сходится к тому что сырой еще... мол нежелательно в прод.

Eduard
11.10.2018
11:24:36
Тогда избавляйтесь от гластера и переходите полностью на SAN. Уже жить будет попроще.

Ruslan
11.10.2018
11:25:19
Ну вот, буду сейчас что-то мутить под эту тему. ОГРОМНОЕ спасибо за помощь!

Eduard
11.10.2018
11:25:34
Да не за что.

terry
11.10.2018
11:32:59
над вам в чат ceph-a сходить

Eduard
11.10.2018
11:33:58
Оооооо...... Там желание им заниматься вмиг отобьют.