Vyacheslav
было примерно так:
гость выключился
пропало управление IPMI
гость включился
вернулось управление IPMI
ironic пошёл и привёл в состояние shutoff
J
Vyacheslav
похоже на то, что nova агент отправил инфу о выключении, но не отправил о включении гостя
Vyacheslav
Danila
Всем привет!
Пробую разлить magnum. Создается стек,лб, мастер-нода и на этом все останавливается. Computы кубера не хотят создаваться,
Ussuri, в качестве ОС для кубера - fedora33, network dirver - calico. Подскажите как правильней продиагностировать и что мешает перейти к следующему шагу и начать создавать ноды кубера ?
Vyacheslav
Danila
Сервисы мастера кубера - развернуты корректно
[root@tdv001-me3z4tyjguzn-master-0 ~]# systemctl --failed
UNIT LOAD ACTIVE SUB DESCRIPTION
0 loaded units listed.
Danila
Ilya
Ilya
Хотя может я не понял вопрос...
Vyacheslav
Pavel
AcidMan
камрады! а куда копать, если сетка в роутере умирает? используется линуксбридж.
J
AcidMan
а не могу я нормально описать. есть роутер, абсолютно дефолтный. есть паблик и приватная сетки. они обе имеют порты в этом роутере. флоатинг привязывается. инстансы меж собой общаются по привату. а наружу - ъцй. при этом с хостов стека всё работает. а вот с вм-ок - хер 🤷🏻♂️
AcidMan
снат - включен, секуриты группы - выключены. что еще может мешать - хз полное
AcidMan
настройки ядра выставлены, промиск на бридже и физике - тоже
AcidMan
вот вообще не могу понять куда копать
.
в инстансах нет инета?
.
config file neutrona есть?
AcidMan
только порт роутера из этой сети
AcidMan
kn
пожскажите, а это норм, что свежая и почти пустая (3 ВМ и 10 сетей) инсталляция openstack (train, rhosp16.1) отвечает на 'openstac network list' или 'openstack server list' или image list итд около 6-8 секунд? ну и как следствие horizon не выглядит очень уж резвым
kn
контроллеры на нормальной быстрой физике, нагрузки почти нет, сеть 10gb итд
AcidMan
kn
там galera
kn
ее смотреть/ковырять, да?
Vadim
kn
А что в логах?
там, кстати, полно ошибок вида "Got an error reading communication packets", но есть подозрение, что это так healthcheck проходит
kn
а вообще такая задержка ответов, это может быть так и должно быть?
Vadim
так быть не должно
Vadim
а что в логе нейтрона?
kn
блин. вы знали!
kn
там пролетает пачками oslo_db.exception.DBConnectionError: (pymysql.err.OperationalError) (2013, 'Lost connection to MySQL server during query')
kn
спасибо
Pavel
openstac network list --debug
там будут тайминги ответов
AcidMan
J
kn
kn
даже если до 16k поднять - не влияет
icinga
а перед ней случайно нет прокси с меньшим лимитом?
kn
там, само собой, haproxy стоит, но он 'maxconn 20480'
kn
блин, какая-то неведомая фигня. даже ТП кажется не понимает как я этого достиг :-\
Илья | 😶☮️🐸
kn
все огонь. iperf, ping в т.ч. с разным mtu и тд проверял
Matvey
kn
только не говорите, что надо снимать дамп и смотреть в него
Danila
Ilya
Поскольку кластер не совсем упал, то явно что какая-то часть траффика летит не туда или где-то дропается. Надо еще L3 связность между всеми хостами проверить, а то может у одного хоста шлюз по умолчанию в другой сети :)
Ilya
kn
kn
да и в целом, учитывая что кластер трипло поднимает, вряд ли там что-то может быть разное :-\
kn
Ilya
ну обычно мту 9000 вроде
Ilya
зависит от настроек на сетевом оборудовании... есть ли там оверлейные сетки...
Ilya
Сколько у тебя выставлено на железных серверах ? вот таким МТУ и пробуй
Ilya
15k пакеты достато большие? =)
Еще из экзотического - количество файловых дескрипторов... Но вроде у RHOSP и ОС нормально конфигурится и параметры самого опенстека
Pavel
Pavel
Насколько я понимаю, хит сам следит за скриптом по коду возврата и похоже по таймауту. И дальше следует смотреть конкретный проблемный stack. Если скрипт в принципе начал работать, то в логе должно быть что-либо осмысленное.
Ilya
А на вмку с мастером можно зайти и глянуть там логи?
Danila
Pavel
Это, кстати, тоже может облегчит диагностику. Если при создании coe cluster прописать ssh ключ, можно будет заходить на вм-ки осмотреться. Не уверен правда, лежат ли логи хит скриптов где-либо внутри.
Danila
Pavel
В таймаут может уходить в попытке скачать какой-нибудь куберовский образ, который более недоступен. Или ещё по сотне причин. В magnum скриптах много что написано скажем так... "неаккуратно".
Oleg
Да, я прокидываю ключик
Если есть ключ, то в виртуалки провались и логи клауд-нита посмотри. Большая часть магии магнума там происходит.
Danila
Pavel
Как вам прибитая гвоздями calico? Да и в целом скрипт не во всех случаях работает, так как kubectl не находит. Но это, конечно, оффтопик.
https://github.com/openstack/magnum/blob/2a61e7dc1f28c0ab7694b4c2855764358ee1a4ee/magnum/drivers/common/templates/kubernetes/fragments/rotate-kubernetes-ca-certs-master.sh#L42
Danila
Во, кажется, проблемы с этим степом, теперь нужно понять где именно)
Danila
https://github.com/openstack/magnum/blob/2a61e7dc1f28c0ab7694b4c2855764358ee1a4ee/magnum/drivers/common/templates/kubernetes/fragments/configure-kubernetes-master.sh
Andrey