J
гость точно выключался
В логах останется ведь запись как именно от выключался.
Vyacheslav
было примерно так: гость выключился пропало управление IPMI гость включился вернулось управление IPMI ironic пошёл и привёл в состояние shutoff
J
было примерно так: гость выключился пропало управление IPMI гость включился вернулось управление IPMI ironic пошёл и привёл в состояние shutoff
Управление могло пропасть если один и тот же физический интерфейс используется и для ipmi и для обычного трафика.
Vyacheslav
похоже на то, что nova агент отправил инфу о выключении, но не отправил о включении гостя
Vyacheslav
Управление могло пропасть если один и тот же физический интерфейс используется и для ipmi и для обычного трафика.
разные, но похоже что не было синхронизации nova после включения сервера с кнопки
Danila
Всем привет! Пробую разлить magnum. Создается стек,лб, мастер-нода и на этом все останавливается. Computы кубера не хотят создаваться, Ussuri, в качестве ОС для кубера - fedora33, network dirver - calico. Подскажите как правильней продиагностировать и что мешает перейти к следующему шагу и начать создавать ноды кубера ?
Danila
Сервисы мастера кубера - развернуты корректно [root@tdv001-me3z4tyjguzn-master-0 ~]# systemctl --failed UNIT LOAD ACTIVE SUB DESCRIPTION 0 loaded units listed.
Ilya
Хотя может я не понял вопрос...
AcidMan
камрады! а куда копать, если сетка в роутере умирает? используется линуксбридж.
J
камрады! а куда копать, если сетка в роутере умирает? используется линуксбридж.
Покопай по чату и посмотри как нормально описывать проблему)
AcidMan
а не могу я нормально описать. есть роутер, абсолютно дефолтный. есть паблик и приватная сетки. они обе имеют порты в этом роутере. флоатинг привязывается. инстансы меж собой общаются по привату. а наружу - ъцй. при этом с хостов стека всё работает. а вот с вм-ок - хер 🤷🏻‍♂️
AcidMan
снат - включен, секуриты группы - выключены. что еще может мешать - хз полное
AcidMan
настройки ядра выставлены, промиск на бридже и физике - тоже
AcidMan
вот вообще не могу понять куда копать
.
в инстансах нет инета?
AcidMan
в инстансах нет инета?
вообще ничего нет. не видят провайдер нетворк дальше контроллера
.
config file neutrona есть?
AcidMan
только порт роутера из этой сети
kn
пожскажите, а это норм, что свежая и почти пустая (3 ВМ и 10 сетей) инсталляция openstack (train, rhosp16.1) отвечает на 'openstac network list' или 'openstack server list' или image list итд около 6-8 секунд? ну и как следствие horizon не выглядит очень уж резвым
kn
контроллеры на нормальной быстрой физике, нагрузки почти нет, сеть 10gb итд
kn
там galera
kn
ее смотреть/ковырять, да?
AcidMan
ее смотреть/ковырять, да?
ну оттуда же данные то берутся
kn
А что в логах?
там, кстати, полно ошибок вида "Got an error reading communication packets", но есть подозрение, что это так healthcheck проходит
kn
а вообще такая задержка ответов, это может быть так и должно быть?
Vadim
так быть не должно
Vadim
а что в логе нейтрона?
kn
блин. вы знали!
kn
там пролетает пачками oslo_db.exception.DBConnectionError: (pymysql.err.OperationalError) (2013, 'Lost connection to MySQL server during query')
kn
спасибо
Pavel
openstac network list --debug там будут тайминги ответов
AcidMan
kn
даже если до 16k поднять - не влияет
icinga
а перед ней случайно нет прокси с меньшим лимитом?
kn
там, само собой, haproxy стоит, но он 'maxconn 20480'
kn
блин, какая-то неведомая фигня. даже ТП кажется не понимает как я этого достиг :-\
kn
все огонь. iperf, ping в т.ч. с разным mtu и тд проверял
kn
только не говорите, что надо снимать дамп и смотреть в него
kn
может фиревол какой режет долгие коннекты?
вряд ли, там же internal-api - внутри одной l2-сетки. там и файрволов-то нет
Ilya
все огонь. iperf, ping в т.ч. с разным mtu и тд проверял
МТУ точно надо проверить - одна из причин как раз может быть, что дропаются большие пакеты. МТУ между всеми хостами. А то обидно бывает, когда на одном из трёх хостов не так и только часть траффика дропается
Ilya
Поскольку кластер не совсем упал, то явно что какая-то часть траффика летит не туда или где-то дропается. Надо еще L3 связность между всеми хостами проверить, а то может у одного хоста шлюз по умолчанию в другой сети :)
Ilya
падает все на этапе kube_masters 2021-05-24 12:48:04Z [tdv001-uuasyk2rpupt.kube_masters]: CREATE_FAILED CREATE aborted (Task create from ResourceGroup "kube_masters" Stack "tdv001-uuasyk2rpupt" [e54b6cf8-0f5d-4ea5-9eef-8c0951818a1d] Timed out)
Данила, привет ! стек не создался за отведённое ему время скорее всего, потому что ресурсы стека не создались -висят в непонятном состоянии скорее всего - беги по ресурсам и ищи зависшие
kn
да и в целом, учитывая что кластер трипло поднимает, вряд ли там что-то может быть разное :-\
Danila
Данила, привет ! стек не создался за отведённое ему время скорее всего, потому что ресурсы стека не создались -висят в непонятном состоянии скорее всего - беги по ресурсам и ищи зависшие
Илья, привет!) Да, у меня разливается master нода, на нее ставятся ресурсы куба и дальше тишина, и не понятно почему. Пробовал трафик снифать, но ничего информативного не нашел для себя. Сервисов в failed state нету при этом
Ilya
чес. слово - все перепроверил. mtu на всех серверах одинаковое, роутинг не при делах, т.к. этот трафик через internal-api vlan ходит
Не - это плохая проверка МТУ. надо пропинговать хотя-бы большими пакетами. На сетевом оборудовании тоже МТУ могут не то выставить... Если большие пакеты ходят - то тогда можно считать, что с МТУ +- всё ок
Ilya
ну обычно мту 9000 вроде
Ilya
зависит от настроек на сетевом оборудовании... есть ли там оверлейные сетки...
Ilya
Сколько у тебя выставлено на железных серверах ? вот таким МТУ и пробуй
Ilya
15k пакеты достато большие? =)
Еще из экзотического - количество файловых дескрипторов... Но вроде у RHOSP и ОС нормально конфигурится и параметры самого опенстека
Danila
openstack stack list --nested что показывает?
create_failed, и дальее по двум командам выше - что kube_master ресурс не создался корректно
Danila
create_failed, и дальее по двум командам выше - что kube_master ресурс не создался корректно
По идеи скрипт на мастере должен постучать же в хит, чтобы тот продолжил создание кластера ?
Pavel
Насколько я понимаю, хит сам следит за скриптом по коду возврата и похоже по таймауту. И дальше следует смотреть конкретный проблемный stack. Если скрипт в принципе начал работать, то в логе должно быть что-либо осмысленное.
Ilya
А на вмку с мастером можно зайти и глянуть там логи?
Pavel
Это, кстати, тоже может облегчит диагностику. Если при создании coe cluster прописать ssh ключ, можно будет заходить на вм-ки осмотреться. Не уверен правда, лежат ли логи хит скриптов где-либо внутри.
Danila
А на вмку с мастером можно зайти и глянуть там логи?
Да, можно, только вот побегав по coreos не особо информативно там
Pavel
В таймаут может уходить в попытке скачать какой-нибудь куберовский образ, который более недоступен. Или ещё по сотне причин. В magnum скриптах много что написано скажем так... "неаккуратно".
Oleg
Да, я прокидываю ключик
Если есть ключ, то в виртуалки провались и логи клауд-нита посмотри. Большая часть магии магнума там происходит.
Pavel
Как вам прибитая гвоздями calico? Да и в целом скрипт не во всех случаях работает, так как kubectl не находит. Но это, конечно, оффтопик. https://github.com/openstack/magnum/blob/2a61e7dc1f28c0ab7694b4c2855764358ee1a4ee/magnum/drivers/common/templates/kubernetes/fragments/rotate-kubernetes-ca-certs-master.sh#L42
Danila
Во, кажется, проблемы с этим степом, теперь нужно понять где именно)
Danila
https://github.com/openstack/magnum/blob/2a61e7dc1f28c0ab7694b4c2855764358ee1a4ee/magnum/drivers/common/templates/kubernetes/fragments/configure-kubernetes-master.sh