J

гость точно выключался

В логах останется ведь запись как именно от выключался.

Vyacheslav

было примерно так: гость выключился пропало управление IPMI гость включился вернулось управление IPMI ironic пошёл и привёл в состояние shutoff

J

было примерно так: гость выключился пропало управление IPMI гость включился вернулось управление IPMI ironic пошёл и привёл в состояние shutoff

Управление могло пропасть если один и тот же физический интерфейс используется и для ipmi и для обычного трафика.

Vyacheslav

похоже на то, что nova агент отправил инфу о выключении, но не отправил о включении гостя

Vyacheslav

Управление могло пропасть если один и тот же физический интерфейс используется и для ipmi и для обычного трафика.

разные, но похоже что не было синхронизации nova после включения сервера с кнопки

Danila

Всем привет! Пробую разлить magnum. Создается стек,лб, мастер-нода и на этом все останавливается. Computы кубера не хотят создаваться, Ussuri, в качестве ОС для кубера - fedora33, network dirver - calico. Подскажите как правильней продиагностировать и что мешает перейти к следующему шагу и начать создавать ноды кубера ?

Vyacheslav

Всем привет! Пробую разлить magnum. Создается стек,лб, мастер-нода и на этом все останавливается. Computы кубера не хотят создаваться, Ussuri, в качестве ОС для кубера - fedora33, network dirver - calico. Подскажите как правильней продиагностировать и что мешает перейти к следующему шагу и начать создавать ноды кубера ?

астрологи объявили неделю кубов :)

Danila

Сервисы мастера кубера - развернуты корректно [root@tdv001-me3z4tyjguzn-master-0 ~]# systemctl --failed UNIT LOAD ACTIVE SUB DESCRIPTION 0 loaded units listed.

Danila

астрологи объявили неделю кубов :)

Ага )

Ilya

кто в курсе, если ironic потерял node, то по какой фиче он идёт и вырубает nova server в состояние SHUTOFF (была ACTIVE). Можно ли этим управлять как-то и как называется опция?

В мейтенанс переведи ноду и она не будет синкать статус питания

Ilya

Хотя может я не понял вопрос...

Vyacheslav

В мейтенанс переведи ноду и она не будет синкать статус питания

спасибо

Pavel

Всем привет! Пробую разлить magnum. Создается стек,лб, мастер-нода и на этом все останавливается. Computы кубера не хотят создаваться, Ussuri, в качестве ОС для кубера - fedora33, network dirver - calico. Подскажите как правильней продиагностировать и что мешает перейти к следующему шагу и начать создавать ноды кубера ?

Можно смотреть, что происходит в хите. openstack stack list --nested openstack stack failures llist openstack stack event list/show

AcidMan

камрады! а куда копать, если сетка в роутере умирает? используется линуксбридж.

J

камрады! а куда копать, если сетка в роутере умирает? используется линуксбридж.

Покопай по чату и посмотри как нормально описывать проблему)

AcidMan

а не могу я нормально описать. есть роутер, абсолютно дефолтный. есть паблик и приватная сетки. они обе имеют порты в этом роутере. флоатинг привязывается. инстансы меж собой общаются по привату. а наружу - ъцй. при этом с хостов стека всё работает. а вот с вм-ок - хер 🤷🏻‍♂️

AcidMan

снат - включен, секуриты группы - выключены. что еще может мешать - хз полное

AcidMan

настройки ядра выставлены, промиск на бридже и физике - тоже

AcidMan

вот вообще не могу понять куда копать

.

в инстансах нет инета?

AcidMan

в инстансах нет инета?

вообще ничего нет. не видят провайдер нетворк дальше контроллера

.

config file neutrona есть?

AcidMan

только порт роутера из этой сети

AcidMan

config file neutrona есть?

есть

kn

пожскажите, а это норм, что свежая и почти пустая (3 ВМ и 10 сетей) инсталляция openstack (train, rhosp16.1) отвечает на 'openstac network list' или 'openstack server list' или image list итд около 6-8 секунд? ну и как следствие horizon не выглядит очень уж резвым

kn

контроллеры на нормальной быстрой физике, нагрузки почти нет, сеть 10gb итд

AcidMan

пожскажите, а это норм, что свежая и почти пустая (3 ВМ и 10 сетей) инсталляция openstack (train, rhosp16.1) отвечает на 'openstac network list' или 'openstack server list' или image list итд около 6-8 секунд? ну и как следствие horizon не выглядит очень уж резвым

mysql?

kn

там galera

kn

ее смотреть/ковырять, да?

AcidMan

ее смотреть/ковырять, да?

ну оттуда же данные то берутся

Vadim

пожскажите, а это норм, что свежая и почти пустая (3 ВМ и 10 сетей) инсталляция openstack (train, rhosp16.1) отвечает на 'openstac network list' или 'openstack server list' или image list итд около 6-8 секунд? ну и как следствие horizon не выглядит очень уж резвым

А что в логах?

kn

А что в логах?

там, кстати, полно ошибок вида "Got an error reading communication packets", но есть подозрение, что это так healthcheck проходит

kn

а вообще такая задержка ответов, это может быть так и должно быть?

Vadim

так быть не должно

Vadim

а что в логе нейтрона?

kn

блин. вы знали!

kn

там пролетает пачками oslo_db.exception.DBConnectionError: (pymysql.err.OperationalError) (2013, 'Lost connection to MySQL server during query')

kn

спасибо

Pavel

openstac network list --debug там будут тайминги ответов

AcidMan

блин. вы знали!

изичка 🤗

J

там пролетает пачками oslo_db.exception.DBConnectionError: (pymysql.err.OperationalError) (2013, 'Lost connection to MySQL server during query')

Лимит подключений в mysql какой?

kn

Лимит подключений в mysql какой?

4k

kn

даже если до 16k поднять - не влияет

icinga

а перед ней случайно нет прокси с меньшим лимитом?

kn

там, само собой, haproxy стоит, но он 'maxconn 20480'

kn

блин, какая-то неведомая фигня. даже ТП кажется не понимает как я этого достиг :-\

Илья | 😶☮️🐸

блин, какая-то неведомая фигня. даже ТП кажется не понимает как я этого достиг :-\

внутри цода всё ок ?

kn

все огонь. iperf, ping в т.ч. с разным mtu и тд проверял

Matvey

там пролетает пачками oslo_db.exception.DBConnectionError: (pymysql.err.OperationalError) (2013, 'Lost connection to MySQL server during query')

может фиревол какой режет долгие коннекты?

kn

только не говорите, что надо снимать дамп и смотреть в него

kn

может фиревол какой режет долгие коннекты?

вряд ли, там же internal-api - внутри одной l2-сетки. там и файрволов-то нет

Danila

Всем привет! Пробую разлить magnum. Создается стек,лб, мастер-нода и на этом все останавливается. Computы кубера не хотят создаваться, Ussuri, в качестве ОС для кубера - fedora33, network dirver - calico. Подскажите как правильней продиагностировать и что мешает перейти к следующему шагу и начать создавать ноды кубера ?

падает все на этапе kube_masters 2021-05-24 12:48:04Z [tdv001-uuasyk2rpupt.kube_masters]: CREATE_FAILED CREATE aborted (Task create from ResourceGroup "kube_masters" Stack "tdv001-uuasyk2rpupt" [e54b6cf8-0f5d-4ea5-9eef-8c0951818a1d] Timed out)

Ilya

все огонь. iperf, ping в т.ч. с разным mtu и тд проверял

МТУ точно надо проверить - одна из причин как раз может быть, что дропаются большие пакеты. МТУ между всеми хостами. А то обидно бывает, когда на одном из трёх хостов не так и только часть траффика дропается

Ilya

Поскольку кластер не совсем упал, то явно что какая-то часть траффика летит не туда или где-то дропается. Надо еще L3 связность между всеми хостами проверить, а то может у одного хоста шлюз по умолчанию в другой сети :)

Ilya

падает все на этапе kube_masters 2021-05-24 12:48:04Z [tdv001-uuasyk2rpupt.kube_masters]: CREATE_FAILED CREATE aborted (Task create from ResourceGroup "kube_masters" Stack "tdv001-uuasyk2rpupt" [e54b6cf8-0f5d-4ea5-9eef-8c0951818a1d] Timed out)

Данила, привет ! стек не создался за отведённое ему время скорее всего, потому что ресурсы стека не создались -висят в непонятном состоянии скорее всего - беги по ресурсам и ищи зависшие

kn

Поскольку кластер не совсем упал, то явно что какая-то часть траффика летит не туда или где-то дропается. Надо еще L3 связность между всеми хостами проверить, а то может у одного хоста шлюз по умолчанию в другой сети :)

чес. слово - все перепроверил. mtu на всех серверах одинаковое, роутинг не при делах, т.к. этот трафик через internal-api vlan ходит

kn

да и в целом, учитывая что кластер трипло поднимает, вряд ли там что-то может быть разное :-\

Danila

Данила, привет ! стек не создался за отведённое ему время скорее всего, потому что ресурсы стека не создались -висят в непонятном состоянии скорее всего - беги по ресурсам и ищи зависшие

Илья, привет!) Да, у меня разливается master нода, на нее ставятся ресурсы куба и дальше тишина, и не понятно почему. Пробовал трафик снифать, но ничего информативного не нашел для себя. Сервисов в failed state нету при этом

Ilya

чес. слово - все перепроверил. mtu на всех серверах одинаковое, роутинг не при делах, т.к. этот трафик через internal-api vlan ходит

Не - это плохая проверка МТУ. надо пропинговать хотя-бы большими пакетами. На сетевом оборудовании тоже МТУ могут не то выставить... Если большие пакеты ходят - то тогда можно считать, что с МТУ +- всё ок

kn

Не - это плохая проверка МТУ. надо пропинговать хотя-бы большими пакетами. На сетевом оборудовании тоже МТУ могут не то выставить... Если большие пакеты ходят - то тогда можно считать, что с МТУ +- всё ок

15k пакеты достато большие? =)

Ilya

ну обычно мту 9000 вроде

Ilya

зависит от настроек на сетевом оборудовании... есть ли там оверлейные сетки...

Ilya

Сколько у тебя выставлено на железных серверах ? вот таким МТУ и пробуй

Ilya

15k пакеты достато большие? =)

Еще из экзотического - количество файловых дескрипторов... Но вроде у RHOSP и ОС нормально конфигурится и параметры самого опенстека

Pavel

Илья, привет!) Да, у меня разливается master нода, на нее ставятся ресурсы куба и дальше тишина, и не понятно почему. Пробовал трафик снифать, но ничего информативного не нашел для себя. Сервисов в failed state нету при этом

openstack stack list --nested что показывает?

Danila

openstack stack list --nested что показывает?

create_failed, и дальее по двум командам выше - что kube_master ресурс не создался корректно

Danila

create_failed, и дальее по двум командам выше - что kube_master ресурс не создался корректно

По идеи скрипт на мастере должен постучать же в хит, чтобы тот продолжил создание кластера ?

Pavel

Насколько я понимаю, хит сам следит за скриптом по коду возврата и похоже по таймауту. И дальше следует смотреть конкретный проблемный stack. Если скрипт в принципе начал работать, то в логе должно быть что-либо осмысленное.

Ilya

А на вмку с мастером можно зайти и глянуть там логи?

Danila

Насколько я понимаю, хит сам следит за скриптом по коду возврата и похоже по таймауту. И дальше следует смотреть конкретный проблемный stack. Если скрипт в принципе начал работать, то в логе должно быть что-либо осмысленное.

Да, но обычно минут за 10 кластер маленький можно создать, а тут он ждёт до тайм-аута и понятное дело падает

Pavel

Это, кстати, тоже может облегчит диагностику. Если при создании coe cluster прописать ssh ключ, можно будет заходить на вм-ки осмотреться. Не уверен правда, лежат ли логи хит скриптов где-либо внутри.

Danila

А на вмку с мастером можно зайти и глянуть там логи?

Да, можно, только вот побегав по coreos не особо информативно там

Danila

Это, кстати, тоже может облегчит диагностику. Если при создании coe cluster прописать ssh ключ, можно будет заходить на вм-ки осмотреться. Не уверен правда, лежат ли логи хит скриптов где-либо внутри.

Да, я прокидываю ключик

Pavel

В таймаут может уходить в попытке скачать какой-нибудь куберовский образ, который более недоступен. Или ещё по сотне причин. В magnum скриптах много что написано скажем так... "неаккуратно".

Oleg

Да, я прокидываю ключик

Если есть ключ, то в виртуалки провались и логи клауд-нита посмотри. Большая часть магии магнума там происходит.

Danila

В таймаут может уходить в попытке скачать какой-нибудь куберовский образ, который более недоступен. Или ещё по сотне причин. В magnum скриптах много что написано скажем так... "неаккуратно".

Он скачивает и корректно запускает все сервисы Кубера

Pavel

Как вам прибитая гвоздями calico? Да и в целом скрипт не во всех случаях работает, так как kubectl не находит. Но это, конечно, оффтопик. https://github.com/openstack/magnum/blob/2a61e7dc1f28c0ab7694b4c2855764358ee1a4ee/magnum/drivers/common/templates/kubernetes/fragments/rotate-kubernetes-ca-certs-master.sh#L42

Danila

Во, кажется, проблемы с этим степом, теперь нужно понять где именно)

Danila

https://github.com/openstack/magnum/blob/2a61e7dc1f28c0ab7694b4c2855764358ee1a4ee/magnum/drivers/common/templates/kubernetes/fragments/configure-kubernetes-master.sh

Andrey

Есть у кого-нибудь Виктория с эфемерками и образами в cinder ?

У меня.