@nocproject

Страница 1364 из 2357
Maksim
05.09.2017
06:52:51
ладно поэскперементирую.

Bitbucket
05.09.2017
07:13:18
Andrey pushed to noc/feature/microservices Some fixes in SLA metrics request

Andrey pushed to noc/feature/microservices Fix SLA probe view

Dmitry Volodin pushed to noc/feature/microservices IGetSLAProbes: Set defaults for *group*

Google
Ivan
05.09.2017
07:31:49
@freeseacher а есть список "безопасных" крешинфо?

Ivan
05.09.2017
07:32:12
не спугни

Меня вот web exceptions.KeyError: 10 достало, к примеру

Andrey
05.09.2017
07:33:32
дык, починяй

Ivan
05.09.2017
07:33:32
у меня хватит ума на все креши issue завести же

Andrey
05.09.2017
07:33:44
вот

это ты освоил - переходи на следующий уровень

Ivan
05.09.2017
07:34:57
activator tornado.gen.TimeoutError: Timeout при любой недоступной железке будет?

Ilya
05.09.2017
07:35:01
328 ==> "sla_type": p.type

починили?

Andrey
05.09.2017
07:35:24
починили?
коммиты выше

Ilya
05.09.2017
07:35:33
@dvolodin может сделать сбор метрик независымым от остальных тасков в периодике?

Google
Ilya
05.09.2017
07:36:01
крэш периодика других тасков влияет на общий сбор

значит надо выполнять следующую задачу

Dmitry
05.09.2017
07:36:09
не влияет

Ilya
05.09.2017
07:36:16
из-за sla метрики не собирались

Andrey
05.09.2017
07:36:28
я же говорил не обновляться

спрашивается

зачем?

Ilya
05.09.2017
07:36:36
Ну вот на двух железках, где есть sla - там не работает snmp

Andrey
05.09.2017
07:36:39
а... пятница же, да

фиксы выше

Ilya
05.09.2017
07:36:52
Тут не в обновляться, а в логике работы

Andrey
05.09.2017
07:36:57
нет

ты зачем-то притащил обновления, зная что там баги

и теперь жалуешься, что из-за них не работает

Ilya
05.09.2017
07:37:26
крэш одного опроса не должен влиять на другой

вот о чем я

Andrey
05.09.2017
07:37:37
SLA собирается в рамках метрик

ибо это метрики

Google
Andrey
05.09.2017
07:37:44
это 1 опрос

Ilya
05.09.2017
07:38:03
понятно

Вот поэтому я и писал про разделение..

Andrey
05.09.2017
07:38:53
это один опрос

метрики

ты его не поделишь

и это не застрахует тебя от багов

Ivan
05.09.2017
07:40:09
а сколько раз нок пингует железку, чтобы понять, что она не пингуется и будет авария?

Andrey
05.09.2017
07:40:19
сколько настроишь

по умолчанию 3 раза

Ivan
05.09.2017
07:40:51
аварии по одной минуте меня напрягают

Ilya
05.09.2017
07:40:55
пингует 3 раза, аварию открывает при 1 пропуске. Закрывает при успешных 3

или наоборот

Andrey
05.09.2017
07:41:10
Ivan
05.09.2017
07:41:29
меня тоже. Подебажишь?
а это не только у меня?

Ilya
05.09.2017
07:41:33
аварии по одной минуте меня напрягают
у вас что-то с сетью или control plane

Andrey
05.09.2017
07:41:35
нет, не только

Ivan
05.09.2017
07:41:40
я грешил на связность

Andrey
05.09.2017
07:41:47
вот и надо выяснить

Google
Andrey
05.09.2017
07:41:56
там, довольно, муторный дебаг

открываешь 2 окна

в одном запускаешь tcpdump во втором лог пингера

Ivan
05.09.2017
07:42:18
Ггг

Andrey
05.09.2017
07:42:35
и пытаешься понять, почему оно

Ivan
05.09.2017
07:42:41
вот я скорее трафик соберу, да, чтобы доказать, что все ответы пришли или нет

а потом уже смотреть

Andrey
05.09.2017
07:43:00
тебе всё равно этот трафик надо будет с логом пингера сравнивать

поэтому, без разницы

как удобно.

если удастся поймать, передам печеньки через @freeseacher

Ivan
05.09.2017
07:44:55
ну ради печенек!

https://pastebin.com/dDQcv78Y
@aversant не подскажешь, тут чей косяк?

Andrey
05.09.2017
07:47:46
надо правило проверять

Ivan
05.09.2017
07:49:38
Это что-то связано с валидаией конфига?

Serg
05.09.2017
07:52:10
перестал запускаться активатор с вот такой руганью https://pastebin.com/pvKhVfkn

Andrey
05.09.2017
07:52:29
Serg
05.09.2017
07:52:35
подскажите куда копать?

Andrey
05.09.2017
07:53:04
addr = 'localhost'

не хватает порта

Google
Andrey
05.09.2017
07:53:58
странная ошибка

лучше попробовать передеплоить

Autodetecting address: auto -> localhost

почему-то активатор пытается привязаться к localhost

надо использовать имя хоста

и прописать внешний адрес, не локалхост

что в настройках башни?

надо найти, к какому классу аварий соответствует евент

найти его и посмтреть что там не так

Ivan
05.09.2017
08:00:51
ок, в вебе это малореально

Andrey
05.09.2017
08:01:26
надо в shell по ID посмотреть что за евент

Serg
05.09.2017
08:01:34
дело было в том что нода была названа localhost

Andrey
05.09.2017
08:01:43
^_^

Ivan
05.09.2017
08:25:17
Ох
не был готов к этому?)

Алексей
05.09.2017
08:26:58
Ага. Довольно эффективный способ всё напрочь поломать и никогда не найти при удаленной отладке:)

Bitbucket
05.09.2017
08:37:37
Dmitry Volodin pushed to noc/feature/moversion Dmitry Volodin: Merged with feature/microservices Dmitry Volodin: IGetSLAProbes: Set defaults for *group* Andrey: Fix SLA probe view Andrey: Some fixes in SLA metrics request Dmitry Volodin: Generic.get_metrics: log snmp errors and continue processing ... See all

Ivan
05.09.2017
08:58:44
тебе всё равно этот трафик надо будет с логом пингера сравнивать
странная херня, нет исходящих пингов на момент аварии. Но есть три успешных на момент закрытия

Ilya
05.09.2017
08:59:15
Лол

Ivan
05.09.2017
08:59:35
буду ждать ещё одной аварии, чтобы удостовериться

Страница 1364 из 2357