
Maksim
05.09.2017
06:52:51
ладно поэскперементирую.

Bitbucket
05.09.2017
07:13:18
Andrey pushed to noc/feature/microservices
Some fixes in SLA metrics request
Andrey pushed to noc/feature/microservices
Fix SLA probe view
Dmitry Volodin pushed to noc/feature/microservices
IGetSLAProbes: Set defaults for *group*

Google

Ivan
05.09.2017
07:31:49
@freeseacher а есть список "безопасных" крешинфо?

Ilya
05.09.2017
07:32:03

Ivan
05.09.2017
07:32:12
не спугни
Меня вот web exceptions.KeyError: 10 достало, к примеру

Andrey
05.09.2017
07:33:32
дык, починяй

Ivan
05.09.2017
07:33:32
у меня хватит ума на все креши issue завести же

Andrey
05.09.2017
07:33:44
вот
это ты освоил - переходи на следующий уровень

Ivan
05.09.2017
07:34:57
activator tornado.gen.TimeoutError: Timeout при любой недоступной железке будет?

Ilya
05.09.2017
07:35:01
328 ==> "sla_type": p.type
починили?

Andrey
05.09.2017
07:35:24

Ilya
05.09.2017
07:35:33
@dvolodin может сделать сбор метрик независымым от остальных тасков в периодике?

Google

Andrey
05.09.2017
07:35:44
оно всё по SNMP работает

Ilya
05.09.2017
07:36:01
крэш периодика других тасков влияет на общий сбор
значит надо выполнять следующую задачу

Dmitry
05.09.2017
07:36:09
не влияет

Ilya
05.09.2017
07:36:16
из-за sla метрики не собирались

Andrey
05.09.2017
07:36:28
я же говорил не обновляться
спрашивается
зачем?

Ilya
05.09.2017
07:36:36
Ну вот на двух железках, где есть sla - там не работает snmp

Andrey
05.09.2017
07:36:39
а... пятница же, да
фиксы выше

Ilya
05.09.2017
07:36:52
Тут не в обновляться, а в логике работы

Andrey
05.09.2017
07:36:57
нет
ты зачем-то притащил обновления, зная что там баги
и теперь жалуешься, что из-за них не работает

Ilya
05.09.2017
07:37:26
крэш одного опроса не должен влиять на другой
вот о чем я

Andrey
05.09.2017
07:37:37
SLA собирается в рамках метрик
ибо это метрики

Google

Andrey
05.09.2017
07:37:44
это 1 опрос

Ilya
05.09.2017
07:38:03
понятно
Вот поэтому я и писал про разделение..

Andrey
05.09.2017
07:38:53
это один опрос
метрики
ты его не поделишь
и это не застрахует тебя от багов

Ivan
05.09.2017
07:40:09
а сколько раз нок пингует железку, чтобы понять, что она не пингуется и будет авария?

Ilya
05.09.2017
07:40:18

Andrey
05.09.2017
07:40:19
сколько настроишь
по умолчанию 3 раза

Ivan
05.09.2017
07:40:51
аварии по одной минуте меня напрягают

Ilya
05.09.2017
07:40:55
пингует 3 раза, аварию открывает при 1 пропуске.
Закрывает при успешных 3
или наоборот

Andrey
05.09.2017
07:41:10

Ivan
05.09.2017
07:41:29

Ilya
05.09.2017
07:41:33

Andrey
05.09.2017
07:41:35
нет, не только

Ivan
05.09.2017
07:41:40
я грешил на связность

Andrey
05.09.2017
07:41:47
вот и надо выяснить

Google

Andrey
05.09.2017
07:41:56
там, довольно, муторный дебаг
открываешь 2 окна
в одном запускаешь tcpdump во втором лог пингера

Ivan
05.09.2017
07:42:18
Ггг

Andrey
05.09.2017
07:42:35
и пытаешься понять, почему оно

Ivan
05.09.2017
07:42:41
вот я скорее трафик соберу, да, чтобы доказать, что все ответы пришли или нет
а потом уже смотреть

Andrey
05.09.2017
07:43:00
тебе всё равно этот трафик надо будет с логом пингера сравнивать
поэтому, без разницы
как удобно.
если удастся поймать, передам печеньки через @freeseacher

Ivan
05.09.2017
07:44:55
ну ради печенек!

Andrey
05.09.2017
07:47:46
надо правило проверять

Ivan
05.09.2017
07:49:38
Это что-то связано с валидаией конфига?

Serg
05.09.2017
07:52:10
перестал запускаться активатор с вот такой руганью https://pastebin.com/pvKhVfkn

Andrey
05.09.2017
07:52:29

Serg
05.09.2017
07:52:35
подскажите куда копать?

Andrey
05.09.2017
07:53:04
addr = 'localhost'
не хватает порта

Google

Andrey
05.09.2017
07:53:58
странная ошибка
лучше попробовать передеплоить
Autodetecting address: auto -> localhost
почему-то активатор пытается привязаться к localhost
надо использовать имя хоста
и прописать внешний адрес, не локалхост
что в настройках башни?
надо найти, к какому классу аварий соответствует евент
найти его и посмтреть что там не так

Ivan
05.09.2017
08:00:51
ок, в вебе это малореально

Andrey
05.09.2017
08:01:26
надо в shell по ID посмотреть что за евент

Serg
05.09.2017
08:01:34
дело было в том что нода была названа localhost

Andrey
05.09.2017
08:01:43
^_^

Ivan
05.09.2017
08:02:01

Алексей
05.09.2017
08:21:12

Ivan
05.09.2017
08:25:17

Алексей
05.09.2017
08:26:58
Ага. Довольно эффективный способ всё напрочь поломать и никогда не найти при удаленной отладке:)

Bitbucket
05.09.2017
08:37:37
Dmitry Volodin pushed to noc/feature/moversion
Dmitry Volodin: Merged with feature/microservices
Dmitry Volodin: IGetSLAProbes: Set defaults for *group*
Andrey: Fix SLA probe view
Andrey: Some fixes in SLA metrics request
Dmitry Volodin: Generic.get_metrics: log snmp errors and continue processing
... See all

Ivan
05.09.2017
08:58:44

Ilya
05.09.2017
08:59:15
Лол

Ivan
05.09.2017
08:59:35
буду ждать ещё одной аварии, чтобы удостовериться