@nocproject

Страница 2263 из 2357
Ilya
09.09.2018
08:15:15
2018-09-09 11:14:01,960 [script] [Huawei.VRP.get_interface_status_ex|10.100.3.200] Complete (20674.96ms)

прилетел аларм

Andrey
09.09.2018
08:15:21
у него нету значения неопределён

соотв. когда ты не снимаешь значение - оно выставляется в дефолт (который Down)

Google
Andrey
09.09.2018
08:16:17
а когда снимаешь - получаешь Up, если интерфейс в апе....

вот тебе и переключение статуса

Ilya
09.09.2018
08:17:04
Мнда.. Ложных срабатываний будет полно, не только когда канал плохой, а когда у железки ЦП слабый или загружен сильно..

Andrey
09.09.2018
08:17:33
угу... там поменяли принцип работу. раньше был snpwalk по статусам

и у него было 2 варианта - либо он отработает, либо скрипт завалится

а сейчас там get и получается, эти варианты действуют на каждый интерфейс

Ilya
09.09.2018
08:18:12
Какой подорожник можно приложить сейчас?

Andrey
09.09.2018
08:18:25
откатить версию скрипта на старый вариант

там только скрипт задевается

Ilya
09.09.2018
08:19:02
откатить версию скрипта на старый вариант
Ну это вариант, а в будущем изменения планируются в соответствии с этой информацией?

Andrey
09.09.2018
08:19:34
вот ты спросил...

я только что эту информацию сообразил

а ты уже фикс хочешь

Google
Ilya
09.09.2018
08:20:00
:)

@maksmile13 а ты мне не хотел верить..

Andrey
09.09.2018
08:20:20
наверное, надо тебе пряник выдать, ща тесты

Maksim
09.09.2018
08:23:12
@maksmile13 а ты мне не хотел верить..
Проблема не в скрипте

Давай начнем с этого

Ilya
09.09.2018
08:23:28
Это уже понятно стало

Maksim
09.09.2018
08:23:43
А в говножелезе и говноканалах, до говножелеза

:)

Ilya
09.09.2018
08:23:53
Проблема в логике прежде всего

Maksim
09.09.2018
08:24:04
Логика нормальная

Ilya
09.09.2018
08:24:15
железка может быть сильно загружена или канал до неё, в следствии чего она не отдаст результат и 500 интерфейсов посчитаются в down

Maksim
09.09.2018
08:24:28
Уменьши число одновременных getов

Ilya
09.09.2018
08:24:36
Где?

Maksim
09.09.2018
08:24:44
В настройках

Ilya
09.09.2018
08:24:47
Где?

Maksim
09.09.2018
08:24:51
Это вопрос к Андрею

Он их крутил

Google
Maksim
09.09.2018
08:25:38
Нет

Ilya
09.09.2018
08:26:14
у меня даже на MX валился snmp по timeout, а там интерфейсов не мало, поверь

Maksim
09.09.2018
08:26:20
Лучше железку snpwalkов задрачивать?

Maksim
09.09.2018
08:26:29
Бывает да

Ilya
09.09.2018
08:27:19
Почему default down? Может последнее значение использовать, если скрипт зафейлился или отвалился по timeout?

Maksim
09.09.2018
08:30:10
Такой же совершенной способ запроса, почему ты тогда не жалуешься, что у тебя то собираются метрики, то нет

Ilya
09.09.2018
08:31:24
Такой же совершенной способ запроса, почему ты тогда не жалуешься, что у тебя то собираются метрики, то нет
Потому-что этого не было видно, а алерты в тг приходили именно на смену статуса интерфейса

Вот только сейчас разобрались почему

Maksim
09.09.2018
08:31:55
Собирай статусы через syslog

Или snmp trup

Ilya
09.09.2018
08:32:14
ну это вариант, да

Но как бы, не всегда рабочий )

Maksim
09.09.2018
08:32:53
Этот вариант сделал, что бы снизить нагрузку при сборе статусов интерфейсов

И скорости

И всего остального

Для тех же джуниперов где больше 1000 интерейсов

Vlanов и так далее

Ilya
09.09.2018
08:33:46
ды я понимаю, это круто, но default не даёт мне покоя

Google
Maksim
09.09.2018
08:34:20
Печально да. Поменяй:)

Посмотри за поведением

Потестируй и выкати фикс

Ilya
09.09.2018
08:36:21
Потестируй и выкати фикс
уметь бы ещё писать код

Maksim
09.09.2018
08:36:32
Не в коде дело

Поменяй default в интерйейсе

Не уверен, что можно

Ilya
09.09.2018
08:39:53
"admin_status": BooleanParameter(default=False), "oper_status": BooleanParameter(default=False),

Поменяй default в интерйейсе
Меня больше интересует, можно ли сделать "последнее значение"?

или игнорирование

Maksim
09.09.2018
08:47:00
Последнее? Он не лезет в базу

Maksim
09.09.2018
08:47:16
Он не лезет в базу

Ему там нечего делать

Ilya
09.09.2018
08:47:32
да, понял

Maksim
09.09.2018
08:47:48
Чини каналы, меняй железкм

Снижай нагрузку

Нужно посмотреть, что можно придумать по этому поводу

Делай ишью

Ilya
09.09.2018
08:49:28
да сейчас не конкретно ко мне если применить, а глобально. Много железок могут быть загружены и в то же время могут быть загружены каналы, из-за этого результат будет такой-же

Google
Maksim
09.09.2018
08:49:31
И на меня

Ilya
09.09.2018
08:49:37
ок

Maksim
09.09.2018
08:50:07
Илья, у нас много железок. То что ты статусы показал на графиках, это метрики

У тебя так же будут в метриках отображаться 0или1

Если железка отдала статус или не отдала

Так что пробдему это не решит

Проблему

Ilya
09.09.2018
08:51:12
Илья, у нас много железок. То что ты статусы показал на графиках, это метрики
В графике показан admin/oper status, я это только хотел показать. Чтобы разобраться почему в ТГ прилетают алерты

https://code.getnoc.com/noc/noc/issues/940

Maksim
09.09.2018
09:06:39
Не обещаю что скоро гляну

Ilya
09.09.2018
09:06:48
понимаю, я подорожник приложил пока

Maksim
09.09.2018
09:11:36
Откатил скрипт?)

Eva
09.09.2018
09:14:31
Как дежурится?

Ilya
09.09.2018
09:18:51
Откатил скрипт?)
timeout поменял

Как дежурится?
тишина, вот нок смотрел

Maksim
09.09.2018
09:20:07
timeout поменял
Таймаут? И как?

Стало лучше?

Ilya
09.09.2018
09:20:22
Maksim
09.09.2018
09:21:19
Ну значит вот решение

Страница 2263 из 2357