Fd
@EKbfh
@hogstaberg
Продолжая полемику про гистерезис и прочая философия
Порогов то может быть несколько и можно определить некий порого на варнинг например.
И сам факт пересечения этого варнинга означает что у вас в системе что то не так, то есть все еще в норме но раз порог переходится пусть и кратковременно то необходимо принимать меры чтобы пресечь тенденцию пока это в один прекрасный день не стало критикал
Как и писал Brian Brazil - надо фиксировать симптомы а не причины, и раз симптомы есть то это повод искать причины и это уже не задача мониторинга
Не.
Что-то действительно можно снимать и смотреть только на текущую величину и пересечение порога т.к. каждый замер не имеет никакой зависимости от прошлых величин. Например обороты кулеров мониторим и смотрим что они не упали до нуля. Никакой зависимости нет - ты год можешь снимать 10000 об/мин, а потом резко его заклинило и стало 0 об/мин. Тут и правда только пороги и разбираться.
Но дохрена величин, имеющих временные зависимости и вот для них можно сделать куда более ранние оповешения. Даже не вместо дубового триггера на некую величину, а дополнительно к нему.
Например та же температура. Она ведь не скачет случайным образом от 0 до 100 градусов, для нескольких последовательных замеров вполне можно дифференциал построить и орать если он стремный. Это позволяет проблему отловить не когда на стойке можно уже яичницу пожарить, а когда температура только-только поползла вверх быстрее чем нужно.
Или вот утилизация линков обычно имеет четко выраженную периодичность. Что мешает самый дубовый алгоритм предсказания прикрутить и орать если вышли за пределы ожидаемого диапазона?
Если влом математикой заниматься, то можно тупо нейросети модные надрочить и воткнуть. Даже если временами зря алертить будут, это стоит того, что реальная проблема раньше обнаружится. NOC не развалится в конце концов проверить есличо.