Andrey
13.01.2018
08:57:00
ибо топология связности может быть самая разная
со всяким резервированием и прочим
Google
Andrey
13.01.2018
08:57:56
если от пингера, то нет.
т.е. если информации об аварии получена от самой железки. То это авария на железке
Ilya
13.01.2018
08:58:52
Andrey
13.01.2018
08:58:59
а если от некоторого Внешнего сенсора, то есть варианты
Ilya
13.01.2018
08:59:08
Но вчера одна площадка по сети на короткое время отвалилась
Andrey
13.01.2018
08:59:52
Пингер - это внешний сенсор по отношению к устройству
он проверяет доступность до устройства с некоторой точки
Ilya
13.01.2018
09:01:12
Понял о чем ты, одно сообщение пропустил
Ivan
13.01.2018
09:03:42
Ilya
13.01.2018
09:04:24
Тут же просто получается, что когда пингером стал недоступен после шлюза, он все таски, что были на нем пометил в false, там же есть timestamp? После восстановления доступности он отгрузил все результаты и в результате нок засчитал это за аварию. Может сделать некий supress механизм, если ping не может по icmp/tcp достучаться до хоста, например с discovery, то не считать это за аварию?
@aversant @dvolodin
Andrey
13.01.2018
09:04:57
пинг раз в минуту, дискавери раз в 5
Google
Andrey
13.01.2018
09:05:17
если бы можно было дискавери раз в 10 секунд, нафиг тогда пинг?
Ilya
13.01.2018
09:05:36
Другой пингер возьмёт через какое-то время на себя таски первого, но когда первый вернуться в сеть - он все свои локальные результаты отгрузит
Вот тут и начинается пиздец
open/close нонстопом
Andrey
13.01.2018
09:07:24
так не работает, в случае если у тебя 2 интерфейса. Один в сторону системы мониторинга, другой в сторону сети
Ilya
13.01.2018
09:07:49
Andrey
13.01.2018
09:08:01
ну вот, я бы не закладывался что у всех будет также
Ivan
13.01.2018
09:08:19
Тут же просто получается, что когда пингером стал недоступен после шлюза, он все таски, что были на нем пометил в false, там же есть timestamp? После восстановления доступности он отгрузил все результаты и в результате нок засчитал это за аварию. Может сделать некий supress механизм, если ping не может по icmp/tcp достучаться до хоста, например с discovery, то не считать это за аварию?
Сапресс механизм должен сработать, когда из nsqd начинают приходить слишком старые данные. Нужно подождать актуализации, как минимум, чтобы что-то решать
Ilya
13.01.2018
09:08:51
Да, будут
Andrey
13.01.2018
09:09:10
в общем, затык в том - что является признаком потери связности с сетью со стороны пингера.
Ilya
13.01.2018
09:09:15
Andrey
13.01.2018
09:09:40
сейчас есть только механизм, если у нас свалилось больше какого-то кол-ва устройств за какое-то время, считаем что всё накрылось
Ilya
13.01.2018
09:09:56
Надо кстати включить
:)
Andrey
13.01.2018
09:10:02
и перестаём слать сообщения о падениях
Ilya
13.01.2018
09:10:57
У каждого своя топология по пингерам и вообще, Дискавери может быть на той же ВМ с пингером
Может добавить треки (ping) для двух точек и от них считать доступность?
1. Шлюз для пингера
2. Любая другая кастомная точка, например 8.8.8.8 или шлюз на другой площадке
Когда обе падают - считать связность (пингер) мертвой
Google
Ivan
13.01.2018
09:13:13
Ilya
13.01.2018
09:13:36
Ivan
13.01.2018
09:39:40
Dmitry
13.01.2018
10:11:15
throttling для пингера есть
и расчеты его работы
Ilya
13.01.2018
10:12:04
это что за ?
Dmitry
13.01.2018
10:12:23
но там нюансы есть
Ilya
13.01.2018
10:12:29
чот много ЦП жрёт
вернулся в работу нормальную
что за бред
Dmitry
13.01.2018
10:14:59
пингеры?
может потери высокие и он перепосылает пакеты?
метрики смотреть надо
Ilya
13.01.2018
10:15:42
Мнда, нет)
Коллега нексусы дернул..
Опять в общем то, о чем я говорил, пингер потерял связь с ноком и после появления связи отгрузил всё, что засчитал за аврии
Dmitry
13.01.2018
10:40:09
throttling помогает
попробую переделать его описание
Google
Ilya
13.01.2018
10:47:44
Спасибо)
Gitlab
13.01.2018
10:52:17
aversant opened merge request at / noc:
Add TTSystem errors to ReportTTStat
Add TTSystem errors to ReportTTStat
Andrey
13.01.2018
10:54:01
@EKbfh https://code.getnoc.com/noc/noc/issues/622 не забудь закрыть
Gitlab
13.01.2018
11:06:14
Алексей
13.01.2018
11:15:42
рестарт ? в это время пингеры шлют много лога. а супевизор этот логи пешет чем и грузится
Ilya
13.01.2018
11:16:42
Admin
Ivan
13.01.2018
11:21:29
Andrey
13.01.2018
11:21:49
Ivan
13.01.2018
11:22:09
Наверное надо потом будет правую панель с фильтрами сделать
Чтобы искать по конкретным полям
Откуда можно скопипастить?
Везде выпадающее списки были
Gitlab
13.01.2018
11:31:24
Алексей Широких pushed to tower/remove_legacy_proto
set is_enabled flag by default
set defaults for services
pretty print inventory
clear namespace
remove legacy proto. better dynamic inventory
Google
Gitlab
13.01.2018
12:45:54
Dmitry Volodin pushed to docs/master
Fix CONTRIBUTING links
aversant opened merge request at / noc:
#fm.alarm: add search field by TT
Add `Search TT` field to Alarms interface.
aversant opened merge request at / noc:
Fix Iscratel.SGR not cleaning command line when syntax error
Fix Iscratel.SGR not cleaning command line when syntax error
TeMP
14.01.2018
06:49:28
http://coub.com/view/zn0cq
E_zombie
14.01.2018
12:43:59
https://pp.userapi.com/c543101/v543101604/70abe/69kx5d7lUYA.jpg
Ilya
14.01.2018
12:59:13
Похоже на правду)
TeMP
14.01.2018
13:33:39
stackoverflow: Ctrl+C, Ctrl+V -> prod
E_zombie
14.01.2018
16:11:01
SS
14.01.2018
16:11:36
вай
Ivan
14.01.2018
16:20:06
E_zombie
14.01.2018
16:20:32
ну а чё я могу поделать . сиськи есть а вот фоткать их не дали.
и ваше она программерша :)
так что можно фантазировать
Max
14.01.2018
16:21:37
можно расчехлять компилятор? ;)
E_zombie
14.01.2018
16:21:49
именно.
я ваще не понял почему давно не