
Andrey
13.01.2018
08:57:00
ибо топология связности может быть самая разная
со всяким резервированием и прочим

Google

Andrey
13.01.2018
08:57:56
если от пингера, то нет.
т.е. если информации об аварии получена от самой железки. То это авария на железке

Ilya
13.01.2018
08:58:52

Andrey
13.01.2018
08:58:59
а если от некоторого Внешнего сенсора, то есть варианты

Ilya
13.01.2018
08:59:08
Но вчера одна площадка по сети на короткое время отвалилась

Andrey
13.01.2018
08:59:52
Пингер - это внешний сенсор по отношению к устройству
он проверяет доступность до устройства с некоторой точки

Ilya
13.01.2018
09:01:12
Понял о чем ты, одно сообщение пропустил

Ivan
13.01.2018
09:03:42

Ilya
13.01.2018
09:04:24
Тут же просто получается, что когда пингером стал недоступен после шлюза, он все таски, что были на нем пометил в false, там же есть timestamp? После восстановления доступности он отгрузил все результаты и в результате нок засчитал это за аварию. Может сделать некий supress механизм, если ping не может по icmp/tcp достучаться до хоста, например с discovery, то не считать это за аварию?
@aversant @dvolodin

Andrey
13.01.2018
09:04:57
пинг раз в минуту, дискавери раз в 5

Google

Andrey
13.01.2018
09:05:17
если бы можно было дискавери раз в 10 секунд, нафиг тогда пинг?

Ilya
13.01.2018
09:05:36
Другой пингер возьмёт через какое-то время на себя таски первого, но когда первый вернуться в сеть - он все свои локальные результаты отгрузит
Вот тут и начинается пиздец
open/close нонстопом

Andrey
13.01.2018
09:07:24
так не работает, в случае если у тебя 2 интерфейса. Один в сторону системы мониторинга, другой в сторону сети

Ilya
13.01.2018
09:07:49

Andrey
13.01.2018
09:08:01
ну вот, я бы не закладывался что у всех будет также

Ivan
13.01.2018
09:08:19
Тут же просто получается, что когда пингером стал недоступен после шлюза, он все таски, что были на нем пометил в false, там же есть timestamp? После восстановления доступности он отгрузил все результаты и в результате нок засчитал это за аварию. Может сделать некий supress механизм, если ping не может по icmp/tcp достучаться до хоста, например с discovery, то не считать это за аварию?
Сапресс механизм должен сработать, когда из nsqd начинают приходить слишком старые данные. Нужно подождать актуализации, как минимум, чтобы что-то решать

Ilya
13.01.2018
09:08:51
Да, будут

Andrey
13.01.2018
09:09:10
в общем, затык в том - что является признаком потери связности с сетью со стороны пингера.

Ilya
13.01.2018
09:09:15

Andrey
13.01.2018
09:09:40
сейчас есть только механизм, если у нас свалилось больше какого-то кол-ва устройств за какое-то время, считаем что всё накрылось

Ilya
13.01.2018
09:09:56
Надо кстати включить
:)

Andrey
13.01.2018
09:10:02
и перестаём слать сообщения о падениях

Ilya
13.01.2018
09:10:57
У каждого своя топология по пингерам и вообще, Дискавери может быть на той же ВМ с пингером
Может добавить треки (ping) для двух точек и от них считать доступность?
1. Шлюз для пингера
2. Любая другая кастомная точка, например 8.8.8.8 или шлюз на другой площадке
Когда обе падают - считать связность (пингер) мертвой

Google

Ivan
13.01.2018
09:13:13

Ilya
13.01.2018
09:13:36

Ivan
13.01.2018
09:39:40

Dmitry
13.01.2018
10:11:15
throttling для пингера есть
и расчеты его работы

Ilya
13.01.2018
10:12:04
это что за ?

Dmitry
13.01.2018
10:12:23
но там нюансы есть

Ilya
13.01.2018
10:12:29
чот много ЦП жрёт
вернулся в работу нормальную
что за бред

Dmitry
13.01.2018
10:14:59
пингеры?
может потери высокие и он перепосылает пакеты?
метрики смотреть надо

Ilya
13.01.2018
10:15:42
Мнда, нет)
Коллега нексусы дернул..
Опять в общем то, о чем я говорил, пингер потерял связь с ноком и после появления связи отгрузил всё, что засчитал за аврии

Dmitry
13.01.2018
10:40:09
throttling помогает
попробую переделать его описание

Google

Ilya
13.01.2018
10:47:44
Спасибо)

Gitlab
13.01.2018
10:52:17
aversant opened merge request at / noc:
Add TTSystem errors to ReportTTStat
Add TTSystem errors to ReportTTStat

Andrey
13.01.2018
10:54:01
@EKbfh https://code.getnoc.com/noc/noc/issues/622 не забудь закрыть

Gitlab
13.01.2018
11:06:14

Алексей
13.01.2018
11:15:42
рестарт ? в это время пингеры шлют много лога. а супевизор этот логи пешет чем и грузится

Ilya
13.01.2018
11:16:42

Ivan
13.01.2018
11:21:29

Andrey
13.01.2018
11:21:49

Ivan
13.01.2018
11:22:09
Наверное надо потом будет правую панель с фильтрами сделать
Чтобы искать по конкретным полям
Откуда можно скопипастить?
Везде выпадающее списки были

Gitlab
13.01.2018
11:31:24
Алексей Широких pushed to tower/remove_legacy_proto
set is_enabled flag by default
set defaults for services
pretty print inventory
clear namespace
remove legacy proto. better dynamic inventory

Google

Gitlab
13.01.2018
12:47:23
Dmitry Volodin pushed to docs/master
Fix CONTRIBUTING links
aversant opened merge request at / noc:
#fm.alarm: add search field by TT
Add `Search TT` field to Alarms interface.
aversant opened merge request at / noc:
Fix Iscratel.SGR not cleaning command line when syntax error
Fix Iscratel.SGR not cleaning command line when syntax error

TeMP
14.01.2018
06:49:28
http://coub.com/view/zn0cq

E_zombie
14.01.2018
12:43:59
https://pp.userapi.com/c543101/v543101604/70abe/69kx5d7lUYA.jpg

Ilya
14.01.2018
12:59:13
Похоже на правду)

TeMP
14.01.2018
13:33:39
stackoverflow: Ctrl+C, Ctrl+V -> prod

E_zombie
14.01.2018
16:11:01

SS
14.01.2018
16:11:36
вай

Ivan
14.01.2018
16:20:06

E_zombie
14.01.2018
16:20:32
ну а чё я могу поделать . сиськи есть а вот фоткать их не дали.
и ваше она программерша :)
так что можно фантазировать

Max
14.01.2018
16:21:37
можно расчехлять компилятор? ;)

E_zombie
14.01.2018
16:21:49
именно.
я ваще не понял почему давно не