
Алексей
01.05.2016
16:19:53
правда что бы он тянул нагрузку пока дефолта не хватает.
сейчас впилил nginx перед influx

Ilya
01.05.2016
16:20:13
link check и так есть, но по таймеру

Алексей
01.05.2016
16:20:29
что бы не убивать нагрузкой influx

Google

Алексей
01.05.2016
16:20:36
но там тоже не все ровно

Ilya
01.05.2016
16:20:47
Я пока influx не обновлял до 12, чем черевато?

Алексей
01.05.2016
16:21:18
подожди. обновишь сразу до 13 :)
буквально на днях должен выйти
но обновлять все равно надо будет сложно
или с потрей метрик

Ilya
01.05.2016
16:22:19
Это у меня не много пиров, аварий 30 не закрытых висит примерно
Каждую закрывать оператор афигеет
Всмысле, если обновить без переноса, то только метрики потеряю?

Алексей
01.05.2016
16:24:22
не
просто внимательно прочитай гайд по миграции

Google

Алексей
01.05.2016
16:24:37
я тут ссылку кидал.
и еще

Ilya
01.05.2016
16:24:40
помню

Алексей
01.05.2016
16:24:49
про монгу тоже не заываем
деплой = монга не перезапустится

Ilya
01.05.2016
16:25:07
Ты предупреждай при изменении
С монгой уже ок

Алексей
01.05.2016
16:25:31
переехал ?

Ilya
01.05.2016
16:25:37
ага

Алексей
01.05.2016
16:25:42
ровно ?

Ilya
01.05.2016
16:25:47
ровно

Алексей
01.05.2016
16:25:58
через dump/restore ?

Ilya
01.05.2016
16:26:04
ага

Алексей
01.05.2016
16:26:17
ну вот и ладушки

Ilya
01.05.2016
16:27:14
:)
Заметил metric collector в башне, это с него будут браться данные или наоборот, на него отправлять?

Алексей
01.05.2016
16:30:17
это у меня на продуктовой установке.
я на башне поднял второй influx чисто для сбора телеметрии по серверам
такое нужно не всем. сильно не всем.

Ilya
01.05.2016
16:30:46
понял

Google

Алексей
01.05.2016
16:32:15
ну и самое слабое звено это таки инфлукс.
памяти ему надо... просто капец

Илья
01.05.2016
16:42:44

Ilya
01.05.2016
16:43:09
так он и так есть по сути)

Илья
01.05.2016
16:43:53
тут же вопрос не только в есть/нет, а в концепции

Ilya
01.05.2016
16:44:29
Я пока с весами не совсем разобрался.. вес аварии 3999, при этом MINOR, хотя в severities 2001-3000 это минор

Илья
01.05.2016
16:44:37
то есть линк чек можно отсавить, но не отдельным скриптом, а как сбарасыватель расписания

Ilya
01.05.2016
16:45:30
Каждые 300 сек по умолчанию periodic, в нем же и линк чек

Алексей
01.05.2016
16:45:42
эм
не трогайте переодик.

Ilya
01.05.2016
16:46:10
Я к тому, что в нем есть проверка статуса интерфейса

Илья
01.05.2016
16:46:14
лично я считаю что это все десятично, основное для ФМ это начать делать нормальную корреляцию

Ilya
01.05.2016
16:46:25
+

Алексей
01.05.2016
16:46:36
ну корреляциб он делает

Илья
01.05.2016
16:47:03
хер там

Ilya
01.05.2016
16:47:09
Надо профили для железа писать в sa для норм корреляции и скрипты типо get_interfaces, get_lldp_neighbors

Илья
01.05.2016
16:47:13
BGP Peer 10.250.86.2 session down - CEASE/BFD Session Down
BFD Session Down: 10.250.86.2 on GigabitEthernet4/0/4.2268
что его остановило скоррелировать и оставить одну аварию?

Алексей
01.05.2016
16:47:48
:)

Google

Ilya
01.05.2016
16:47:49
@ivzakharov :)

Алексей
01.05.2016
16:47:55
то что кореляция пингером :)

Илья
01.05.2016
16:48:55
а DDM и Link Down

Ilya
01.05.2016
16:49:26
@freeseacher у меня вчера выпало просто нисхуя ядро, ушло в себя.. Пачка аварий посыпалось, но видимо из-за того, что интерфейсы ядра в нок не занесены, он не смог скоррелировать, правильно понимаю? т.к. не знает за каким интерфейсом какой сосед

Алексей
01.05.2016
16:49:40
у меня есть мысль что для сложных кореляций с учетом вланов и других штук надо будет юзать что нить типа neo4j
но Дима как это слово услышал сказал что идите все в жопу :)

Илья
01.05.2016
16:50:31
не знаю что ты ему предложил, но даже самое простое уже можно бы
учитывать подсеть на интерфейсе
если прилетают всякие neighbor down
и упал линк с таким же ip
то под него и прятать
да полно правил для корреляции
но ничего нет

Алексей
01.05.2016
16:52:05
это ты все здорово говоришь.

Ilya
01.05.2016
16:52:09
по топологии вроде как работает, но не у меня)

Алексей
01.05.2016
16:52:18
для топологии над очто бы были линки

Ilya
01.05.2016
16:52:22
ага

Алексей
01.05.2016
16:52:28
и нужно что бы их было все.

Илья
01.05.2016
16:52:28
да я про топологию еще ни слова не сказал
для того что я перечислил вообще ничего не надо

Google

Алексей
01.05.2016
16:52:39
ты Илья говоришь про топологию
и даже более сложную
ибо ты предполагаешь не только л2
но и еще зависимость по osi

Илья
01.05.2016
16:53:42
я предлагаю простые правила для корреляции физических аварий с логическими

Алексей
01.05.2016
16:53:54
а ведь фактически такие штуки надо рещать в рамках
1. сервиса.
2. физической топологии
3. логической с учетом вланов и tun-ов

Ilya
01.05.2016
16:54:30
ды банально упала физика - значит сабы на нее коррелировать

Алексей
01.05.2016
16:54:49
да с фигали ?
а если lag ?

Ilya
01.05.2016
16:55:06
А если целиком lag лег?

Алексей
01.05.2016
16:55:15
то роуты ?

Илья
01.05.2016
16:55:16
сабы обычно на лаге настроенвы
и по ним аварии не будет
если лаг не упал
а если упал то упал

Алексей
01.05.2016
16:55:53
тоесть лаг надо учитывать ?

Илья
01.05.2016
16:55:58
в смысле

Алексей
01.05.2016
16:56:08
ну в том что лаг нифига не физика.

Илья
01.05.2016
16:56:09
учитывать надо родителя саба и все

Ilya
01.05.2016
16:56:22
Если упал родительский интерфейс, то лоические надо коррелировать на нем

Илья
01.05.2016
16:57:11
а падение самого лага прятать под падение всех физических портов, потому что сам лаг это логическая конструкция