@nocproject

Страница 40 из 2357
Алексей
01.05.2016
16:19:53
правда что бы он тянул нагрузку пока дефолта не хватает.

сейчас впилил nginx перед influx

Ilya
01.05.2016
16:20:13
link check и так есть, но по таймеру

Алексей
01.05.2016
16:20:29
что бы не убивать нагрузкой influx

Google
Алексей
01.05.2016
16:20:36
но там тоже не все ровно

Ilya
01.05.2016
16:20:47
Я пока influx не обновлял до 12, чем черевато?

Алексей
01.05.2016
16:21:18
подожди. обновишь сразу до 13 :)

буквально на днях должен выйти

но обновлять все равно надо будет сложно

или с потрей метрик

Ilya
01.05.2016
16:22:19
в принципе, для протоколов для которых есть стандартные невендорские мибы, можно и сделать
Я считаю, что должен быть механизм, который позволяет подтверждать состояние аварии, даже банально по snmp проверить состояние bgp session

Это у меня не много пиров, аварий 30 не закрытых висит примерно

Каждую закрывать оператор афигеет

или с потрей метрик
Я уже их потерял)

Всмысле, если обновить без переноса, то только метрики потеряю?

Алексей
01.05.2016
16:24:22
не

просто внимательно прочитай гайд по миграции

Google
Алексей
01.05.2016
16:24:37
я тут ссылку кидал.

и еще

Ilya
01.05.2016
16:24:40
помню

Алексей
01.05.2016
16:24:49
про монгу тоже не заываем

деплой = монга не перезапустится

Ilya
01.05.2016
16:25:07
Ты предупреждай при изменении

С монгой уже ок

Алексей
01.05.2016
16:25:31
переехал ?

Ilya
01.05.2016
16:25:37
ага

Алексей
01.05.2016
16:25:42
ровно ?

Ilya
01.05.2016
16:25:47
ровно

Алексей
01.05.2016
16:25:58
через dump/restore ?

Ilya
01.05.2016
16:26:04
ага

Алексей
01.05.2016
16:26:17
ну вот и ладушки

Ilya
01.05.2016
16:27:14
:)

Заметил metric collector в башне, это с него будут браться данные или наоборот, на него отправлять?

Алексей
01.05.2016
16:30:17
это у меня на продуктовой установке.

я на башне поднял второй influx чисто для сбора телеметрии по серверам

такое нужно не всем. сильно не всем.

Ilya
01.05.2016
16:30:46
понял

Google
Алексей
01.05.2016
16:32:15
ну и самое слабое звено это таки инфлукс.

памяти ему надо... просто капец

Илья
01.05.2016
16:42:44
Я считаю, что должен быть механизм, который позволяет подтверждать состояние аварии, даже банально по snmp проверить состояние bgp session
ты не видел вселенский плач альтернативного Дмитрия, а может и видел. почему link check и выпиливается

Ilya
01.05.2016
16:43:09
так он и так есть по сути)

Илья
01.05.2016
16:43:53
тут же вопрос не только в есть/нет, а в концепции

Ilya
01.05.2016
16:44:29
Я пока с весами не совсем разобрался.. вес аварии 3999, при этом MINOR, хотя в severities 2001-3000 это минор

Илья
01.05.2016
16:44:37
то есть линк чек можно отсавить, но не отдельным скриптом, а как сбарасыватель расписания

Ilya
01.05.2016
16:45:30
Каждые 300 сек по умолчанию periodic, в нем же и линк чек

Алексей
01.05.2016
16:45:42
эм

не трогайте переодик.

Ilya
01.05.2016
16:46:10
Я к тому, что в нем есть проверка статуса интерфейса

Илья
01.05.2016
16:46:14
лично я считаю что это все десятично, основное для ФМ это начать делать нормальную корреляцию

Ilya
01.05.2016
16:46:25
+

Алексей
01.05.2016
16:46:36
ну корреляциб он делает

Илья
01.05.2016
16:47:03
хер там

Ilya
01.05.2016
16:47:09
Надо профили для железа писать в sa для норм корреляции и скрипты типо get_interfaces, get_lldp_neighbors

Илья
01.05.2016
16:47:13
BGP Peer 10.250.86.2 session down - CEASE/BFD Session Down

BFD Session Down: 10.250.86.2 on GigabitEthernet4/0/4.2268

что его остановило скоррелировать и оставить одну аварию?

Алексей
01.05.2016
16:47:48
:)

Google
Ilya
01.05.2016
16:47:49
@ivzakharov :)

Алексей
01.05.2016
16:47:55
то что кореляция пингером :)

Илья
01.05.2016
16:48:55
а DDM и Link Down

Ilya
01.05.2016
16:49:26
@freeseacher у меня вчера выпало просто нисхуя ядро, ушло в себя.. Пачка аварий посыпалось, но видимо из-за того, что интерфейсы ядра в нок не занесены, он не смог скоррелировать, правильно понимаю? т.к. не знает за каким интерфейсом какой сосед

Алексей
01.05.2016
16:49:40
у меня есть мысль что для сложных кореляций с учетом вланов и других штук надо будет юзать что нить типа neo4j

но Дима как это слово услышал сказал что идите все в жопу :)

Илья
01.05.2016
16:50:31
не знаю что ты ему предложил, но даже самое простое уже можно бы

учитывать подсеть на интерфейсе

если прилетают всякие neighbor down

и упал линк с таким же ip

то под него и прятать

да полно правил для корреляции

но ничего нет

Алексей
01.05.2016
16:52:05
это ты все здорово говоришь.

Ilya
01.05.2016
16:52:09
по топологии вроде как работает, но не у меня)

Алексей
01.05.2016
16:52:18
для топологии над очто бы были линки

Ilya
01.05.2016
16:52:22
ага

Алексей
01.05.2016
16:52:28
и нужно что бы их было все.

Илья
01.05.2016
16:52:28
да я про топологию еще ни слова не сказал

для того что я перечислил вообще ничего не надо

Google
Алексей
01.05.2016
16:52:39
ты Илья говоришь про топологию

и даже более сложную

ибо ты предполагаешь не только л2

но и еще зависимость по osi

Илья
01.05.2016
16:53:42
я предлагаю простые правила для корреляции физических аварий с логическими

Алексей
01.05.2016
16:53:54
а ведь фактически такие штуки надо рещать в рамках 1. сервиса. 2. физической топологии 3. логической с учетом вланов и tun-ов

Ilya
01.05.2016
16:54:30
ды банально упала физика - значит сабы на нее коррелировать

Алексей
01.05.2016
16:54:49
да с фигали ?

а если lag ?

Ilya
01.05.2016
16:55:06
А если целиком lag лег?

Алексей
01.05.2016
16:55:15
то роуты ?

Илья
01.05.2016
16:55:16
сабы обычно на лаге настроенвы

и по ним аварии не будет

если лаг не упал

а если упал то упал

Алексей
01.05.2016
16:55:53
тоесть лаг надо учитывать ?

Илья
01.05.2016
16:55:58
в смысле

Алексей
01.05.2016
16:56:08
ну в том что лаг нифига не физика.

Илья
01.05.2016
16:56:09
учитывать надо родителя саба и все

Ilya
01.05.2016
16:56:22
Если упал родительский интерфейс, то лоические надо коррелировать на нем

Илья
01.05.2016
16:57:11
а падение самого лага прятать под падение всех физических портов, потому что сам лаг это логическая конструкция

Страница 40 из 2357