@nocproject

Страница 6 из 2357
Dmitry
13.04.2016
14:09:09
логи discovery для начала смотри

что там у тебя

вруби debug в discovery

Dmitry
13.04.2016
14:12:09
Дим.

Google
Dmitry
13.04.2016
14:12:38
2016-04-13 16:34:41,645 [discovery] ************************************************************************ 2016-04-13 16:34:41,740 [discovery] Loading config from etc/noc.yml 2016-04-13 16:34:41,808 [discovery] Running service discovery (pool: default) 2016-04-13 16:34:41,809 [discovery] Activating service

2016-04-13 16:45:47,539 [script] [Cisco.IOS.get_fqdn|10.111.0.8] Running. Input arguments: {}, timeout 120

где здесь 6000 секунд ?

оно сразу после старта начало ломиться на железки

как мне запретить это ?

я тбе об этом повторял 100500 раз уже

Dmitry
13.04.2016
14:18:06
дебаг на discovery поставь

и посмотри

ломится после старта потому, что давно ей уже пора было опросить железку

посмотри, что именно у нее не получается

Dmitry
13.04.2016
14:19:42
получается

все получается

Dmitry
13.04.2016
14:27:29
где в логах discovery запись, что задача отработала?

Google
Алексей
13.04.2016
14:28:47
впилил nsq в плейбук

отестирован только под rhel

дjлжен взлететь под дебиан тоже

сейчас пойду его доверять

Dmitry
13.04.2016
14:33:40
2016-04-13 16:45:59,215 [scheduler.discovery] [3] [discovery|box|C3560-8] Completed. Status: SUCCESS (21140.10ms) 2016-04-13 16:45:59,215 [scheduler.discovery] [3] [discovery|box|C3560-8] Timings: profile = 61.65ms, version = 243.40ms, caps = 1949.18ms, interface = 5285.88ms, id = 1855.18ms, caps = 3873.03ms, asset = 1985.63ms, vlan = 1846.02ms, lldp = 1799.34ms, cdp = 169.99ms, stp = 1973.33ms

поотключал "is managed" на железках. буду включать по одной и смотреть

@dvolodin можно ли сделать, чтобы если стоит max-scripts 1, то таймаут между запусками скриптов был где-то секунд 10 ?

а лучше минута или две

Ilya
13.04.2016
14:38:25
данунах

15к железок, представь

да даже 1к

Dmitry
13.04.2016
14:39:06
имеется ввиду для одной железки

сейчас такая картина:

2016-04-13 16:45:45,846 [script] [Cisco.IOS.get_chassis_id|10.111.0.8] Running. Input arguments: {}, timeout 120 2016-04-13 16:45:47,537 [script] [Cisco.IOS.get_chassis_id|10.111.0.8] Complete (1690.58ms) 2016-04-13 16:45:47,537 [noc.core.script.loader] Loading script Cisco.IOS.get_fqdn 2016-04-13 16:45:47,539 [script] [Cisco.IOS.get_fqdn|10.111.0.8] Running. Input arguments: {}, timeout 120

как мы видим, время между запусками двух скриптов - аж целых 2 миллисекунды

железка тупо не успевает завершить ssh сессию

Ilya
13.04.2016
14:45:05
а не в рамках ли одной ssh сессии выполняются скрипты? @dvolodin

Dmitry
13.04.2016
14:45:53
нет, не в одной

он просто шустрый стал

Ilya
13.04.2016
14:46:43
RP/0/RSP0/CPU0:Apr 13 10:51:48.861 : exec[65782]: %SECURITY-LOGIN-6-AUTHEN_SUCCESS : Successfully authenticated user 'nocproject' from '10.50.64.64' on 'vty0' RP/0/RSP0/CPU0:Apr 13 10:52:00.455 : exec[65782]: %SECURITY-LOGIN-6-CLOSE : User 'nocproject' logged out RP/0/RSP0/CPU0:Apr 13 10:52:38.881 : exec[65782]: %SECURITY-LOGIN-6-AUTHEN_SUCCESS : Successfully authenticated user 'nocproject' from '10.50.64.64' on 'vty0' RP/0/RSP0/CPU0:Apr 13 10:52:50.369 : exec[65782]: %SECURITY-LOGIN-6-CLOSE : User 'nocproject' logged out RP/0/RSP0/CPU0:Apr 13 10:52:58.834 : exec[65782]: %SECURITY-LOGIN-6-AUTHEN_SUCCESS : Successfully authenticated user 'nocproject' from '10.50.64.64' on 'vty0' RP/0/RSP0/CPU0:Apr 13 10:53:10.353 : exec[65782]: %SECURITY-LOGIN-6-CLOSE : User 'nocproject' logged out RP/0/RSP0/CPU0:Apr 13 10:53:28.836 : exec[65782]: %SECURITY-LOGIN-6-AUTHEN_SUCCESS : Successfully authenticated user 'nocproject' from '10.50.64.64' on 'vty0' RP/0/RSP0/CPU0:Apr 13 10:53:40.341 : exec[65782]: %SECURITY-LOGIN-6-CLOSE : User 'nocproject' logged out RP/0/RSP0/CPU0:Apr 13 10:53:48.839 : exec[65782]: %SECURITY-LOGIN-6-AUTHEN_SUCCESS : Successfully authenticated user 'nocproject' from '10.50.64.64' on 'vty0' RP/0/RSP0/CPU0:Apr 13 10:54:00.280 : exec[65782]: %SECURITY-LOGIN-6-CLOSE : User 'nocproject' logged out RP/0/RSP0/CPU0:Apr 13 10:54:11.844 : exec[65782]: %SECURITY-LOGIN-6-AUTHEN_SUCCESS : Successfully authenticated user 'nocproject' from '10.50.64.64' on 'vty0' RP/0/RSP0/CPU0:Apr 13 10:54:23.317 : exec[65782]: %SECURITY-LOGIN-6-CLOSE : User 'nocproject' logged out RP/0/RSP0/CPU0:Apr 13 10:54:32.839 : exec[65782]: %SECURITY-LOGIN-6-AUTHEN_SUCCESS : Successfully authenticated user 'nocproject' from '10.50.64.64' on 'vty0' RP/0/RSP0/CPU0:Apr 13 10:54:44.330 : exec[65782]: %SECURITY-LOGIN-6-CLOSE : User 'nocproject' logged out RP/0/RSP0/CPU0:Apr 13 10:54:52.878 : exec[65782]: %SECURITY-LOGIN-6-AUTHEN_SUCCESS : Successfully authenticated user 'nocproject' from '10.50.64.64' on 'vty0' RP/0/RSP0/CPU0:Apr 13 10:55:09.216 : exec[65782]: %SECURITY-LOGIN-6-CLOSE : User 'nocproject' logged out RP/0/RSP0/CPU0:Apr 13 10:55:10.041 : exec[65766]: %SECURITY-LOGIN-6-AUTHEN_SUCCESS : Successfully authenticated user 'nocproject' from '10.50.64.64' on 'vty0' RP/0/RSP0/CPU0:Apr 13 10:55:11.114 : exec[65766]: %SECURITY-LOGIN-6-CLOSE : User 'nocproject' logged out RP/0/RSP0/CPU0:Apr 13 10:55:11.939 : exec[65766]: %SECURITY-LOGIN-6-AUTHEN_SUCCESS : Successfully authenticated user 'nocproject' from '10.50.64.64' on 'vty0' RP/0/RSP0/CPU0:Apr 13 10:55:14.369 : exec[65766]: %SECURITY-LOGIN-6-CLOSE : User 'nocproject' logged out

Google
Dmitry
13.04.2016
14:46:47
только Juniper не успевает за ним :(

Ilya
13.04.2016
14:46:52
Меня это тоже немного раздражает :)

Dmitry
13.04.2016
15:05:27
@dvolodin смотри

@dvolodin http://pastebin.com/CE6h8cui

закончилась дисковери

спустя секунд 20 после этого

last pid:   973;  load averages:  9.51,  5.56,  2.72   up 202+02:09:45 18:05:34 113 processes: 10 running, 103 sleeping CPU states: 40.0% user,  0.0% nice, 56.5% system,  3.4% interrupt,  0.0% idle Mem: 1246M Active, 79M Inact, 175M Wired, 376M Cache, 112M Buf, 108M Free Swap: 2837M Total, 2837M Free   PID USERNAME  THR PRI NICE   SIZE    RES STATE    TIME   WCPU COMMAND  1692 root        1  99    0 47580K 31964K select  19.4H 23.10% pfed   922 root        1 132    0 43116K  7344K RUN      0:11  5.66% ifinfo   895 root        1 132    0 43116K  7344K select   0:13  5.66% ifinfo   949 root        1 132    0 43116K  7344K RUN      0:09  4.00% ifinfo   868 root        1 132    0 43116K  7344K RUN      0:13  3.76% ifinfo   841 root        1  -8    0 43116K  7344K pipewr   0:16  3.71% ifinfo   871 mitya       1 132    0 51796K 40876K RUN      0:09  3.17% cli   898 mitya       1 132    0 51796K 40872K select   0:08  2.98% cli   844 mitya       1 132    0 51796K 40876K select   0:10  2.49% cli   925 mitya       1 132    0 51796K 40876K RUN      0:07  2.39% cli   817 mitya       1 132    0 51796K 40876K RUN      0:12  2.00% cli

продолжает колбасить Juniper

и в это же время, потому как сбросился max-scripts

2016-04-13 18:00:31,892 [scheduler.discovery] [5] [periodic] Starting 2016-04-13 18:00:31,899 [scheduler.discovery] [5] [discovery|periodic|Juniper MX5-T|uptime] Checking uptime 2016-04-13 18:00:32,069 [scheduler.discovery] [5] [discovery|periodic|Juniper MX5-T|uptime] Received uptime: None 2016-04-13 18:00:32,070 [scheduler.discovery] [5] [discovery|periodic|Juniper MX5-T|metrics] Collecting metrics 2016-04-13 18:00:32,189 [scheduler.discovery] [5] [discovery|periodic|Juniper MX5-T|metrics] No metrics found 2016-04-13 18:00:32,189 [scheduler.discovery] [5] [discovery|periodic|Juniper MX5-T] Completed. Status: SUCCESS (297.06ms) 2016-04-13 18:00:32,189 [scheduler.discovery] [5] [discovery|periodic|Juniper MX5-T] Timings: uptime = 170.23ms, metrics = 119.33ms

начинает ломиться периодик

какие тебе еще дебаги показать ?

Dmitry
13.04.2016
15:10:10
ну так это нормально

дальше-то тихо?

Dmitry
13.04.2016
15:11:28
нет, конечно

2016-04-13 18:04:53,470 [scheduler.discovery] [5] [discovery|box|Juniper MX5-T|interface] Using noc.solutions.noc.default.discovery.interface.get_interface_profile for interface classification 2016-04-13 18:04:53,470 [scheduler.discovery] [5] [discovery|box|Juniper MX5-T|interface] Checking interfaces

мы же не смогли выгрести get_interfaces

и пошло по кругу

Dmitry
13.04.2016
15:12:59
дебаг включи

в etc/noc.yml

Google
Dmitry
13.04.2016
15:13:05
и дерни его

там покажет, как оно обновляет расписания

Dmitry
13.04.2016
15:13:57
ДИМ !!!!!!!!!!!!!!!

2016-04-13 18:00:32,069 [scheduler.discovery] [5] [discovery|periodic|Juniper MX5-T|uptime] Received uptime: None 2016-04-13 18:00:32,070 [scheduler.discovery] [5] [discovery|periodic|Juniper MX5-T|metrics] Collecting metrics

Dmitry
13.04.2016
15:14:12
еще раз

если хочешь разобраться, включай дебаг

Dmitry
13.04.2016
15:14:32
невооруженным глазом видно, что следующий скрипт начинает ломиться через миллисекунду после завершения предыдущего

Dmitry
13.04.2016
15:14:46
это нормально

Dmitry
13.04.2016
15:14:58
А в это время загрузка CPU 100%

на железке

Dmitry
13.04.2016
15:15:23
от аптайма-то?

начнем с того, что он по snmp его получает

Dmitry
13.04.2016
15:16:15
ты притворяешься, что не понимаешь ?

Kote
13.04.2016
15:16:43
Я тот же самый срач читал год назад

Dmitry
13.04.2016
15:16:56
2016-04-13 18:08:11,870 [scheduler.discovery] [5] [discovery|box|Juniper MX5-T] Timings: profile = 1582.48ms, version = 5096.34ms, caps = 1393.30ms, interface = 185632.73ms, id = 2345.76ms, caps = 7095.29ms, asset = 3317.28ms, oam = 1.04ms, lldp = 0.83ms, cdp = 0.17ms, stp = 0.17ms

Dmitry
13.04.2016
15:17:05
ищи там update(.....)

Ilya
13.04.2016
15:17:05
Теперь он в телеграмм?

Dmitry
13.04.2016
15:17:11
last pid:  1221;  load averages:  9.12,  6.41,  4.11   up 202+02:21:11 18:17:00 109 processes: 7 running, 101 sleeping, 1 zombie CPU states: 47.0% user,  0.0% nice, 50.1% system,  2.9% interrupt,  0.0% idle Mem: 1226M Active, 79M Inact, 175M Wired, 377M Cache, 112M Buf, 126M Free Swap: 2837M Total, 2837M Free   PID USERNAME  THR PRI NICE   SIZE    RES STATE    TIME   WCPU COMMAND  1692 root        1  99    0 47580K 31964K select  19.4H 11.23% pfed  1166 root        1 132    0 43116K  7344K RUN      0:13  8.45% ifinfo  1139 root        1 132    0 43116K  7344K RUN      0:13  6.69% ifinfo  1193 root        1 132    0 43116K  7344K RUN      0:12  5.08% ifinfo  1142 mitya       1 131    0 51796K 40872K select   0:09  4.54% cli  1085 root        1  -8    0 43116K  7344K pipewr   0:16  3.76% ifinfo  1115 mitya       1 131    0 51796K 40872K select   0:10  3.52% cli  1169 mitya       1 132    0 51796K 40872K RUN      0:08  2.59% cli  1143 root        1 131    0 52928K  4416K select   0:05  1.61% mgd  1061 mitya       1 132    0 51796K 40872K RUN      0:12  1.37% cli

чем же таким занимается железка, если все скрипты завершились ?

Dmitry
13.04.2016
15:18:33
ты опять перепутал все

Google
Dmitry
13.04.2016
15:18:40
есть 2 типа job'ов

каждый запускает по несколько скриптов по очереди

что тебя смущает?

Dmitry
13.04.2016
15:19:25
еще раз повторюсь

скрипт грузит CPU на 100%

Загрузка CPU не успевает уменьшится,, как уже запускается другой скрипт

Dmitry
13.04.2016
15:20:40
слушай, даже твои любимые dlink'и от этого не мрут

Dmitry
13.04.2016
15:20:50
В результате скрипт отрабатываее "криво", попадает в Failed, и начинается все по новой

Dmitry
13.04.2016
15:21:38
вот как оно начинает по новой - ты не показал

Dmitry
13.04.2016
15:21:49
выше было

отработал box discovery

загрузка CPU 100%

начинает работать periodic discovery

и я на pastebin кидал

обрати внимание на время:

2016-04-13 18:07:59,102 [scheduler.discovery] [5] [discovery|box|Juniper MX5-T|interface] UNHANDLED EXCEPTION (2016-04-13 18:07:59.096234)

END OF TRACEBACK 2016-04-13 18:07:59,103 [scheduler.discovery] [5] [discovery|box|Juniper MX5-T|id] Checking chassis id

роутер колбасит, а в это время туда лезет NOC со скриптом get_chassis_id

Dmitry
13.04.2016
15:26:10
вот у тебя трейсик есть

покажи

Dmitry
13.04.2016
15:26:50
http://pastebin.com/CE6h8cui

Страница 6 из 2357