@metrics_ru

Страница 190 из 681
Andor
20.06.2017
19:49:54
ну или чо у тебя там

lastsky
20.06.2017
19:50:08
bird - стильно, модно, молодежно

можно конечно birdc show proto all | $@$#^#$%^#$%& | $@$%@$%#$%^#%^ > /var/lib/node_exporter/metrics/bgp.prom

но вот я так не хочу это начинать снова

Google
Andor
20.06.2017
19:52:34
ну можешь экспортер написать который будет делать ровно это же

Sergey
20.06.2017
19:53:09
можно конечно birdc show proto all | $@$#^#$%^#$%& | $@$%@$%#$%^#%^ > /var/lib/node_exporter/metrics/bgp.prom
а что в этом такого плохого? так или иначе, вам надо выгружать маршруты из bird'а. ну вы можете вместо использования bird show proto all самостоятельно сходить в сокет и спросить.

lastsky
20.06.2017
19:53:33
мне надо чтобы без этого вот всего вне зависимости от bgp демона видел node_exporter кол-во маршрутов в RIB

а то я на exabgp собрался ехать

сто раз переделывать

Sergey
20.06.2017
19:56:52
можно дернуть нетлинк и спросить все роуты в какой-нибудь таблице маршрутизации. впрочем получится почти ip route ls table $tbl | wc -l

cat /proc/net/route | wc -l кстати еще похоже на то что вам нужно.

lastsky
20.06.2017
19:59:20
так да, понятно что это легко берется и путем баша перекладывается. а хочется от этого отойти :)

Andor
20.06.2017
20:00:12
запатчи нод-экспортер, чтобы он считал кол-во роутов по таблицам

lastsky
20.06.2017
20:00:39
ну можешь экспортер написать который будет делать ровно это же
ну вот прямой путь, да. только если уж писать - то в node_exporter, потому что разводить детский сад экспортеров в продакшене вообще не хочется.

с двумя и то заебся.

Sergey
20.06.2017
20:01:07
так да, понятно что это легко берется и путем баша перекладывается. а хочется от этого отойти :)
отойти куда? ну возьмите любой нормальный ЯП, сходите в нетлинк и возьмите оттуда число роутов.

Google
Vladimir
20.06.2017
20:09:08
Можно по прилетанию запроса от прома так делать даже

Sergey
20.06.2017
20:15:24
Можно по прилетанию запроса от прома так делать даже
у товарища десятки тысяч роутов, это потенциально может занимать время.

lastsky
20.06.2017
20:15:56
ну вот читаю, да. объекты вытащить можно. а кол-во объектов пока не могу найти :)

чтобы без лишней математики не дергать full-view чтобы посчитать

Hackru
20.06.2017
20:25:28
ребят, а объясните тупому, есть у меня прометеус, на нодах экспортеры, графана с бекендом прометеуса, а телеграф куда пихать? это вместо чего-то или в дополнение?

я чет читал гитхаб их и не вкурил

lastsky
20.06.2017
20:26:43
у telegraf есть конфигурируемый output который называется prometheus

пихаешь телеграф на все узлы пакетом

конфигурируешь чтобы он отдавал тебе всё чего node_exporter не отдаст

Hackru
20.06.2017
20:27:14
ну т.е. это вместо экспортеров

lastsky
20.06.2017
20:27:17
потому что node_exporter - это pure server metrics (tm)

не вместо а в дополнение

Hackru
20.06.2017
20:27:43
ну там мильён экспортеров и без телеграфа

на любой вкус

lastsky
20.06.2017
20:27:55
ну вот иди и ставь мильён экспортеров

)

Hackru
20.06.2017
20:28:06
а, т.е. в этом соль?

автодискавери-швейцарский-нож?

Google
lastsky
20.06.2017
20:28:34
соль в том чтобы не разводить балаган экспортеров :)

Sergey
20.06.2017
20:28:42
ведь ip r s | wc -l это неудобно

lastsky
20.06.2017
20:29:33
ведь ip r s | wc -l это неудобно
я сказал что это криво

а степень неудобства - субъективно, кому как

Sergey
20.06.2017
20:31:36
ну криво, неважно. кому что, на самом деле. кому-то шашки, кому-то ехать. мое мнение - если костыль не имеет side-эффектов и не стукнет потом по лбу вследствие отсутствия side-эффектов - это не костыль, а вполне работающее решение.

кстати, интересный вопрос, сколько реально времени занимает получение списка маршрутов нетлинком, когда их настолько много?

lastsky
20.06.2017
20:34:21
# time netstat -rn > routes.txt real 0m5.437s user 0m2.545s sys 0m1.111s

# cat routes.txt | wc -l 646092

блин когда 640k то стало нихрена не понимаю.

Sergey
20.06.2017
20:35:59
нет, это очень грязное время

lastsky
20.06.2017
20:39:09
ладно, видимо придется попробовать. telegraf тоже не умеет такое отдавать, а хочется нормального решения :)

Dmitry
20.06.2017
20:42:48
Я выбирал сидел

Jenny
20.06.2017
20:43:39
Жень, напомни завтра
Ок. Я пришла к выводу, что проще самой экспортер написать, чем использовать готовый: там нет того, что нужно

Dmitry
20.06.2017
20:43:50
Там много еще

А, я слоу - тебе уже написали

Свой экспортер хорошо, пока не возникает ситуация, когда расчет метрики занимает больше интервала сбора

Paul
20.06.2017
20:53:44
Google
Dmitry
20.06.2017
20:58:10
никогда
У меня норм работает

Но мне, как выяснилось, вполне хватает нод экспортёра

Maxim
20.06.2017
21:00:21
никогда
почему никогда?

Paul
20.06.2017
21:00:43
почему никогда?
вытекает. ломается.

Maxim
20.06.2017
21:01:48
вытекает. ломается.
на пустом месте ломается? или после апдейтов?

Paul
20.06.2017
21:02:07
на пустом месте ломается? или после апдейтов?
я с ним экспериментировал - сломался на пустом месте

Maxim
20.06.2017
21:04:08
@freeseacher а у тебя какие такие траблы были? (судя по коменту из статьи у вас prometheus + telegraf юзается)

я с ним экспериментировал - сломался на пустом месте
хм.. надо будет тоже попробовать поиграться

Andor
20.06.2017
22:33:08
если есть возможно не использовать телеграф - воспользуйся ей

Alexander
21.06.2017
05:37:53


Admin
ERROR: S client not available

Alexander
21.06.2017
05:37:54
Народ, утренний наброс. Кто мне скажет - насколько это правильно, что Zabbix снимает load_avg по умолчанию, исходя из количества ядер (load per core). Node Exporter так не делает, например.

lastsky
21.06.2017
05:44:22
позвольте снять наброс и тонко намекнуть

# curl -s localhost:9100/metrics | grep node_load | grep -v "#" node_load1 2.79 node_load15 2.86 node_load5 2.79 # uptime 08:43:42 up 37 days, 4:13, 1 user, load average: 2.88, 2.81, 2.86

получается говнаббикс просто показывает в LA цифры, которые в N (кол-во ядер) меньше общепринятого восприятия метрики LA.

доброго утра )

Alexander
21.06.2017
05:46:44
Ну да, я про это и спрашиваю

Доброго

Меня это всегда удивляло, особенно, на современных машинах, где по 32 ядра, у меня он лоад показывал такую низкую, что как будто сервер курит.

А топ не так, поэтому триггеры бесполезные получаются

Google
lastsky
21.06.2017
05:50:03
ну то есть у тебя есть сервер, мониторится говнаббиксом. там, например, 16 ядер. тебе надо заранее ловить проблемы когда LA вытастает до 20, потому что у тебя уже есть userstoty что при LA>20 началась какая-нибудь абстрактная жопа. соответственно, говнаббикс тебе аварию просрёт потому что покажет 20 только когда там LA будет 20*16=320.

насколько это правильно?

Alexander
21.06.2017
05:50:51
Это неправильно

Wom
21.06.2017
05:51:09
и как поправить?

Alexander
21.06.2017
05:51:21
На самом деле, вопрос к дефолтному шаблону, потому что там можно и нормально снимать

не использовать percpu

Из википедии: Располагая двумя процессорами, можно (теоретически) одновременно выполнять в два раза большее число программ. Это означает, что средняя нагрузка 2.00 (на двухпроцессорном компьютере) будет эквивалентна средней нагрузке 1.00 (на однопроцессорном компьютере). На самом деле это не совсем так. Из-за дополнительной нагрузки, вызванной планированием и некоторыми другими факторами, двухпроцессорный компьютер не обеспечивает удвоения быстродействия по сравнению с однопроцессорным вариантом.

Vladimir
21.06.2017
05:53:41
насколько это правильно?
Абсолютно неправильно. Коллектор в идеале не должен менять метрики которые собирает

lastsky
21.06.2017
05:54:20
и как поправить?
виимо пойти к говнаббиксу в репозиторий, переписать там код дефолтного шаблона выпилив percpu, сделать PR, ждать реакции сообщества.

Alexander
21.06.2017
05:54:37
Причем, для метрики system.cpu.load[<cpu>,<mode>] у них по дефолту правильный параметр. А в шаблоне стоит percpu.

Subbotin
21.06.2017
05:55:20
Абсолютно неправильно. Коллектор в идеале не должен менять метрики которые собирает
Он не меняет. Он просто по-умолчанию снимает не la а la per second. А вот вторая метрика в отличии от первой имеет хоть какой-то смысл

Alexander
21.06.2017
05:56:37
Меняет, если ставишь percpu, то он просто делит на кол-во cpu в системе.

cpu - possible values: all (default), percpu (total load divided by online CPU count)

Alexander
21.06.2017
05:57:55
percpu is supported since Zabbix 2.0.0.

надо спросить, зачем это добавили.

Vladimir
21.06.2017
05:58:36
Метрика должна быть сырой. Нужно переадресованного цпу - так сделай количество цпу метрикой, пусть юзер сам решает делить ему или строить на одном графике

Или ещё чо

lastsky
21.06.2017
06:00:30
я вот получил disk_write_bytes и что мне нужно в графане нарисовал, хочу - сколько за день Tb записал, хочу - сколько пишет Mb в секунду. мне вообще нужны обе метрики. а что такое LA в секунду?

Subbotin
21.06.2017
06:20:04
Ну опечатался спросонья. Пер цпу конечно

Alex
21.06.2017
06:20:38
А как вообще без количества ядер сырой LA воспринимать?

Страница 190 из 681