@metrics_ru

Страница 272 из 681
Алексей
12.09.2017
21:33:02
если бан занимает несколько миллисекунд дак и похер же

Виталий
13.09.2017
01:40:22
И как же он это делает? В каждом цикле заново меппинг на имена интерфейсов, policy-map и классов опрашивает? Накладненько будет... А железки он последовательно опрашивает или параллельно?
Да. Т.е. если происходят изменения, то результат будет виден сразу. Если для каждой железки отдельный конфиг с опросом отдельной таблицы, то опрашивается параллельно. Если сделать один конфиг для определенной таблицы и перечислить в нем список агентов, то последовательно. Например, так можно опрашивать раз в сутки таблицу из entity-mib для инвентаризации.

Виталий
13.09.2017
06:36:05
Процесс один. Железки заданы не через список. Например, нет возможности за 5 минут опросить список спуьниковых модемов из-за rtt. Поэтому для каждого такого модема отдельный modem_NN.conf, где в списке агентов только один хост.

Google
Виталий
13.09.2017
06:47:57
[[inputs.snmp]] interval = "1m" agents = [ "MY_ID" ] version = 2 community = "public" name = "UHP" # snmptranslate -On DISMAN-EXPRESSION-MIB::sysUpTimeInstance [[inputs.snmp.field]] name = "uptime" oid = "1.3.6.1.2.1.1.3.0" # snmptranslate -On UHP-MIB::temperature.0 [[inputs.snmp.field]] name = "temperature" oid = ".1.3.6.1.4.1.8000.22.8.1.0" # snmptranslate -On UHP-MIB::cpuLoad.0 [[inputs.snmp.field]] name = "cpuLoad" oid = ".1.3.6.1.4.1.8000.22.8.2.0" # snmptranslate -On UHP-MIB::txLevel.0 [[inputs.snmp.field]] name = "txLevel" oid = ".1.3.6.1.4.1.8000.22.4.6.1.0" # snmptranslate -On UHP-MIB::lbandAGC.0 [[inputs.snmp.field]] name = "lbandAGC" oid = ".1.3.6.1.4.1.8000.22.2.3.0" # snmptranslate -On UHP-MIB::lbandSNR.0 [[inputs.snmp.field]] name = "lbandSNR" oid = ".1.3.6.1.4.1.8000.22.2.1.0"

Вот пример с оидами без таблиц. Мибы не нужны. Все пишется в UHP под указанными именами. Для опроса таблицы интерфейсов другой конфиг с интервалом 5 минут и там только iftable с 32 битными счетчиками.

Bogdan (SirEdvin)
13.09.2017
09:14:26
А кто может что подсказать для мониторинга контейнеров кроме cadvios? А то я наткнулся на его баг с блокировкой volume

Andrey
13.09.2017
09:15:49
так говорят, в докер уже всё запилили нативно, прометея

Bogdan (SirEdvin)
13.09.2017
09:16:20
Хм ... а кажется, это таки node_exporter (

так говорят, в докер уже всё запилили нативно, прометея
В доках у них это вроде все еще експериментально. Нормальное есть у swarm, но мы пока туда не перешли.

Andor
13.09.2017
09:33:33
так говорят, в докер уже всё запилили нативно, прометея
метрики самого докера нативно, а не контейнеров в нём

Mihail
13.09.2017
09:37:19
контейнер пока через кадвайзор

GithubReleases
13.09.2017
14:00:05
https://github.com/moira-alert/moira-alert/releases/v0.2 was tagged

ptchol
13.09.2017
14:23:42
когда уже анонс ! )

Evgeny
13.09.2017
14:26:13
Во наконец то )

А авторов тут нет в чатике?

@AlexAkulov - когда анонс ? ?

Google
Alex
13.09.2017
14:34:28
ниче се.. не ожидал, что у вас тут триггер

я тэг поставил потому-что коммитов уже много было.

Evgeny
13.09.2017
14:36:12
Проект то очень полезный ) вот и добавили

Alex
13.09.2017
14:36:51
мы пока у себя в бой еще не выкатили, всякие мелкие баги вылезают.

Алексей
13.09.2017
14:37:08
ниче се.. не ожидал, что у вас тут триггер
ага. триггер и теперь еще более так себе делать перетегирование

ptchol
13.09.2017
14:43:02
мы пока у себя в бой еще не выкатили, всякие мелкие баги вылезают.
а там контейнер рабочий ? и как там итеграция с вебом теперь обстоит ? У меня просто мониторинг новойй волны на стадии становления, я могу у себя запустить это дело и побыть бетатестером

Alex
13.09.2017
14:45:53
старый веб должен работать с новым апи и сейчас я сделаю контейнер с web2.0

ptchol
13.09.2017
14:46:14
а скрины есть ? )

как ого выглядит

Alex
13.09.2017
14:46:23
нового веба?

ptchol
13.09.2017
14:46:32
или тож самое в вебе ?

да

Alex
13.09.2017
14:48:01
в целом, тоже самое, просто там реакт будет вместо ангуляра и компоненты Контуровские вместо материалайза.

я сам еще не знаю на каком этапе там все))

Gleb
13.09.2017
19:37:04
а есть какой-нить канал по эластиксёчу?

Andor
13.09.2017
19:37:35
Есть

Gleb
13.09.2017
19:38:42
у меня иногда за сутки бывает 3.6 тб логов, хотя обычно в 1 тб укладывается, не очень понимаю как с этим жить

Alex
14.09.2017
05:04:51
@Anc1ent расскажи подробнее про свой эластик.

у нас сейчас как раз ~3ТБ в сутки

Google
Gleb
14.09.2017
07:01:34
И при чем тут эластик?
Ну это первое куда отправляют все когда ты спрашиваешь куда собирать логи

@Anc1ent расскажи подробнее про свой эластик.
Да я бы на самом деле сам хотел поспрашивать, у меня в целом ничего интересного, логи мы собираем в самом приложении в json , какая либо обработка в дальнейшем не требуется, через fluent /logstash пишем в эластиксеч. Ну и собственно интересно про сайзинг и прочее услышать. Ну и вообще у кого на чем лежит, схд оно очень покушать любит, но выдавать сотню тб с allflash схд не выглядит разумным решением. Сейчас тестирую hot/warm ноды. Осложняется все тем что инфраструктура принципиально виртуализована, по типам схд есть ограничения и т.д. ну т.е. нет варианта купить железо под задачу. В целом конечно интересует вопрос именно горизонтального масштабирования и вообще адекватности решения т.к. если и дальше столько ресурсов набрасывать то возможно нужно что то другое взять. Опять же насколько эффективно работает hot/warm. Еще есть вариант собрать несколько кластеров, не помню как фича называется, но можно будет из одной кибаны смотреть все.

Вопрос больше не по эксплуатации даже, а по архитектуре того что нужно в итоге сделать

Alex
14.09.2017
07:58:11
Я могу написать, что есть у нас и какие с этим проблемы.

У нас всего 9 железных серверов в которых по 2 SSD и 12 HDD. HDD объеденены в striped LVM по 4. Получается, на каждом сервере 5 инстанов эластика: master, hot и 3 cold. Всё в одном кластере. Напрямую в эластик никто не пишет. Все пишут в httpgate, который перекладывает логи в RabbitMQ, другая софтина выгребает из рэббита сообщения, собирает балки и пишет в эластик. По размеру очереди в рэббите хорошо понятно как чувствует себя система. Раньше, приблизительно раз в месяц, это всё эпично падало, на какой-то ноде эластика что-то происходит, её клинит и тупит весь кластер. Почему так происходит я так и не вяснил. Сейчас основная проблема в том, что optimize индексов занимает всё больше времени, раньше он работал пару часов, теперь минимум 12.

Gleb
14.09.2017
08:13:39
а вот последний пункт про optimize чем мониторите?

Alex
14.09.2017
08:16:09
ну просто, есть тасочка в tc которая каждую ночь запускает optimize, ожидается, что она часам к 6 утра, когда нагрузка начинает увеличиваться отработает, но вот уже час дня, а оно всё-ещё пердит https://gyazo.com/408f0e9221a26202fdf1df64d3516f76

Алексей
14.09.2017
08:44:50
Gleb
14.09.2017
08:56:17
спасибо

GithubReleases
14.09.2017
09:00:15
https://github.com/grafana/grafana/releases/v4.5.0 was tagged

Sergey
14.09.2017
09:00:27
тадам

Алексей
14.09.2017
09:00:30
о!

Vitaly
14.09.2017
09:00:48
Кто-нибудь знает, с чем связано ограничение tabix на Not readonly CH user? И можно ли это как-то обойти? Конечно, там поддерживается readonly = 2, но это позволяет сделать SET profile = 'blah-blah' и обойти ограничения, которые хотелось поставить на юзеров табикса

Stanislav
14.09.2017
09:01:06
> Раньше, приблизительно раз в месяц, это всё эпично падало, на какой-то ноде эластика что-то происходит, её клинит и тупит весь кластер Это дерьмо не умеет параллелить запросы. А при очередном запросе все ждут тупящую ноду. И если пришел плохой запрос, заставляющий чесать всю историю, все будет таймаутиться пока он не отработает на одной из нод.

Sergey
14.09.2017
09:04:34
бинари еще не собрали

Stanislav
14.09.2017
09:04:54
Все это отвалидировано на новейших 5.3 и 5.5 и угроблена тонна времени на рисеч. По факту, надо сразу all flash ставить и сразу отстреливать в маппингах _all к херам во избежание плохих запросов. У меня 170+ полей, и попадание в _all - это смерть на шпинделях.

Sergey
14.09.2017
09:05:07
точнее пакеты

Stanislav
14.09.2017
09:05:57
У меня 27 нод, из них 16 датанод, 8 млрд записей, 300GB/сутки

Gleb
14.09.2017
09:09:43
У меня 27 нод, из них 16 датанод, 8 млрд записей, 300GB/сутки
ну вот я под свой объем данных насчитал по доке 90 нод, но чёт я в этот момент седеть начал :D

Google
Alex
14.09.2017
09:23:21
Stanislav Спасибо за инфу! Да, у нас эластик 2.х. С 1.х на 2.х очень сложно было переезжать, по факту я делал новый кластер и дописывал данные из старого. Проделвыать тоже самое что-бы переехать на 5ый, не очень хочется.

А про elassandra кто-нибудь владеет инфой? Как она?

Stanislav
14.09.2017
09:26:12
У 5 отличный штатный импорт-экспорт

И у 5 есть несколько вещей отличающихся от 1-2

http://code972.com/blog/2016/11/102-all-you-need-to-know-about-elasticsearch-5-0-index-management

Вот

Ребята реально говна поели с ним

Самое вышибающее шаблоны - роллинг индексы

Мы в 5 со времен 2 сидим на суточных и это боль, готовимся перестроить процессы на роллинг индексы

Alex
14.09.2017
09:31:19
а в 2-х словах, про что там?

Sergey
14.09.2017
10:55:08
рпмочку залили (я про графану)

Alexander
14.09.2017
11:05:31
Кстати, наши парни недавно сделали поддержку тегов для графита, сейчас делаем соответствующие вещи в графане, не знаю, насколько это актуально для здесь присутствующих.

Alex
14.09.2017
11:06:47
тэги в графите? это что?

Alexander
14.09.2017
11:08:46
Ну как лейблы в прометее

Алексей
14.09.2017
11:09:30
Alex
14.09.2017
11:10:46
это вместо плоских имён метрик тэги? в графите?

как я мог такое проспать?

Alexander
14.09.2017
11:11:19
Это прям недавно сделали

Google
Alex
14.09.2017
11:11:34
это в какой реализации такое сделали?

Alexander
14.09.2017
11:11:35
Ну вот, мы над этим работаем

https://github.com/graphite-project/graphite-web/pull/2002

Там описано подробно

Alex
14.09.2017
11:12:29
ничёссе

Alexander
14.09.2017
11:12:36
В графите это так лежит



Плюс база с тегами и апи для работы с ними

Alex
14.09.2017
11:13:44
а коллекторы уже умеют в таком формте отправлять?

Страница 272 из 681