@metrics_ru

Страница 242 из 681
Anatoliy
22.08.2017
12:51:25
Что значит "отключить мониторинг"?
это значит что мне надо корректно отрабатывать событие когда сервис лег. сейчас получается что оно все застывает на последних значениях и отдает их.

Что значит "отключить мониторинг"?
а именно отключить - на питоне все стартует через start_http_server, вот только отключение там не предусмотрено

учитывая что питон для меня вообще внове - я "развлекаюсь" :)

Google
Anatoliy
22.08.2017
12:54:21
Andor
22.08.2017
12:54:27
И отдавай service_up=0

Ну ты же пишешь

Ты и должен знать

Anatoliy
22.08.2017
12:54:43
про сервис - это ладно, а метрики как не отдавать?

сейчас пример приведу, минутку

Сергей
22.08.2017
12:56:26
Вечер в хату

среди благородных донов имеются эксперты по прометею, которые прометею нубу ответят на один вопрос а потом уже пошлют в лес за ягодами?

Anatoliy
22.08.2017
12:57:32
я в питоне в корне задаю датчик. далее в методе пишу нечто вроде: ccshs.labels(algo).set(hs) И оно само автоматически(я не знаю как) подхватывается. Если бы там был метод нечто вроде ccshs.disable() или нечто вроде - было бы хорошо. Но его нет. Как сбросить значение в set для любых лейблов - тоже не ясно. При пересоздании датчиков - все вообще отваливается.

Ivan
22.08.2017
12:59:37
и хоть для части я могу просто прописать в значениях тот же 0, но для всех - не могу. Есть часть которая получается с самого сервиса, а сколкьо их и какие - я в этот момент не знаю
да есть такая проблема, если метрика не обновляется она будет жить еще пять минут (конфигурируемо) и графана ее честно будет показвывать. Что я не советую: 1. крутить время жизни метрики — ведет к непредсказуемым последствиям. 2. пытаться написать какую-нибудь функцию колторая если метрика не меняется ее обнуляет. Что хорошо заработало у меня: все что выводишь в графане надо умножать на UP (не забывай про лейблы). Если скрапишь не с самого таргета а через какого-то экспортера тогда умножай на scrape_collector_success (точно не помню что-то типа того) она тоже бинарная

Anatoliy
22.08.2017
13:02:14
да есть такая проблема, если метрика не обновляется она будет жить еще пять минут (конфигурируемо) и графана ее честно будет показвывать. Что я не советую: 1. крутить время жизни метрики — ведет к непредсказуемым последствиям. 2. пытаться написать какую-нибудь функцию колторая если метрика не меняется ее обнуляет. Что хорошо заработало у меня: все что выводишь в графане надо умножать на UP (не забывай про лейблы). Если скрапишь не с самого таргета а через какого-то экспортера тогда умножай на scrape_collector_success (точно не помню что-то типа того) она тоже бинарная
проблема в том что скорее всего я даже не верно запускаю сам экспортер. мне для каждого метода приходится писать перед ним @name.time(). где name - это Summary например. Плюс - как я уже говорил - количество сервисов динамическое. Если я умножаю 1 на известные значения - это одно. Но как я буду умножать 0 на неизвестно что? У меня этих сервисов в памяти нет, я их как получит - так в следующий раз могу и не получить. P.S. Так если в течении 5 минут пром будет получать одинаковые значения - он посчитает что экспортер отключен что ли?

Ivan
22.08.2017
13:08:04
проблема в том что скорее всего я даже не верно запускаю сам экспортер. мне для каждого метода приходится писать перед ним @name.time(). где name - это Summary например. Плюс - как я уже говорил - количество сервисов динамическое. Если я умножаю 1 на известные значения - это одно. Но как я буду умножать 0 на неизвестно что? У меня этих сервисов в памяти нет, я их как получит - так в следующий раз могу и не получить. P.S. Так если в течении 5 минут пром будет получать одинаковые значения - он посчитает что экспортер отключен что ли?
дык ты чего сделать то хочешь? если пром будет прям _получать_ значения то ничего не будет. если у него не получится их соскрапить по причине ошибки/таймаута то он выставит UP=0 для таргета, если метрика в результатах скрэпа просто пропала (например java сервис упал и jmx_exporter больше ничего оттуда не достает) то обнулится метрика jmx_scrape_collector_success (название не точное)

а с полностью динамическим окружением тебе лучше подумать над каким-нибудь service discovery

Google
Anatoliy
22.08.2017
13:09:41
дык ты чего сделать то хочешь? если пром будет прям _получать_ значения то ничего не будет. если у него не получится их соскрапить по причине ошибки/таймаута то он выставит UP=0 для таргета, если метрика в результатах скрэпа просто пропала (например java сервис упал и jmx_exporter больше ничего оттуда не достает) то обнулится метрика jmx_scrape_collector_success (название не точное)
я хочу иметь возможность без отрубания экспортера показать что сервис упал и пока я никак не могу понять как это сделать. Я могу это отследить. Но в этот момент у меня уже созданы все датчики. и естественно они будут показаны, но - со старыми значениями. а мне надо их обнулить как-то получается

Ivan
22.08.2017
13:11:07
»показать что сервис упал» показать где?

Anatoliy
22.08.2017
13:11:12
в проме

т.е. не отдать ему данные по этим сервисам

Ivan
22.08.2017
13:12:34
твой сервис <— какой-то (твой же?) экспортер <— пром это вот так у тебя выглядит?

Anatoliy
22.08.2017
13:12:44
да

Ivan
22.08.2017
13:16:22
ну тогда тебе все уже сказали, в своем экспортере пили метрику service_up (0/1 по результатам скрапинга) отдавай ее наружу, а визуализации все метрики на нее умножай. Ну или в экспортере запоминай поименно все метрики которые тебе отдает сервис и вместо того чтобы им пропасть вместе с сервисом просто обнуляй их

Anatoliy
22.08.2017
13:18:25
Это я отдаю, но просто не был уверен что это действителньо нормальный вариант. Всем спасибо за помощь)

эм.. а как можно в графане сделать такое: request_service_isup * request_service_hs ?

Ivan
22.08.2017
15:19:27
как-то так: service_is_up{some_thing="some_id"} *on(some_thing) my_metric{some_thing="some_id"}

Anatoliy
22.08.2017
15:20:46
а some_thing у обоих обязательно должен быть причем одинаковым? потому что на is_up там ничего просто нет

Ivan
22.08.2017
15:25:56
зря. как же ты поймешь кто именно там up?

какие-то лейблы надо проставлять, сервис/айди/сервер/дц

а вообще: https://prometheus.io/docs/querying/operators/

Ivan
22.08.2017
15:46:59
значит лейбл все-таки есть

Anatoliy
22.08.2017
15:56:54
ясно, спасибо. хотя на самом деле как-то оно все же странно умножает...

А условия можно прописывать в графане? т.е. если label l="ll" тогда умножаем на 1 значение метрики, если l="ll2" - тогда умножаем на 3, а если ничего не совпадает - тогда умножаем на 0?

Andor
23.08.2017
08:53:15
сделай два запроса

Anatoliy
23.08.2017
09:13:57
да я уже сообразил, получилось) Теперь над другим размышляю. Все запросы имеют имена(обозначения?) A, B, C и т.д.. Можно два запроса между собой таким образом связать? Т.е. типа A+B? При этом в один момент A будет давать значения, а B будет давать0, и наоборот соответственно?

Google
Anatoliy
23.08.2017
09:17:18
?) ну я понимаю что хочу всего и сразу, но ведь в теории возможно если уже есть сами значения? А как это сделать я пока не вижу...

Ребят, а можно настроить прометей что бы он показывал что если данных нет минуту - значит их нет вообще. А не тянуть их дальше в виде прямой? Т.е. экспортер работает но если он сменил лейбл - то он не тянулся дальше?

Andor
23.08.2017
12:40:41
можно

Алексей
23.08.2017
12:52:41
нельзя.

это будет в 2.0

Anatoliy
23.08.2017
12:52:53
А что для этого нужно глянуть? Где вообще можно глянуть команды прометея?

Алексей
23.08.2017
12:53:14
https://promcon.io/2017-munich/talks/staleness-in-prometheus-2-0/

Anatoliy
23.08.2017
12:53:53
Спасибо. будем тогда ждать

Алексей
23.08.2017
12:54:15
я сам очень опечален этим его свойством. но так уж устроен сторадж у них

Andor
23.08.2017
14:14:47
прямо щас можно указать прометею чтобы stale становилось не по-умолчанию за 5 минут, а за 1

но это на весь инстанс распространяется

Алексей
23.08.2017
15:14:22
Я так понимаю это ценой в увеличение потребления диска?

Andor
23.08.2017
15:51:07
нет, это ценой что метрики могут поехать

дефолтное 5 минут, можно переопределить

Алексей
23.08.2017
15:52:03
У них же там предикшены на это завязаны

Типа если получили бул то следующие 127 значений так же будет бул и такой же

Ivan
23.08.2017
16:08:28
Я менял. С метриками какой-то трэш начинал твориться. Собственно они и сами сильно не рекомендуют.

Admin
ERROR: S client not available

Anatoliy
23.08.2017
17:15:01
прямо щас можно указать прометею чтобы stale становилось не по-умолчанию за 5 минут, а за 1
так это срезает если метрики именно оборвались, так? а мне надо что бы если оно все просто перестало давать метрики - значит их уже нет.

GithubReleases
23.08.2017
18:22:30
https://github.com/yandex/ClickHouse/releases/v1.1.54282-stable was tagged

Google
GithubReleases
23.08.2017
22:52:37
https://github.com/influxdata/telegraf/releases/1.4.0-rc2 was tagged

https://github.com/influxdata/telegraf/releases/1.4.0-rc2 was tagged

terry
24.08.2017
05:36:13
омг, каждый час пока властелин бота не успокоит его?

Vladimir
24.08.2017
05:44:18
омг, каждый час пока властелин бота не успокоит его?
Пока чуваки не перестанут тэгать коммиты

Oleg ?
24.08.2017
06:12:14
Ребят, привет Поясните пожалста за inhibition_rules в прометее, никак не догоню как это корректно использовать Что должно идти в target,source,equal. Подозреваю что из-за того что некорректно настроено у меня в слаке не отображаются некоторые алармы

Тоесть у меня прилетают два аларма по месту в / и в /var/lib/docker/overlay2

одновременно для одного хоста

Evgeny
24.08.2017
10:41:26
У меня есть вопрос по поводу datasource плагинов для графаны. Вот тут - http://docs.grafana.org/plugins/developing/datasources/ есть описание того, что графана передает в плагин в качестве запроса, в частности там есть интервал (1s, 10ms, 20s и тд) и диапазон дат. При этом у источника данных есть какое-то свое нативное разрешение (а может он вообще не регулярный и шаг каждый раз зарный). Значит ли это что я каждый раз должен делать resample на нужный шаг? А что если я хочу чтобы на графике были голые данные без обработки?

И еще такой вопрос, предполагается что datasource сам "знает" как пересчитать данные на нужный шаг, но это фактически зависит от данных, скажем для одного ряда вполне нормально взять среднее за каждую (допустим) минуту, но для другого (который содержит latency) нужно брать максимальное значение за эту же минуту. Как плагин должен все это разруливать?

Evgeny
24.08.2017
10:52:20
Я как-раз и делаю datasource плагин, он там вот такой запрос принимает. Мне пока как-то слабо верится в то, что в графане нельзя отобразить данные с нефиксированным шагом. Но по формату запроса похоже что все именно так.

Sergey
24.08.2017
12:05:27
у нас же тут разраб был, тока вроде на моря поехал сейчас

Vladimir
24.08.2017
12:05:56
а тьфу

канал попутал

Sergey
24.08.2017
12:07:00
@alexanderzobnin вот помню, а хто еще?

Think
24.08.2017
12:12:08
привет, есть кто-то с carbon + graphite + clickhouse? имею примерно 90кк метрик в минуту, хочу поспрашивать про оптимизации clickhouse под E5-2620 v3/256G/raid6 ssd 960G

Алексей
24.08.2017
12:13:54
90kk в минуту это 1,5 в секунду да ?

и в чем вопрос ?

Sergey
24.08.2017
12:14:16
М-математика :)

Think
24.08.2017
12:14:56
1500000 в секунду

Google
Алексей
24.08.2017
12:15:21
ну я про мульта конечно

Felixoid
24.08.2017
12:57:41
Сорь, я вам красивую цифирьку попортил

Vladimir
24.08.2017
12:58:14
красивая цифирка будет через 165 человек

или через 11

смотря как посмотреть

Страница 242 из 681