@metrics_ru

Страница 673 из 681
Andor
18.10.2018
09:37:48
Где-то между одним прометеем и другим

Я не знаю как у тебя это всё сделано

Денис
18.10.2018
09:39:08
Проблема в сетевой связности

Там tcp всякие, адреса, порты

Google
Banschikov
18.10.2018
09:44:56
А можеть быть такое, когда в slave-prometheus один из внутренних таргетов в DOWN, то master выдает ошибку context deadline exceeded. Заметил что в этот момент происходит эта ошибка. Т.е нужно что бы все таргете в слейве были UP. Я просто туже конфигурацию тестировал на другом кластере, и все работало, и там таркеты всегды были в состоянии UP на slave-prometheus

Anton
18.10.2018
09:45:24
нет

какая версия?

Banschikov
18.10.2018
09:46:15
какая версия?
На мастере: 2.3.2 на слейве: 1.8.2

Anton
18.10.2018
09:52:32
на 2.2.0 проверил, ничего подобного нет

ну и сеть проверить проще

попигнуй там, iperf, вот это всё

Mikhail
18.10.2018
10:01:48
А куда мне смотреть, если у меня prometheus_remote_storage_queue_length постоянно висит на уровне 2 миллионов или не падает и не растет?

Mikhail
18.10.2018
10:09:09
Andor
18.10.2018
10:10:24
Ну вот кажется туда и надо смотреть

Google
Banschikov
18.10.2018
10:18:18
у тебя down может быть как раз по той же причине, почему и федерация падает...
Меня больше волнует почему он при попытке обращения отдает вот эту ошибку. component=web msg="federation failed" err="write tcp 10.100.71.226:9090->10.0.0.11:34446: write: broken pipe" Типа не может какую-то запись сделать по этому адресу: 10.0.0.11 ? Это пишет slave-пром, который в k8s.

Banschikov
18.10.2018
10:22:28
Timeout - скорее всего проблемы с сетью, как писали выше
Да я понял, что возможно проблемы с сетью k8s. Я думал что мастер стучится на слейв, забирает все метрики у него и уходит. А тут в логах во время этого процесса фигурирует API-kubernetes. Пытаюсь понять, кого пинать. Или сетевого провайдера или провайдера kubernetes

Andor
18.10.2018
10:22:57
они не мастер и слейв

Alexey
18.10.2018
10:22:59
Если ничего не помогает - запустите, наконец, tcpdump. Broken pipe это следствие deadline exceeded, т.е. к8с-ный пром не успевает ответить вопрошающему.

Т.е. в принципе связь между ними есть, но она может либо портиться, либо у к8с-ного прометея могут появляться какие-нибудь _дела_ типа " меня затроттлили по цпу в связи с перезапуском упавшего"

Тем более он старый. Я прямо глазами наблюдал эффекты троттлинга цпу на приложения с гц, выливающиеся в безумные тайм-ауты в сети, потому что процессу некогда данные из сокета забрать

Andor
18.10.2018
10:28:45
@f545_j_43g43u_jer3tfgu32fh3333 а есть возможность поставить в тот же кубер свежего прометея?

Nklya
18.10.2018
10:33:16
отличный юзернейм))

Paul
18.10.2018
10:35:32
напоминает анекдот про сисадмина и запрет на использование в качестве пароля имени домашнего любимца

Banschikov
18.10.2018
10:37:59
@f545_j_43g43u_jer3tfgu32fh3333 а есть возможность поставить в тот же кубер свежего прометея?
Да, только что это сделал в отдельный namespace. Проблема таже. Я кажется понял куда копать. Хожу в k8s-prometheus по endpoint: https://91.163.254.163:6443/api/v1/namespaces/prometheus-monitoring/services/prometheus:9090/proxy/federate Там в логах по этому и фигурирует kubeapi k8s.

Mikhail
18.10.2018
11:03:35
Ну вот кажется туда и надо смотреть
обновил оператор до 0.24, поды пересоздались с прометеем, все прошло

Andor
18.10.2018
11:03:54
zbs

Banschikov
18.10.2018
11:37:17
А почему бы не ходить на прометеус напрямую?
Я к сожалению не знаю как это внутри k8s(

Никита
18.10.2018
11:38:00
Кароч публикуешь прометеус через сервис типа NodePort, и с одного из портов любой ноды попадаешь на него.

Andor
18.10.2018
11:39:03
разве это напрямую?

Никита
18.10.2018
11:39:21
Ну.

Никита
18.10.2018
11:42:07
Я просто на случай, если с сетью подов нет связности снаружи. Прост возможно, что таймаут наступает внутри прокси, который предоставляет api, а доступ через сервис эту ситуацию исключит.

Google
Konstantin
18.10.2018
11:42:12
чуваки, а как можно алертменеджер подебажить? щас какая-то странная херня, что часть алертов улетает только в почту, а часть - только в слак

и я что-то никак не раскурю почему

Andor
18.10.2018
11:42:47
для начала проверить логи

Konstantin
18.10.2018
11:42:55
пустота

ваще

Andor
18.10.2018
11:42:58
и по конфигу посмотреть, может ты так настроил

Konstantin
18.10.2018
11:43:09
ну то есть да, я так настроил

в смысле так досталось

но с виду почем так - я не могу понять

и чтобы разобраться, нужно бы туда-сюда потыкать этот конфиг

Andor
18.10.2018
11:43:38
смотри по конфигу же

Sergey
18.10.2018
11:45:55
https://prometheus.io/webtools/alerting/routing-tree-editor/ может это поможет разобраться? :)

Konstantin
18.10.2018
11:47:32
но да, хотелось бы чего-то такого

хотя не, происходит

но нихера не понятно

если кому-то не лень, то вот конфиг

https://gist.github.com/f11f72911d2c1fdf97e6fa86ff51ddc2

Google
Sergey
18.10.2018
11:48:59
А что именно не понятно?

Konstantin
18.10.2018
11:49:44
я так понимаю, тут матчатся лейблы не ресиверы

я не понимаю в какой момент critical превращается в slack_critical

Sergey
18.10.2018
11:51:17
Когда label severity: critical сматчит, ну или я не так понял вопрос :)

Admin
ERROR: S client not available

Konstantin
18.10.2018
11:52:01
не ну да, но почему тогда, если есть severity="critical" в метрике, в слак ничего не попадает, но приходит на почту?

т.е. (я там вчера спрашивал) я сделал метрику foo{severity="critical"} 1

и сделал алерт по foo == 1

и тут раз все сломалось

Oleg
18.10.2018
12:33:55
надор подскажите а как писать данные perfdata из icinga2 в postgresql

ну чтобы метрику записывал набодобе как в influxdb

Kirill
18.10.2018
13:02:56
привет, о гуру метрик, кто может помочь со зверем kapacitor?

ладно можно не гуру

Krakazyabra
18.10.2018
13:20:11
забиксом и рисуй
очень сильно захламлена карта

GithubReleases
18.10.2018
18:13:24
lomik/carbon-clickhouse was tagged: v0.9.0 Link: https://github.com/lomik/carbon-clickhouse/releases/tag/v0.9.0 Release notes: ### Bugfix * Tagged series shouldn't be modified during upload to "reversed" tables [#23](https://github.com/lomik/carbon-clickhouse/issues/23) ### Features * New `telegraf_http_json` receiver was added * New option `zero-timestamp` was adde... More

lomik/graphite-clickhouse was tagged: v0.8.0 Link: https://github.com/lomik/graphite-clickhouse/releases/tag/v0.8.0 Release notes: ### Bugfix * Tagged series should not be modified during select from "reversed" tables [lomik/carbon-clickhouse#23](https://github.com/lomik/carbon-clickhouse/issues/23)

Terminator
18.10.2018
20:08:39
@liquidbob будет жить. Поприветствуем!

@academ1c будет жить. Поприветствуем!

Oles P.
19.10.2018
09:08:40
Всем привет! Подскажите, как лучше поступить. Мониторю Селениум ноды на предмет зависших сессий. Использую свой экспортер для прометея. Использую labeled gauge, то есть считаю запущенные браузеры, разных версий по разным платформам. Проблема в чем, что когда сессия пропадает - метрика тоже ремувается. Конечно, правильнее не схлапывать, а ставить 0. Но тогда возникает проблема, что надо где-то помнить ВСЕ возможные сессии - суть произведение платформ, браузеров и версий. По-сути, хранить стейт происходящего, а это не хочется, реалтайм легче.

Google
Oles P.
19.10.2018
09:10:08
Мне кажется, что я что-то делаю не так.

Alexey
19.10.2018
09:27:29
Как отличается зависшая сессия от независшей?

Денис
19.10.2018
09:41:34
всем привет

подскажите про pushgateway. как я понимаю, он собирает метрики пуллами и потом пропушивает их в прометей, верно?

Andor
19.10.2018
09:43:32
необорот

Денис
19.10.2018
09:44:09
в него пропушиваются метрики, а прометей потом с него снимает пуллом?

а как они в него пропушиваются, если экспортеры ждут пуллов?

Andor
19.10.2018
09:49:43
ну он нужен для тех кто не умеет открывать порт, например

Oles P.
19.10.2018
09:50:27
Как отличается зависшая сессия от независшей?
ничем, кроме того, что эти сессии живут до рестарта Java и их видно на мониторингах. 8)

Pablo
19.10.2018
09:50:44
Кто идет на хайлоад — я подал митап чтобы мы могли все там затусить — голосуйте за "BoF церкви метрик" https://conf.ontico.ru/meetups/

и приходите?

Oles P.
19.10.2018
09:51:03
мне из зала подсказывают, что можно как-то перебирать накопленные gauge метрики. хм.

Dmitriy M.
19.10.2018
16:57:54
необорот
Надо запомнить словцо

Andor
19.10.2018
16:59:14
наеборот

Страница 673 из 681