
Andor
18.10.2018
09:37:48
Где-то между одним прометеем и другим
Я не знаю как у тебя это всё сделано

Денис
18.10.2018
09:39:08
Проблема в сетевой связности
Там tcp всякие, адреса, порты

Google

Banschikov
18.10.2018
09:44:56
А можеть быть такое, когда в slave-prometheus один из внутренних таргетов в DOWN, то master выдает ошибку context deadline exceeded. Заметил что в этот момент происходит эта ошибка. Т.е нужно что бы все таргете в слейве были UP. Я просто туже конфигурацию тестировал на другом кластере, и все работало, и там таркеты всегды были в состоянии UP на slave-prometheus

Anton
18.10.2018
09:45:24
нет
какая версия?

Banschikov
18.10.2018
09:46:15

Anton
18.10.2018
09:52:32
на 2.2.0 проверил, ничего подобного нет
ну и сеть проверить проще
попигнуй там, iperf, вот это всё

Дмитрий
18.10.2018
09:55:40

Mikhail
18.10.2018
10:01:48
А куда мне смотреть, если у меня prometheus_remote_storage_queue_length постоянно висит на уровне 2 миллионов или не падает и не растет?

Andor
18.10.2018
10:08:49

Mikhail
18.10.2018
10:09:09

Andor
18.10.2018
10:10:24
Ну вот кажется туда и надо смотреть

Google

Banschikov
18.10.2018
10:18:18

Дмитрий
18.10.2018
10:20:15

Banschikov
18.10.2018
10:22:28
Timeout - скорее всего проблемы с сетью, как писали выше
Да я понял, что возможно проблемы с сетью k8s. Я думал что мастер стучится на слейв, забирает все метрики у него и уходит. А тут в логах во время этого процесса фигурирует API-kubernetes. Пытаюсь понять, кого пинать. Или сетевого провайдера или провайдера kubernetes

Andor
18.10.2018
10:22:57
они не мастер и слейв

Alexey
18.10.2018
10:22:59
Если ничего не помогает - запустите, наконец, tcpdump. Broken pipe это следствие deadline exceeded, т.е. к8с-ный пром не успевает ответить вопрошающему.
Т.е. в принципе связь между ними есть, но она может либо портиться, либо у к8с-ного прометея могут появляться какие-нибудь _дела_ типа " меня затроттлили по цпу в связи с перезапуском упавшего"
Тем более он старый. Я прямо глазами наблюдал эффекты троттлинга цпу на приложения с гц, выливающиеся в безумные тайм-ауты в сети, потому что процессу некогда данные из сокета забрать

Andor
18.10.2018
10:28:45
@f545_j_43g43u_jer3tfgu32fh3333 а есть возможность поставить в тот же кубер свежего прометея?

Nklya
18.10.2018
10:33:16
отличный юзернейм))

Paul
18.10.2018
10:35:32
напоминает анекдот про сисадмина и запрет на использование в качестве пароля имени домашнего любимца

Banschikov
18.10.2018
10:37:59

Mikhail
18.10.2018
11:03:35

Andor
18.10.2018
11:03:54
zbs

Никита
18.10.2018
11:34:09

Banschikov
18.10.2018
11:37:17

Никита
18.10.2018
11:38:00
Кароч публикуешь прометеус через сервис типа NodePort, и с одного из портов любой ноды попадаешь на него.

Andor
18.10.2018
11:39:03
разве это напрямую?

Никита
18.10.2018
11:39:21
Ну.

Banschikov
18.10.2018
11:39:35

Никита
18.10.2018
11:42:07
Я просто на случай, если с сетью подов нет связности снаружи.
Прост возможно, что таймаут наступает внутри прокси, который предоставляет api, а доступ через сервис эту ситуацию исключит.

Google

Konstantin
18.10.2018
11:42:12
чуваки, а как можно алертменеджер подебажить? щас какая-то странная херня, что часть алертов улетает только в почту, а часть - только в слак
и я что-то никак не раскурю почему

Andor
18.10.2018
11:42:47
для начала проверить логи

Никита
18.10.2018
11:42:55

Konstantin
18.10.2018
11:42:55
пустота
ваще

Andor
18.10.2018
11:42:58
и по конфигу посмотреть, может ты так настроил

Konstantin
18.10.2018
11:43:09
ну то есть да, я так настроил
в смысле так досталось
но с виду почем так - я не могу понять
и чтобы разобраться, нужно бы туда-сюда потыкать этот конфиг

Andor
18.10.2018
11:43:38
смотри по конфигу же

Sergey
18.10.2018
11:45:55
https://prometheus.io/webtools/alerting/routing-tree-editor/ может это поможет разобраться? :)

Banschikov
18.10.2018
11:46:25

Konstantin
18.10.2018
11:47:32
но да, хотелось бы чего-то такого
хотя не, происходит
но нихера не понятно
если кому-то не лень, то вот конфиг
https://gist.github.com/f11f72911d2c1fdf97e6fa86ff51ddc2

Google

Sergey
18.10.2018
11:48:59
А что именно не понятно?

Konstantin
18.10.2018
11:49:44
я так понимаю, тут матчатся лейблы не ресиверы
я не понимаю в какой момент critical превращается в slack_critical

Sergey
18.10.2018
11:51:17
Когда label severity: critical сматчит, ну или я не так понял вопрос :)

Admin
ERROR: S client not available

Konstantin
18.10.2018
11:52:01
не ну да, но почему тогда, если есть severity="critical" в метрике, в слак ничего не попадает, но приходит на почту?
т.е. (я там вчера спрашивал) я сделал метрику foo{severity="critical"} 1
и сделал алерт по foo == 1
и тут раз все сломалось

Oleg
18.10.2018
12:33:55
надор подскажите а как писать данные perfdata из icinga2 в postgresql
ну чтобы метрику записывал набодобе как в influxdb

Kirill
18.10.2018
13:02:56
привет, о гуру метрик, кто может помочь со зверем kapacitor?
ладно можно не гуру

Krakazyabra
18.10.2018
13:20:11

GithubReleases
18.10.2018
18:13:24
lomik/carbon-clickhouse was tagged: v0.9.0
Link: https://github.com/lomik/carbon-clickhouse/releases/tag/v0.9.0
Release notes:
### Bugfix
* Tagged series shouldn't be modified during upload to "reversed" tables [#23](https://github.com/lomik/carbon-clickhouse/issues/23)
### Features
* New `telegraf_http_json` receiver was added
* New option `zero-timestamp` was adde...
More
lomik/graphite-clickhouse was tagged: v0.8.0
Link: https://github.com/lomik/graphite-clickhouse/releases/tag/v0.8.0
Release notes:
### Bugfix
* Tagged series should not be modified during select from "reversed" tables [lomik/carbon-clickhouse#23](https://github.com/lomik/carbon-clickhouse/issues/23)

Alexander
18.10.2018
20:08:18

Terminator
18.10.2018
20:08:39
@liquidbob будет жить. Поприветствуем!
@academ1c будет жить. Поприветствуем!

Oles P.
19.10.2018
09:08:40
Всем привет! Подскажите, как лучше поступить. Мониторю Селениум ноды на предмет зависших сессий. Использую свой экспортер для прометея. Использую labeled gauge, то есть считаю запущенные браузеры, разных версий по разным платформам. Проблема в чем, что когда сессия пропадает - метрика тоже ремувается. Конечно, правильнее не схлапывать, а ставить 0. Но тогда возникает проблема, что надо где-то помнить ВСЕ возможные сессии - суть произведение платформ, браузеров и версий. По-сути, хранить стейт происходящего, а это не хочется, реалтайм легче.

Google

Oles P.
19.10.2018
09:10:08
Мне кажется, что я что-то делаю не так.

Alexey
19.10.2018
09:27:29
Как отличается зависшая сессия от независшей?

Денис
19.10.2018
09:41:34
всем привет
подскажите про pushgateway. как я понимаю, он собирает метрики пуллами и потом пропушивает их в прометей, верно?

Andor
19.10.2018
09:43:32
необорот

Денис
19.10.2018
09:44:09
в него пропушиваются метрики, а прометей потом с него снимает пуллом?
а как они в него пропушиваются, если экспортеры ждут пуллов?

Andor
19.10.2018
09:49:43
ну он нужен для тех кто не умеет открывать порт, например

Oles P.
19.10.2018
09:50:27

Pablo
19.10.2018
09:50:44
Кто идет на хайлоад — я подал митап чтобы мы могли все там затусить — голосуйте за "BoF церкви метрик" https://conf.ontico.ru/meetups/
и приходите?

Oles P.
19.10.2018
09:51:03
мне из зала подсказывают, что можно как-то перебирать накопленные gauge метрики. хм.

Dmitriy M.
19.10.2018
16:57:54

Andor
19.10.2018
16:59:14
наеборот