@metrics_ru

« Назад

Страница 521 из 681

Далее »

Favoretti

23.04.2018
14:28:17

но customer impact от этого может быть некислым

та причем тут кубер :)

Andor

23.04.2018
14:28:47

если изначально приложения под кубер, то не будет незапланированного импакта

Bogdan (SirEdvin)

23.04.2018
14:28:58

Если кластер не ручной (все-таки 2к18), то еще проще. Тут в соседнем чате люди топят за II, так что по серверные подходы обычно имеют смысл если это совсем критичная бага, которая еще и воспроизводится довольно часто.

Google

Alexey

23.04.2018
14:29:06

без контекста

Разбираешь каждый случай отдельно, если он не важен. Просто на все ты не настроишь, у тебя плат разных будет куча. Там так называется, тут сяк. Зоопарк. Замучаешься описывать. Потому по трабле поднимается таска, её отделяешь, рисуешь нужные графики, как решишь удаляешь. Потому что инфрастуктура растет и развивается, что тебе интересно было мониторить сегодня, завтра ты даже открывать не будешь

Favoretti

23.04.2018
14:30:17

если изначально приложения под кубер, то не будет незапланированного импакта

стейтмент не засчитан. на машине есть сервису, которые обслуживают in-flight сессии. Пристрелить эти сервисы в голову и "пересоздать" даст degraded experience как-никак. понятно, что если impact v 0.0003%, и одноразово, то оно никому неинтересно

но если пристреливать раз в 20 секунд, то наверное надо задуматься почему :)

Alexey

23.04.2018
14:30:32

Исходить нужно от реальности, а не от задачи - вдруг на одном будет повторятся и я отловлю. Это прикол из нока с их CRC ошибками на портах. В приложениях же свои причуды, железо, я тоже писал выше, не сделаешь ты универсальщину для 1к серверов )

Минимум данных - состояние приложения, дисоков, памяти, общая нагрузка. По ноде это все что надо.

Favoretti

23.04.2018
14:31:21

я б даже поспорил, что фраза "универсальный мониторинг" говорит о тотальном непонимании того, зачем мониторинг сей нужен

Alexey

23.04.2018
14:32:39

но если пристреливать раз в 20 секунд, то наверное надо задуматься почему :)

Открываешь таску и по ней работаешь. Универсальный мониторинг тебе не даст решить данную проблему. Читай выше, это сказки из НОК пришли к нам

Favoretti

23.04.2018
14:33:05

Я не защищаю универсальный мониторинг, я как раз наоборот :)

Пытаюсь сказать, что "дайте мне рецепт на 1/10/100/1000/10000 серверов" - это от лукавого.

Andor

23.04.2018
14:34:15

стейтмент не засчитан. на машине есть сервису, которые обслуживают in-flight сессии. Пристрелить эти сервисы в голову и "пересоздать" даст degraded experience как-никак. понятно, что если impact v 0.0003%, и одноразово, то оно никому неинтересно

Зависит от того, как спроектировано приложение

Favoretti

23.04.2018
14:34:16

Единственный рецепт для таких вопросов - подумай, что тебе важно в сервисе и как ты это хочешь мониторить, и что тебе надо для решения проблем. Take it from there, revise, deploy...

Зависит от того, как спроектировано приложение

Я редко видел приложения, которые отлавливают сами 100% своих failure modes.

Точнее даже никогда не видел

Google

Nklya

23.04.2018
14:35:29

И тут приходят USE и RED

Bogdan (SirEdvin)

23.04.2018
14:38:21

100% может и не отлавливает, но если вы запускаете приложение в кубере - ему нужно быть готовым, что оно в любой момент может быть остановлено и перенесено.

Alexey

23.04.2018
14:41:07

И тут приходят USE и RED

Можно поподробнее, не понял я аббревиатуры.

Nklya

23.04.2018
14:43:04

https://www.weave.works/blog/the-red-method-key-metrics-for-microservices-architecture/

http://www.brendangregg.com/USEmethod/use-linux.html

https://www.vividcortex.com/blog/monitoring-and-observability-with-use-and-red

https://www.youtube.com/watch?v=_EOvKUAwf8E&t=2398s

Alexey

23.04.2018
14:46:50

Да все первые две понятно. Я не соотнес их с входной инфой. Да use метод и есть тот самый минимум. Только бы и от него отрезал метрик. ))

Второе - мониторинг приложения. Ну собственно что я и писал выше.

Sergey

23.04.2018
15:05:29

вас всех надо анафеме предать... чем больше метрик тем больше приход в церкви (курс цифросложения ЦПШ)

Dmitry

23.04.2018
15:16:39

Ребят, а кто может по прометею подсказать? есть ли простой способ через relabel подменить порт?

я нашел похожий пример но тут вторая часть адреса захардкожена https://www.robustperception.io/controlling-the-instance-label/

отделение

23.04.2018
15:20:56

тогда что значит «подменить»?

Dmitry

23.04.2018
15:22:40

мне нужно в address заменить порт который я регекспом беру из лейбла

похоже я нашел https://gist.github.com/reachlin/a98b90afcbff4604c90c183a0169474f тут пример где берется несколько source_labels

s3rj1k

23.04.2018
16:48:24

а кто то в курсе где пром в сорцах парсит /proc/meminfo ?

Deep Sea

23.04.2018
16:54:47

а кто то в курсе где пром в сорцах парсит /proc/meminfo ?

https://github.com/prometheus/procfs

s3rj1k

23.04.2018
16:55:06

https://github.com/prometheus/procfs

там вот и нет :)

Deep Sea

23.04.2018
16:57:42

там вот и нет :)

https://github.com/prometheus/node_exporter/blob/master/collector/meminfo_linux.go

s3rj1k

23.04.2018
16:58:09

https://github.com/prometheus/node_exporter/blob/master/collector/meminfo_linux.go

о огонь, спасибо :)

Google

Alexey

23.04.2018
17:58:43

Никто не встречал метрик неудачных логинов/входов Active Directory, Windows, Linux?

Andor

23.04.2018
17:59:43

а откуда её брать?

Sergey

23.04.2018
18:01:06

Никто не встречал метрик неудачных логинов/входов Active Directory, Windows, Linux?

На линуксе это хотя бы понятно как делать.

Alexey

23.04.2018
18:03:35

В винде есть логи, зарать их можно через https://ru.m.wikipedia.org/wiki/WMI

отделение

23.04.2018
18:04:00

Никто не встречал метрик неудачных логинов/входов Active Directory, Windows, Linux?

> Active Directory кто мешает собирать badPwdCount с объектов в нём?

Andor

23.04.2018
18:04:51

В винде есть логи, зарать их можно через https://ru.m.wikipedia.org/wiki/WMI

алгоритм получения метрики готов описать на английском?

Alexey

23.04.2018
18:05:26

алгоритм получения метрики готов описать на английском?

Зачем на английском?

Andor

23.04.2018
18:05:47

затем что это язык общения в IT

Alexey

23.04.2018
18:06:12

> Active Directory кто мешает собирать badPwdCount с объектов в нём?

Есть такой экспортёр?

Andor

23.04.2018
18:06:24

вряд ли

Alexey

23.04.2018
18:07:23

затем что это язык общения в IT

Да можно, но зачем? Я на гохе тогда сразу опишу

Andor

23.04.2018
18:07:33

https://github.com/martinlindhe/wmi_exporter сюда пиши фич-реквест

Andor

23.04.2018
18:07:39

ну или пулл-реквест сразу

Alexey

23.04.2018
18:11:16

https://github.com/martinlindhe/wmi_exporter сюда пиши фич-реквест

Да, это я смотрел, там даже генератор шаблона кода есть. Спасибо, думал может кто писал уже.

А про линь не?

Andor

23.04.2018
18:12:10

лично я себе плохо представляю применимость такой метрики, поэтому я точно так же буду гуглить как и ты

Alexey

23.04.2018
18:15:05

лично я себе плохо представляю применимость такой метрики, поэтому я точно так же буду гуглить как и ты

Для алертов перебора

Andor

23.04.2018
18:15:32

на линуксе я бы поставил fail2ban и textfile exporter

Alexey

23.04.2018
18:21:19

fail2ban ок, стоит везде, а что за textfile и что с ним сделать? Извиняюсь если простое спрашиваю, только веру принимаю.

Andor

23.04.2018
18:22:15

google://textfile+prometheus

Google

Alexey

23.04.2018
18:29:05

google://textfile+prometheus

Хорошо, спасибо

GithubReleases

23.04.2018
21:17:00

influxdata/telegraf was tagged: 1.6.1 Link: https://github.comhttps://github.com/influxdata/telegraf/releases/tag/1.6.1 Release notes: Telegraf 1.6.1

Admin

ERROR: S client not available

evix

23.04.2018
21:22:49

на венде есть nxlog ce, он умеет системные журналы экспортить. в гейлог, например

GithubReleases

23.04.2018
21:52:00

influxdata/telegraf was tagged: 1.6.1 Link: https://github.comhttps://github.com/influxdata/telegraf/releases/tag/1.6.1 Release notes: Arch Platform Package SHA256 amd64 Debian [`telegraf_1.6.1-1_amd64.deb`](https://dl.influxdata.com/telegraf/releases/telegraf_1.6.1-1_amd64.deb) `4af889c8e24f1428cd5e505efaf0dac89cbb1b472da7de08dea6539dc0854fe6` amd... More

Taz

23.04.2018
21:52:11

каеф

Alexey

24.04.2018
09:29:47

grafana/grafana was tagged: v5.1.0-beta1 Link: https://github.comhttps://github.com/grafana/grafana/releases/tag/v5.1.0-beta1 Release notes: v5.1.0-beta1

Этот релиз не подписан GPG, куда это можно зарепортить, @alexanderzobnin ? $ rpm -K grafana-5.1.0-beta1.x86_64.rpm grafana-5.1.0-beta1.x86_64.rpm: sha1 md5 OK

Alexander

24.04.2018
17:42:36

Этот релиз не подписан GPG, куда это можно зарепортить, @alexanderzobnin ? $ rpm -K grafana-5.1.0-beta1.x86_64.rpm grafana-5.1.0-beta1.x86_64.rpm: sha1 md5 OK

Пофиксили, 5.1 будет подписан.

Который стабильный

Alexey

24.04.2018
17:43:38

Пофиксили, 5.1 будет подписан.

Я уж подумал, что всехх заблокировали. Мое сообщение - единственное за день. Или в РФ сегодня праздник какой?

Alexander

24.04.2018
17:44:28

Я в отпуске, но праздников, вроде, нет.

Евгений

24.04.2018
17:56:03

Я уж подумал, что всехх заблокировали. Мое сообщение - единственное за день. Или в РФ сегодня праздник какой?

Они каптчу положили, шрифты, днс и чёрт знает что ещё, как думаешь, чем все заняты?

Праздник так праздник

Alexander

24.04.2018
18:17:56

Народ, а кто-нибудь собирается на RootConf 28-29 мая? Там есть возможность замутить мини-митап.

Andrey

24.04.2018
18:42:40

хмммм

Sergey

24.04.2018
18:45:12

Питер?

Сергей

24.04.2018
18:49:02

Питер?

Москва

Gleb

25.04.2018
06:11:25

я буду, приду на митап!

Evgeny

25.04.2018
06:57:19

Возможно ли сделать warning в графане? Я хочу защититься от случая, когда пользователь запросил 100500 метрик. Сделать ограничение и если оно использовалось - показать это как нибудь, но графики все равно построить.

У меня в плагине есть ф-я top-n, но если она будет работать по умолчанию, это будет контр-интуитивно.

Google

Alexander

25.04.2018
07:27:06

Возможно ли сделать warning в графане? Я хочу защититься от случая, когда пользователь запросил 100500 метрик. Сделать ограничение и если оно использовалось - показать это как нибудь, но графики все равно построить.

Да, посмотри сервис alertSrv (или alertingSrv, не помню точно) - он всплывающие уведомления может выводить.

я буду, приду на митап!

Надо зарегистрировать там, я попробую сделать.

Evgeny

25.04.2018
07:33:46

Да, посмотри сервис alertSrv (или alertingSrv, не помню точно) - он всплывающие уведомления может выводить.

Круто, спасибо, посмотрю.

Vit

25.04.2018
07:49:26

Мы (DevOps Moscow), кстати, тоже планируем митам в Москве, 16-го числа, в Авито, на тему Мониторинга(более узко, пока ещё не отсекли). В активном поиске докладчиков. Желающие рассказать/поделиться, пишите в ЛС(чтобы тут не оффтопить). Для желающих прийти пообщаться будет анонс)

Народ, а кто-нибудь собирается на RootConf 28-29 мая? Там есть возможность замутить мини-митап.

я буду, приду на митап!

Denys ??

25.04.2018
07:53:01

Serious competition, @Civiloid - https://tsdbbench.github.io/Ultimate-TSDB-Comparison/

Там же есть бенчмарк для tsdb - https://tsdbbench.github.io/

Vladimir

25.04.2018
07:54:31

Интерфейс точно клёвый

Я бы такой хотел

Можно ему будет сделать pr

И добавить все мое

« Назад

Страница 521 из 681

Далее »

Открыть в Telegram