@metrics_ru

Страница 521 из 681
Favoretti
23.04.2018
14:28:17
но customer impact от этого может быть некислым

та причем тут кубер :)

Andor
23.04.2018
14:28:47
если изначально приложения под кубер, то не будет незапланированного импакта

Bogdan (SirEdvin)
23.04.2018
14:28:58
Если кластер не ручной (все-таки 2к18), то еще проще. Тут в соседнем чате люди топят за II, так что по серверные подходы обычно имеют смысл если это совсем критичная бага, которая еще и воспроизводится довольно часто.

Google
Alexey
23.04.2018
14:29:06
без контекста
Разбираешь каждый случай отдельно, если он не важен. Просто на все ты не настроишь, у тебя плат разных будет куча. Там так называется, тут сяк. Зоопарк. Замучаешься описывать. Потому по трабле поднимается таска, её отделяешь, рисуешь нужные графики, как решишь удаляешь. Потому что инфрастуктура растет и развивается, что тебе интересно было мониторить сегодня, завтра ты даже открывать не будешь

Favoretti
23.04.2018
14:30:17
если изначально приложения под кубер, то не будет незапланированного импакта
стейтмент не засчитан. на машине есть сервису, которые обслуживают in-flight сессии. Пристрелить эти сервисы в голову и "пересоздать" даст degraded experience как-никак. понятно, что если impact v 0.0003%, и одноразово, то оно никому неинтересно

но если пристреливать раз в 20 секунд, то наверное надо задуматься почему :)

Alexey
23.04.2018
14:30:32
Исходить нужно от реальности, а не от задачи - вдруг на одном будет повторятся и я отловлю. Это прикол из нока с их CRC ошибками на портах. В приложениях же свои причуды, железо, я тоже писал выше, не сделаешь ты универсальщину для 1к серверов )

Минимум данных - состояние приложения, дисоков, памяти, общая нагрузка. По ноде это все что надо.

Favoretti
23.04.2018
14:31:21
я б даже поспорил, что фраза "универсальный мониторинг" говорит о тотальном непонимании того, зачем мониторинг сей нужен

Alexey
23.04.2018
14:32:39
но если пристреливать раз в 20 секунд, то наверное надо задуматься почему :)
Открываешь таску и по ней работаешь. Универсальный мониторинг тебе не даст решить данную проблему. Читай выше, это сказки из НОК пришли к нам

Favoretti
23.04.2018
14:33:05
Я не защищаю универсальный мониторинг, я как раз наоборот :)

Пытаюсь сказать, что "дайте мне рецепт на 1/10/100/1000/10000 серверов" - это от лукавого.

Favoretti
23.04.2018
14:34:16
Единственный рецепт для таких вопросов - подумай, что тебе важно в сервисе и как ты это хочешь мониторить, и что тебе надо для решения проблем. Take it from there, revise, deploy...

Зависит от того, как спроектировано приложение
Я редко видел приложения, которые отлавливают сами 100% своих failure modes.

Точнее даже никогда не видел

Google
Nklya
23.04.2018
14:35:29
И тут приходят USE и RED

Bogdan (SirEdvin)
23.04.2018
14:38:21
100% может и не отлавливает, но если вы запускаете приложение в кубере - ему нужно быть готовым, что оно в любой момент может быть остановлено и перенесено.

Alexey
23.04.2018
14:41:07
И тут приходят USE и RED
Можно поподробнее, не понял я аббревиатуры.

Nklya
23.04.2018
14:43:04
https://www.weave.works/blog/the-red-method-key-metrics-for-microservices-architecture/

http://www.brendangregg.com/USEmethod/use-linux.html

https://www.vividcortex.com/blog/monitoring-and-observability-with-use-and-red

https://www.youtube.com/watch?v=_EOvKUAwf8E&t=2398s

Alexey
23.04.2018
14:46:50
Да все первые две понятно. Я не соотнес их с входной инфой. Да use метод и есть тот самый минимум. Только бы и от него отрезал метрик. ))

Второе - мониторинг приложения. Ну собственно что я и писал выше.

Sergey
23.04.2018
15:05:29
вас всех надо анафеме предать... чем больше метрик тем больше приход в церкви (курс цифросложения ЦПШ)

Dmitry
23.04.2018
15:16:39
Ребят, а кто может по прометею подсказать? есть ли простой способ через relabel подменить порт?

я нашел похожий пример но тут вторая часть адреса захардкожена https://www.robustperception.io/controlling-the-instance-label/

отделение
23.04.2018
15:20:56
тогда что значит «подменить»?

Dmitry
23.04.2018
15:22:40
мне нужно в address заменить порт который я регекспом беру из лейбла

похоже я нашел https://gist.github.com/reachlin/a98b90afcbff4604c90c183a0169474f тут пример где берется несколько source_labels

s3rj1k
23.04.2018
16:48:24
а кто то в курсе где пром в сорцах парсит /proc/meminfo ?

Deep Sea
23.04.2018
16:54:47
s3rj1k
23.04.2018
16:55:06
https://github.com/prometheus/procfs
там вот и нет :)

Deep Sea
23.04.2018
16:57:42
там вот и нет :)
https://github.com/prometheus/node_exporter/blob/master/collector/meminfo_linux.go

s3rj1k
23.04.2018
16:58:09
Google
Alexey
23.04.2018
17:58:43
Никто не встречал метрик неудачных логинов/входов Active Directory, Windows, Linux?

Andor
23.04.2018
17:59:43
а откуда её брать?

Sergey
23.04.2018
18:01:06
Alexey
23.04.2018
18:03:35
В винде есть логи, зарать их можно через https://ru.m.wikipedia.org/wiki/WMI

отделение
23.04.2018
18:04:00
Никто не встречал метрик неудачных логинов/входов Active Directory, Windows, Linux?
> Active Directory кто мешает собирать badPwdCount с объектов в нём?

Andor
23.04.2018
18:04:51
В винде есть логи, зарать их можно через https://ru.m.wikipedia.org/wiki/WMI
алгоритм получения метрики готов описать на английском?

Andor
23.04.2018
18:05:47
затем что это язык общения в IT

Andor
23.04.2018
18:06:24
вряд ли

Alexey
23.04.2018
18:07:23
затем что это язык общения в IT
Да можно, но зачем? Я на гохе тогда сразу опишу

Andor
23.04.2018
18:07:33
https://github.com/martinlindhe/wmi_exporter сюда пиши фич-реквест

Andor
23.04.2018
18:07:39
ну или пулл-реквест сразу

Alexey
23.04.2018
18:11:16
https://github.com/martinlindhe/wmi_exporter сюда пиши фич-реквест
Да, это я смотрел, там даже генератор шаблона кода есть. Спасибо, думал может кто писал уже.

А про линь не?

Andor
23.04.2018
18:12:10
лично я себе плохо представляю применимость такой метрики, поэтому я точно так же буду гуглить как и ты

Andor
23.04.2018
18:15:32
на линуксе я бы поставил fail2ban и textfile exporter

Alexey
23.04.2018
18:21:19
fail2ban ок, стоит везде, а что за textfile и что с ним сделать? Извиняюсь если простое спрашиваю, только веру принимаю.

Andor
23.04.2018
18:22:15
google://textfile+prometheus

Google
Alexey
23.04.2018
18:29:05
google://textfile+prometheus
Хорошо, спасибо

GithubReleases
23.04.2018
21:17:00
influxdata/telegraf was tagged: 1.6.1 Link: https://github.comhttps://github.com/influxdata/telegraf/releases/tag/1.6.1 Release notes: Telegraf 1.6.1

Admin
ERROR: S client not available

evix
23.04.2018
21:22:49
на венде есть nxlog ce, он умеет системные журналы экспортить. в гейлог, например

GithubReleases
23.04.2018
21:52:00
influxdata/telegraf was tagged: 1.6.1 Link: https://github.comhttps://github.com/influxdata/telegraf/releases/tag/1.6.1 Release notes: Arch Platform Package SHA256 amd64 Debian [`telegraf_1.6.1-1_amd64.deb`](https://dl.influxdata.com/telegraf/releases/telegraf_1.6.1-1_amd64.deb) `4af889c8e24f1428cd5e505efaf0dac89cbb1b472da7de08dea6539dc0854fe6` amd... More

Taz
23.04.2018
21:52:11
каеф

Alexey
24.04.2018
09:29:47
grafana/grafana was tagged: v5.1.0-beta1 Link: https://github.comhttps://github.com/grafana/grafana/releases/tag/v5.1.0-beta1 Release notes: v5.1.0-beta1
Этот релиз не подписан GPG, куда это можно зарепортить, @alexanderzobnin ? $ rpm -K grafana-5.1.0-beta1.x86_64.rpm grafana-5.1.0-beta1.x86_64.rpm: sha1 md5 OK

Alexey
24.04.2018
17:43:38
Пофиксили, 5.1 будет подписан.
Я уж подумал, что всехх заблокировали. Мое сообщение - единственное за день. Или в РФ сегодня праздник какой?

Alexander
24.04.2018
17:44:28
Я в отпуске, но праздников, вроде, нет.

Евгений
24.04.2018
17:56:03
Я уж подумал, что всехх заблокировали. Мое сообщение - единственное за день. Или в РФ сегодня праздник какой?
Они каптчу положили, шрифты, днс и чёрт знает что ещё, как думаешь, чем все заняты?

Праздник так праздник

Alexander
24.04.2018
18:17:56
Народ, а кто-нибудь собирается на RootConf 28-29 мая? Там есть возможность замутить мини-митап.

Andrey
24.04.2018
18:42:40
хмммм

Sergey
24.04.2018
18:45:12
Питер?

Сергей
24.04.2018
18:49:02
Питер?
Москва

Gleb
25.04.2018
06:11:25
я буду, приду на митап!

Evgeny
25.04.2018
06:57:19
Возможно ли сделать warning в графане? Я хочу защититься от случая, когда пользователь запросил 100500 метрик. Сделать ограничение и если оно использовалось - показать это как нибудь, но графики все равно построить.

У меня в плагине есть ф-я top-n, но если она будет работать по умолчанию, это будет контр-интуитивно.

Google
Alexander
25.04.2018
07:27:06
я буду, приду на митап!
Надо зарегистрировать там, я попробую сделать.

Vit
25.04.2018
07:49:26
Мы (DevOps Moscow), кстати, тоже планируем митам в Москве, 16-го числа, в Авито, на тему Мониторинга(более узко, пока ещё не отсекли). В активном поиске докладчиков. Желающие рассказать/поделиться, пишите в ЛС(чтобы тут не оффтопить). Для желающих прийти пообщаться будет анонс)

Народ, а кто-нибудь собирается на RootConf 28-29 мая? Там есть возможность замутить мини-митап.

я буду, приду на митап!

Denys ??
25.04.2018
07:53:01
Serious competition, @Civiloid - https://tsdbbench.github.io/Ultimate-TSDB-Comparison/

Там же есть бенчмарк для tsdb - https://tsdbbench.github.io/

Vladimir
25.04.2018
07:54:31
Интерфейс точно клёвый

Я бы такой хотел

Можно ему будет сделать pr

И добавить все мое

Страница 521 из 681