
Favoretti
23.04.2018
14:28:17
но customer impact от этого может быть некислым
та причем тут кубер :)

Andor
23.04.2018
14:28:47
если изначально приложения под кубер, то не будет незапланированного импакта

Bogdan (SirEdvin)
23.04.2018
14:28:58
Если кластер не ручной (все-таки 2к18), то еще проще. Тут в соседнем чате люди топят за II, так что по серверные подходы обычно имеют смысл если это совсем критичная бага, которая еще и воспроизводится довольно часто.

Google

Alexey
23.04.2018
14:29:06
без контекста
Разбираешь каждый случай отдельно, если он не важен. Просто на все ты не настроишь, у тебя плат разных будет куча. Там так называется, тут сяк. Зоопарк. Замучаешься описывать. Потому по трабле поднимается таска, её отделяешь, рисуешь нужные графики, как решишь удаляешь. Потому что инфрастуктура растет и развивается, что тебе интересно было мониторить сегодня, завтра ты даже открывать не будешь

Favoretti
23.04.2018
14:30:17
но если пристреливать раз в 20 секунд, то наверное надо задуматься почему :)

Alexey
23.04.2018
14:30:32
Исходить нужно от реальности, а не от задачи - вдруг на одном будет повторятся и я отловлю. Это прикол из нока с их CRC ошибками на портах. В приложениях же свои причуды, железо, я тоже писал выше, не сделаешь ты универсальщину для 1к серверов )
Минимум данных - состояние приложения, дисоков, памяти, общая нагрузка. По ноде это все что надо.

Favoretti
23.04.2018
14:31:21
я б даже поспорил, что фраза "универсальный мониторинг" говорит о тотальном непонимании того, зачем мониторинг сей нужен

Alexey
23.04.2018
14:32:39

Favoretti
23.04.2018
14:33:05
Я не защищаю универсальный мониторинг, я как раз наоборот :)
Пытаюсь сказать, что "дайте мне рецепт на 1/10/100/1000/10000 серверов" - это от лукавого.

Andor
23.04.2018
14:34:15

Favoretti
23.04.2018
14:34:16
Единственный рецепт для таких вопросов - подумай, что тебе важно в сервисе и как ты это хочешь мониторить, и что тебе надо для решения проблем. Take it from there, revise, deploy...
Точнее даже никогда не видел

Google

Nklya
23.04.2018
14:35:29
И тут приходят USE и RED

Bogdan (SirEdvin)
23.04.2018
14:38:21
100% может и не отлавливает, но если вы запускаете приложение в кубере - ему нужно быть готовым, что оно в любой момент может быть остановлено и перенесено.

Alexey
23.04.2018
14:41:07

Nklya
23.04.2018
14:43:04
https://www.weave.works/blog/the-red-method-key-metrics-for-microservices-architecture/
http://www.brendangregg.com/USEmethod/use-linux.html
https://www.vividcortex.com/blog/monitoring-and-observability-with-use-and-red
https://www.youtube.com/watch?v=_EOvKUAwf8E&t=2398s

Alexey
23.04.2018
14:46:50
Да все первые две понятно. Я не соотнес их с входной инфой. Да use метод и есть тот самый минимум. Только бы и от него отрезал метрик. ))
Второе - мониторинг приложения. Ну собственно что я и писал выше.

Sergey
23.04.2018
15:05:29
вас всех надо анафеме предать... чем больше метрик тем больше приход в церкви (курс цифросложения ЦПШ)

Dmitry
23.04.2018
15:16:39
Ребят, а кто может по прометею подсказать?
есть ли простой способ через relabel подменить порт?
я нашел похожий пример но тут вторая часть адреса захардкожена https://www.robustperception.io/controlling-the-instance-label/

отделение
23.04.2018
15:20:56
тогда что значит «подменить»?

Dmitry
23.04.2018
15:22:40
мне нужно в address заменить порт который я регекспом беру из лейбла
похоже я нашел https://gist.github.com/reachlin/a98b90afcbff4604c90c183a0169474f тут пример где берется несколько source_labels

s3rj1k
23.04.2018
16:48:24
а кто то в курсе где пром в сорцах парсит /proc/meminfo ?

Deep Sea
23.04.2018
16:54:47

s3rj1k
23.04.2018
16:55:06

Deep Sea
23.04.2018
16:57:42
там вот и нет :)
https://github.com/prometheus/node_exporter/blob/master/collector/meminfo_linux.go

s3rj1k
23.04.2018
16:58:09

Google

Alexey
23.04.2018
17:58:43
Никто не встречал метрик неудачных логинов/входов Active Directory, Windows, Linux?

Andor
23.04.2018
17:59:43
а откуда её брать?

Sergey
23.04.2018
18:01:06

Alexey
23.04.2018
18:03:35
В винде есть логи, зарать их можно через https://ru.m.wikipedia.org/wiki/WMI

отделение
23.04.2018
18:04:00

Andor
23.04.2018
18:04:51

Alexey
23.04.2018
18:05:26

Andor
23.04.2018
18:05:47
затем что это язык общения в IT

Alexey
23.04.2018
18:06:12

Andor
23.04.2018
18:06:24
вряд ли

Alexey
23.04.2018
18:07:23

Andor
23.04.2018
18:07:33
https://github.com/martinlindhe/wmi_exporter сюда пиши фич-реквест

Andor
23.04.2018
18:07:39
ну или пулл-реквест сразу

Alexey
23.04.2018
18:11:16
А про линь не?

Andor
23.04.2018
18:12:10
лично я себе плохо представляю применимость такой метрики, поэтому я точно так же буду гуглить как и ты

Alexey
23.04.2018
18:15:05

Andor
23.04.2018
18:15:32
на линуксе я бы поставил fail2ban и textfile exporter

Alexey
23.04.2018
18:21:19
fail2ban ок, стоит везде, а что за textfile и что с ним сделать? Извиняюсь если простое спрашиваю, только веру принимаю.

Andor
23.04.2018
18:22:15
google://textfile+prometheus

Google

Alexey
23.04.2018
18:29:05

GithubReleases
23.04.2018
21:17:00
influxdata/telegraf was tagged: 1.6.1
Link: https://github.comhttps://github.com/influxdata/telegraf/releases/tag/1.6.1
Release notes:
Telegraf 1.6.1

Admin
ERROR: S client not available

evix
23.04.2018
21:22:49
на венде есть nxlog ce, он умеет системные журналы экспортить. в гейлог, например

GithubReleases
23.04.2018
21:52:00
influxdata/telegraf was tagged: 1.6.1
Link: https://github.comhttps://github.com/influxdata/telegraf/releases/tag/1.6.1
Release notes:
Arch
Platform
Package
SHA256
amd64
Debian
[`telegraf_1.6.1-1_amd64.deb`](https://dl.influxdata.com/telegraf/releases/telegraf_1.6.1-1_amd64.deb)
`4af889c8e24f1428cd5e505efaf0dac89cbb1b472da7de08dea6539dc0854fe6`
amd...
More

Taz
23.04.2018
21:52:11
каеф

Alexey
24.04.2018
09:29:47

Alexander
24.04.2018
17:42:36
Который стабильный

Alexey
24.04.2018
17:43:38

Alexander
24.04.2018
17:44:28
Я в отпуске, но праздников, вроде, нет.

Евгений
24.04.2018
17:56:03
Праздник так праздник

Alexander
24.04.2018
18:17:56
Народ, а кто-нибудь собирается на RootConf 28-29 мая? Там есть возможность замутить мини-митап.

Andrey
24.04.2018
18:42:40
хмммм

Sergey
24.04.2018
18:45:12
Питер?

Сергей
24.04.2018
18:49:02

Gleb
25.04.2018
06:11:25
я буду, приду на митап!

Evgeny
25.04.2018
06:57:19
Возможно ли сделать warning в графане? Я хочу защититься от случая, когда пользователь запросил 100500 метрик. Сделать ограничение и если оно использовалось - показать это как нибудь, но графики все равно построить.
У меня в плагине есть ф-я top-n, но если она будет работать по умолчанию, это будет контр-интуитивно.

Google

Alexander
25.04.2018
07:27:06

Evgeny
25.04.2018
07:33:46

Vit
25.04.2018
07:49:26
Мы (DevOps Moscow), кстати, тоже планируем митам в Москве, 16-го числа, в Авито, на тему Мониторинга(более узко, пока ещё не отсекли). В активном поиске докладчиков. Желающие рассказать/поделиться, пишите в ЛС(чтобы тут не оффтопить). Для желающих прийти пообщаться будет анонс)
Народ, а кто-нибудь собирается на RootConf 28-29 мая? Там есть возможность замутить мини-митап.
я буду, приду на митап!

Denys ??
25.04.2018
07:53:01
Serious competition, @Civiloid - https://tsdbbench.github.io/Ultimate-TSDB-Comparison/
Там же есть бенчмарк для tsdb - https://tsdbbench.github.io/

Vladimir
25.04.2018
07:54:31
Интерфейс точно клёвый
Я бы такой хотел
Можно ему будет сделать pr
И добавить все мое