@metrics_ru

Страница 535 из 681

Andor

16.05.2018
09:07:49

короче к чему это я

если ты посмотришь внимательно как некоторый софт высчитывает "утилизацию диска", то ты сам ответишь на вопрос, как эту метрику получать

но ты почти наверняка тогда же и поймёшь насколько оно пальцем в небо

Andrew

16.05.2018
09:09:18

но ты почти наверняка тогда же и поймёшь насколько оно пальцем в небо

то что оно пальцем в небо это я уже понял проблема в том что это пальцем в небо помогало понимать что есть проблемы с дисками и нужно что-то делать диски сейчас головная боль и хочется ее решить что можете посоветовать в прометее кроме стандартного node_exporter

Google

Andrew

16.05.2018
09:09:40

если ты посмотришь внимательно как некоторый софт высчитывает "утилизацию диска", то ты сам ответишь на вопрос, как эту метрику получать

я возможно плохо искал но может вы подскажите где посмотреть как например тотже iostat считает утилизацию

Andor

16.05.2018
09:10:00

он считает длины дисковых очередей, насколько я помню

Deep Sea

16.05.2018
09:10:03

iowait это не нагрузка

Andor

16.05.2018
09:10:18

не помню как именно

года два назад разбирался, а щас уже забыл

Artem

16.05.2018
09:10:37

курить меньше надо)

Andrew

16.05.2018
09:12:23

iowait это не нагрузка

кажется что iowait как раз случается после того как утилизация близка к 100% вроде как другая метрика вообще поправьте если не прав

Deep Sea

16.05.2018
09:13:20

iowait это просто ожидание io, оно может быть вызвано чем угодно, в частности может указывать на "высокую утилизацию", но это не всегда

evix

16.05.2018
09:13:25

какая утилизация-то?

Andor

16.05.2018
09:13:37

утильная!

Deep Sea

16.05.2018
09:13:45

и высокая!

evix

16.05.2018
09:16:11

кажется что iowait как раз случается после того как утилизация близка к 100% вроде как другая метрика вообще поправьте если не прав

ты сравниваешь текущий kb_read с рандомным read, который тебе производитель диска написал, и получаешь "утилизацию"

ток она неправильная немношк

Google

evix

16.05.2018
09:16:40

вообще она неправильная

Andrew

16.05.2018
09:17:18

в общем в прометее нашел что-то подобное irate(node_disk_io_time_ms{instance=~"$node"}[5m])/10

Deep Sea

16.05.2018
09:17:47

в общем в прометее нашел что-то подобное irate(node_disk_io_time_ms{instance=~"$node"}[5m])/10

это тоже пальцем в небо

Andrew

16.05.2018
09:19:44

это тоже пальцем в небо

как уже выяснили выше считать утилизейшн это пальцем в небо вообще

Nklya

16.05.2018
09:20:12

в общем в прометее нашел что-то подобное irate(node_disk_io_time_ms{instance=~"$node"}[5m])/10

Что как бы говорит о том, что в node_exporter все уже есть

Deep Sea

16.05.2018
09:20:13

абстрактный "утилизейшн" - да, конкретные метрики - нет

evix

16.05.2018
09:20:28

ну и не считай её. считай прирост

Andrew

16.05.2018
09:24:06

ну и не считай её. считай прирост

прирост чего

evix

16.05.2018
09:26:01

ну что там тебе критично. иопсы, очереди, объемы

Deep Sea

16.05.2018
09:27:40

https://stackoverflow.com/a/4528813 к слову как iostat считает

Andrew

16.05.2018
09:28:07

https://stackoverflow.com/a/4528813 к слову как iostat считает

вот спасибо

но насчет того что утилизейшн это пальцем в небо когда я ловил утилизейшн в 100% всегда был пиздец

Deep Sea

16.05.2018
09:31:00

речь была про предложенные выше "способы измерения"

Andor

16.05.2018
09:31:38

просто в этой самой утилизации кроме 100% вообще нет ни одного значения имеющего смысл

да и эти 100% тоже не всегда плохо

evix

16.05.2018
09:32:09

для контеенера это даже ок, наверное

у нас на тачках для какой-то математики и анализа почти всегда 100% по цпу. так что алерт стоит на цпу<80%

Vasilii

16.05.2018
09:34:25

при утилизации выше 70% обычно начинает нестабильно svctime себя вести

Sergey

16.05.2018
09:44:09

когда тема затихнет можно начать про CPU LA :)

Deep Sea

16.05.2018
09:44:45

LA к CPU никакого отношения не имеет

Google

Nklya

16.05.2018
09:45:19

Брендан уже все написал про это http://www.brendangregg.com/blog/2017-08-08/linux-load-averages.html

Sergey

16.05.2018
09:45:46

ага, но его все меряют и на него смотрят... неуловимо похож на disk usage, разве что не в процентах

Andor

16.05.2018
09:45:58

когда тема затихнет можно начать про CPU LA :)

а ты хорош!

Алексей

16.05.2018
09:46:13

ага, но его все меряют и на него смотрят... неуловимо похож на disk usage, разве что не в процентах

А что такое дискюсадж?

Я чот пропустил?

Sergey

16.05.2018
09:46:57

буквально 10 строк выше

Алексей

16.05.2018
09:47:21

А ок

Evgeny

16.05.2018
09:48:01

ну смысле холт-винтерс вообще хорошо себя показывает только если коэффициенты подобраны

Ну так это логично. Это же модель процесса по сути. Параметры автоматически подбирать можно.

Алексей

16.05.2018
09:51:24

Ну так это логично. Это же модель процесса по сути. Параметры автоматически подбирать можно.

Врятли можно хорошо подобрать параметры для сетевого трафика чтобы холт показывал не погоду

Andrew

16.05.2018
10:04:44

так вот хотел бы услышать как лучше мониторить диски? возможно есть уже готовые дашборды в графане? возможно кто-то уже знает статьи куда читать

Vasilii

16.05.2018
10:09:55

мониторить надо сервисы, а не компоненты

Andor

16.05.2018
10:10:17

компоненты тоже надо

Vasilii

16.05.2018
10:10:25

реши что тебе нужно от дисков и тогда уже будет понятно как их мониторить

Andor

16.05.2018
10:10:27

чтобы знать чо чинить

Nklya

16.05.2018
10:12:31

метрик мало не бывает А вот алертить лучше на недоступность сервисов, которые затрагивают функциональность, да

Andor

16.05.2018
10:12:47

и алертить тоже по-разному

вылетел диск - менять надо

но для сервиса не критично, так что не надо никого будить

Vasilii

16.05.2018
10:13:21

просто для базы нужно чтобы диск отвечал на 99% за определенное время, для видеохостинга чтобы отдавал нужную скорость потока, а для стораджа на рейдах чтобы не было ошибок

диск как железку мониторить не нужно, нужно понять какие сервисы диск предоставляет остальным и мониторить эти сервисы

Google

Andor

16.05.2018
10:14:06

нужно

чтобы знать если диск помирает и надо менять

даже если это не аффектит сервис

Vasilii

16.05.2018
10:14:40

ну тогда вперед, мониторьте усилие закручивание болтиков на материнке, а что тоже важный компонент

Andor

16.05.2018
10:14:55

ты менеджер небось?

Sergey

16.05.2018
10:15:24

подозреваю что на заводах по сборке это меряют и записывают :)

Valentin

16.05.2018
10:15:54

и алертят !

Andor

16.05.2018
10:15:56

да там запросто поверенными динамометрическими ключами закручивать могут

регулярно проверяемыми (что по сути тоже мониторинг)

Vasilii

16.05.2018
10:16:13

ну у них это сервис - собрать машинки чтобы работали

Valentin

16.05.2018
10:16:44

машина ездит - зачем масло менять?

Andor

16.05.2018
10:16:45

ты хочешь сказать что диски вообще мониторить не надо?

или что?

Vasilii

16.05.2018
10:16:49

я на AWS мониторю ровно один параметр - %свободного места

Andor

16.05.2018
10:17:11

я на AWS мониторю ровно один параметр - %свободного места

а зачем? нет чтобы только сервис мониторить!

а потом "ой, чота сервис тормозит, а чо делать - хз"

Sergey

16.05.2018
10:17:25

Василий же написал почти все полезные метрики чуть выше и в каких кейсах они нужны

Vasilii

16.05.2018
10:17:34

потому что мне нужно от дисков чтобы они мне давали сохранить данные

Sergey

16.05.2018
10:18:01

это потому что ты на темной стороне силы :)

Valentin

16.05.2018
10:18:16

так вот хотел бы услышать как лучше мониторить диски? возможно есть уже готовые дашборды в графане? возможно кто-то уже знает статьи куда читать

забикс?

Google

Sergey

16.05.2018
10:18:31

тем кто тебе этот сервис предоставляет нужно мерять всю внутрянку которую может выдать железка

Andor

16.05.2018
10:18:37

потому что мне нужно от дисков чтобы они мне давали сохранить данные

почему не s3? (сервис)

тем кто тебе этот сервис предоставляет нужно мерять всю внутрянку которую может выдать железка

ппкс зависит от того, где границы сервиса, который ты предоставляешь

Vasilii

16.05.2018
10:35:48

Ага, я тоже самое и говорю, важно не какой компонент мониторить, а какой сервис от него требуется

Последнее время склоняюсь к тому что на большинство сбоев надо иметь чеклист что проверять и что переключать, а по этому чеклисту уже делаются дашборды в мониторинге чтобы ускорить проверку

Andor

16.05.2018
10:43:57

конечно

про это куча статей написано

но вот давай например возьмём сервис "хранилище данных", которое реализуется ceph'ом

для примера

тебя не будет интересовать выход дисков из строя, например?

Nklya

16.05.2018
10:47:04

"хранилище данных" это тоже сервис для других комманд, соответственно его мониторингом заинтересована команда, его предоставляющая

Andor

16.05.2018
10:47:49

конечно

и производительность (QoS) самого сервиса и состояние внутренностей, включая диски

Антон

16.05.2018
10:51:13

Привет, кто нить может подсказать, как мониторить доступность NFS шары через Alertmanager?

Andor

16.05.2018
10:52:07

никак, алертменеджер не умеет мониторить

Антон

16.05.2018
10:53:51

я имею ввиду какое условие написать в alert, если на сервере стоит node_exporter, там из похожего нашел ток node_filesystem_device_error{fstype="nfs"} но это не совсем то что надо

Pablo

16.05.2018
12:45:12

Через медиану, берём данные по этой метрике за N предыдущих дней/недель (timeSlice), получаем N метрик, выкидываем 95 персентили (чтобы отсечь пики и падения) и строим медиану по этой группе метрик, получаем бейзлайн.

имХо как раз обрезание краев даёт высокий false positive, который является основной проблемой со всеми автоматическими anomaly детекторами. Но без отбрасывания пиков оно наоборот перестает "настоящие" аномалии выявлять))

Я знаю как это глазами определить, не о ручной работе речь

Фурье берешь и если есть мода на частоте соответствующей дню/неделе - значит сезонность

Sergey

16.05.2018
12:46:23

имХо как раз обрезание краев даёт высокий false positive, который является основной проблемой со всеми автоматическими anomaly детекторами. Но без отбрасывания пиков оно наоборот перестает "настоящие" аномалии выявлять))

люто удваиваю этого человека.

Pablo

16.05.2018
12:50:08

~slow poke mode off~

Paul

16.05.2018
13:48:38

коллеги, а я правильно понимаю, что bosun умер?

« Назад

Страница 535 из 681

Далее »

Открыть в Telegram