@metrics_ru

Страница 535 из 681
Andor
16.05.2018
09:07:49
короче к чему это я

если ты посмотришь внимательно как некоторый софт высчитывает "утилизацию диска", то ты сам ответишь на вопрос, как эту метрику получать

но ты почти наверняка тогда же и поймёшь насколько оно пальцем в небо

Andrew
16.05.2018
09:09:18
но ты почти наверняка тогда же и поймёшь насколько оно пальцем в небо
то что оно пальцем в небо это я уже понял проблема в том что это пальцем в небо помогало понимать что есть проблемы с дисками и нужно что-то делать диски сейчас головная боль и хочется ее решить что можете посоветовать в прометее кроме стандартного node_exporter

Google
Andrew
16.05.2018
09:09:40
если ты посмотришь внимательно как некоторый софт высчитывает "утилизацию диска", то ты сам ответишь на вопрос, как эту метрику получать
я возможно плохо искал но может вы подскажите где посмотреть как например тотже iostat считает утилизацию

Andor
16.05.2018
09:10:00
он считает длины дисковых очередей, насколько я помню

Deep Sea
16.05.2018
09:10:03
iowait это не нагрузка

Andor
16.05.2018
09:10:18
не помню как именно

года два назад разбирался, а щас уже забыл

Artem
16.05.2018
09:10:37
курить меньше надо)

Andrew
16.05.2018
09:12:23
iowait это не нагрузка
кажется что iowait как раз случается после того как утилизация близка к 100% вроде как другая метрика вообще поправьте если не прав

Deep Sea
16.05.2018
09:13:20
iowait это просто ожидание io, оно может быть вызвано чем угодно, в частности может указывать на "высокую утилизацию", но это не всегда

evix
16.05.2018
09:13:25
какая утилизация-то?

Andor
16.05.2018
09:13:37
утильная!

Deep Sea
16.05.2018
09:13:45
и высокая!

evix
16.05.2018
09:16:11
кажется что iowait как раз случается после того как утилизация близка к 100% вроде как другая метрика вообще поправьте если не прав
ты сравниваешь текущий kb_read с рандомным read, который тебе производитель диска написал, и получаешь "утилизацию"

ток она неправильная немношк

Google
evix
16.05.2018
09:16:40
вообще она неправильная

Andrew
16.05.2018
09:17:18
в общем в прометее нашел что-то подобное irate(node_disk_io_time_ms{instance=~"$node"}[5m])/10

Andrew
16.05.2018
09:19:44
это тоже пальцем в небо
как уже выяснили выше считать утилизейшн это пальцем в небо вообще

Nklya
16.05.2018
09:20:12
в общем в прометее нашел что-то подобное irate(node_disk_io_time_ms{instance=~"$node"}[5m])/10
Что как бы говорит о том, что в node_exporter все уже есть

Deep Sea
16.05.2018
09:20:13
абстрактный "утилизейшн" - да, конкретные метрики - нет

evix
16.05.2018
09:20:28
ну и не считай её. считай прирост

Andrew
16.05.2018
09:24:06
evix
16.05.2018
09:26:01
ну что там тебе критично. иопсы, очереди, объемы

Deep Sea
16.05.2018
09:27:40
https://stackoverflow.com/a/4528813 к слову как iostat считает

Andrew
16.05.2018
09:28:07
но насчет того что утилизейшн это пальцем в небо когда я ловил утилизейшн в 100% всегда был пиздец

Deep Sea
16.05.2018
09:31:00
речь была про предложенные выше "способы измерения"

Andor
16.05.2018
09:31:38
просто в этой самой утилизации кроме 100% вообще нет ни одного значения имеющего смысл

да и эти 100% тоже не всегда плохо

evix
16.05.2018
09:32:09
для контеенера это даже ок, наверное

у нас на тачках для какой-то математики и анализа почти всегда 100% по цпу. так что алерт стоит на цпу<80%

Vasilii
16.05.2018
09:34:25
при утилизации выше 70% обычно начинает нестабильно svctime себя вести

Sergey
16.05.2018
09:44:09
когда тема затихнет можно начать про CPU LA :)

Deep Sea
16.05.2018
09:44:45
LA к CPU никакого отношения не имеет

Google
Nklya
16.05.2018
09:45:19
Брендан уже все написал про это http://www.brendangregg.com/blog/2017-08-08/linux-load-averages.html

Sergey
16.05.2018
09:45:46
ага, но его все меряют и на него смотрят... неуловимо похож на disk usage, разве что не в процентах

Sergey
16.05.2018
09:46:57
буквально 10 строк выше

Алексей
16.05.2018
09:47:21
А ок

Evgeny
16.05.2018
09:48:01
ну смысле холт-винтерс вообще хорошо себя показывает только если коэффициенты подобраны
Ну так это логично. Это же модель процесса по сути. Параметры автоматически подбирать можно.

Алексей
16.05.2018
09:51:24
Ну так это логично. Это же модель процесса по сути. Параметры автоматически подбирать можно.
Врятли можно хорошо подобрать параметры для сетевого трафика чтобы холт показывал не погоду

Andrew
16.05.2018
10:04:44
так вот хотел бы услышать как лучше мониторить диски? возможно есть уже готовые дашборды в графане? возможно кто-то уже знает статьи куда читать

Vasilii
16.05.2018
10:09:55
мониторить надо сервисы, а не компоненты

Andor
16.05.2018
10:10:17
компоненты тоже надо

Vasilii
16.05.2018
10:10:25
реши что тебе нужно от дисков и тогда уже будет понятно как их мониторить

Andor
16.05.2018
10:10:27
чтобы знать чо чинить

Nklya
16.05.2018
10:12:31
метрик мало не бывает А вот алертить лучше на недоступность сервисов, которые затрагивают функциональность, да

Andor
16.05.2018
10:12:47
и алертить тоже по-разному

вылетел диск - менять надо

но для сервиса не критично, так что не надо никого будить

Vasilii
16.05.2018
10:13:21
просто для базы нужно чтобы диск отвечал на 99% за определенное время, для видеохостинга чтобы отдавал нужную скорость потока, а для стораджа на рейдах чтобы не было ошибок

диск как железку мониторить не нужно, нужно понять какие сервисы диск предоставляет остальным и мониторить эти сервисы

Google
Andor
16.05.2018
10:14:06
нужно

чтобы знать если диск помирает и надо менять

даже если это не аффектит сервис

Vasilii
16.05.2018
10:14:40
ну тогда вперед, мониторьте усилие закручивание болтиков на материнке, а что тоже важный компонент

Andor
16.05.2018
10:14:55
ты менеджер небось?

Sergey
16.05.2018
10:15:24
подозреваю что на заводах по сборке это меряют и записывают :)

Valentin
16.05.2018
10:15:54
и алертят !

Andor
16.05.2018
10:15:56
да там запросто поверенными динамометрическими ключами закручивать могут

регулярно проверяемыми (что по сути тоже мониторинг)

Vasilii
16.05.2018
10:16:13
ну у них это сервис - собрать машинки чтобы работали

Valentin
16.05.2018
10:16:44
машина ездит - зачем масло менять?

Andor
16.05.2018
10:16:45
ты хочешь сказать что диски вообще мониторить не надо?

или что?

Vasilii
16.05.2018
10:16:49
я на AWS мониторю ровно один параметр - %свободного места

Andor
16.05.2018
10:17:11
я на AWS мониторю ровно один параметр - %свободного места
а зачем? нет чтобы только сервис мониторить!

а потом "ой, чота сервис тормозит, а чо делать - хз"

Sergey
16.05.2018
10:17:25
Василий же написал почти все полезные метрики чуть выше и в каких кейсах они нужны

Vasilii
16.05.2018
10:17:34
потому что мне нужно от дисков чтобы они мне давали сохранить данные

Sergey
16.05.2018
10:18:01
это потому что ты на темной стороне силы :)

Google
Sergey
16.05.2018
10:18:31
тем кто тебе этот сервис предоставляет нужно мерять всю внутрянку которую может выдать железка

Vasilii
16.05.2018
10:35:48
Ага, я тоже самое и говорю, важно не какой компонент мониторить, а какой сервис от него требуется

Последнее время склоняюсь к тому что на большинство сбоев надо иметь чеклист что проверять и что переключать, а по этому чеклисту уже делаются дашборды в мониторинге чтобы ускорить проверку

Andor
16.05.2018
10:43:57
конечно

про это куча статей написано

но вот давай например возьмём сервис "хранилище данных", которое реализуется ceph'ом

для примера

тебя не будет интересовать выход дисков из строя, например?

Nklya
16.05.2018
10:47:04
"хранилище данных" это тоже сервис для других комманд, соответственно его мониторингом заинтересована команда, его предоставляющая

Andor
16.05.2018
10:47:49
конечно

и производительность (QoS) самого сервиса и состояние внутренностей, включая диски

Антон
16.05.2018
10:51:13
Привет, кто нить может подсказать, как мониторить доступность NFS шары через Alertmanager?

Andor
16.05.2018
10:52:07
никак, алертменеджер не умеет мониторить

Антон
16.05.2018
10:53:51
я имею ввиду какое условие написать в alert, если на сервере стоит node_exporter, там из похожего нашел ток node_filesystem_device_error{fstype="nfs"} но это не совсем то что надо

Pablo
16.05.2018
12:45:12
Через медиану, берём данные по этой метрике за N предыдущих дней/недель (timeSlice), получаем N метрик, выкидываем 95 персентили (чтобы отсечь пики и падения) и строим медиану по этой группе метрик, получаем бейзлайн.
имХо как раз обрезание краев даёт высокий false positive, который является основной проблемой со всеми автоматическими anomaly детекторами. Но без отбрасывания пиков оно наоборот перестает "настоящие" аномалии выявлять))

Я знаю как это глазами определить, не о ручной работе речь
Фурье берешь и если есть мода на частоте соответствующей дню/неделе - значит сезонность

Pablo
16.05.2018
12:50:08
~slow poke mode off~

Paul
16.05.2018
13:48:38
коллеги, а я правильно понимаю, что bosun умер?

Страница 535 из 681