
Andor
05.03.2018
19:55:24
Какие ещё алерты? Графановские что ли?

Denys ??
05.03.2018
19:55:50
Да и вообще проблемы с самими алертами

Алексей
05.03.2018
19:56:00
тут есть девопсы ?!
эти повелители ci и golang-еры

Google

Robert
05.03.2018
19:56:46
Тут кругом девопсы

Алексей
05.03.2018
19:56:59
5-ая графана уже вышла. а у нас все еще нет бекенд плагина для генерации алертов в сторону прома!

dmage
05.03.2018
19:57:00
заводы стоят в стране одни девопсы

Алексей
05.03.2018
19:57:05
вызов!

Robert
05.03.2018
19:57:08
Devops, devops everywhere

Denys ??
05.03.2018
19:57:17
Ну и вообще, надёжность мониторинга должна быть выше надежности мониторингуемой системы

Wom
05.03.2018
19:57:49
сегодня вот такое нашёл - http://devopswiki.net/

Denys ??
05.03.2018
19:58:06
Девопсы устали. Тасков много, а я одна (ц)

Евгений
05.03.2018
19:59:18

Wom
05.03.2018
20:00:41
в штуках

Евгений
05.03.2018
20:00:53

dmage
05.03.2018
20:01:12

Алексей
05.03.2018
20:01:15
в девопсах увезенных в лес

Google

dmage
05.03.2018
20:01:26
которые появятся в диаметре, после провала надежности

Алексей
05.03.2018
20:01:29
одна надежность = 10 девопсов в лесу

Sergey
05.03.2018
20:01:30

Евгений
05.03.2018
20:01:47

Robert
05.03.2018
20:02:20
Так чем больше девопсов в лесу тем лучше или хуже? Я не понял

Евгений
05.03.2018
20:02:22

Алексей
05.03.2018
20:02:51
видимо нужна серьезная надежность.

Robert
05.03.2018
20:04:30
Пальмиру брали наверное

Bogdan (SirEdvin)
05.03.2018
20:06:31

Andrew
05.03.2018
20:07:26

Alexander
05.03.2018
20:07:37

Andrew
05.03.2018
20:09:09
Молодой кликхаус как исключение подтверждающее правило?
Правда он впринципе далёк от "нормальных рсубд" ))

Алексей
05.03.2018
20:11:11
и он не рсубд

Andrew
05.03.2018
20:11:40
Про просрать так себе аргумент. Чем неумение в acid хуже drop database?

Andor
05.03.2018
20:11:57
там уже можно обновлять записи?

Denys ??
05.03.2018
20:13:53

Евгений
05.03.2018
20:14:34
uptime?
Работать с ошибкой хуже чем не работать вообще

Google

Andor
05.03.2018
20:14:44
а если аптайм высокий, а данные протерялись? %)

Denys ??
05.03.2018
20:15:04

Andrew
05.03.2018
20:15:37
Я думал мы метрики обсуждаем :-/

Andor
05.03.2018
20:15:41
можно, если очень постараться, но так себе идея наверное

Andrew
05.03.2018
20:16:04
Бакенд-плагины это про хранение настроек графаны?

Denys ??
05.03.2018
20:16:15

Bogdan (SirEdvin)
05.03.2018
20:16:23

Евгений
05.03.2018
20:16:38

Denys ??
05.03.2018
20:17:31
Спорный твой изначальный
Хоть убейте не пойму с чем тут можно спорить. Вода мокрая, огонь горячий, нельзя оценивать надежность системы с помощью менее надежного чем сама система инструмента.

Sergey
05.03.2018
20:20:29

Denys ??
05.03.2018
20:22:01

Sergey
05.03.2018
20:22:19

Bogdan (SirEdvin)
05.03.2018
20:22:54
Откуда вы такие аптаймы берете?)

Denys ??
05.03.2018
20:22:58
У нас нет ?
Нормальный аптайм

Евгений
05.03.2018
20:23:27

Sergey
05.03.2018
20:24:30

Алексей
05.03.2018
20:24:53
деповсы на охране баблопотока!

Google

Евгений
05.03.2018
20:25:15

Sergey
05.03.2018
20:25:35

Bogdan (SirEdvin)
05.03.2018
20:26:46
Нормальный аптайм
Эм... Нет. У меня вот аптайм системы мониторинга пока 100% за 3-4 месяца и все, что я делаю - это ее не трогаю.
Вы не путаете аптайм и sla?

Admin
ERROR: S client not available

Евгений
05.03.2018
20:27:41

Denys ??
05.03.2018
20:28:35

Andrew
05.03.2018
20:29:10
Кто будет мониторить систему мониторинга...?

Denys ??
05.03.2018
20:29:31
Система мониторинга мониторинга очевидно же

Andrew
05.03.2018
20:29:52
И должна ли быть система мониторинга мониторинга быть более надежной чем сама система мониторинга ?

Алексей
05.03.2018
20:31:01
консенсус мониторнгов вас спасет

Andrew
05.03.2018
20:31:04
Я так понимаю что под "не менее надежной" ты имел ввиду что-то типа "нельзя мониторить что-либо не имея ha для системы мониторинга"

Denys ??
05.03.2018
20:31:41

Alexey
05.03.2018
21:06:38
Поскольку работоспособность мониторинга не влияет на работоспособность системы, которую он мониторит, то сравнивать их аптаймы обсолютно бессмыссленно. Это, как надеяться, что после десяти красных подряд - 100% выпадет черное.
низкий аптайм мониторинга не ведет к низкому аптайму сервиса - прямая аналогия с красным и черным

Alexander
05.03.2018
21:19:15
С надежностью мониторинга другая ситуация: вот есть 3 датацентра и мониторинг работает только в одном из них. Упал мониторинг вместе с дц — о проблеме оперативно узнать неоткуда, даунтайм вырастает на порядки. И нафига такой мониторинг, который не работает?

Alexey
05.03.2018
21:19:27
мало того, наличие алертов в мониторинге, требующее вмешательства человека не способствует высокому аптайму. Возникновение алерта должно быть чем-то катастрофически редким, сродни землетрясению или цунами. Каждый алерт должен создаваться только если по нему необходимы какие-то действия. В остальных случаях система, которую мы мониторим должна лечить себя самостоятельно


Alexander
05.03.2018
21:35:12
не надо мониторить ДЦ. Мониторить надо доступность сервиса и его capacity. мониторинг мониторинга должен быть реальзован следуя этому же принципу
минус 1/3 капасити - это как бы уже не хухры мухры, плюс обычно вылезают всякие спецэффекты (каскадный сбой - скорее, правило, чем исключение). ну и выбивает дц по-разному, может по-лайтовому, когда отваливаются внешние связи (проблемы в сетевом ядре), может серьезно, когда выбивает всю сеть вплоть до top of rack-свитчей (никто ведь не тестирует детально сценарии поведения роя микросервисов на обрыв каждой связи, которых дохрена), а может быть вообще швах, когда дц уходит по питанию и, зачастую, надо поднимать половину добра руками.
а если мониторинг неотказоустойчивый, то не будет ни мониторинга дц, ни мониторинга сервисов.
а если отвалится стойка, где стоит мониторинг и, по случайному совпадению, важная запчасть от сервиса?

Google

Alexey
05.03.2018
21:38:00
минус 1/3 капасити - это как бы уже не хухры мухры, плюс обычно вылезают всякие спецэффекты (каскадный сбой - скорее, правило, чем исключение). ну и выбивает дц по-разному, может по-лайтовому, когда отваливаются внешние связи (проблемы в сетевом ядре), может серьезно, когда выбивает всю сеть вплоть до top of rack-свитчей (никто ведь не тестирует детально сценарии поведения роя микросервисов на обрыв каждой связи, которых дохрена), а может быть вообще швах, когда дц уходит по питанию и, зачастую, надо поднимать половину добра руками.
перечитайте еще раз, то, что я написал выше - оно о том же, только в трех строках.
мониторинг это такой же сервис
и относиться к нему надо соответственно


Alexander
05.03.2018
21:43:06
@azhiltsov "мониторинг мониторинга" - звучит, конечно, красиво, но как он реализуется на практике?
отдельная система? мониторинг самого себя?

Alexey
05.03.2018
21:44:16
это каждый сам решает. Можно держать два независимых инстанса и перекрестно мониторитью Можно собирать метрики о сервисах графитом а сам графит мониторить прометеем
а прометея графитом

Alexander
05.03.2018
21:46:19

Vladimir
05.03.2018
21:47:10
@iavael чтобы жизнь казалась еще большей болью, я бы посоветовал помнить, что "отказоустойчивый" не значит что он магически будет жить всегда

Alexander
05.03.2018
21:47:15
ну то есть, да, мы узнаем, что мониторинг лег, но о проблемах у сервисов не узнаем, пока не поднимем мониторинг

Alexey
05.03.2018
21:48:25

Roman
05.03.2018
21:48:49