@metrics_ru

Страница 479 из 681
Andor
05.03.2018
19:55:24
Какие ещё алерты? Графановские что ли?

Denys ??
05.03.2018
19:55:50
Да и вообще проблемы с самими алертами

Алексей
05.03.2018
19:56:00
тут есть девопсы ?!

эти повелители ci и golang-еры

Google
Robert
05.03.2018
19:56:46
Тут кругом девопсы

Алексей
05.03.2018
19:56:59
5-ая графана уже вышла. а у нас все еще нет бекенд плагина для генерации алертов в сторону прома!

dmage
05.03.2018
19:57:00
заводы стоят в стране одни девопсы

Алексей
05.03.2018
19:57:05
вызов!

Robert
05.03.2018
19:57:08
Devops, devops everywhere

Denys ??
05.03.2018
19:57:17
Ну и вообще, надёжность мониторинга должна быть выше надежности мониторингуемой системы

Wom
05.03.2018
19:57:49
сегодня вот такое нашёл - http://devopswiki.net/

Denys ??
05.03.2018
19:58:06
Девопсы устали. Тасков много, а я одна (ц)

Wom
05.03.2018
20:00:41
в штуках

Евгений
05.03.2018
20:00:53
в штуках
Баксов?

dmage
05.03.2018
20:01:12
Алексей
05.03.2018
20:01:15
в девопсах увезенных в лес

Google
dmage
05.03.2018
20:01:26
которые появятся в диаметре, после провала надежности

Алексей
05.03.2018
20:01:29
одна надежность = 10 девопсов в лесу

Евгений
05.03.2018
20:01:47
обоснуйте тезис
Ты же не хочешь в лес?

Robert
05.03.2018
20:02:20
Так чем больше девопсов в лесу тем лучше или хуже? Я не понял

Евгений
05.03.2018
20:02:22
одна надежность = 10 девопсов в лесу
А штат девопс - это запас прочности?

Алексей
05.03.2018
20:02:51
А штат девопс - это запас прочности?
я слышал в епаме на одном проекте надо было 70 штоли девопсов

видимо нужна серьезная надежность.

Robert
05.03.2018
20:04:30
Пальмиру брали наверное

Bogdan (SirEdvin)
05.03.2018
20:06:31
Andrew
05.03.2018
20:07:26
Alexander
05.03.2018
20:07:37
Andrew
05.03.2018
20:09:09
Молодой кликхаус как исключение подтверждающее правило?

Правда он впринципе далёк от "нормальных рсубд" ))

Алексей
05.03.2018
20:11:11
и он не рсубд

Andrew
05.03.2018
20:11:40
Про просрать так себе аргумент. Чем неумение в acid хуже drop database?

Andor
05.03.2018
20:11:57
там уже можно обновлять записи?

Denys ??
05.03.2018
20:13:53
А чем реляционки лучше?)
тем что их поддержка уже есть

Евгений
05.03.2018
20:14:34
uptime?
Работать с ошибкой хуже чем не работать вообще

Google
Andor
05.03.2018
20:14:44
а если аптайм высокий, а данные протерялись? %)

Denys ??
05.03.2018
20:15:04
Эластик тоже документный)
В эластике нельзя хранить юзеров, сессии и дашборды. Как и в КХ.

Andrew
05.03.2018
20:15:37
Я думал мы метрики обсуждаем :-/

Andor
05.03.2018
20:15:41
можно, если очень постараться, но так себе идея наверное

Andrew
05.03.2018
20:16:04
Бакенд-плагины это про хранение настроек графаны?

Denys ??
05.03.2018
20:16:15
Работать с ошибкой хуже чем не работать вообще
Спорный тезис, но связи с аптаймом не уловил

Bogdan (SirEdvin)
05.03.2018
20:16:23
Евгений
05.03.2018
20:16:38
Denys ??
05.03.2018
20:17:31
обоснуйте тезис
Ну какбэ очевидно, даже не знаю что тут обосновывать.

Спорный твой изначальный
Хоть убейте не пойму с чем тут можно спорить. Вода мокрая, огонь горячий, нельзя оценивать надежность системы с помощью менее надежного чем сама система инструмента.

Sergey
05.03.2018
20:20:29
Ну какбэ очевидно, даже не знаю что тут обосновывать.
аптайм сервиса 99.99%, аптайм мониторинга 99.9%. посчитайте вероятность появления алерта в случае отказа системы.

Denys ??
05.03.2018
20:22:01
аптайм сервиса 99.99%, аптайм мониторинга 99.9%. посчитайте вероятность появления алерта в случае отказа системы.
Посчитайте вероятность проеба алерта из за отказа мониторинга и диаметр задницы админа после постмортема.

Bogdan (SirEdvin)
05.03.2018
20:22:54
Откуда вы такие аптаймы берете?)

Denys ??
05.03.2018
20:22:58
У нас нет ?

Нормальный аптайм

Евгений
05.03.2018
20:23:27
Хоть убейте не пойму с чем тут можно спорить. Вода мокрая, огонь горячий, нельзя оценивать надежность системы с помощью менее надежного чем сама система инструмента.
Вода мокрая - классный аргумент. Не только мониторинг говорит о том, работает ли бизнес. Если мониторинг упал, а график бабла нет - ничего страшного, если упал бизнес, это может быть подрывом репутации, восстановить её сложно

Алексей
05.03.2018
20:24:53
деповсы на охране баблопотока!

Google
Евгений
05.03.2018
20:25:15
деповсы на охране баблопотока!
Только те, которые знают про лес

Sergey
05.03.2018
20:25:35
деповсы на охране баблопотока!
ну так-то рабочий механизм.

Bogdan (SirEdvin)
05.03.2018
20:26:46
Нормальный аптайм
Эм... Нет. У меня вот аптайм системы мониторинга пока 100% за 3-4 месяца и все, что я делаю - это ее не трогаю. Вы не путаете аптайм и sla?

Admin
ERROR: S client not available

Евгений
05.03.2018
20:27:41
Хоть убейте не пойму с чем тут можно спорить. Вода мокрая, огонь горячий, нельзя оценивать надежность системы с помощью менее надежного чем сама система инструмента.
Ты не надёжность оценивал, а 'важность' как я понял. Вообще говоря непонятно ни что ты говорил, ни что говоришь сейчас, кроме мокрой воды

Andrew
05.03.2018
20:29:10
Кто будет мониторить систему мониторинга...?

Denys ??
05.03.2018
20:29:31
Система мониторинга мониторинга очевидно же

Andrew
05.03.2018
20:29:52
И должна ли быть система мониторинга мониторинга быть более надежной чем сама система мониторинга ?

Алексей
05.03.2018
20:31:01
консенсус мониторнгов вас спасет

Andrew
05.03.2018
20:31:04
Я так понимаю что под "не менее надежной" ты имел ввиду что-то типа "нельзя мониторить что-либо не имея ha для системы мониторинга"

Alexey
05.03.2018
21:06:38
Поскольку работоспособность мониторинга не влияет на работоспособность системы, которую он мониторит, то сравнивать их аптаймы обсолютно бессмыссленно. Это, как надеяться, что после десяти красных подряд - 100% выпадет черное.

низкий аптайм мониторинга не ведет к низкому аптайму сервиса - прямая аналогия с красным и черным

Alexander
05.03.2018
21:19:15
С надежностью мониторинга другая ситуация: вот есть 3 датацентра и мониторинг работает только в одном из них. Упал мониторинг вместе с дц — о проблеме оперативно узнать неоткуда, даунтайм вырастает на порядки. И нафига такой мониторинг, который не работает?

Alexey
05.03.2018
21:19:27
мало того, наличие алертов в мониторинге, требующее вмешательства человека не способствует высокому аптайму. Возникновение алерта должно быть чем-то катастрофически редким, сродни землетрясению или цунами. Каждый алерт должен создаваться только если по нему необходимы какие-то действия. В остальных случаях система, которую мы мониторим должна лечить себя самостоятельно

Alexander
05.03.2018
21:35:12
не надо мониторить ДЦ. Мониторить надо доступность сервиса и его capacity. мониторинг мониторинга должен быть реальзован следуя этому же принципу
минус 1/3 капасити - это как бы уже не хухры мухры, плюс обычно вылезают всякие спецэффекты (каскадный сбой - скорее, правило, чем исключение). ну и выбивает дц по-разному, может по-лайтовому, когда отваливаются внешние связи (проблемы в сетевом ядре), может серьезно, когда выбивает всю сеть вплоть до top of rack-свитчей (никто ведь не тестирует детально сценарии поведения роя микросервисов на обрыв каждой связи, которых дохрена), а может быть вообще швах, когда дц уходит по питанию и, зачастую, надо поднимать половину добра руками.

а если мониторинг неотказоустойчивый, то не будет ни мониторинга дц, ни мониторинга сервисов.

а если отвалится стойка, где стоит мониторинг и, по случайному совпадению, важная запчасть от сервиса?

Google
Alexey
05.03.2018
21:38:00
а если отвалится стойка, где стоит мониторинг и, по случайному совпадению, важная запчасть от сервиса?
мониторинг тоже надо мониторить, очевидно, что у мониторинга и мониторинга мониторинга есть понятие capacity И service availability

мониторинг это такой же сервис

и относиться к нему надо соответственно

Alexander
05.03.2018
21:43:06
@azhiltsov "мониторинг мониторинга" - звучит, конечно, красиво, но как он реализуется на практике?

отдельная система? мониторинг самого себя?

Alexey
05.03.2018
21:44:16
это каждый сам решает. Можно держать два независимых инстанса и перекрестно мониторитью Можно собирать метрики о сервисах графитом а сам графит мониторить прометеем

а прометея графитом

Alexander
05.03.2018
21:46:19
это каждый сам решает. Можно держать два независимых инстанса и перекрестно мониторитью Можно собирать метрики о сервисах графитом а сам графит мониторить прометеем
тут есть очевидный минус, что в случае падения неотказоустойчивого мониторинга сервисов из-за масштабной проблемы менее всего хочется чинить в первую очередь мониторинг для того, чтобы понять, что с сервисами.

Vladimir
05.03.2018
21:47:10
@iavael чтобы жизнь казалась еще большей болью, я бы посоветовал помнить, что "отказоустойчивый" не значит что он магически будет жить всегда

Alexander
05.03.2018
21:47:15
ну то есть, да, мы узнаем, что мониторинг лег, но о проблемах у сервисов не узнаем, пока не поднимем мониторинг

Alexey
05.03.2018
21:48:25

Страница 479 из 681