@metrics_ru

« Назад

Страница 479 из 681

Далее »

Andor

05.03.2018
19:55:24

Какие ещё алерты? Графановские что ли?

Denys ??

05.03.2018
19:55:50

Да и вообще проблемы с самими алертами

Алексей

05.03.2018
19:56:00

тут есть девопсы ?!

эти повелители ci и golang-еры

Google

Robert

05.03.2018
19:56:46

Тут кругом девопсы

Алексей

05.03.2018
19:56:59

5-ая графана уже вышла. а у нас все еще нет бекенд плагина для генерации алертов в сторону прома!

dmage

05.03.2018
19:57:00

заводы стоят в стране одни девопсы

Алексей

05.03.2018
19:57:05

вызов!

Robert

05.03.2018
19:57:08

Devops, devops everywhere

Denys ??

05.03.2018
19:57:17

Ну и вообще, надёжность мониторинга должна быть выше надежности мониторингуемой системы

Wom

05.03.2018
19:57:49

сегодня вот такое нашёл - http://devopswiki.net/

Denys ??

05.03.2018
19:58:06

Девопсы устали. Тасков много, а я одна (ц)

Евгений

05.03.2018
19:59:18

Ну и вообще, надёжность мониторинга должна быть выше надежности мониторингуемой системы

В чём надёжность измеряем?

Wom

05.03.2018
20:00:41

в штуках

Евгений

05.03.2018
20:00:53

в штуках

Баксов?

dmage

05.03.2018
20:01:12

В чём надёжность измеряем?

в сантиметрах

Алексей

05.03.2018
20:01:15

в девопсах увезенных в лес

Google

dmage

05.03.2018
20:01:26

которые появятся в диаметре, после провала надежности

Алексей

05.03.2018
20:01:29

одна надежность = 10 девопсов в лесу

Sergey

05.03.2018
20:01:30

Ну и вообще, надёжность мониторинга должна быть выше надежности мониторингуемой системы

обоснуйте тезис

Евгений

05.03.2018
20:01:47

обоснуйте тезис

Ты же не хочешь в лес?

Robert

05.03.2018
20:02:20

Так чем больше девопсов в лесу тем лучше или хуже? Я не понял

Евгений

05.03.2018
20:02:22

одна надежность = 10 девопсов в лесу

А штат девопс - это запас прочности?

Алексей

05.03.2018
20:02:51

А штат девопс - это запас прочности?

я слышал в епаме на одном проекте надо было 70 штоли девопсов

видимо нужна серьезная надежность.

Robert

05.03.2018
20:04:30

Пальмиру брали наверное

Bogdan (SirEdvin)

05.03.2018
20:06:31

Фуфу, RethinkDB это документ база, не надо тащить такое в графану

А чем реляционки лучше?)

Andrew

05.03.2018
20:07:26

Фуфу, RethinkDB это документ база, не надо тащить такое в графану

Эластик тоже документный)

Alexander

05.03.2018
20:07:37

5-ая графана уже вышла. а у нас все еще нет бекенд плагина для генерации алертов в сторону прома!

Ну так любой язык, который поддерживает gPRC и вперед.

Andrew

05.03.2018
20:09:09

Молодой кликхаус как исключение подтверждающее правило?

Правда он впринципе далёк от "нормальных рсубд" ))

Алексей

05.03.2018
20:11:11

и он не рсубд

Andrew

05.03.2018
20:11:40

Про просрать так себе аргумент. Чем неумение в acid хуже drop database?

Andor

05.03.2018
20:11:57

там уже можно обновлять записи?

Denys ??

05.03.2018
20:13:53

В чём надёжность измеряем?

uptime?

А чем реляционки лучше?)

тем что их поддержка уже есть

Евгений

05.03.2018
20:14:34

uptime?

Работать с ошибкой хуже чем не работать вообще

Google

Andor

05.03.2018
20:14:44

а если аптайм высокий, а данные протерялись? %)

Denys ??

05.03.2018
20:15:04

Эластик тоже документный)

В эластике нельзя хранить юзеров, сессии и дашборды. Как и в КХ.

Andrew

05.03.2018
20:15:37

Я думал мы метрики обсуждаем :-/

Andor

05.03.2018
20:15:41

можно, если очень постараться, но так себе идея наверное

Andrew

05.03.2018
20:16:04

Бакенд-плагины это про хранение настроек графаны?

Denys ??

05.03.2018
20:16:15

Работать с ошибкой хуже чем не работать вообще

Спорный тезис, но связи с аптаймом не уловил

Bogdan (SirEdvin)

05.03.2018
20:16:23

тем что их поддержка уже есть

Ну, такое есть(

Евгений

05.03.2018
20:16:38

Спорный тезис, но связи с аптаймом не уловил

Спорный твой изначальный

Denys ??

05.03.2018
20:17:31

обоснуйте тезис

Ну какбэ очевидно, даже не знаю что тут обосновывать.

Спорный твой изначальный

Хоть убейте не пойму с чем тут можно спорить. Вода мокрая, огонь горячий, нельзя оценивать надежность системы с помощью менее надежного чем сама система инструмента.

Sergey

05.03.2018
20:20:29

Ну какбэ очевидно, даже не знаю что тут обосновывать.

аптайм сервиса 99.99%, аптайм мониторинга 99.9%. посчитайте вероятность появления алерта в случае отказа системы.

Denys ??

05.03.2018
20:22:01

аптайм сервиса 99.99%, аптайм мониторинга 99.9%. посчитайте вероятность появления алерта в случае отказа системы.

Посчитайте вероятность проеба алерта из за отказа мониторинга и диаметр задницы админа после постмортема.

Sergey

05.03.2018
20:22:19

Посчитайте вероятность проеба алерта из за отказа мониторинга и диаметр задницы админа после постмортема.

и вы посчитайте. а потом посчитайте для других чисел.

Посчитайте вероятность проеба алерта из за отказа мониторинга и диаметр задницы админа после постмортема.

а у вас после постмортема задницы расширяют? ну вы и говноконтора.

Bogdan (SirEdvin)

05.03.2018
20:22:54

Откуда вы такие аптаймы берете?)

Denys ??

05.03.2018
20:22:58

У нас нет ?

Нормальный аптайм

Евгений

05.03.2018
20:23:27

Хоть убейте не пойму с чем тут можно спорить. Вода мокрая, огонь горячий, нельзя оценивать надежность системы с помощью менее надежного чем сама система инструмента.

Вода мокрая - классный аргумент. Не только мониторинг говорит о том, работает ли бизнес. Если мониторинг упал, а график бабла нет - ничего страшного, если упал бизнес, это может быть подрывом репутации, восстановить её сложно

Sergey

05.03.2018
20:24:30

Вода мокрая - классный аргумент. Не только мониторинг говорит о том, работает ли бизнес. Если мониторинг упал, а график бабла нет - ничего страшного, если упал бизнес, это может быть подрывом репутации, восстановить её сложно

если человеку очевидно, а нам нет, значит он умный а мы тупые, очевидно же.

Алексей

05.03.2018
20:24:53

деповсы на охране баблопотока!

Google

Евгений

05.03.2018
20:25:15

деповсы на охране баблопотока!

Только те, которые знают про лес

Sergey

05.03.2018
20:25:35

деповсы на охране баблопотока!

ну так-то рабочий механизм.

Bogdan (SirEdvin)

05.03.2018
20:26:46

Нормальный аптайм

Эм... Нет. У меня вот аптайм системы мониторинга пока 100% за 3-4 месяца и все, что я делаю - это ее не трогаю. Вы не путаете аптайм и sla?

Admin

ERROR: S client not available

Евгений

05.03.2018
20:27:41

Хоть убейте не пойму с чем тут можно спорить. Вода мокрая, огонь горячий, нельзя оценивать надежность системы с помощью менее надежного чем сама система инструмента.

Ты не надёжность оценивал, а 'важность' как я понял. Вообще говоря непонятно ни что ты говорил, ни что говоришь сейчас, кроме мокрой воды

Denys ??

05.03.2018
20:28:35

Эм... Нет. У меня вот аптайм системы мониторинга пока 100% за 3-4 месяца и все, что я делаю - это ее не трогаю. Вы не путаете аптайм и sla?

Я - не путаю.

Andrew

05.03.2018
20:29:10

Кто будет мониторить систему мониторинга...?

Denys ??

05.03.2018
20:29:31

Система мониторинга мониторинга очевидно же

Andrew

05.03.2018
20:29:52

И должна ли быть система мониторинга мониторинга быть более надежной чем сама система мониторинга ?

Алексей

05.03.2018
20:31:01

консенсус мониторнгов вас спасет

Andrew

05.03.2018
20:31:04

Я так понимаю что под "не менее надежной" ты имел ввиду что-то типа "нельзя мониторить что-либо не имея ha для системы мониторинга"

Denys ??

05.03.2018
20:31:41

Я так понимаю что под "не менее надежной" ты имел ввиду что-то типа "нельзя мониторить что-либо не имея ha для системы мониторинга"

Ну HA для бизнеса как правило уже есть.

Alexey

05.03.2018
21:06:38

Поскольку работоспособность мониторинга не влияет на работоспособность системы, которую он мониторит, то сравнивать их аптаймы обсолютно бессмыссленно. Это, как надеяться, что после десяти красных подряд - 100% выпадет черное.

низкий аптайм мониторинга не ведет к низкому аптайму сервиса - прямая аналогия с красным и черным

Alexander

05.03.2018
21:19:15

С надежностью мониторинга другая ситуация: вот есть 3 датацентра и мониторинг работает только в одном из них. Упал мониторинг вместе с дц — о проблеме оперативно узнать неоткуда, даунтайм вырастает на порядки. И нафига такой мониторинг, который не работает?

Alexey

05.03.2018
21:19:27

мало того, наличие алертов в мониторинге, требующее вмешательства человека не способствует высокому аптайму. Возникновение алерта должно быть чем-то катастрофически редким, сродни землетрясению или цунами. Каждый алерт должен создаваться только если по нему необходимы какие-то действия. В остальных случаях система, которую мы мониторим должна лечить себя самостоятельно

С надежностью мониторинга другая ситуация: вот есть 3 датацентра и мониторинг работает только в одном из них. Упал мониторинг вместе с дц — о проблеме оперативно узнать неоткуда, даунтайм вырастает на порядки. И нафига такой мониторинг, который не работает?

не надо мониторить ДЦ. Мониторить надо доступность сервиса и его capacity. мониторинг мониторинга должен быть реальзован следуя этому же принципу

Alexander

05.03.2018
21:35:12

не надо мониторить ДЦ. Мониторить надо доступность сервиса и его capacity. мониторинг мониторинга должен быть реальзован следуя этому же принципу

минус 1/3 капасити - это как бы уже не хухры мухры, плюс обычно вылезают всякие спецэффекты (каскадный сбой - скорее, правило, чем исключение). ну и выбивает дц по-разному, может по-лайтовому, когда отваливаются внешние связи (проблемы в сетевом ядре), может серьезно, когда выбивает всю сеть вплоть до top of rack-свитчей (никто ведь не тестирует детально сценарии поведения роя микросервисов на обрыв каждой связи, которых дохрена), а может быть вообще швах, когда дц уходит по питанию и, зачастую, надо поднимать половину добра руками.

а если мониторинг неотказоустойчивый, то не будет ни мониторинга дц, ни мониторинга сервисов.

а если отвалится стойка, где стоит мониторинг и, по случайному совпадению, важная запчасть от сервиса?

Google

Alexey

05.03.2018
21:38:00

минус 1/3 капасити - это как бы уже не хухры мухры, плюс обычно вылезают всякие спецэффекты (каскадный сбой - скорее, правило, чем исключение). ну и выбивает дц по-разному, может по-лайтовому, когда отваливаются внешние связи (проблемы в сетевом ядре), может серьезно, когда выбивает всю сеть вплоть до top of rack-свитчей (никто ведь не тестирует детально сценарии поведения роя микросервисов на обрыв каждой связи, которых дохрена), а может быть вообще швах, когда дц уходит по питанию и, зачастую, надо поднимать половину добра руками.

перечитайте еще раз, то, что я написал выше - оно о том же, только в трех строках.

а если отвалится стойка, где стоит мониторинг и, по случайному совпадению, важная запчасть от сервиса?

мониторинг тоже надо мониторить, очевидно, что у мониторинга и мониторинга мониторинга есть понятие capacity И service availability

мониторинг это такой же сервис

и относиться к нему надо соответственно

Alexander

05.03.2018
21:43:06

@azhiltsov "мониторинг мониторинга" - звучит, конечно, красиво, но как он реализуется на практике?

отдельная система? мониторинг самого себя?

Alexey

05.03.2018
21:44:16

это каждый сам решает. Можно держать два независимых инстанса и перекрестно мониторитью Можно собирать метрики о сервисах графитом а сам графит мониторить прометеем

а прометея графитом

Alexander

05.03.2018
21:46:19

это каждый сам решает. Можно держать два независимых инстанса и перекрестно мониторитью Можно собирать метрики о сервисах графитом а сам графит мониторить прометеем

тут есть очевидный минус, что в случае падения неотказоустойчивого мониторинга сервисов из-за масштабной проблемы менее всего хочется чинить в первую очередь мониторинг для того, чтобы понять, что с сервисами.

Vladimir

05.03.2018
21:47:10

@iavael чтобы жизнь казалась еще большей болью, я бы посоветовал помнить, что "отказоустойчивый" не значит что он магически будет жить всегда

Alexander

05.03.2018
21:47:15

ну то есть, да, мы узнаем, что мониторинг лег, но о проблемах у сервисов не узнаем, пока не поднимем мониторинг

Alexey

05.03.2018
21:48:25

ну то есть, да, мы узнаем, что мониторинг лег, но о проблемах у сервисов не узнаем, пока не поднимем мониторинг

магической "Пули" нет, каждый решает сам что и как мониторить

Roman

05.03.2018
21:48:49

Ты не надёжность оценивал, а 'важность' как я понял. Вообще говоря непонятно ни что ты говорил, ни что говоришь сейчас, кроме мокрой воды

Открыть в Telegram