@metrics_ru

« Назад

Страница 410 из 681

Далее »

namanalogovnetu

07.01.2018
14:36:24

еще и кролика обидели

Pablo

07.01.2018
14:36:55

Призывыется @ctrlok в защиту сенсу?

Alexander

07.01.2018
14:37:37

Почему кролик не отказоустойчивый? Он не умеет в кластер? (Умеет же)

умеет, но этот так называемый кластер не переживает split brain и потому на более, чем 1 ДЦ не растягивается. плюс, не гарантируется сохранность данных в очередях, но в данном случае это неважно.

Grigoriy

07.01.2018
14:39:07

Я трогал. Долго отмывал руки потом. Неприменимо. Хуже заббикса (хотя и он не подарок)

Применяю в десятке дц на всех континентах. Есть проблемы, но точно не с кроликами и руби.

Google

Alexander

07.01.2018
14:39:28

в общем, rabbitmq с HA-очередями - это такое оригинальное решение CAP теоремы, где из C, A и P есть либо C, либо A (в зависимости от включенности autosync-а)

Grigoriy

07.01.2018
14:39:29

умеет, но этот так называемый кластер не переживает split brain и потому на более, чем 1 ДЦ не растягивается. плюс, не гарантируется сохранность данных в очередях, но в данном случае это неважно.

И зачем кластер для мониторинга?

Alexander

07.01.2018
14:40:00

Применяю в десятке дц на всех континентах. Есть проблемы, но точно не с кроликами и руби.

c HA-очередями, растянутыми на несколько ДЦ?

Pablo

07.01.2018
14:40:33

в общем, rabbitmq с HA-очередями - это такое оригинальное решение CAP теоремы, где из C, A и P есть либо C, либо A (в зависимости от включенности autosync-а)

В смысле при Р?

Alexander

07.01.2018
14:40:42

И зачем кластер для мониторинга?

эээ... ну чтобы была отказоустойчивость. если мониторинг ложится первым, это как-то не очень.

Grigoriy

07.01.2018
14:41:03

c HA-очередями, растянутыми на несколько ДЦ?

Нет. То есть, мастер находится в одном дц, в котором HA.

Alexander

07.01.2018
14:41:21

Нет. То есть, мастер находится в одном дц, в котором HA.

и если ДЦ вырубится, то что?

Grigoriy

07.01.2018
14:41:29

эээ... ну чтобы была отказоустойчивость. если мониторинг ложится первым, это как-то не очень.

Непонятно в чем проблема держать по сенсу-серверу на ДЦ.

User ?

07.01.2018
14:41:58

Непонятно в чем проблема держать по сенсу-серверу на ДЦ.

Я так делал. Несколько инсталляций сенсу и не парился

Grigoriy

07.01.2018
14:42:18

и если ДЦ вырубится, то что?

То все внутри него умрет. Но оно и так умерло. Мониторинг скажет «дц умер».

Alexander

07.01.2018
14:42:24

В смысле при Р?

P в CAP - это partition tolerance. что при этом?

Grigoriy

07.01.2018
14:42:38

Каких алертов можно ждать от мертвого дц?

User ?

07.01.2018
14:43:11

Каких алертов можно ждать от мертвого дц?

Нет доступа до таких-то портов. Сервисы не отвечают больше Н времени

Google

User ?

07.01.2018
14:43:34

Нет доступа до таких-то портов. Сервисы не отвечают больше Н времени

Кто-то же мониторит мониторинг

metaclass

07.01.2018
14:43:52

парадокс рассела его мониторит.

:)

Alexander

07.01.2018
14:43:56

Каких алертов можно ждать от мертвого дц?

а если линк между ДЦ порвался или из-за ошибки в сетевой конфигурации ДЦ хитро изолировался от части других ДЦ?

Grigoriy

07.01.2018
14:47:17

а если линк между ДЦ порвался или из-за ошибки в сетевой конфигурации ДЦ хитро изолировался от части других ДЦ?

Ну так и что? Какой такой транспорт выбрать, чтобы он переживал частичный нетворк партишенинг, да еще и в мультимастер умел? Я вот таких не знаю

Да и это редкая ситуация. По сенсу-серверу на дц покрывает большую часть потребностей.

Кто-то же мониторит мониторинг

Один сенсу-сервер может мониторить другой сенсу-сервер:)

Alexander

07.01.2018
14:48:52

Ну так и что? Какой такой транспорт выбрать, чтобы он переживал частичный нетворк партишенинг, да еще и в мультимастер умел? Я вот таких не знаю

тут уже дело не в транспорте, а в алгоритме определения кворума. но в случае sensu он сводится к тому, переживет ли отказ рэббит.

потому что рэббит - это не тупо транспорт, а очередь. и юзают ее обычно, чтобы самим надежностью передачи сообщения не заморачиваться.

а у рэббита в этом плане не все радужно.

можно, конечно, отказоустойчивость поверх рэббита на уровне сервиса сделать, но зачем тогда рэббит?

namanalogovnetu

07.01.2018
14:51:24

а у рэббита в этом плане не все радужно.

что вместо рэббита ?

Alexander

07.01.2018
14:52:02

что вместо рэббита ?

если именно очередь сообщений, но я надежных и быстрых не знаю.

User ?

07.01.2018
14:54:25

если именно очередь сообщений, но я надежных и быстрых не знаю.

А если дальше по списку, тебе не нравится жирноруби. А что у тебя используется сейчас? ЛегкоГо?

Alexander

07.01.2018
14:55:51

хотя бы ЛегкоГо.

вопрос про то, почему fork/exec испольняемого файла (при этом, скорее всего, скрипта) на каждый чек - это не очень, будет? :)

User ?

07.01.2018
15:04:44

хотя бы ЛегкоГо.

А какая разница по времени выполнения скрипта проверки? Желательно в процентах или в миллисекундах

вопрос про то, почему fork/exec испольняемого файла (при этом, скорее всего, скрипта) на каждый чек - это не очень, будет? :)

Нет, не будет. Просто, возможно я редко делаю проверки и это не сильно влияет на производительность проверяемой системы.

Alexander

07.01.2018
15:06:36

А какая разница по времени выполнения скрипта проверки? Желательно в процентах или в миллисекундах

ну я просто не считаю нормальным создавать 10-мегабайтный процесс каждый раз, когда надо прочитать строчку из /proc/meminfo

Grigoriy

07.01.2018
15:08:05

вопрос про то, почему fork/exec испольняемого файла (при этом, скорее всего, скрипта) на каждый чек - это не очень, будет? :)

Вопрос лишь про то, почему это может вызывать проблемы.

Google

Grigoriy

07.01.2018
15:09:32

ну я просто не считаю нормальным создавать 10-мегабайтный процесс каждый раз, когда надо прочитать строчку из /proc/meminfo

Нормальность и ненормальность - это субьективщина. Я вот не замечаю, что вызовы внешних скриптов добавляют проблем. А вот гибкости добавляют точно.

User ?

07.01.2018
15:09:34

Вопрос лишь про то, почему это может вызывать проблемы.

Ну например тыщи виртуалок мониторятся.

Alexander

07.01.2018
15:09:39

Вопрос лишь про то, почему это может вызывать проблемы.

потому что если проверок несколько десятков, то это выливается в простоянный спавн кучи жирных процессов, живущих меньше, чем инициализируется их рантайм.

Grigoriy

07.01.2018
15:10:27

Ну например тыщи виртуалок мониторятся.

И все это сьест 1%CPU вместо 0.5%CPU

Alexander

07.01.2018
15:10:36

по хорошему, мониторинг-агент должет уметь сам вынимать из системы основные метрики без запуска новых процессов. а для специфиных метрик уметь запускать постоянно живущие плагины, которые висят в памяти, а не спавнятся по кругу.

Grigoriy

07.01.2018
15:10:47

потому что если проверок несколько десятков, то это выливается в простоянный спавн кучи жирных процессов, живущих меньше, чем инициализируется их рантайм.

Выглядит как преждевременная оптимизация

по хорошему, мониторинг-агент должет уметь сам вынимать из системы основные метрики без запуска новых процессов. а для специфиных метрик уметь запускать постоянно живущие плагины, которые висят в памяти, а не спавнятся по кругу.

Есть такие решения?

Alexander

07.01.2018
15:13:36

Есть такие решения?

про сбор основных метрик агентом вместо спавна по скрипту на каждый чек отдельной метрики, та же концепция экспортеров у прометеуса неплоха. если и то и другое, то в этом плане неплохо pcp сделан.

Grigoriy

07.01.2018
15:14:51

про сбор основных метрик агентом вместо спавна по скрипту на каждый чек отдельной метрики, та же концепция экспортеров у прометеуса неплоха. если и то и другое, то в этом плане неплохо pcp сделан.

Ну, про сбор основных метрик да, вопросов нет. Телеграф тот же вот умеет. А вот про плагин вызывающий чеки я чего-то нигде не видел

Alexander

07.01.2018
15:21:23

Ну, про сбор основных метрик да, вопросов нет. Телеграф тот же вот умеет. А вот про плагин вызывающий чеки я чего-то нигде не видел

плагин-то как раз не должен ничего вызывать, он должен быть постоянно запущен, собирать свою часть метрик и отдавать агенту.

Pablo

07.01.2018
18:05:35

Есть такие решения?

Кхе кхе

Evgeny

07.01.2018
19:01:13

а почему нельзя каждый ДЦ мониторить отдельно, а метрики объединять где-нибудь?

Evgeny

07.01.2018
19:01:45

с моей колокольни это все выглядит как оверинжиниринг

в scada обычно используется иерархический подход, региональный диспетчерский центр мониторит все независимо, и отправляет в вышестоящий дц какие-то метрики, но не все, скажем электростанция отправляет в дц общую генерацию, а всякие внутренние метрики не отправляет

Andrey

07.01.2018
19:05:25

что в общем логично, хотя для архивации и всего такого, потом то неплохо их все где то свести в кучу

Alexander

07.01.2018
19:11:09

а почему нельзя каждый ДЦ мониторить отдельно, а метрики объединять где-нибудь?

где? и насколько это "где" отказоустойчиво?

Evgeny

07.01.2018
19:14:35

на машине пользователя, добавит в графану несколько датасорсов и норм

Alexander

07.01.2018
19:17:21

на машине пользователя, добавит в графану несколько датасорсов и норм

ммм... вот простая типичная задача: на случай, если сервис, растянутый на несколько ДЦ глобально недоступен (херню выкатили в пятницу), то надо, чтобы некий набок зависящих от него сервисов не алертил про неработающую функциональность, завязанную на первый сервис.

ну или проще говоря, как сделать зависимость локальных триггеров мониторинга от глобально агрегированых. отказоустойчиво.

Vsevolod

07.01.2018
19:51:35

Сорян, уже выяснили почему сенсу норм или ещё нет?

Google

Alexander

07.01.2018
20:15:54

Сорян, уже выяснили почему сенсу норм или ещё нет?

нет, расскажи.

Denys ??

07.01.2018
22:32:17

Нью кид он зе блок - https://github.com/mattbostock/timbala

Timbala is a distributed, fault-tolerant time-series database intended to provide durable long-term storage for multi-dimensional metrics. It is designed to integrate easily with Prometheus, supports PromQL and is API-compatible with Prometheus, but can be used standalone. Data stored in Timbala can be visualised using Grafana by configuring a Prometheus data source pointing to Timbala.

Но пока не готово для прода, пилят кластер - https://github.com/mattbostock/timbala/milestone/2

Maxim

07.01.2018
22:40:21

Чот два месяца ни одного коммита

Admin

ERROR: S client not available

Paul

07.01.2018
22:44:01

реально там последний коммит 29 октября

Uncel

07.01.2018
22:45:19

https://github.com/mattbostock/timbala/tree/typo

ну не совсем :D

Paul

07.01.2018
22:52:41

да вот совсем, дальше просто опечатки правятся

Vsevolod

08.01.2018
04:04:43

Короче, сенсу хороший потому что распределённый. Если смотреть на него как на распределённую запускала по крону с нотификацией состояния, то понимаешь что на каком то кроносе все это было бы намного сложнее построить

Pablo

08.01.2018
08:28:10

А кто-то может напомнить ссылку на табличку с tsdb разными?

Roman

08.01.2018
08:29:13

@Civiloid

Vladimir

08.01.2018
08:30:02

В описании чата: https://goo.gl/BRqzdG

Georgiy

08.01.2018
08:45:09

Почему кролик не отказоустойчивый? Он не умеет в кластер? (Умеет же)

умеет, только с некоторой периодичностью кластер разваливается

И все это сьест 1%CPU вместо 0.5%CPU

нет, разница в сотни и тысячи раз. особенно это видно когда у тебя виртуалок много (например тридцатник на машину) - там каждая такая надбавка прям поддает в cpu system time хорошо

User ?

08.01.2018
09:23:08

нет, разница в сотни и тысячи раз. особенно это видно когда у тебя виртуалок много (например тридцатник на машину) - там каждая такая надбавка прям поддает в cpu system time хорошо

Вот, кстати, имеет ли смысл собирать с каждой виртуалки так много метрик? Может их, как-то покластерно проверять? (Если их много тысяч)

Alexander

08.01.2018
09:24:16

Вот, кстати, имеет ли смысл собирать с каждой виртуалки так много метрик? Может их, как-то покластерно проверять? (Если их много тысяч)

это как?

User ?

08.01.2018
09:25:10

это как?

У меня ещё не оформилась мысль. Это я пока поток сознания вылил

Alexander

08.01.2018
09:25:59

может достаточно собирать то, что собирает digital ocean по своим дроплетам и все?

Google

Georgiy

08.01.2018
09:27:07

Вот, кстати, имеет ли смысл собирать с каждой виртуалки так много метрик? Может их, как-то покластерно проверять? (Если их много тысяч)

чтобы проверить кластер надо снять метрики с каждой компоненты

User ?

08.01.2018
09:27:37

это как?

В том плане, что если у нас много виртуалок, то они, скорее всего, разбиты по гридам/кластерам. Возможно надо собирать информацию не со всего набора виртуалок, а с 10%, в другую проверку - с других 10% итд

Alexander

08.01.2018
09:28:02

В том плане, что если у нас много виртуалок, то они, скорее всего, разбиты по гридам/кластерам. Возможно надо собирать информацию не со всего набора виртуалок, а с 10%, в другую проверку - с других 10% итд

так не делают

получится средняя температура по больнице

Georgiy

08.01.2018
09:28:56

о реальных проблемах с такой системой ты можешь и не узнать

предположим что на виртуалках разные приложения и не сильно взаимосвязаны друг с другом. и надо форком сходить и взять стату с каждого из них. это 30 форков. каждая такая новая стата будет добавлять еще 30

а еще предположим что микросервисная архитектура, где под микросервисы берешь мало ресурсов (у меня есть сервисы которые на 1 cpu могут держать порядка полутора тысяч rps и потребляют не более 50 мегабайт памяти). вот когда агент мониторинга жирнее твоего приложения это становится немного странно.

User ?

08.01.2018
09:35:30

Когда у тебя микросервисная архитектура, имеет смысл самому сервису отдавать стату о себе

Andrew

08.01.2018
09:36:54

Когда у тебя микросервисная архитектура, имеет смысл самому сервису отдавать стату о себе

Это если разрабы вложили такой функционал :)

User ?

08.01.2018
09:37:10

Это если разрабы вложили такой функционал :)

Ну... IDE вам в руки)

Andrew

08.01.2018
09:37:43

Нене, допиливать говно за разрабами не моя работа ))

User ?

08.01.2018
09:37:45

Мы же тут все "девопсы", должны принимать участие в создании сервиса на всех уровнях

Andrew

08.01.2018
09:38:45

Не уверен что это так должно быть всё-таки.

Georgiy

08.01.2018
09:41:04

Когда у тебя микросервисная архитектура, имеет смысл самому сервису отдавать стату о себе

когда у тебя микросервисная архитектура не всегда в микросервисе реализован даже роутинг урлов. например разработка может хотеть сделать микросервис наоборот как можно меньшим по обьему. а стату можно пушить в штуковину рядом любую например пушгейтвей или uwsgi stats

Старый

08.01.2018
10:19:01

syslog-ng кто юзает вместо rsyslog?

Мы же тут все "девопсы", должны принимать участие в создании сервиса на всех уровнях

а может ещё и запросы в базу за них править, а потом и код править, а потом и функционал пилить, и желательно за пол их з\п

« Назад

Страница 410 из 681

Далее »

Открыть в Telegram