@metrics_ru

Страница 410 из 681
namanalogovnetu
07.01.2018
14:36:24
еще и кролика обидели

Pablo
07.01.2018
14:36:55
Призывыется @ctrlok в защиту сенсу?

Alexander
07.01.2018
14:37:37
Почему кролик не отказоустойчивый? Он не умеет в кластер? (Умеет же)
умеет, но этот так называемый кластер не переживает split brain и потому на более, чем 1 ДЦ не растягивается. плюс, не гарантируется сохранность данных в очередях, но в данном случае это неважно.

Grigoriy
07.01.2018
14:39:07
Я трогал. Долго отмывал руки потом. Неприменимо. Хуже заббикса (хотя и он не подарок)
Применяю в десятке дц на всех континентах. Есть проблемы, но точно не с кроликами и руби.

Google
Alexander
07.01.2018
14:39:28
в общем, rabbitmq с HA-очередями - это такое оригинальное решение CAP теоремы, где из C, A и P есть либо C, либо A (в зависимости от включенности autosync-а)

Alexander
07.01.2018
14:40:42
И зачем кластер для мониторинга?
эээ... ну чтобы была отказоустойчивость. если мониторинг ложится первым, это как-то не очень.

Grigoriy
07.01.2018
14:41:03
c HA-очередями, растянутыми на несколько ДЦ?
Нет. То есть, мастер находится в одном дц, в котором HA.

Alexander
07.01.2018
14:41:21
Grigoriy
07.01.2018
14:41:29
User ?
07.01.2018
14:41:58
Непонятно в чем проблема держать по сенсу-серверу на ДЦ.
Я так делал. Несколько инсталляций сенсу и не парился

Grigoriy
07.01.2018
14:42:18
и если ДЦ вырубится, то что?
То все внутри него умрет. Но оно и так умерло. Мониторинг скажет «дц умер».

Alexander
07.01.2018
14:42:24
В смысле при Р?
P в CAP - это partition tolerance. что при этом?

Grigoriy
07.01.2018
14:42:38
Каких алертов можно ждать от мертвого дц?

User ?
07.01.2018
14:43:11
Каких алертов можно ждать от мертвого дц?
Нет доступа до таких-то портов. Сервисы не отвечают больше Н времени

Google
metaclass
07.01.2018
14:43:52
парадокс рассела его мониторит.

:)

Alexander
07.01.2018
14:43:56
Каких алертов можно ждать от мертвого дц?
а если линк между ДЦ порвался или из-за ошибки в сетевой конфигурации ДЦ хитро изолировался от части других ДЦ?

Grigoriy
07.01.2018
14:47:17
а если линк между ДЦ порвался или из-за ошибки в сетевой конфигурации ДЦ хитро изолировался от части других ДЦ?
Ну так и что? Какой такой транспорт выбрать, чтобы он переживал частичный нетворк партишенинг, да еще и в мультимастер умел? Я вот таких не знаю

Да и это редкая ситуация. По сенсу-серверу на дц покрывает большую часть потребностей.

Кто-то же мониторит мониторинг
Один сенсу-сервер может мониторить другой сенсу-сервер:)

Alexander
07.01.2018
14:48:52
Ну так и что? Какой такой транспорт выбрать, чтобы он переживал частичный нетворк партишенинг, да еще и в мультимастер умел? Я вот таких не знаю
тут уже дело не в транспорте, а в алгоритме определения кворума. но в случае sensu он сводится к тому, переживет ли отказ рэббит.

потому что рэббит - это не тупо транспорт, а очередь. и юзают ее обычно, чтобы самим надежностью передачи сообщения не заморачиваться.

а у рэббита в этом плане не все радужно.

можно, конечно, отказоустойчивость поверх рэббита на уровне сервиса сделать, но зачем тогда рэббит?

namanalogovnetu
07.01.2018
14:51:24
Alexander
07.01.2018
14:52:02
что вместо рэббита ?
если именно очередь сообщений, но я надежных и быстрых не знаю.

User ?
07.01.2018
14:54:25
если именно очередь сообщений, но я надежных и быстрых не знаю.
А если дальше по списку, тебе не нравится жирноруби. А что у тебя используется сейчас? ЛегкоГо?

Alexander
07.01.2018
14:55:51
хотя бы ЛегкоГо.

вопрос про то, почему fork/exec испольняемого файла (при этом, скорее всего, скрипта) на каждый чек - это не очень, будет? :)

User ?
07.01.2018
15:04:44
хотя бы ЛегкоГо.
А какая разница по времени выполнения скрипта проверки? Желательно в процентах или в миллисекундах

вопрос про то, почему fork/exec испольняемого файла (при этом, скорее всего, скрипта) на каждый чек - это не очень, будет? :)
Нет, не будет. Просто, возможно я редко делаю проверки и это не сильно влияет на производительность проверяемой системы.

Alexander
07.01.2018
15:06:36
А какая разница по времени выполнения скрипта проверки? Желательно в процентах или в миллисекундах
ну я просто не считаю нормальным создавать 10-мегабайтный процесс каждый раз, когда надо прочитать строчку из /proc/meminfo

Google
Grigoriy
07.01.2018
15:09:32
ну я просто не считаю нормальным создавать 10-мегабайтный процесс каждый раз, когда надо прочитать строчку из /proc/meminfo
Нормальность и ненормальность - это субьективщина. Я вот не замечаю, что вызовы внешних скриптов добавляют проблем. А вот гибкости добавляют точно.

User ?
07.01.2018
15:09:34
Вопрос лишь про то, почему это может вызывать проблемы.
Ну например тыщи виртуалок мониторятся.

Alexander
07.01.2018
15:09:39
Вопрос лишь про то, почему это может вызывать проблемы.
потому что если проверок несколько десятков, то это выливается в простоянный спавн кучи жирных процессов, живущих меньше, чем инициализируется их рантайм.

Grigoriy
07.01.2018
15:10:27
Ну например тыщи виртуалок мониторятся.
И все это сьест 1%CPU вместо 0.5%CPU

Alexander
07.01.2018
15:10:36
по хорошему, мониторинг-агент должет уметь сам вынимать из системы основные метрики без запуска новых процессов. а для специфиных метрик уметь запускать постоянно живущие плагины, которые висят в памяти, а не спавнятся по кругу.

Alexander
07.01.2018
15:13:36
Есть такие решения?
про сбор основных метрик агентом вместо спавна по скрипту на каждый чек отдельной метрики, та же концепция экспортеров у прометеуса неплоха. если и то и другое, то в этом плане неплохо pcp сделан.

Grigoriy
07.01.2018
15:14:51
Alexander
07.01.2018
15:21:23
Ну, про сбор основных метрик да, вопросов нет. Телеграф тот же вот умеет. А вот про плагин вызывающий чеки я чего-то нигде не видел
плагин-то как раз не должен ничего вызывать, он должен быть постоянно запущен, собирать свою часть метрик и отдавать агенту.

Pablo
07.01.2018
18:05:35
Evgeny
07.01.2018
19:01:13
а почему нельзя каждый ДЦ мониторить отдельно, а метрики объединять где-нибудь?

Evgeny
07.01.2018
19:01:45
с моей колокольни это все выглядит как оверинжиниринг

в scada обычно используется иерархический подход, региональный диспетчерский центр мониторит все независимо, и отправляет в вышестоящий дц какие-то метрики, но не все, скажем электростанция отправляет в дц общую генерацию, а всякие внутренние метрики не отправляет

Andrey
07.01.2018
19:05:25
что в общем логично, хотя для архивации и всего такого, потом то неплохо их все где то свести в кучу

Alexander
07.01.2018
19:11:09
Evgeny
07.01.2018
19:14:35
на машине пользователя, добавит в графану несколько датасорсов и норм

Alexander
07.01.2018
19:17:21
на машине пользователя, добавит в графану несколько датасорсов и норм
ммм... вот простая типичная задача: на случай, если сервис, растянутый на несколько ДЦ глобально недоступен (херню выкатили в пятницу), то надо, чтобы некий набок зависящих от него сервисов не алертил про неработающую функциональность, завязанную на первый сервис.

ну или проще говоря, как сделать зависимость локальных триггеров мониторинга от глобально агрегированых. отказоустойчиво.

Vsevolod
07.01.2018
19:51:35
Сорян, уже выяснили почему сенсу норм или ещё нет?

Google
Denys ??
07.01.2018
22:32:17
Нью кид он зе блок - https://github.com/mattbostock/timbala

Timbala is a distributed, fault-tolerant time-series database intended to provide durable long-term storage for multi-dimensional metrics. It is designed to integrate easily with Prometheus, supports PromQL and is API-compatible with Prometheus, but can be used standalone. Data stored in Timbala can be visualised using Grafana by configuring a Prometheus data source pointing to Timbala.

Но пока не готово для прода, пилят кластер - https://github.com/mattbostock/timbala/milestone/2

Maxim
07.01.2018
22:40:21
Чот два месяца ни одного коммита

Admin
ERROR: S client not available

Paul
07.01.2018
22:44:01
реально там последний коммит 29 октября

Uncel
07.01.2018
22:45:19
https://github.com/mattbostock/timbala/tree/typo

ну не совсем :D

Paul
07.01.2018
22:52:41
да вот совсем, дальше просто опечатки правятся

Vsevolod
08.01.2018
04:04:43
Короче, сенсу хороший потому что распределённый. Если смотреть на него как на распределённую запускала по крону с нотификацией состояния, то понимаешь что на каком то кроносе все это было бы намного сложнее построить

Pablo
08.01.2018
08:28:10
А кто-то может напомнить ссылку на табличку с tsdb разными?

Roman
08.01.2018
08:29:13
@Civiloid

Vladimir
08.01.2018
08:30:02
В описании чата: https://goo.gl/BRqzdG

Georgiy
08.01.2018
08:45:09
Почему кролик не отказоустойчивый? Он не умеет в кластер? (Умеет же)
умеет, только с некоторой периодичностью кластер разваливается

И все это сьест 1%CPU вместо 0.5%CPU
нет, разница в сотни и тысячи раз. особенно это видно когда у тебя виртуалок много (например тридцатник на машину) - там каждая такая надбавка прям поддает в cpu system time хорошо

User ?
08.01.2018
09:23:08
нет, разница в сотни и тысячи раз. особенно это видно когда у тебя виртуалок много (например тридцатник на машину) - там каждая такая надбавка прям поддает в cpu system time хорошо
Вот, кстати, имеет ли смысл собирать с каждой виртуалки так много метрик? Может их, как-то покластерно проверять? (Если их много тысяч)

User ?
08.01.2018
09:25:10
это как?
У меня ещё не оформилась мысль. Это я пока поток сознания вылил

Alexander
08.01.2018
09:25:59
может достаточно собирать то, что собирает digital ocean по своим дроплетам и все?

Google
User ?
08.01.2018
09:27:37
это как?
В том плане, что если у нас много виртуалок, то они, скорее всего, разбиты по гридам/кластерам. Возможно надо собирать информацию не со всего набора виртуалок, а с 10%, в другую проверку - с других 10% итд

Georgiy
08.01.2018
09:28:56
о реальных проблемах с такой системой ты можешь и не узнать

предположим что на виртуалках разные приложения и не сильно взаимосвязаны друг с другом. и надо форком сходить и взять стату с каждого из них. это 30 форков. каждая такая новая стата будет добавлять еще 30

а еще предположим что микросервисная архитектура, где под микросервисы берешь мало ресурсов (у меня есть сервисы которые на 1 cpu могут держать порядка полутора тысяч rps и потребляют не более 50 мегабайт памяти). вот когда агент мониторинга жирнее твоего приложения это становится немного странно.

User ?
08.01.2018
09:35:30
Когда у тебя микросервисная архитектура, имеет смысл самому сервису отдавать стату о себе

User ?
08.01.2018
09:37:10
Andrew
08.01.2018
09:37:43
Нене, допиливать говно за разрабами не моя работа ))

User ?
08.01.2018
09:37:45
Мы же тут все "девопсы", должны принимать участие в создании сервиса на всех уровнях

Andrew
08.01.2018
09:38:45
Не уверен что это так должно быть всё-таки.

Georgiy
08.01.2018
09:41:04
Когда у тебя микросервисная архитектура, имеет смысл самому сервису отдавать стату о себе
когда у тебя микросервисная архитектура не всегда в микросервисе реализован даже роутинг урлов. например разработка может хотеть сделать микросервис наоборот как можно меньшим по обьему. а стату можно пушить в штуковину рядом любую например пушгейтвей или uwsgi stats

Старый
08.01.2018
10:19:01
syslog-ng кто юзает вместо rsyslog?

Мы же тут все "девопсы", должны принимать участие в создании сервиса на всех уровнях
а может ещё и запросы в базу за них править, а потом и код править, а потом и функционал пилить, и желательно за пол их з\п

Страница 410 из 681