
namanalogovnetu
07.01.2018
14:36:24
еще и кролика обидели

Pablo
07.01.2018
14:36:55
Призывыется @ctrlok в защиту сенсу?

Alexander
07.01.2018
14:37:37

Grigoriy
07.01.2018
14:39:07

Google

Alexander
07.01.2018
14:39:28
в общем, rabbitmq с HA-очередями - это такое оригинальное решение CAP теоремы, где из C, A и P есть либо C, либо A (в зависимости от включенности autosync-а)

Grigoriy
07.01.2018
14:39:29

Alexander
07.01.2018
14:40:00

Pablo
07.01.2018
14:40:33

Alexander
07.01.2018
14:40:42

Grigoriy
07.01.2018
14:41:03

Alexander
07.01.2018
14:41:21

Grigoriy
07.01.2018
14:41:29

User ?
07.01.2018
14:41:58

Grigoriy
07.01.2018
14:42:18

Alexander
07.01.2018
14:42:24

Grigoriy
07.01.2018
14:42:38
Каких алертов можно ждать от мертвого дц?

User ?
07.01.2018
14:43:11

Google

User ?
07.01.2018
14:43:34

metaclass
07.01.2018
14:43:52
парадокс рассела его мониторит.
:)

Alexander
07.01.2018
14:43:56

Grigoriy
07.01.2018
14:47:17
Да и это редкая ситуация. По сенсу-серверу на дц покрывает большую часть потребностей.

Alexander
07.01.2018
14:48:52
потому что рэббит - это не тупо транспорт, а очередь. и юзают ее обычно, чтобы самим надежностью передачи сообщения не заморачиваться.
а у рэббита в этом плане не все радужно.
можно, конечно, отказоустойчивость поверх рэббита на уровне сервиса сделать, но зачем тогда рэббит?

namanalogovnetu
07.01.2018
14:51:24

Alexander
07.01.2018
14:52:02

User ?
07.01.2018
14:54:25

Alexander
07.01.2018
14:55:51
хотя бы ЛегкоГо.
вопрос про то, почему fork/exec испольняемого файла (при этом, скорее всего, скрипта) на каждый чек - это не очень, будет? :)

User ?
07.01.2018
15:04:44
хотя бы ЛегкоГо.
А какая разница по времени выполнения скрипта проверки? Желательно в процентах или в миллисекундах

Alexander
07.01.2018
15:06:36

Grigoriy
07.01.2018
15:08:05

Google

Grigoriy
07.01.2018
15:09:32

User ?
07.01.2018
15:09:34

Alexander
07.01.2018
15:09:39

Grigoriy
07.01.2018
15:10:27

Alexander
07.01.2018
15:10:36
по хорошему, мониторинг-агент должет уметь сам вынимать из системы основные метрики без запуска новых процессов.
а для специфиных метрик уметь запускать постоянно живущие плагины, которые висят в памяти, а не спавнятся по кругу.

Grigoriy
07.01.2018
15:10:47

Alexander
07.01.2018
15:13:36
Есть такие решения?
про сбор основных метрик агентом вместо спавна по скрипту на каждый чек отдельной метрики, та же концепция экспортеров у прометеуса неплоха.
если и то и другое, то в этом плане неплохо pcp сделан.

Grigoriy
07.01.2018
15:14:51

Alexander
07.01.2018
15:21:23

Pablo
07.01.2018
18:05:35

Evgeny
07.01.2018
19:01:13
а почему нельзя каждый ДЦ мониторить отдельно, а метрики объединять где-нибудь?

Evgeny
07.01.2018
19:01:45
с моей колокольни это все выглядит как оверинжиниринг
в scada обычно используется иерархический подход, региональный диспетчерский центр мониторит все независимо, и отправляет в вышестоящий дц какие-то метрики, но не все, скажем электростанция отправляет в дц общую генерацию, а всякие внутренние метрики не отправляет

Andrey
07.01.2018
19:05:25
что в общем логично, хотя для архивации и всего такого, потом то неплохо их все где то свести в кучу

Alexander
07.01.2018
19:11:09

Evgeny
07.01.2018
19:14:35
на машине пользователя, добавит в графану несколько датасорсов и норм

Alexander
07.01.2018
19:17:21
ну или проще говоря, как сделать зависимость локальных триггеров мониторинга от глобально агрегированых. отказоустойчиво.

Vsevolod
07.01.2018
19:51:35
Сорян, уже выяснили почему сенсу норм или ещё нет?

Google

Alexander
07.01.2018
20:15:54

Denys ??
07.01.2018
22:32:17
Нью кид он зе блок - https://github.com/mattbostock/timbala
Timbala is a distributed, fault-tolerant time-series database intended to provide durable long-term storage for multi-dimensional metrics.
It is designed to integrate easily with Prometheus, supports PromQL and is API-compatible with Prometheus, but can be used standalone.
Data stored in Timbala can be visualised using Grafana by configuring a Prometheus data source pointing to Timbala.
Но пока не готово для прода, пилят кластер - https://github.com/mattbostock/timbala/milestone/2

Maxim
07.01.2018
22:40:21
Чот два месяца ни одного коммита

Admin
ERROR: S client not available

Paul
07.01.2018
22:44:01
реально там последний коммит 29 октября

Uncel
07.01.2018
22:45:19
https://github.com/mattbostock/timbala/tree/typo
ну не совсем :D

Paul
07.01.2018
22:52:41
да вот совсем, дальше просто опечатки правятся

Vsevolod
08.01.2018
04:04:43
Короче, сенсу хороший потому что распределённый. Если смотреть на него как на распределённую запускала по крону с нотификацией состояния, то понимаешь что на каком то кроносе все это было бы намного сложнее построить

Pablo
08.01.2018
08:28:10
А кто-то может напомнить ссылку на табличку с tsdb разными?

Roman
08.01.2018
08:29:13
@Civiloid

Vladimir
08.01.2018
08:30:02
В описании чата: https://goo.gl/BRqzdG

Georgiy
08.01.2018
08:45:09
И все это сьест 1%CPU вместо 0.5%CPU
нет, разница в сотни и тысячи раз. особенно это видно когда у тебя виртуалок много (например тридцатник на машину) - там каждая такая надбавка прям поддает в cpu system time хорошо

User ?
08.01.2018
09:23:08

Alexander
08.01.2018
09:24:16

User ?
08.01.2018
09:25:10
это как?
У меня ещё не оформилась мысль. Это я пока поток сознания вылил

Alexander
08.01.2018
09:25:59
может достаточно собирать то, что собирает digital ocean по своим дроплетам и все?

Google

Georgiy
08.01.2018
09:27:07

User ?
08.01.2018
09:27:37
это как?
В том плане, что если у нас много виртуалок, то они, скорее всего, разбиты по гридам/кластерам.
Возможно надо собирать информацию не со всего набора виртуалок, а с 10%, в другую проверку - с других 10% итд

Alexander
08.01.2018
09:28:02
получится средняя температура по больнице

Georgiy
08.01.2018
09:28:56
о реальных проблемах с такой системой ты можешь и не узнать
предположим что на виртуалках разные приложения и не сильно взаимосвязаны друг с другом. и надо форком сходить и взять стату с каждого из них. это 30 форков. каждая такая новая стата будет добавлять еще 30
а еще предположим что микросервисная архитектура, где под микросервисы берешь мало ресурсов (у меня есть сервисы которые на 1 cpu могут держать порядка полутора тысяч rps и потребляют не более 50 мегабайт памяти). вот когда агент мониторинга жирнее твоего приложения это становится немного странно.

User ?
08.01.2018
09:35:30
Когда у тебя микросервисная архитектура, имеет смысл самому сервису отдавать стату о себе

Andrew
08.01.2018
09:36:54

User ?
08.01.2018
09:37:10

Andrew
08.01.2018
09:37:43
Нене, допиливать говно за разрабами не моя работа ))

User ?
08.01.2018
09:37:45
Мы же тут все "девопсы", должны принимать участие в создании сервиса на всех уровнях

Andrew
08.01.2018
09:38:45
Не уверен что это так должно быть всё-таки.

Georgiy
08.01.2018
09:41:04

Старый
08.01.2018
10:19:01
syslog-ng кто юзает вместо rsyslog?