@metrics_ru

Страница 180 из 681
Zhenia
13.06.2017
19:16:36
и все очень зависит от системы

Алексей
13.06.2017
19:16:37
@Sheridan_ru когда серверов мало желательно что бы мониторинг не вносил существенную погрешность в нагурзке системы. и тебе индульгенция.

Sheridan
13.06.2017
19:17:41
@Sheridan_ru когда серверов мало желательно что бы мониторинг не вносил существенную погрешность в нагурзке системы. и тебе индульгенция.
Спасибо, Кеп, Батюшка, но у меня вопрос так к третьей личности был и на него не ответили :))))

Алексей
13.06.2017
19:17:42
к тому же бытовая безответственность и не желание погружаться в проблемы системы позволяет равнодушно относится к сглаживанию пиков за счиет испаользования больших интервалов опроса.

Google
Vyacheslav
13.06.2017
19:17:57
Давайте я чуток разбавлю флуд вопросом по теме (ну почти). Какую incident management систему можете порекомендовать (SaaSы всякие не предлагать, дорого)? Ну т.е. поток metrics->database->alermanager->incident system реализовать хочется... Alerta.io мягко говоря слабовата.

lastsky
13.06.2017
19:18:19
alertmanager -> redmine.

открытие тикетов по e-mail там есть.

Vyacheslav
13.06.2017
19:18:57
deduplication хочется

Andrey
13.06.2017
19:19:36
каждый инцидент должен человеком обрабатываться. иначе это не инцидент.

Алексей
13.06.2017
19:20:07
пропускать через алерту и отправлять в какой нить rt/redmine/jira/otrs

lastsky
13.06.2017
19:20:32
можно прямо в alertmanager писать что кому слать, в конфигурации.

Sheridan
13.06.2017
19:20:36
каждый инцидент должен человеком обрабатываться. иначе это не инцидент.
Немного не так: Инциденты должны приходить такие, которые не смогли обраьотать роботы. Причину соследствием местами поменяй.

Andor
13.06.2017
19:20:50
deduplication хочется
алертменеджера недостаточно?

Google
Vyacheslav
13.06.2017
19:22:09
каждый инцидент должен человеком обрабатываться. иначе это не инцидент.
Так вопрос в этом не стоит, но перед тем как отдать человеку надо бы сделать дедупликацию чтобы не поднимало с постели 100 раз за ночь, плюс навернуть сверху нормальный роутинг кому что слать по ключевым словам ну и плюс всяки ack, escalation и т.д. по списку

Алексей
13.06.2017
19:22:23
не разу не видел систему которая бы умела на любых серверах делать root cause analysis.

lastsky
13.06.2017
19:22:46
ну вот нейросети развиваются, скоро наверное это будет возможно.

Sergey
13.06.2017
19:22:59
называется руководитель отдела эксплуатации

работает не всегда, но что есть то есть

lastsky
13.06.2017
19:23:22
интрига!!!! я чуть кофе не подавился

Алексей
13.06.2017
19:23:27
Sheridan
13.06.2017
19:23:45
ну вот нейросети развиваются, скоро наверное это будет возможно.
ох вангую что нескоро. Обучать их надо после того как написать...

Sergey
13.06.2017
19:23:55
херова масштабируется.
да норм масштабируется

lastsky
13.06.2017
19:23:57
Vladimir
13.06.2017
19:24:16
неотказоустойчивое решение
при должном умении может быть master-slave :)

Sergey
13.06.2017
19:24:17
можно апгрейдить систему путем добавления нод "сисадмин" и "руководитель группы"

Vladimir
13.06.2017
19:24:23
и даже множество слейвов

lastsky
13.06.2017
19:24:30
Sergey
13.06.2017
19:24:30
можно шардить

Sheridan
13.06.2017
19:24:32
называется руководитель отдела эксплуатации
Знаю одного такого. Не знаю когда он спит. А... Уже трёх, простите....

Vyacheslav
13.06.2017
19:24:43
а балансить вы эту систему как будете? ))

Алексей
13.06.2017
19:24:53
сами

Sergey
13.06.2017
19:24:57
а балансить вы эту систему как будете? ))
там покупается недорогой плагин

Google
lastsky
13.06.2017
19:25:01
сменный руководитель отдела эксплуатации.

Sergey
13.06.2017
19:25:02
"менеджер проекта"

Vladimir
13.06.2017
19:25:03
надо multi-master.
так в случаи смерти мастера один из слейвов промоутится )

Sergey
13.06.2017
19:25:09
он умеет сам находить текущего активного мастера

lastsky
13.06.2017
19:25:12
дежурный руководитель отдела эксплуатации

Sheridan
13.06.2017
19:25:25
lastsky
13.06.2017
19:25:44
так в случаи смерти мастера один из слейвов промоутится )
а потом опять руками его в слейва делать?

Sergey
13.06.2017
19:25:59
можно просто ждать пока подохнет

Sheridan
13.06.2017
19:26:24
а потом опять руками его в слейва делать?
не, он промотиться до выборов, которые director насзначает при слкдующем цикле

lastsky
13.06.2017
19:26:37
ага. ещё raft туда прикрутить.

Sergey
13.06.2017
19:26:51
ага. ещё raft туда прикрутить.
там агенты слишком умные

lastsky
13.06.2017
19:27:04
а руководитель должен быть ТУПЫМ (ц)

lastsky
13.06.2017
19:27:10
точно.

lastsky
13.06.2017
19:27:30
(это был сарказм и цитирование)

Vyacheslav
13.06.2017
19:31:45
Итого, получается система из минимум 4 нод, за N тыщ $ в месяц, с кучей уникальных багов (читай тараканов) на каждой ноде, плюс нифига не отказоустойчивая (забухали всем отделом на праздники например), да и подключение новой ноду дико долгая... Короче ну нафиг, лучше я скриптов левой пяткой напишу вместо такой системы ))

lastsky
13.06.2017
19:32:20
geo-redundant?

Sergey
13.06.2017
19:32:31
follow-the-sun

Google
lastsky
13.06.2017
19:36:15
а alerta.io уже умеет в связке с прометеем алертить в телеграм в обе стороны с ack или это рекламный ход? никто не пробовал?

в 4.8 пишут что Integration with PagerDuty and Telegram now includes bi-directional alert acknowledgement.

Алексей
13.06.2017
20:31:34
я пробовал бухать по скайпу.

не то.

lastsky
13.06.2017
21:04:30
ну вот. пофлудить все любители, а задашь вопрос по делу - никто не ответит.

спасибо, чо.

Алексей
13.06.2017
21:14:02
пристыдыл чертяка.

но нет. я например не пробовал.

да и нету у меня задачи по ack

Admin
ERROR: S client not available

lastsky
13.06.2017
21:17:32
давайте не флудить, нормально же сидели. 3 сообщения по делу в день - идеал для этого чата. и это обычная ситуация.

Paul
13.06.2017
21:20:34
https://github.com/s4z/prom2click
честно говоря - я не очень понял как это работает. данные храним и там и там сразу?

lastsky
13.06.2017
21:22:07
вообще-то в нод-экспортере тоже можно включать и выключать подсистемы. А вот плагинов нет, и как я понял - никогда и не будет
да, это делается аргументами в командной строке, в отличие от telegraf.conf где что включил - то и работает. сложнее скриптовать.

collectors_enabled вроде ключ

Paul
13.06.2017
21:23:54
да, это делается аргументами в командной строке, в отличие от telegraf.conf где что включил - то и работает. сложнее скриптовать.
про сложнее скриптовать вопрос спорный. Проблема скорее в том, что написать плагин под нодэксп - невозможно, надо форкать код и писать самому

все равно же инит (системд) писать - так почему бы и аргументов не добавить?

или просто читать их из /etc/defaults/$PROCNAME

lastsky
13.06.2017
21:25:07
про сложнее скриптовать вопрос спорный. Проблема скорее в том, что написать плагин под нодэксп - невозможно, надо форкать код и писать самому
ну относительно сложнее. потому что писать systemd - это для тех у кого много свободного времени. я вот пакетами качу.

Google
lastsky
13.06.2017
21:25:24
и кладу конфиги ансиблом. потому что меня запарило писать то что уже написано и сделано.

Paul
13.06.2017
21:25:41
ну относительно сложнее. потому что писать systemd - это для тех у кого много свободного времени. я вот пакетами качу.
а что, есть пакеты под нодэксп? У меня scm, мне один раз шаблон написать несложно :)

lastsky
13.06.2017
21:26:03
есть. centos/ubuntu.

Paul
13.06.2017
21:26:30
и кстати, опять же, никто не запрещает класть опции в /etc/defaults, как положено в лучших домах лондОна. И ПОрежу.

lastsky
13.06.2017
21:26:41
а я считаю что (но это уже вопрос относится к теме чата про ансибл) что деплоем ПО должен заниматься менеджер пакетов, а не ансибл

а ансибл должен вызывать установку пакетов нужным модулем

иначе это ещё один пятиколесный велосипед на костылях

Paul
13.06.2017
21:27:34
это прекрасно если пакеты есть. Но если пакета нет или пакет есть, но не использует стандартные методы операционной системы - это очень плохо

lastsky
13.06.2017
21:27:35
впрочем, я не претендую на то что так правильно. каждый тратит столько времени, сколько хочет. я заебался переписывать роли с новыми релизами ансибла.

Paul
13.06.2017
21:27:51
а /etc/default/ - это стандартный метод, по-моему он даже прописан в LSB

lastsky
13.06.2017
21:43:04
если пакета на экспортер нет - то как его катить на сотню серверов вообще? )

ну, впрочем, это оффтоп.

мне вот тоже где-то коллектор systemd в node_exporter не нужен, а где-то на него алерты завязаны, я кладу в /etc/default/ костыль в виде конфига per-host.

но мне это не очень нравится, лишнее действие. хотя с другой стороны node_exporter без конфига вообще, тем он проще и надежнее телеграфа. везде свои преимущества :)

lastsky
13.06.2017
21:51:14
ещё один?

в смысле, для меня это не проблема, я уже завернул всё что мне нужно в пакеты.

мне не нравится что пакет один, и потом я должен костыли в /etc/default/ класть чтобы мне node_exporter запустил +2-3 нужных коллектора там где это требуется, только это.

ну то есть, положить telegraf.conf на каждый сервер свой мне видится логичным, а положить /etc/default/node_exporter уже нет. был бы у node_exporter файл node_exporter.conf - было бы логично. пошел и включил там нужные коллекторы.

lastsky
13.06.2017
21:54:46
хотя мне тут говорят что я снова начал страдать перфекционизмом, и вовремя одергивают.

Страница 180 из 681