@metrics_ru

« Назад

Страница 180 из 681

Далее »

Zhenia

13.06.2017
19:16:36

и все очень зависит от системы

Алексей

13.06.2017
19:16:37

@Sheridan_ru когда серверов мало желательно что бы мониторинг не вносил существенную погрешность в нагурзке системы. и тебе индульгенция.

Sheridan

13.06.2017
19:17:41

@Sheridan_ru когда серверов мало желательно что бы мониторинг не вносил существенную погрешность в нагурзке системы. и тебе индульгенция.

Спасибо, Кеп, Батюшка, но у меня вопрос так к третьей личности был и на него не ответили :))))

Алексей

13.06.2017
19:17:42

к тому же бытовая безответственность и не желание погружаться в проблемы системы позволяет равнодушно относится к сглаживанию пиков за счиет испаользования больших интервалов опроса.

Google

Vyacheslav

13.06.2017
19:17:57

Давайте я чуток разбавлю флуд вопросом по теме (ну почти). Какую incident management систему можете порекомендовать (SaaSы всякие не предлагать, дорого)? Ну т.е. поток metrics->database->alermanager->incident system реализовать хочется... Alerta.io мягко говоря слабовата.

lastsky

13.06.2017
19:18:19

alertmanager -> redmine.

открытие тикетов по e-mail там есть.

Vyacheslav

13.06.2017
19:18:57

deduplication хочется

Andrey

13.06.2017
19:19:36

каждый инцидент должен человеком обрабатываться. иначе это не инцидент.

Алексей

13.06.2017
19:20:07

пропускать через алерту и отправлять в какой нить rt/redmine/jira/otrs

lastsky

13.06.2017
19:20:32

можно прямо в alertmanager писать что кому слать, в конфигурации.

Sheridan

13.06.2017
19:20:36

каждый инцидент должен человеком обрабатываться. иначе это не инцидент.

Немного не так: Инциденты должны приходить такие, которые не смогли обраьотать роботы. Причину соследствием местами поменяй.

Andor

13.06.2017
19:20:50

deduplication хочется

алертменеджера недостаточно?

Andrey

13.06.2017
19:20:53

да.

Немного не так: Инциденты должны приходить такие, которые не смогли обраьотать роботы. Причину соследствием местами поменяй.

этим система мониторинга заниматься должна.

дедупликацией

lastsky

13.06.2017
19:21:26

Немного не так: Инциденты должны приходить такие, которые не смогли обраьотать роботы. Причину соследствием местами поменяй.

это если у тебя алертов очень много, имхо... ну просто оооочень много.

Google

Vyacheslav

13.06.2017
19:22:09

каждый инцидент должен человеком обрабатываться. иначе это не инцидент.

Так вопрос в этом не стоит, но перед тем как отдать человеку надо бы сделать дедупликацию чтобы не поднимало с постели 100 раз за ночь, плюс навернуть сверху нормальный роутинг кому что слать по ключевым словам ну и плюс всяки ack, escalation и т.д. по списку

Алексей

13.06.2017
19:22:23

не разу не видел систему которая бы умела на любых серверах делать root cause analysis.

lastsky

13.06.2017
19:22:46

ну вот нейросети развиваются, скоро наверное это будет возможно.

Sergey

13.06.2017
19:22:59

не разу не видел систему которая бы умела на любых серверах делать root cause analysis.

я видел

называется руководитель отдела эксплуатации

работает не всегда, но что есть то есть

lastsky

13.06.2017
19:23:22

интрига!!!! я чуть кофе не подавился

Алексей

13.06.2017
19:23:27

называется руководитель отдела эксплуатации

херова масштабируется.

Sheridan

13.06.2017
19:23:45

ну вот нейросети развиваются, скоро наверное это будет возможно.

ох вангую что нескоро. Обучать их надо после того как написать...

Sergey

13.06.2017
19:23:55

херова масштабируется.

да норм масштабируется

lastsky

13.06.2017
19:23:57

называется руководитель отдела эксплуатации

неотказоустойчивое решение

Vladimir

13.06.2017
19:24:16

неотказоустойчивое решение

при должном умении может быть master-slave :)

Sergey

13.06.2017
19:24:17

можно апгрейдить систему путем добавления нод "сисадмин" и "руководитель группы"

Vladimir

13.06.2017
19:24:23

и даже множество слейвов

lastsky

13.06.2017
19:24:30

при должном умении может быть master-slave :)

надо multi-master.

Sergey

13.06.2017
19:24:30

можно шардить

Sheridan

13.06.2017
19:24:32

называется руководитель отдела эксплуатации

Знаю одного такого. Не знаю когда он спит. А... Уже трёх, простите....

Vyacheslav

13.06.2017
19:24:43

а балансить вы эту систему как будете? ))

Алексей

13.06.2017
19:24:53

сами

Sergey

13.06.2017
19:24:57

а балансить вы эту систему как будете? ))

там покупается недорогой плагин

Google

lastsky

13.06.2017
19:25:01

сменный руководитель отдела эксплуатации.

Sergey

13.06.2017
19:25:02

"менеджер проекта"

Vladimir

13.06.2017
19:25:03

надо multi-master.

так в случаи смерти мастера один из слейвов промоутится )

Sergey

13.06.2017
19:25:09

он умеет сам находить текущего активного мастера

lastsky

13.06.2017
19:25:12

дежурный руководитель отдела эксплуатации

Sheridan

13.06.2017
19:25:25

он умеет сам находить текущего активного мастера

)))))))))))))))))))))))))))))))))))))0

lastsky

13.06.2017
19:25:44

так в случаи смерти мастера один из слейвов промоутится )

а потом опять руками его в слейва делать?

Sergey

13.06.2017
19:25:59

можно просто ждать пока подохнет

Sheridan

13.06.2017
19:26:24

а потом опять руками его в слейва делать?

не, он промотиться до выборов, которые director насзначает при слкдующем цикле

lastsky

13.06.2017
19:26:37

ага. ещё raft туда прикрутить.

Sergey

13.06.2017
19:26:51

ага. ещё raft туда прикрутить.

там агенты слишком умные

lastsky

13.06.2017
19:27:04

а руководитель должен быть ТУПЫМ (ц)

lastsky

13.06.2017
19:27:10

точно.

Sheridan

13.06.2017
19:27:22

а руководитель должен быть ТУПЫМ (ц)

nyet

lastsky

13.06.2017
19:27:30

(это был сарказм и цитирование)

Vyacheslav

13.06.2017
19:31:45

Итого, получается система из минимум 4 нод, за N тыщ $ в месяц, с кучей уникальных багов (читай тараканов) на каждой ноде, плюс нифига не отказоустойчивая (забухали всем отделом на праздники например), да и подключение новой ноду дико долгая... Короче ну нафиг, лучше я скриптов левой пяткой напишу вместо такой системы ))

Sergey

13.06.2017
19:32:05

Итого, получается система из минимум 4 нод, за N тыщ $ в месяц, с кучей уникальных багов (читай тараканов) на каждой ноде, плюс нифига не отказоустойчивая (забухали всем отделом на праздники например), да и подключение новой ноду дико долгая... Короче ну нафиг, лучше я скриптов левой пяткой напишу вместо такой системы ))

чтобы не бухали - нужно развезти их по разным регионам

и в принципе несколько тыщ баксов в месяц - копейки для такой системы

lastsky

13.06.2017
19:32:20

geo-redundant?

Sergey

13.06.2017
19:32:31

follow-the-sun

Google

lastsky

13.06.2017
19:36:15

а alerta.io уже умеет в связке с прометеем алертить в телеграм в обе стороны с ack или это рекламный ход? никто не пробовал?

в 4.8 пишут что Integration with PagerDuty and Telegram now includes bi-directional alert acknowledgement.

Sheridan

13.06.2017
20:21:29

чтобы не бухали - нужно развезти их по разным регионам

И Скайп запретить?

Алексей

13.06.2017
20:31:34

я пробовал бухать по скайпу.

не то.

lastsky

13.06.2017
21:04:30

ну вот. пофлудить все любители, а задашь вопрос по делу - никто не ответит.

спасибо, чо.

Алексей

13.06.2017
21:14:02

пристыдыл чертяка.

но нет. я например не пробовал.

да и нету у меня задачи по ack

Admin

ERROR: S client not available

lastsky

13.06.2017
21:17:32

давайте не флудить, нормально же сидели. 3 сообщения по делу в день - идеал для этого чата. и это обычная ситуация.

Paul

13.06.2017
21:20:34

node_exporter - это pure server metrics. включил коллекторы и получаешь нормально telegraf - это хитрая херня в которой можно включить только нужные плагины, например, собирать mysql, собирать nginx, собирать http response. он скриптуется, катится ансиблом и без особых проблем это всё запускается с полпинка просто на другом порту.

вообще-то в нод-экспортере тоже можно включать и выключать подсистемы. А вот плагинов нет, и как я понял - никогда и не будет

https://github.com/s4z/prom2click

честно говоря - я не очень понял как это работает. данные храним и там и там сразу?

lastsky

13.06.2017
21:22:07

вообще-то в нод-экспортере тоже можно включать и выключать подсистемы. А вот плагинов нет, и как я понял - никогда и не будет

да, это делается аргументами в командной строке, в отличие от telegraf.conf где что включил - то и работает. сложнее скриптовать.

collectors_enabled вроде ключ

Paul

13.06.2017
21:23:54

да, это делается аргументами в командной строке, в отличие от telegraf.conf где что включил - то и работает. сложнее скриптовать.

про сложнее скриптовать вопрос спорный. Проблема скорее в том, что написать плагин под нодэксп - невозможно, надо форкать код и писать самому

все равно же инит (системд) писать - так почему бы и аргументов не добавить?

или просто читать их из /etc/defaults/$PROCNAME

lastsky

13.06.2017
21:25:07

про сложнее скриптовать вопрос спорный. Проблема скорее в том, что написать плагин под нодэксп - невозможно, надо форкать код и писать самому

ну относительно сложнее. потому что писать systemd - это для тех у кого много свободного времени. я вот пакетами качу.

Google

lastsky

13.06.2017
21:25:24

и кладу конфиги ансиблом. потому что меня запарило писать то что уже написано и сделано.

Paul

13.06.2017
21:25:41

ну относительно сложнее. потому что писать systemd - это для тех у кого много свободного времени. я вот пакетами качу.

а что, есть пакеты под нодэксп? У меня scm, мне один раз шаблон написать несложно :)

lastsky

13.06.2017
21:26:03

есть. centos/ubuntu.

Paul

13.06.2017
21:26:30

и кстати, опять же, никто не запрещает класть опции в /etc/defaults, как положено в лучших домах лондОна. И ПОрежу.

lastsky

13.06.2017
21:26:41

а я считаю что (но это уже вопрос относится к теме чата про ансибл) что деплоем ПО должен заниматься менеджер пакетов, а не ансибл

а ансибл должен вызывать установку пакетов нужным модулем

иначе это ещё один пятиколесный велосипед на костылях

Paul

13.06.2017
21:27:34

это прекрасно если пакеты есть. Но если пакета нет или пакет есть, но не использует стандартные методы операционной системы - это очень плохо

lastsky

13.06.2017
21:27:35

впрочем, я не претендую на то что так правильно. каждый тратит столько времени, сколько хочет. я заебался переписывать роли с новыми релизами ансибла.

Paul

13.06.2017
21:27:51

а /etc/default/ - это стандартный метод, по-моему он даже прописан в LSB

впрочем, я не претендую на то что так правильно. каждый тратит столько времени, сколько хочет. я заебался переписывать роли с новыми релизами ансибла.

а я не говорил, что у меня ansible, кстати :)

lastsky

13.06.2017
21:43:04

если пакета на экспортер нет - то как его катить на сотню серверов вообще? )

ну, впрочем, это оффтоп.

мне вот тоже где-то коллектор systemd в node_exporter не нужен, а где-то на него алерты завязаны, я кладу в /etc/default/ костыль в виде конфига per-host.

но мне это не очень нравится, лишнее действие. хотя с другой стороны node_exporter без конфига вообще, тем он проще и надежнее телеграфа. везде свои преимущества :)

Andor

13.06.2017
21:50:04

если пакета на экспортер нет - то как его катить на сотню серверов вообще? )

берёшь короче

и делаешь сука пакет

lastsky

13.06.2017
21:51:14

ещё один?

в смысле, для меня это не проблема, я уже завернул всё что мне нужно в пакеты.

мне не нравится что пакет один, и потом я должен костыли в /etc/default/ класть чтобы мне node_exporter запустил +2-3 нужных коллектора там где это требуется, только это.

ну то есть, положить telegraf.conf на каждый сервер свой мне видится логичным, а положить /etc/default/node_exporter уже нет. был бы у node_exporter файл node_exporter.conf - было бы логично. пошел и включил там нужные коллекторы.

Алексей

13.06.2017
21:54:44

и кстати, опять же, никто не запрещает класть опции в /etc/defaults, как положено в лучших домах лондОна. И ПОрежу.

чото вроде бы лучшие дома уже деприкейтед.

lastsky

13.06.2017
21:54:46

хотя мне тут говорят что я снова начал страдать перфекционизмом, и вовремя одергивают.

« Назад

Страница 180 из 681

Далее »

Открыть в Telegram