
Dmitry
29.12.2017
02:05:20
Просуммирую - автоматическое дискавери типа как у З - это просто мастхэв в нашем случае. Меньше всего хочется забыть добавить какой-нибудь perc-адаптер в одной из сервисных нод или датчик утечки в inrow кулинге от Schneider Electric

M
29.12.2017
02:06:29

Dmitry
29.12.2017
02:06:41
Если б я был админом одного кластера конечно он бы у меня был вылизан и каждый бы светодиод мониторился кастомным скриптом, но если кадую неделю новый клсатер на это нет ни времени ни желания.

M
29.12.2017
02:07:08
дискавери делается своими руками а дальше выбирается путь мониторинга push или pull

Google

Dmitry
29.12.2017
02:07:34
Я потому про Ansible и спросил, что всем конфигом агента можно управлять зная железо

M
29.12.2017
02:07:37
нагиос в конце концов)
или платное решение возьмите

Dmitry
29.12.2017
02:07:57
нагиос это пройденый этап

M
29.12.2017
02:08:13
а чем он не подошёл, он умеет нагрузку легко держать

Dmitry
29.12.2017
02:08:27
так же как и платное, хехе. Раньше мы использовали Bright Cluster Manager

M
29.12.2017
02:08:50
как по мне лучше покрутить mysql
и сделать его более живущим
чем переделывать все это

Dmitry
29.12.2017
02:09:35
А я вот не уверен что Zabbix и его правила discovery хорошо будут клонироваться. (когда добавите кастомных метрик)

Dmitry
29.12.2017
02:09:51
и вот уже 3 проекта с разными конфигами без гита и хер знает кто это настраивал и зачем

M
29.12.2017
02:14:37
ну да auto discovery прям чтоб так с порога сложнее найти

Google

Dmitry
29.12.2017
02:15:08
я уже склоняюсь к двум мониторингам, первый - базовый: железо, кое-какая нагрузка, файловые системы. И опциональный - продавать еще нод чисто под перфоманс-метрики вместе с инженернымми часами все это настраивать
с другой стороны, держать несколько агентов на каждой ноде... Заказчки предсказуемо скажут что мы идиоты

Alexey
29.12.2017
02:21:46
Простите, что оффтоп, но что за организация это всё строит? Я кроме Т-Платформ строителей HPC кластеров в РФ не знаю, а на слове MPI ностальгия заела

Dmitry
29.12.2017
02:22:22

Alexey
29.12.2017
02:23:19
Оу :)

Dmitry
29.12.2017
02:25:20
www.clustervision.com

M
29.12.2017
02:32:20
даже самому интересоно как вы решили эту проблему

Dmitry
29.12.2017
02:33:34
Ну вот да. Я каждый раз коллегам говорю что мониторинг это процесс как и безопасность. Но пока обходимся тем что тут нельзя называть.

M
29.12.2017
02:34:37
просто мониторинг железа все больше и больше уходит на второй план , но у вас он на первом

Dmitry
29.12.2017
02:35:46
Ну я вот с этого и начал - мы тоже хотим быть модными и пониторитить приклад. Но от требования мониторинга железа нас никто не избавлял

Dmitry
29.12.2017
02:36:14
У вендоров типа Dell SNMP хорошо было развито, потом по MIBам разбирал.
либо вручную, но там известно было что под таким-то OID лежит сетевуха, например. а там ее errorrate...

M
29.12.2017
02:37:24
не так уж и хорошо у нас одни dell сервера и все эти snmp трапы очень бывают, отичаются температуру в итоге считываем иначе например

Dmitry
29.12.2017
02:38:40
трапы в топку.
я про SNMP через openmanage, когда можно зайти и посмотреть

M
29.12.2017
02:39:00
ну вот и openmanage не доконца справляется к тому же не на всех серверах он есть , на слегка старых он бесполезен

Google

Dmitry
29.12.2017
02:40:39
Не на всех серверах - это часть задачи. У меня на 99.99% был, ставилось вместе с голенькой ос

Dmitry
29.12.2017
02:43:00
Конечно ноды в кластере мрут как мухи. Их особо никто не считает :)

Dmitry
29.12.2017
02:49:52
@BaikodromKosmodur Через ipmi/SNMP что-то недоступно из железа? Вариант с ipmi/* не устроит?)

Dmitry
29.12.2017
02:51:45
не портируемо, к сожалению - у нас несколько вендоров. Кроме того сам IPMI - весьма ненадежная штука при доступе из сети. ipmitool mc reset cold у меня пальцы сами набирают уже
К тому же IPMI это тольок малая часть проблемы - RAID адаптеры, PDU, свичи, кулинг

Dmitry
29.12.2017
02:58:35
нормальные RAID вроде публикуют SNMP, так же как PDU, свичи итд
Zabbix их вроде так и дискаверит
https://collectd.org/documentation/manpages/collectd-snmp.5.shtml
Я сам не использовал, но надо было бы) там еще snmp...

George
29.12.2017
05:15:25
Я лично за телеграф + Дискавери впилить руками
Там же любой плагин можно написать на чем угодно

Andrew
29.12.2017
05:54:49
Он допустим у меня с нескольких разных серверов - виртуалка, железка, железка с рейдами - успешно сам беззэ настройки собирает по 2500 метрик, просто сразу после сетапа


Alexander
29.12.2017
06:18:18
Все смешалось.
Мониторить надо отдельно инфраструктуру
отдельно кластерные приложения
500 нод - деплоить чем угодно можно
хоть подкидывать каждый раз новый имейдж из пакера и вообще ничего не ставить на нодах
все железо надо мониторить через снмп

Google

Alexander
29.12.2017
06:20:37
1 раз собрать мибы и все
софт надо мониторить через дискавери
джобы - по идее это все спецкластерные вещи, или у вас надо разворачивать облако (тот же опенстек) и отдавать ресурсы в виде виртуалок вашим клиентам
сейчас модно опенстек, да
а все в 1 не было, нет и не будет

Vladimir
29.12.2017
08:25:46
а, ты про это и говорил)
но у человека HPC, это отдельный особый мир

Admin
ERROR: S client not available

Vladimir
29.12.2017
08:26:26
там всякая вот виртуализация не уверен что вообще нужна
скорее даже вредна
а OpenStack лучше обходить за киллометр, но это тема для @ru_devops

Alexander
29.12.2017
08:28:49
хпц не увидел

Vladimir
29.12.2017
08:28:51
@BaikodromKosmodur но да, тебе выше нормально сказали - запилить кастомный автодискавери не очень сложно, встраивать телеграф в образы, взять prometheus и мониторить им.

Alexander
29.12.2017
08:29:01
увидел просто железо

Dmitry
29.12.2017
08:51:53
про snmp это со зла?

Alexander
29.12.2017
08:59:31
везде снмп

Roman
29.12.2017
09:01:09

Google

Evgeny
29.12.2017
09:07:58

Roman
29.12.2017
09:09:18
странно. Я тоже изначально поступал как Вы - билдил непосредственно в графане. Но этот пример помог мне переписать все "по-нормальному")

Алексей
29.12.2017
09:14:19

Bogdan (SirEdvin)
29.12.2017
09:16:10
Хм... а кто-то видел експортер для gitlab runner? Что бы там видеть количество запущенных задач, например.

Алексей
29.12.2017
09:16:32
он вроде сам отдает не ?

Bogdan (SirEdvin)
29.12.2017
09:16:42
Да, тупой вопрос был. Спасибо) Если кто-то так же, как я гуглить не умеет, то вот: https://docs.gitlab.com/runner/monitoring/README.html

Алексей
29.12.2017
09:16:50
там тока включать надо

Dmitry
29.12.2017
09:31:15

Alexander
29.12.2017
09:31:48
так в чем вопрос агента?

Dmitry
29.12.2017
09:32:13
Опенстек- лесом. У нас RDMA

Alexander
29.12.2017
09:32:26
выстроили про инвентаризировали и аминь

Dmitry
29.12.2017
09:32:52
В том что у нас каждую неделю по новому кластеру

Alexander
29.12.2017
09:34:00
и что?

Dmitry
29.12.2017
09:34:06
ну и что?
А зачем одна виртуалка на ноду? Omnipath не умеет в sr-iov, например

Alexander
29.12.2017
09:34:41
вас залочили?
решений более одного

Dmitry
29.12.2017
09:35:16
Ага. Целых 2! Omnipath и mellanox :)

Алексей
29.12.2017
09:36:16
а как вы потом эти кластера обновляете ?
или дальше задача заказчика ?

Alexander
29.12.2017
09:36:44

Dmitry
29.12.2017
09:39:14
Обычно заказчик, но мы помогаем. Как правило это привязано к мажорному релизу того же центоса. Но заменить имидж и перезалить не сильно сложно. Но вообще да. Обновления - это боль.