@metrics_ru

Страница 407 из 681
Dmitry
29.12.2017
02:05:20
Просуммирую - автоматическое дискавери типа как у З - это просто мастхэв в нашем случае. Меньше всего хочется забыть добавить какой-нибудь perc-адаптер в одной из сервисных нод или датчик утечки в inrow кулинге от Schneider Electric

Dmitry
29.12.2017
02:06:41
Если б я был админом одного кластера конечно он бы у меня был вылизан и каждый бы светодиод мониторился кастомным скриптом, но если кадую неделю новый клсатер на это нет ни времени ни желания.

M
29.12.2017
02:07:08
дискавери делается своими руками а дальше выбирается путь мониторинга push или pull

Google
Dmitry
29.12.2017
02:07:34
Я потому про Ansible и спросил, что всем конфигом агента можно управлять зная железо

M
29.12.2017
02:07:37
нагиос в конце концов)

или платное решение возьмите

Dmitry
29.12.2017
02:07:57
нагиос это пройденый этап

M
29.12.2017
02:08:13
а чем он не подошёл, он умеет нагрузку легко держать

Dmitry
29.12.2017
02:08:27
так же как и платное, хехе. Раньше мы использовали Bright Cluster Manager

M
29.12.2017
02:08:50
как по мне лучше покрутить mysql

и сделать его более живущим

чем переделывать все это

Dmitry
29.12.2017
02:09:35
А я вот не уверен что Zabbix и его правила discovery хорошо будут клонироваться. (когда добавите кастомных метрик)

Dmitry
29.12.2017
02:09:51
а чем он не подошёл, он умеет нагрузку легко держать
Вот как раз сожительствованием с конфигами и не подошел. В одном сервере 4 кулера, в другом - только 2, а в третьем 4, но они по-другому называются

и вот уже 3 проекта с разными конфигами без гита и хер знает кто это настраивал и зачем

M
29.12.2017
02:14:37
ну да auto discovery прям чтоб так с порога сложнее найти

Google
Dmitry
29.12.2017
02:15:08
я уже склоняюсь к двум мониторингам, первый - базовый: железо, кое-какая нагрузка, файловые системы. И опциональный - продавать еще нод чисто под перфоманс-метрики вместе с инженернымми часами все это настраивать

с другой стороны, держать несколько агентов на каждой ноде... Заказчки предсказуемо скажут что мы идиоты

Alexey
29.12.2017
02:21:46
Простите, что оффтоп, но что за организация это всё строит? Я кроме Т-Платформ строителей HPC кластеров в РФ не знаю, а на слове MPI ностальгия заела

Alexey
29.12.2017
02:23:19
Оу :)

M
29.12.2017
02:32:20
Спасибо, записал. Надо будет развернуть и поиграться.
у меня такое используется, но к сожалению я даже не знаю что делать в случае разных кулеров и разных сетевых и так далее

даже самому интересоно как вы решили эту проблему

Dmitry
29.12.2017
02:33:34
Ну вот да. Я каждый раз коллегам говорю что мониторинг это процесс как и безопасность. Но пока обходимся тем что тут нельзя называть.

M
29.12.2017
02:34:37
просто мониторинг железа все больше и больше уходит на второй план , но у вас он на первом

Dmitry
29.12.2017
02:35:46
Ну я вот с этого и начал - мы тоже хотим быть модными и пониторитить приклад. Но от требования мониторинга железа нас никто не избавлял

Dmitry
29.12.2017
02:36:14
У вендоров типа Dell SNMP хорошо было развито, потом по MIBам разбирал.

либо вручную, но там известно было что под таким-то OID лежит сетевуха, например. а там ее errorrate...

M
29.12.2017
02:37:24
не так уж и хорошо у нас одни dell сервера и все эти snmp трапы очень бывают, отичаются температуру в итоге считываем иначе например

Dmitry
29.12.2017
02:38:40
трапы в топку.

я про SNMP через openmanage, когда можно зайти и посмотреть

M
29.12.2017
02:39:00
Ну я вот с этого и начал - мы тоже хотим быть модными и пониторитить приклад. Но от требования мониторинга железа нас никто не избавлял
а если по правде зачем мониторить каждый светодиод если это кластер может просто выводить сервер из строя и ставить новый ?

ну вот и openmanage не доконца справляется к тому же не на всех серверах он есть , на слегка старых он бесполезен

Google
Dmitry
29.12.2017
02:40:39
Не на всех серверах - это часть задачи. У меня на 99.99% был, ставилось вместе с голенькой ос

Dmitry
29.12.2017
02:43:00
а если по правде зачем мониторить каждый светодиод если это кластер может просто выводить сервер из строя и ставить новый ?
Ну во первых это красиво :) Если серьезно - то это как должно быть. Все метрики - в одном месте подшиты и пронумерованы. В слаучае проблем - поднимаешь все что ест ьи смотришь корреляции и догадываешься о причинах. Типа "растет количество дропнутых пакетов в фабрике - ага, это студетн Вася опять пишет свой MPI"

Конечно ноды в кластере мрут как мухи. Их особо никто не считает :)

Dmitry
29.12.2017
02:49:52
@BaikodromKosmodur Через ipmi/SNMP что-то недоступно из железа? Вариант с ipmi/* не устроит?)

Dmitry
29.12.2017
02:51:45
не портируемо, к сожалению - у нас несколько вендоров. Кроме того сам IPMI - весьма ненадежная штука при доступе из сети. ipmitool mc reset cold у меня пальцы сами набирают уже

К тому же IPMI это тольок малая часть проблемы - RAID адаптеры, PDU, свичи, кулинг

Dmitry
29.12.2017
02:58:35
нормальные RAID вроде публикуют SNMP, так же как PDU, свичи итд

Zabbix их вроде так и дискаверит

https://collectd.org/documentation/manpages/collectd-snmp.5.shtml

Я сам не использовал, но надо было бы) там еще snmp...

George
29.12.2017
05:15:25
Я лично за телеграф + Дискавери впилить руками

Там же любой плагин можно написать на чем угодно

Andrew
29.12.2017
05:54:49
Просуммирую - автоматическое дискавери типа как у З - это просто мастхэв в нашем случае. Меньше всего хочется забыть добавить какой-нибудь perc-адаптер в одной из сервисных нод или датчик утечки в inrow кулинге от Schneider Electric
Я бы на вашем месте всё-таки потрогал netdata для таких нужд, он дискаверит все что только можно, НО, я не знаю что у него по работе с железом разнообразным, поэтому предлагаю для начала пощупать :) Ну а дальше как и советовали выше - на мастер ноде тот же Прометей с графаной и Алерт менеджер если нужна алертилка.

Он допустим у меня с нескольких разных серверов - виртуалка, железка, железка с рейдами - успешно сам беззэ настройки собирает по 2500 метрик, просто сразу после сетапа

Alexander
29.12.2017
06:18:18
Все смешалось.

Мониторить надо отдельно инфраструктуру

отдельно кластерные приложения

500 нод - деплоить чем угодно можно

хоть подкидывать каждый раз новый имейдж из пакера и вообще ничего не ставить на нодах

все железо надо мониторить через снмп

Google
Alexander
29.12.2017
06:20:37
1 раз собрать мибы и все

софт надо мониторить через дискавери

джобы - по идее это все спецкластерные вещи, или у вас надо разворачивать облако (тот же опенстек) и отдавать ресурсы в виде виртуалок вашим клиентам

сейчас модно опенстек, да

а все в 1 не было, нет и не будет

Vladimir
29.12.2017
08:25:46
500 нод - деплоить чем угодно можно
500 однотипных нод можно и по сети с единого имеджа грузить

а, ты про это и говорил)

сейчас модно опенстек, да
уже нет, kubernetes/mesos/nomad если очень хочется

но у человека HPC, это отдельный особый мир

Admin
ERROR: S client not available

Vladimir
29.12.2017
08:26:26
там всякая вот виртуализация не уверен что вообще нужна

скорее даже вредна

а OpenStack лучше обходить за киллометр, но это тема для @ru_devops

Alexander
29.12.2017
08:28:49
хпц не увидел

Vladimir
29.12.2017
08:28:51
@BaikodromKosmodur но да, тебе выше нормально сказали - запилить кастомный автодискавери не очень сложно, встраивать телеграф в образы, взять prometheus и мониторить им.

Alexander
29.12.2017
08:29:01
увидел просто железо

Dmitry
29.12.2017
08:51:53
про snmp это со зла?

Alexander
29.12.2017
08:59:31
про snmp это со зла?
там иначе не снять - упсы, иб-свичи, климат-контроль

везде снмп

Roman
29.12.2017
09:01:09
typescript template для плагина графаны у меня не собирается почему-то, может имеет смысл переписать все на js?
есть отличный пример для создания плагинов на ts https://github.com/grafana/typescript-template-datasource

Google
Roman
29.12.2017
09:09:18
странно. Я тоже изначально поступал как Вы - билдил непосредственно в графане. Но этот пример помог мне переписать все "по-нормальному")

Алексей
29.12.2017
09:14:19
ipmi умеет https://github.com/influxdata/telegraf/tree/master/plugins/inputs
выглядит будто умеет. его надо пересобирать для этого.

Bogdan (SirEdvin)
29.12.2017
09:16:10
Хм... а кто-то видел експортер для gitlab runner? Что бы там видеть количество запущенных задач, например.

Алексей
29.12.2017
09:16:32
он вроде сам отдает не ?

Bogdan (SirEdvin)
29.12.2017
09:16:42
Да, тупой вопрос был. Спасибо) Если кто-то так же, как я гуглить не умеет, то вот: https://docs.gitlab.com/runner/monitoring/README.html

Алексей
29.12.2017
09:16:50
там тока включать надо

Dmitry
29.12.2017
09:31:15
хоть подкидывать каждый раз новый имейдж из пакера и вообще ничего не ставить на нодах
У нас кастомная разворачивалка с битторентом - 5 минут на кластер и не зависит от размера. На самом деле log(n) , но почти константа

Alexander
29.12.2017
09:31:48
так в чем вопрос агента?

Dmitry
29.12.2017
09:32:13
Опенстек- лесом. У нас RDMA

Alexander
29.12.2017
09:32:26
выстроили про инвентаризировали и аминь

Dmitry
29.12.2017
09:32:52
В том что у нас каждую неделю по новому кластеру

Alexander
29.12.2017
09:34:00
и что?

Dmitry
29.12.2017
09:34:06
ну и что?
А зачем одна виртуалка на ноду? Omnipath не умеет в sr-iov, например

Alexander
29.12.2017
09:34:41
вас залочили?

решений более одного

Dmitry
29.12.2017
09:35:16
Ага. Целых 2! Omnipath и mellanox :)

Алексей
29.12.2017
09:36:16
а как вы потом эти кластера обновляете ?

или дальше задача заказчика ?

Dmitry
29.12.2017
09:39:14
Обычно заказчик, но мы помогаем. Как правило это привязано к мажорному релизу того же центоса. Но заменить имидж и перезалить не сильно сложно. Но вообще да. Обновления - это боль.

Страница 407 из 681