@metrics_ru

Страница 407 из 681

Dmitry

29.12.2017
02:05:20

Просуммирую - автоматическое дискавери типа как у З - это просто мастхэв в нашем случае. Меньше всего хочется забыть добавить какой-нибудь perc-адаптер в одной из сервисных нод или датчик утечки в inrow кулинге от Schneider Electric

M

29.12.2017
02:06:29

Просуммирую - автоматическое дискавери типа как у З - это просто мастхэв в нашем случае. Меньше всего хочется забыть добавить какой-нибудь perc-адаптер в одной из сервисных нод или датчик утечки в inrow кулинге от Schneider Electric

ну короче такого прям решения чтобы прям все в одной коробке нет

Dmitry

29.12.2017
02:06:41

Если б я был админом одного кластера конечно он бы у меня был вылизан и каждый бы светодиод мониторился кастомным скриптом, но если кадую неделю новый клсатер на это нет ни времени ни желания.

M

29.12.2017
02:07:08

дискавери делается своими руками а дальше выбирается путь мониторинга push или pull

Google

Dmitry

29.12.2017
02:07:34

Я потому про Ansible и спросил, что всем конфигом агента можно управлять зная железо

M

29.12.2017
02:07:37

нагиос в конце концов)

или платное решение возьмите

Dmitry

29.12.2017
02:07:57

нагиос это пройденый этап

M

29.12.2017
02:08:13

а чем он не подошёл, он умеет нагрузку легко держать

Dmitry

29.12.2017
02:08:27

так же как и платное, хехе. Раньше мы использовали Bright Cluster Manager

M

29.12.2017
02:08:50

как по мне лучше покрутить mysql

и сделать его более живущим

чем переделывать все это

Dmitry

29.12.2017
02:09:35

А я вот не уверен что Zabbix и его правила discovery хорошо будут клонироваться. (когда добавите кастомных метрик)

Dmitry

29.12.2017
02:09:51

а чем он не подошёл, он умеет нагрузку легко держать

Вот как раз сожительствованием с конфигами и не подошел. В одном сервере 4 кулера, в другом - только 2, а в третьем 4, но они по-другому называются

и вот уже 3 проекта с разными конфигами без гита и хер знает кто это настраивал и зачем

M

29.12.2017
02:14:37

ну да auto discovery прям чтоб так с порога сложнее найти

Google

Dmitry

29.12.2017
02:15:08

я уже склоняюсь к двум мониторингам, первый - базовый: железо, кое-какая нагрузка, файловые системы. И опциональный - продавать еще нод чисто под перфоманс-метрики вместе с инженернымми часами все это настраивать

с другой стороны, держать несколько агентов на каждой ноде... Заказчки предсказуемо скажут что мы идиоты

Alexey

29.12.2017
02:21:46

Простите, что оффтоп, но что за организация это всё строит? Я кроме Т-Платформ строителей HPC кластеров в РФ не знаю, а на слове MPI ностальгия заела

Dmitry

29.12.2017
02:22:22

А я вот не уверен что Zabbix и его правила discovery хорошо будут клонироваться. (когда добавите кастомных метрик)

конечно время от времени надо что впиливать кастомное. Но мы стараемся это все "регуляризовывать" и переиспользовать

Простите, что оффтоп, но что за организация это всё строит? Я кроме Т-Платформ строителей HPC кластеров в РФ не знаю, а на слове MPI ностальгия заела

Я нигде не сказал что в РФ :)

Alexey

29.12.2017
02:23:19

Оу :)

Dmitry

29.12.2017
02:25:20

www.clustervision.com

если тебе нужна скорость и миллиард push метрик то нет ничего быстрее и лучше чем collectd->riemann ->graphite, долго, быстро, надёжно, очень гибко

Спасибо, записал. Надо будет развернуть и поиграться.

M

29.12.2017
02:32:20

Спасибо, записал. Надо будет развернуть и поиграться.

у меня такое используется, но к сожалению я даже не знаю что делать в случае разных кулеров и разных сетевых и так далее

даже самому интересоно как вы решили эту проблему

Dmitry

29.12.2017
02:33:34

Ну вот да. Я каждый раз коллегам говорю что мониторинг это процесс как и безопасность. Но пока обходимся тем что тут нельзя называть.

M

29.12.2017
02:34:37

просто мониторинг железа все больше и больше уходит на второй план , но у вас он на первом

Dmitry

29.12.2017
02:35:46

Ну я вот с этого и начал - мы тоже хотим быть модными и пониторитить приклад. Но от требования мониторинга железа нас никто не избавлял

Dmitry

29.12.2017
02:36:14

У вендоров типа Dell SNMP хорошо было развито, потом по MIBам разбирал.

либо вручную, но там известно было что под таким-то OID лежит сетевуха, например. а там ее errorrate...

M

29.12.2017
02:37:24

не так уж и хорошо у нас одни dell сервера и все эти snmp трапы очень бывают, отичаются температуру в итоге считываем иначе например

Dmitry

29.12.2017
02:38:40

трапы в топку.

я про SNMP через openmanage, когда можно зайти и посмотреть

M

29.12.2017
02:39:00

Ну я вот с этого и начал - мы тоже хотим быть модными и пониторитить приклад. Но от требования мониторинга железа нас никто не избавлял

а если по правде зачем мониторить каждый светодиод если это кластер может просто выводить сервер из строя и ставить новый ?

ну вот и openmanage не доконца справляется к тому же не на всех серверах он есть , на слегка старых он бесполезен

Google

Dmitry

29.12.2017
02:40:39

Не на всех серверах - это часть задачи. У меня на 99.99% был, ставилось вместе с голенькой ос

Dmitry

29.12.2017
02:43:00

а если по правде зачем мониторить каждый светодиод если это кластер может просто выводить сервер из строя и ставить новый ?

Ну во первых это красиво :) Если серьезно - то это как должно быть. Все метрики - в одном месте подшиты и пронумерованы. В слаучае проблем - поднимаешь все что ест ьи смотришь корреляции и догадываешься о причинах. Типа "растет количество дропнутых пакетов в фабрике - ага, это студетн Вася опять пишет свой MPI"

Конечно ноды в кластере мрут как мухи. Их особо никто не считает :)

Dmitry

29.12.2017
02:49:52

@BaikodromKosmodur Через ipmi/SNMP что-то недоступно из железа? Вариант с ipmi/* не устроит?)

Dmitry

29.12.2017
02:51:45

не портируемо, к сожалению - у нас несколько вендоров. Кроме того сам IPMI - весьма ненадежная штука при доступе из сети. ipmitool mc reset cold у меня пальцы сами набирают уже

К тому же IPMI это тольок малая часть проблемы - RAID адаптеры, PDU, свичи, кулинг

Dmitry

29.12.2017
02:58:35

нормальные RAID вроде публикуют SNMP, так же как PDU, свичи итд

Zabbix их вроде так и дискаверит

https://collectd.org/documentation/manpages/collectd-snmp.5.shtml

Я сам не использовал, но надо было бы) там еще snmp...

George

29.12.2017
05:15:25

Я лично за телеграф + Дискавери впилить руками

Там же любой плагин можно написать на чем угодно

Andrew

29.12.2017
05:54:49

Просуммирую - автоматическое дискавери типа как у З - это просто мастхэв в нашем случае. Меньше всего хочется забыть добавить какой-нибудь perc-адаптер в одной из сервисных нод или датчик утечки в inrow кулинге от Schneider Electric

Я бы на вашем месте всё-таки потрогал netdata для таких нужд, он дискаверит все что только можно, НО, я не знаю что у него по работе с железом разнообразным, поэтому предлагаю для начала пощупать :) Ну а дальше как и советовали выше - на мастер ноде тот же Прометей с графаной и Алерт менеджер если нужна алертилка.

Он допустим у меня с нескольких разных серверов - виртуалка, железка, железка с рейдами - успешно сам беззэ настройки собирает по 2500 метрик, просто сразу после сетапа

Alexander

29.12.2017
06:18:18

Все смешалось.

Мониторить надо отдельно инфраструктуру

отдельно кластерные приложения

500 нод - деплоить чем угодно можно

хоть подкидывать каждый раз новый имейдж из пакера и вообще ничего не ставить на нодах

все железо надо мониторить через снмп

Google

Alexander

29.12.2017
06:20:37

1 раз собрать мибы и все

софт надо мониторить через дискавери

джобы - по идее это все спецкластерные вещи, или у вас надо разворачивать облако (тот же опенстек) и отдавать ресурсы в виде виртуалок вашим клиентам

сейчас модно опенстек, да

а все в 1 не было, нет и не будет

Vladimir

29.12.2017
08:25:46

500 нод - деплоить чем угодно можно

500 однотипных нод можно и по сети с единого имеджа грузить

а, ты про это и говорил)

сейчас модно опенстек, да

уже нет, kubernetes/mesos/nomad если очень хочется

но у человека HPC, это отдельный особый мир

Admin

ERROR: S client not available

Vladimir

29.12.2017
08:26:26

там всякая вот виртуализация не уверен что вообще нужна

скорее даже вредна

а OpenStack лучше обходить за киллометр, но это тема для @ru_devops

Alexander

29.12.2017
08:28:49

хпц не увидел

Vladimir

29.12.2017
08:28:51

@BaikodromKosmodur но да, тебе выше нормально сказали - запилить кастомный автодискавери не очень сложно, встраивать телеграф в образы, взять prometheus и мониторить им.

Alexander

29.12.2017
08:29:01

увидел просто железо

Dmitry

29.12.2017
08:51:53

про snmp это со зла?

Alexander

29.12.2017
08:59:31

про snmp это со зла?

там иначе не снять - упсы, иб-свичи, климат-контроль

везде снмп

Roman

29.12.2017
09:01:09

typescript template для плагина графаны у меня не собирается почему-то, может имеет смысл переписать все на js?

есть отличный пример для создания плагинов на ts https://github.com/grafana/typescript-template-datasource

Google

Evgeny

29.12.2017
09:07:58

есть отличный пример для создания плагинов на ts https://github.com/grafana/typescript-template-datasource

У меня это не завелось

Roman

29.12.2017
09:09:18

странно. Я тоже изначально поступал как Вы - билдил непосредственно в графане. Но этот пример помог мне переписать все "по-нормальному")

Алексей

29.12.2017
09:14:19

ipmi умеет https://github.com/influxdata/telegraf/tree/master/plugins/inputs

выглядит будто умеет. его надо пересобирать для этого.

Bogdan (SirEdvin)

29.12.2017
09:16:10

Хм... а кто-то видел експортер для gitlab runner? Что бы там видеть количество запущенных задач, например.

Алексей

29.12.2017
09:16:32

он вроде сам отдает не ?

Bogdan (SirEdvin)

29.12.2017
09:16:42

Да, тупой вопрос был. Спасибо) Если кто-то так же, как я гуглить не умеет, то вот: https://docs.gitlab.com/runner/monitoring/README.html

Алексей

29.12.2017
09:16:50

там тока включать надо

Dmitry

29.12.2017
09:31:15

хоть подкидывать каждый раз новый имейдж из пакера и вообще ничего не ставить на нодах

У нас кастомная разворачивалка с битторентом - 5 минут на кластер и не зависит от размера. На самом деле log(n) , но почти константа

Alexander

29.12.2017
09:31:48

так в чем вопрос агента?

Dmitry

29.12.2017
09:32:13

Опенстек- лесом. У нас RDMA

Alexander

29.12.2017
09:32:26

выстроили про инвентаризировали и аминь

Опенстек- лесом. У нас RDMA

ну и что?

Dmitry

29.12.2017
09:32:52

В том что у нас каждую неделю по новому кластеру

Alexander

29.12.2017
09:34:00

и что?

Dmitry

29.12.2017
09:34:06

ну и что?

А зачем одна виртуалка на ноду? Omnipath не умеет в sr-iov, например

Alexander

29.12.2017
09:34:41

вас залочили?

решений более одного

Dmitry

29.12.2017
09:35:16

Ага. Целых 2! Omnipath и mellanox :)

Алексей

29.12.2017
09:36:16

а как вы потом эти кластера обновляете ?

или дальше задача заказчика ?

Alexander

29.12.2017
09:36:44

а как вы потом эти кластера обновляете ?

никак )

Dmitry

29.12.2017
09:39:14

Обычно заказчик, но мы помогаем. Как правило это привязано к мажорному релизу того же центоса. Но заменить имидж и перезалить не сильно сложно. Но вообще да. Обновления - это боль.

« Назад

Страница 407 из 681

Далее »

Открыть в Telegram