@metrics_ru

« Назад

Страница 408 из 681

Далее »

Alexander

29.12.2017
09:42:54

стандартное однотипное оборудование

вообще идеально для обнов

то же с мониторингом

Uncel

29.12.2017
09:43:25

Стандартное, это огонь

Google

Alexander

29.12.2017
09:43:42

выбрать способ доставки приложений и все

многие кластеры с сети бутятся

ноды

Dmitry

29.12.2017
09:46:17

вообще идеально для обнов

Казалось бы. Но по факту - это боль :) все друг от друга по кругу зависит, часто - глючит и медленнее чем было до обновления

Alexander

29.12.2017
09:46:46

хз. кароче что-то не то у вас

Uncel

29.12.2017
09:47:27

Да изи, какие-нибудь вендорские расширения для люстры отвалились с новым ofed и т.п

Alexander

29.12.2017
09:48:24

тестировать. задуматься о необходимости обнов в принципе

Dmitry

29.12.2017
09:48:26

Ага. Или all_reduce в imb начале падать с 64 годами. И ебемся пару месяцев

Тестировать. Угу. На одной-двух нодах может работать а на 100 - уже нет

Алексей

29.12.2017
09:49:36

@BaikodromKosmodur я немного растерян. вы говорите что если бы кластер был один он был бы весь заскриптован и замониторен. но в чем рахзница между серийными кластерами и одним ?

ведь серийный кластер расктывается по "мануалу" или ансиблом

Dmitry

29.12.2017
09:50:37

Разные вендора железа, разный софт, не говоря уж про версии этого софта

Алексей

29.12.2017
09:50:52

тоесть кластер не серийный.

Google

Алексей

29.12.2017
09:51:04

вы штампуете не свое по а апк

и это представляет некоторую сложность. так ?

Uncel

29.12.2017
09:51:27

btw https://github.com/HewlettPackard/lustre_exporter

Dmitry

29.12.2017
09:52:17

Да, железо может быть какое угодно. Наша маржа на валидации, установке и конфигурировании

Алексей

29.12.2017
09:53:09

но от системы мониторинга вы хотите мониторинга любого железа на которое ваш софт встанет.

не логично ли разделить процессы мониторинга на софт/железо. ?

Dmitry

29.12.2017
09:54:10

Именно. Желательно автоматизировано, что бы не забыть от мониторить какую-нибудь редкую железку

Алексей

29.12.2017
09:54:35

но заказчику вы на тему мониторинга железа не доверяете конечно

поэтому хотите чт бы мониторинг умел в оба

Dmitry

29.12.2017
09:55:09

не логично ли разделить процессы мониторинга на софт/железо. ?

Я об этом думал выше. Смущает несколько агентов на нодах

Алексей

29.12.2017
09:55:43

у меня есть такая же задача. самомониторинг поставленнного комплекса.

я не решаю задачу мониторинга железа никак.

и не считаю железо частью системы.

но увас я там слышал слова типа rdma и такое. у вас очевидно так низя ага.

Dmitry

29.12.2017
09:56:40

но заказчику вы на тему мониторинга железа не доверяете конечно

Что мы поставим - то и будет, как правило. Заказчик будет допиливать что есть. Но иногда заказчик хочет не З. Вот давеча ставили исингу

Алексей

29.12.2017
09:57:13

заказчик имеет рута на серверах ?

Dmitry

29.12.2017
09:57:22

Да

Алексей

29.12.2017
09:58:16

вы говорите какие параметры железа для вас критичны ?

Dmitry

29.12.2017
09:58:22

Фактически мы узкоспециализированный интегратор

Алексей

29.12.2017
09:58:28

и добавляете эти параметры в самомониторинг ?

Google

Dmitry

29.12.2017
09:59:40

вы говорите какие параметры железа для вас критичны ?

Нет. Определяем сами "на глаз". Но хотим от этого отойти - установить что-то что задисклверит что есть и настроит базу

Alexander

29.12.2017
09:59:57

2 мониторинга - инфра и аппоикейшен

Алексей

29.12.2017
10:00:05

а у вас есть параметры железа которые влияют на систему ?

Alexander

29.12.2017
10:00:18

Нет. Определяем сами "на глаз". Но хотим от этого отойти - установить что-то что задисклверит что есть и настроит базу

вам бы стандартизироваться

и абстрагироваться от железа

Алексей

29.12.2017
10:01:28

чот я тоже думаю что надо два или полтора мониторинга.

Dmitry

29.12.2017
10:01:33

вам бы стандартизироваться

Я ж только "за". Но это несбыточная мечта :(

Алексей

29.12.2017
10:01:49

стандартизироваться это долго и сложно

Alexander

29.12.2017
10:01:49

софт только требования выставляет и все

стандартизироваться это долго и сложно

нет. если говно не брать

Алексей

29.12.2017
10:02:11

глубина хранения мониторинговых данных большая ?

Dmitry

29.12.2017
10:04:07

нет. если говно не брать

А у нас говна много. Асус, делл, гигабайт, супермикро. Чем дешевле - тем лучше :)

Алексей

29.12.2017
10:04:22

эта понятно всё.

Alexander

29.12.2017
10:04:33

А у нас говна много. Асус, делл, гигабайт, супермикро. Чем дешевле - тем лучше :)

я понимаю. по сути в аналогичной ситуации

Dmitry

29.12.2017
10:04:34

глубина хранения мониторинговых данных большая ?

Обсуждаемо. Но сейчас тренды храним год

Алексей

29.12.2017
10:04:35

черный список железа которое нельзя брать уже определили ?

Alexander

29.12.2017
10:04:52

черный список железа которое нельзя брать уже определили ?

мы да. просто опыт

Алексей

29.12.2017
10:05:08

я дмитрия спрашиваю

Dmitry

29.12.2017
10:06:15

черный список железа которое нельзя брать уже определили ?

Нету такого - ставим все что подходит по цене.

Алексей

29.12.2017
10:06:51

хм. или железо не играет большой роли или ... ?

Google

Алексей

29.12.2017
10:07:02

или вы недомониторили

Dmitry

29.12.2017
10:07:11

Или говно и палки :)

Железо - это основная цена, разумеется. Заказчика интересут количество ядер на доллар. Наши же деньги в сборке и настройке, поэтому

Поэтому имеем что имеем

Я прошу прощения, я сливаюсь до вечера. На меня семья косо смотрит уже

Dmitry

29.12.2017
17:40:56

выглядит будто умеет. его надо пересобирать для этого.

То есть оно в дистрибутиве не собрано с этим плагином, как так?)

Эх... Года 3 как железо не трогаю. Облака, мать их. А тут такая романтика.

Игорь

29.12.2017
17:54:40

Эх... Года 3 как железо не трогаю. Облака, мать их. А тут такая романтика.

Выделенный сервер который никогда не видел можно считать "железо не трогаю"?

Dmitry

29.12.2017
17:56:53

Ладно))) У меня был DC. Хорошо все работало, налаженые процессы замены итд) Все бутстрапилось само удаленно... Неплохая экономия если просто смотреть на железо-облако

Причем возможность использования дешевого железа прям вдохновляла))

Admin

ERROR: S client not available

Алексей

29.12.2017
17:59:43

То есть оно в дистрибутиве не собрано с этим плагином, как так?)

ни в одном из дистров не собрано

Игорь

29.12.2017
18:01:28

Причем возможность использования дешевого железа прям вдохновляла))

Меня вдохновляет надпись в клауде "вы можете сэкономить xxx*k$ если нажмёте кнопку " auto adjust nodes"

Которую никто не думает нажать

Dmitry

29.12.2017
18:02:07

Ну да.

Все жестко зависит от размера конторы) Я считал как-то. там 4 фазы получились. Условно: 1. Стартап-инкубатор ("хз че делаем") 2. стартап-понятный "стока мощи надо, такая волатильность ресурсов", 3. стартап растущий (завтра может сильно шибануть , нужно будет 10x ресурсов) 4. энтерпрайз безконтрольный (нам надо любыми силами снизить непрофильные операционные расходы)

вот для 1,3,4 облако оказалось лучше. А для 2 дц

4 спорный момент, но все же облако.

Vladimir

29.12.2017
19:48:19

это обсуждение все же больше в @ru_devops :)

@kireevco для 4 - очевидно, что айти - не профильные расходы :) Потому что если бизнес - it-based то свое железо в какой-то момент становится выгоднее. Ну либо ты становишься netflix'ом и фактически сжираешь половину ресурсов какого-нибудь крупного облака и поэтому можешь получить специальные условия.

Google

Vladimir

29.12.2017
19:49:43

Тока нетфликсов обычно один на облако)

Сергей

29.12.2017
21:02:16

Тока нетфликсов обычно один на облако)

И не на все регионы и со своим сдн который и молотит основной трафик

Maxim

30.12.2017
09:28:14

с наступающим, народ! подскажите, а для графаны какой-нибудь готовый дашборд с алертами из прома не появился?

Gleb

30.12.2017
10:07:44

Я тут спрошу, возможно получу вербальных пиздюлей. Ситуация такая. У нас контора поставляет HPC кластеры со средней скоростю 1-3 кластера в месяц. В качестве мониторинга сейчас выбран заббикс (да-да, уже начинаю опиздюливаться) - быстро, недорого. Так как каждый кластер уникальный, то автоматическое дискавери от него очень кстати. Разные количество нод, разные вендора железа, RAID-адаптеры , разные хранилки из говна и палок (Lustre, GPFS, BeeGFS). Кроме того многие заказчики хотят HA из двух нод, а это значит pacemaker, drbd и приседания с фенсингом. Так вот вопрос. При количестве нод больше 500, заббиксу ожидаемо плохеет от метрик (Живем на mariadb, так как ее использует SLURM, тащить еще одну базу - заебемся в поддержке). Хочется переехать на что-то более быстрое модное молодежное (хотя бы попробовать), но пока как-то будущее безрадостное - долго руками конфигурять мониторинг под каждый кластер весьма уныло. А есть взять HA, то класть базу того же прома на DRBD... ну я не знаю...

Bogdan (SirEdvin)

30.12.2017
10:09:32

с наступающим, народ! подскажите, а для графаны какой-нибудь готовый дашборд с алертами из прома не появился?

Это для алерт менеджера или копия prometheus.you-domain.com//alerts?

Maxim

30.12.2017
10:10:49

Это для алерт менеджера или копия prometheus.you-domain.com//alerts?

без разницы на самом деле, главное чтобы выглядело понятно в графане

Bogdan (SirEdvin)

30.12.2017
10:20:34

Мне казалось, в графане можно просто отобразить веб страницу ...

Что-то типо такого: https://github.com/jether-energy/grafana-html-panel

Не очень удобно, конечно

А если именно что-то вроде панельки с зелеными/красными квадратиками, то вроде пока только свой экспортер писать.... Но может я и не прав.

Марк ☢

30.12.2017
11:20:02

Гдето было в инете такач пикча и подпись "понюхай руку"

Ivan

31.12.2017
12:27:47

Я прошу прощения, я сливаюсь до вечера. На меня семья косо смотрит уже

Интересная задача кстати. Я бы разделил ее на две: коллектор и бэкэнд. Если попытаться прикинуть на пальцах по бэкенду, то при постановке «мониторим все до чего дотянемся в операционке» с сервера можно снимать до 100k метрик (кейс нетдаты: https://github.com/firehol/netdata/issues/1323#issuecomment-265501668 там сервер конечно, о 144 ядрах поэтому случай немного предельный) если твои ноды будут давать раз в 10 меньше метрик и собирать их раз в 10 сек, то кластер из 500 таких нод даст поток в 500 километрик в секунду. Тут если оставаться в рамках одного сервера мониторинга наверное зайдет либо прометей либо кликхаус. Коллектор скорее всего придется обвешивать своими плагинами тк 100% подходящего под задачу думаю не существует, перспективно выглядит та же нетдата или телеграф, нужно выбирать кто удобнее. Еще пара моментов: 1. пуш или пулл и соответственно 2. как коллектор найдет бэкенд (или наоборот). Если нужно будет собирать метрики изнутри расчетных задач пуш выглядит правильнее (задачи живут не долго и каждый раз разные) но тут каждый «студент» должен будет кодить отправку метрик

Ivan

31.12.2017
21:12:48

С Новым годом от команды Айхор Хостинга!!!!

Salavat

31.12.2017
21:27:53

Сахалин услышал вас )

Evgeny

01.01.2018
20:31:49

Спасибо за совет сделать все на основе typescript-template-datasource. На этот раз все получилось.

У меня еще один вопрос. Я хочу сделать следующее - у меня есть автодополнение метрик, тегов и значений тегов. Хочется чтобы при дополнении значения тега вылезали не только возможные значения, как сейчас, но и список всех Query переменных. Откуда их можно извлечь? Я что-то пока не нашел где они хранятся.

Dmitry

01.01.2018
21:40:40

Интересная задача кстати. Я бы разделил ее на две: коллектор и бэкэнд. Если попытаться прикинуть на пальцах по бэкенду, то при постановке «мониторим все до чего дотянемся в операционке» с сервера можно снимать до 100k метрик (кейс нетдаты: https://github.com/firehol/netdata/issues/1323#issuecomment-265501668 там сервер конечно, о 144 ядрах поэтому случай немного предельный) если твои ноды будут давать раз в 10 меньше метрик и собирать их раз в 10 сек, то кластер из 500 таких нод даст поток в 500 километрик в секунду. Тут если оставаться в рамках одного сервера мониторинга наверное зайдет либо прометей либо кликхаус. Коллектор скорее всего придется обвешивать своими плагинами тк 100% подходящего под задачу думаю не существует, перспективно выглядит та же нетдата или телеграф, нужно выбирать кто удобнее. Еще пара моментов: 1. пуш или пулл и соответственно 2. как коллектор найдет бэкенд (или наоборот). Если нужно будет собирать метрики изнутри расчетных задач пуш выглядит правильнее (задачи живут не долго и каждый раз разные) но тут каждый «студент» должен будет кодить отправку метрик

Спасибо. Заставлять каждого студента кодить метрики - не вариант. Обсуждалось брать все что нужно с системы и "как-то обрабатывать". Для начала - память + проц + IB, Потом будем думать что делать с IO. Пран минимум - кому-нибудь внедрить и посмотреть что получилось.

Alexander

02.01.2018
07:13:48

У меня еще один вопрос. Я хочу сделать следующее - у меня есть автодополнение метрик, тегов и значений тегов. Хочется чтобы при дополнении значения тега вылезали не только возможные значения, как сейчас, но и список всех Query переменных. Откуда их можно извлечь? Я что-то пока не нашел где они хранятся.

templateSrv позволяет получить список переменных. Во встроенных data sources можно пример посмотреть.

Evgeny

02.01.2018
10:31:21

templateSrv позволяет получить список переменных. Во встроенных data sources можно пример посмотреть.

Круто, спасибо!

templateSrv позволяет получить список переменных. Во встроенных data sources можно пример посмотреть.

А это как-то связано с функцией targetContainsTemplate(target) { return this.templateSrv.variableExists(target.expr); } которую реализуют многие плагины? Я так и не смог найти откуда она вызывается.

« Назад

Страница 408 из 681

Далее »

Открыть в Telegram