@metrics_ru

Страница 408 из 681
Alexander
29.12.2017
09:42:54
стандартное однотипное оборудование

вообще идеально для обнов

то же с мониторингом

Uncel
29.12.2017
09:43:25
Стандартное, это огонь

Google
Alexander
29.12.2017
09:43:42
выбрать способ доставки приложений и все

многие кластеры с сети бутятся

ноды

Dmitry
29.12.2017
09:46:17
вообще идеально для обнов
Казалось бы. Но по факту - это боль :) все друг от друга по кругу зависит, часто - глючит и медленнее чем было до обновления

Alexander
29.12.2017
09:46:46
хз. кароче что-то не то у вас

Uncel
29.12.2017
09:47:27
Да изи, какие-нибудь вендорские расширения для люстры отвалились с новым ofed и т.п

Alexander
29.12.2017
09:48:24
тестировать. задуматься о необходимости обнов в принципе

Dmitry
29.12.2017
09:48:26
Ага. Или all_reduce в imb начале падать с 64 годами. И ебемся пару месяцев

Тестировать. Угу. На одной-двух нодах может работать а на 100 - уже нет

Алексей
29.12.2017
09:49:36
@BaikodromKosmodur я немного растерян. вы говорите что если бы кластер был один он был бы весь заскриптован и замониторен. но в чем рахзница между серийными кластерами и одним ?

ведь серийный кластер расктывается по "мануалу" или ансиблом

Dmitry
29.12.2017
09:50:37
Разные вендора железа, разный софт, не говоря уж про версии этого софта

Алексей
29.12.2017
09:50:52
тоесть кластер не серийный.

Google
Алексей
29.12.2017
09:51:04
вы штампуете не свое по а апк

и это представляет некоторую сложность. так ?

Uncel
29.12.2017
09:51:27
btw https://github.com/HewlettPackard/lustre_exporter

Dmitry
29.12.2017
09:52:17
Да, железо может быть какое угодно. Наша маржа на валидации, установке и конфигурировании

Алексей
29.12.2017
09:53:09
но от системы мониторинга вы хотите мониторинга любого железа на которое ваш софт встанет.

не логично ли разделить процессы мониторинга на софт/железо. ?

Dmitry
29.12.2017
09:54:10
Именно. Желательно автоматизировано, что бы не забыть от мониторить какую-нибудь редкую железку

Алексей
29.12.2017
09:54:35
но заказчику вы на тему мониторинга железа не доверяете конечно

поэтому хотите чт бы мониторинг умел в оба

Dmitry
29.12.2017
09:55:09
не логично ли разделить процессы мониторинга на софт/железо. ?
Я об этом думал выше. Смущает несколько агентов на нодах

Алексей
29.12.2017
09:55:43
у меня есть такая же задача. самомониторинг поставленнного комплекса.

я не решаю задачу мониторинга железа никак.

и не считаю железо частью системы.

но увас я там слышал слова типа rdma и такое. у вас очевидно так низя ага.

Dmitry
29.12.2017
09:56:40
но заказчику вы на тему мониторинга железа не доверяете конечно
Что мы поставим - то и будет, как правило. Заказчик будет допиливать что есть. Но иногда заказчик хочет не З. Вот давеча ставили исингу

Алексей
29.12.2017
09:57:13
заказчик имеет рута на серверах ?

Dmitry
29.12.2017
09:57:22
Да

Алексей
29.12.2017
09:58:16
вы говорите какие параметры железа для вас критичны ?

Dmitry
29.12.2017
09:58:22
Фактически мы узкоспециализированный интегратор

Алексей
29.12.2017
09:58:28
и добавляете эти параметры в самомониторинг ?

Google
Dmitry
29.12.2017
09:59:40
вы говорите какие параметры железа для вас критичны ?
Нет. Определяем сами "на глаз". Но хотим от этого отойти - установить что-то что задисклверит что есть и настроит базу

Alexander
29.12.2017
09:59:57
2 мониторинга - инфра и аппоикейшен

Алексей
29.12.2017
10:00:05
а у вас есть параметры железа которые влияют на систему ?

Алексей
29.12.2017
10:01:28
чот я тоже думаю что надо два или полтора мониторинга.

Dmitry
29.12.2017
10:01:33
вам бы стандартизироваться
Я ж только "за". Но это несбыточная мечта :(

Алексей
29.12.2017
10:01:49
стандартизироваться это долго и сложно

Alexander
29.12.2017
10:01:49
софт только требования выставляет и все

Алексей
29.12.2017
10:02:11
глубина хранения мониторинговых данных большая ?

Dmitry
29.12.2017
10:04:07
нет. если говно не брать
А у нас говна много. Асус, делл, гигабайт, супермикро. Чем дешевле - тем лучше :)

Алексей
29.12.2017
10:04:22
эта понятно всё.

Alexander
29.12.2017
10:04:33
Dmitry
29.12.2017
10:04:34
глубина хранения мониторинговых данных большая ?
Обсуждаемо. Но сейчас тренды храним год

Алексей
29.12.2017
10:04:35
черный список железа которое нельзя брать уже определили ?

Алексей
29.12.2017
10:05:08
я дмитрия спрашиваю

Dmitry
29.12.2017
10:06:15
черный список железа которое нельзя брать уже определили ?
Нету такого - ставим все что подходит по цене.

Алексей
29.12.2017
10:06:51
хм. или железо не играет большой роли или ... ?

Google
Алексей
29.12.2017
10:07:02
или вы недомониторили

Dmitry
29.12.2017
10:07:11
Или говно и палки :)

Железо - это основная цена, разумеется. Заказчика интересут количество ядер на доллар. Наши же деньги в сборке и настройке, поэтому

Поэтому имеем что имеем

Я прошу прощения, я сливаюсь до вечера. На меня семья косо смотрит уже

Dmitry
29.12.2017
17:40:56
выглядит будто умеет. его надо пересобирать для этого.
То есть оно в дистрибутиве не собрано с этим плагином, как так?)

Эх... Года 3 как железо не трогаю. Облака, мать их. А тут такая романтика.

Игорь
29.12.2017
17:54:40
Эх... Года 3 как железо не трогаю. Облака, мать их. А тут такая романтика.
Выделенный сервер который никогда не видел можно считать "железо не трогаю"?

Dmitry
29.12.2017
17:56:53
Ладно))) У меня был DC. Хорошо все работало, налаженые процессы замены итд) Все бутстрапилось само удаленно... Неплохая экономия если просто смотреть на железо-облако

Причем возможность использования дешевого железа прям вдохновляла))

Admin
ERROR: S client not available

Алексей
29.12.2017
17:59:43
Игорь
29.12.2017
18:01:28
Причем возможность использования дешевого железа прям вдохновляла))
Меня вдохновляет надпись в клауде "вы можете сэкономить xxx*k$ если нажмёте кнопку " auto adjust nodes"

Которую никто не думает нажать

Dmitry
29.12.2017
18:02:07
Ну да.

Все жестко зависит от размера конторы) Я считал как-то. там 4 фазы получились. Условно: 1. Стартап-инкубатор ("хз че делаем") 2. стартап-понятный "стока мощи надо, такая волатильность ресурсов", 3. стартап растущий (завтра может сильно шибануть , нужно будет 10x ресурсов) 4. энтерпрайз безконтрольный (нам надо любыми силами снизить непрофильные операционные расходы)

вот для 1,3,4 облако оказалось лучше. А для 2 дц

4 спорный момент, но все же облако.

Vladimir
29.12.2017
19:48:19
это обсуждение все же больше в @ru_devops :)

@kireevco для 4 - очевидно, что айти - не профильные расходы :) Потому что если бизнес - it-based то свое железо в какой-то момент становится выгоднее. Ну либо ты становишься netflix'ом и фактически сжираешь половину ресурсов какого-нибудь крупного облака и поэтому можешь получить специальные условия.

Google
Vladimir
29.12.2017
19:49:43
Тока нетфликсов обычно один на облако)

Сергей
29.12.2017
21:02:16
Тока нетфликсов обычно один на облако)
И не на все регионы и со своим сдн который и молотит основной трафик

Maxim
30.12.2017
09:28:14
с наступающим, народ! подскажите, а для графаны какой-нибудь готовый дашборд с алертами из прома не появился?

Gleb
30.12.2017
10:07:44
Я тут спрошу, возможно получу вербальных пиздюлей. Ситуация такая. У нас контора поставляет HPC кластеры со средней скоростю 1-3 кластера в месяц. В качестве мониторинга сейчас выбран заббикс (да-да, уже начинаю опиздюливаться) - быстро, недорого. Так как каждый кластер уникальный, то автоматическое дискавери от него очень кстати. Разные количество нод, разные вендора железа, RAID-адаптеры , разные хранилки из говна и палок (Lustre, GPFS, BeeGFS). Кроме того многие заказчики хотят HA из двух нод, а это значит pacemaker, drbd и приседания с фенсингом. Так вот вопрос. При количестве нод больше 500, заббиксу ожидаемо плохеет от метрик (Живем на mariadb, так как ее использует SLURM, тащить еще одну базу - заебемся в поддержке). Хочется переехать на что-то более быстрое модное молодежное (хотя бы попробовать), но пока как-то будущее безрадостное - долго руками конфигурять мониторинг под каждый кластер весьма уныло. А есть взять HA, то класть базу того же прома на DRBD... ну я не знаю...


Bogdan (SirEdvin)
30.12.2017
10:09:32
Maxim
30.12.2017
10:10:49
Это для алерт менеджера или копия prometheus.you-domain.com//alerts?
без разницы на самом деле, главное чтобы выглядело понятно в графане

Bogdan (SirEdvin)
30.12.2017
10:20:34
Мне казалось, в графане можно просто отобразить веб страницу ...

Что-то типо такого: https://github.com/jether-energy/grafana-html-panel

Не очень удобно, конечно

А если именно что-то вроде панельки с зелеными/красными квадратиками, то вроде пока только свой экспортер писать.... Но может я и не прав.

Марк ☢
30.12.2017
11:20:02
Гдето было в инете такач пикча и подпись "понюхай руку"

Ivan
31.12.2017
12:27:47
Я прошу прощения, я сливаюсь до вечера. На меня семья косо смотрит уже
Интересная задача кстати. Я бы разделил ее на две: коллектор и бэкэнд. Если попытаться прикинуть на пальцах по бэкенду, то при постановке «мониторим все до чего дотянемся в операционке» с сервера можно снимать до 100k метрик (кейс нетдаты: https://github.com/firehol/netdata/issues/1323#issuecomment-265501668 там сервер конечно, о 144 ядрах поэтому случай немного предельный) если твои ноды будут давать раз в 10 меньше метрик и собирать их раз в 10 сек, то кластер из 500 таких нод даст поток в 500 километрик в секунду. Тут если оставаться в рамках одного сервера мониторинга наверное зайдет либо прометей либо кликхаус. Коллектор скорее всего придется обвешивать своими плагинами тк 100% подходящего под задачу думаю не существует, перспективно выглядит та же нетдата или телеграф, нужно выбирать кто удобнее. Еще пара моментов: 1. пуш или пулл и соответственно 2. как коллектор найдет бэкенд (или наоборот). Если нужно будет собирать метрики изнутри расчетных задач пуш выглядит правильнее (задачи живут не долго и каждый раз разные) но тут каждый «студент» должен будет кодить отправку метрик

Ivan
31.12.2017
21:12:48
С Новым годом от команды Айхор Хостинга!!!!

Salavat
31.12.2017
21:27:53
Сахалин услышал вас )

Evgeny
01.01.2018
20:31:49
Спасибо за совет сделать все на основе typescript-template-datasource. На этот раз все получилось.

У меня еще один вопрос. Я хочу сделать следующее - у меня есть автодополнение метрик, тегов и значений тегов. Хочется чтобы при дополнении значения тега вылезали не только возможные значения, как сейчас, но и список всех Query переменных. Откуда их можно извлечь? Я что-то пока не нашел где они хранятся.

Dmitry
01.01.2018
21:40:40
Интересная задача кстати. Я бы разделил ее на две: коллектор и бэкэнд. Если попытаться прикинуть на пальцах по бэкенду, то при постановке «мониторим все до чего дотянемся в операционке» с сервера можно снимать до 100k метрик (кейс нетдаты: https://github.com/firehol/netdata/issues/1323#issuecomment-265501668 там сервер конечно, о 144 ядрах поэтому случай немного предельный) если твои ноды будут давать раз в 10 меньше метрик и собирать их раз в 10 сек, то кластер из 500 таких нод даст поток в 500 километрик в секунду. Тут если оставаться в рамках одного сервера мониторинга наверное зайдет либо прометей либо кликхаус. Коллектор скорее всего придется обвешивать своими плагинами тк 100% подходящего под задачу думаю не существует, перспективно выглядит та же нетдата или телеграф, нужно выбирать кто удобнее. Еще пара моментов: 1. пуш или пулл и соответственно 2. как коллектор найдет бэкенд (или наоборот). Если нужно будет собирать метрики изнутри расчетных задач пуш выглядит правильнее (задачи живут не долго и каждый раз разные) но тут каждый «студент» должен будет кодить отправку метрик
Спасибо. Заставлять каждого студента кодить метрики - не вариант. Обсуждалось брать все что нужно с системы и "как-то обрабатывать". Для начала - память + проц + IB, Потом будем думать что делать с IO. Пран минимум - кому-нибудь внедрить и посмотреть что получилось.

Evgeny
02.01.2018
10:31:21
templateSrv позволяет получить список переменных. Во встроенных data sources можно пример посмотреть.
А это как-то связано с функцией targetContainsTemplate(target) { return this.templateSrv.variableExists(target.expr); } которую реализуют многие плагины? Я так и не смог найти откуда она вызывается.

Страница 408 из 681