
Alexander
29.12.2017
09:42:54
стандартное однотипное оборудование
вообще идеально для обнов
то же с мониторингом

Uncel
29.12.2017
09:43:25
Стандартное, это огонь

Google

Alexander
29.12.2017
09:43:42
выбрать способ доставки приложений и все
многие кластеры с сети бутятся
ноды

Dmitry
29.12.2017
09:46:17
вообще идеально для обнов
Казалось бы. Но по факту - это боль :) все друг от друга по кругу зависит, часто - глючит и медленнее чем было до обновления

Alexander
29.12.2017
09:46:46
хз. кароче что-то не то у вас

Uncel
29.12.2017
09:47:27
Да изи, какие-нибудь вендорские расширения для люстры отвалились с новым ofed и т.п

Alexander
29.12.2017
09:48:24
тестировать. задуматься о необходимости обнов в принципе

Dmitry
29.12.2017
09:48:26
Ага. Или all_reduce в imb начале падать с 64 годами. И ебемся пару месяцев
Тестировать. Угу. На одной-двух нодах может работать а на 100 - уже нет

Алексей
29.12.2017
09:49:36
@BaikodromKosmodur я немного растерян. вы говорите что если бы кластер был один он был бы весь заскриптован и замониторен.
но в чем рахзница между серийными кластерами и одним ?
ведь серийный кластер расктывается по "мануалу" или ансиблом

Dmitry
29.12.2017
09:50:37
Разные вендора железа, разный софт, не говоря уж про версии этого софта

Алексей
29.12.2017
09:50:52
тоесть кластер не серийный.

Google

Алексей
29.12.2017
09:51:04
вы штампуете не свое по а апк
и это представляет некоторую сложность. так ?

Uncel
29.12.2017
09:51:27
btw https://github.com/HewlettPackard/lustre_exporter

Dmitry
29.12.2017
09:52:17
Да, железо может быть какое угодно. Наша маржа на валидации, установке и конфигурировании

Алексей
29.12.2017
09:53:09
но от системы мониторинга вы хотите мониторинга любого железа на которое ваш софт встанет.
не логично ли разделить процессы мониторинга на софт/железо. ?

Dmitry
29.12.2017
09:54:10
Именно. Желательно автоматизировано, что бы не забыть от мониторить какую-нибудь редкую железку

Алексей
29.12.2017
09:54:35
но заказчику вы на тему мониторинга железа не доверяете конечно
поэтому хотите чт бы мониторинг умел в оба

Dmitry
29.12.2017
09:55:09

Алексей
29.12.2017
09:55:43
у меня есть такая же задача. самомониторинг поставленнного комплекса.
я не решаю задачу мониторинга железа никак.
и не считаю железо частью системы.
но увас я там слышал слова типа rdma и такое. у вас очевидно так низя ага.

Dmitry
29.12.2017
09:56:40

Алексей
29.12.2017
09:57:13
заказчик имеет рута на серверах ?

Dmitry
29.12.2017
09:57:22
Да

Алексей
29.12.2017
09:58:16
вы говорите какие параметры железа для вас критичны ?

Dmitry
29.12.2017
09:58:22
Фактически мы узкоспециализированный интегратор

Алексей
29.12.2017
09:58:28
и добавляете эти параметры в самомониторинг ?

Google

Dmitry
29.12.2017
09:59:40

Alexander
29.12.2017
09:59:57
2 мониторинга - инфра и аппоикейшен

Алексей
29.12.2017
10:00:05
а у вас есть параметры железа которые влияют на систему ?

Alexander
29.12.2017
10:00:18
и абстрагироваться от железа

Алексей
29.12.2017
10:01:28
чот я тоже думаю что надо два или полтора мониторинга.

Dmitry
29.12.2017
10:01:33

Алексей
29.12.2017
10:01:49
стандартизироваться это долго и сложно

Alexander
29.12.2017
10:01:49
софт только требования выставляет и все

Алексей
29.12.2017
10:02:11
глубина хранения мониторинговых данных большая ?

Dmitry
29.12.2017
10:04:07

Алексей
29.12.2017
10:04:22
эта понятно всё.

Alexander
29.12.2017
10:04:33

Dmitry
29.12.2017
10:04:34

Алексей
29.12.2017
10:04:35
черный список железа которое нельзя брать уже определили ?

Alexander
29.12.2017
10:04:52

Алексей
29.12.2017
10:05:08
я дмитрия спрашиваю

Dmitry
29.12.2017
10:06:15

Алексей
29.12.2017
10:06:51
хм. или железо не играет большой роли или ... ?

Google

Алексей
29.12.2017
10:07:02
или вы недомониторили

Dmitry
29.12.2017
10:07:11
Или говно и палки :)
Железо - это основная цена, разумеется. Заказчика интересут количество ядер на доллар. Наши же деньги в сборке и настройке, поэтому
Поэтому имеем что имеем
Я прошу прощения, я сливаюсь до вечера. На меня семья косо смотрит уже

Dmitry
29.12.2017
17:40:56
Эх... Года 3 как железо не трогаю. Облака, мать их. А тут такая романтика.

Игорь
29.12.2017
17:54:40

Dmitry
29.12.2017
17:56:53
Ладно))) У меня был DC. Хорошо все работало, налаженые процессы замены итд) Все бутстрапилось само удаленно... Неплохая экономия если просто смотреть на железо-облако
Причем возможность использования дешевого железа прям вдохновляла))

Admin
ERROR: S client not available

Алексей
29.12.2017
17:59:43

Игорь
29.12.2017
18:01:28
Которую никто не думает нажать

Dmitry
29.12.2017
18:02:07
Ну да.
Все жестко зависит от размера конторы) Я считал как-то. там 4 фазы получились. Условно:
1. Стартап-инкубатор ("хз че делаем")
2. стартап-понятный "стока мощи надо, такая волатильность ресурсов",
3. стартап растущий (завтра может сильно шибануть , нужно будет 10x ресурсов)
4. энтерпрайз безконтрольный (нам надо любыми силами снизить непрофильные операционные расходы)
вот для 1,3,4 облако оказалось лучше. А для 2 дц
4 спорный момент, но все же облако.

Vladimir
29.12.2017
19:48:19
это обсуждение все же больше в @ru_devops :)
@kireevco для 4 - очевидно, что айти - не профильные расходы :) Потому что если бизнес - it-based то свое железо в какой-то момент становится выгоднее. Ну либо ты становишься netflix'ом и фактически сжираешь половину ресурсов какого-нибудь крупного облака и поэтому можешь получить специальные условия.

Google

Vladimir
29.12.2017
19:49:43
Тока нетфликсов обычно один на облако)

Сергей
29.12.2017
21:02:16

Maxim
30.12.2017
09:28:14
с наступающим, народ! подскажите, а для графаны какой-нибудь готовый дашборд с алертами из прома не появился?


Gleb
30.12.2017
10:07:44
Я тут спрошу, возможно получу вербальных пиздюлей. Ситуация такая. У нас контора поставляет HPC кластеры со средней скоростю 1-3 кластера в месяц. В качестве мониторинга сейчас выбран заббикс (да-да, уже начинаю опиздюливаться) - быстро, недорого. Так как каждый кластер уникальный, то автоматическое дискавери от него очень кстати. Разные количество нод, разные вендора железа, RAID-адаптеры , разные хранилки из говна и палок (Lustre, GPFS, BeeGFS). Кроме того многие заказчики хотят HA из двух нод, а это значит pacemaker, drbd и приседания с фенсингом.
Так вот вопрос. При количестве нод больше 500, заббиксу ожидаемо плохеет от метрик (Живем на mariadb, так как ее использует SLURM, тащить еще одну базу - заебемся в поддержке). Хочется переехать на что-то более быстрое модное молодежное (хотя бы попробовать), но пока как-то будущее безрадостное - долго руками конфигурять мониторинг под каждый кластер весьма уныло. А есть взять HA, то класть базу того же прома на DRBD... ну я не знаю...


Bogdan (SirEdvin)
30.12.2017
10:09:32

Maxim
30.12.2017
10:10:49

Bogdan (SirEdvin)
30.12.2017
10:20:34
Мне казалось, в графане можно просто отобразить веб страницу ...
Что-то типо такого: https://github.com/jether-energy/grafana-html-panel
Не очень удобно, конечно
А если именно что-то вроде панельки с зелеными/красными квадратиками, то вроде пока только свой экспортер писать.... Но может я и не прав.

Марк ☢
30.12.2017
11:20:02
Гдето было в инете такач пикча и подпись "понюхай руку"


Ivan
31.12.2017
12:27:47
Я прошу прощения, я сливаюсь до вечера. На меня семья косо смотрит уже
Интересная задача кстати. Я бы разделил ее на две: коллектор и бэкэнд. Если попытаться прикинуть на пальцах по бэкенду, то при постановке «мониторим все до чего дотянемся в операционке» с сервера можно снимать до 100k метрик (кейс нетдаты: https://github.com/firehol/netdata/issues/1323#issuecomment-265501668 там сервер конечно, о 144 ядрах поэтому случай немного предельный) если твои ноды будут давать раз в 10 меньше метрик и собирать их раз в 10 сек, то кластер из 500 таких нод даст поток в 500 километрик в секунду. Тут если оставаться в рамках одного сервера мониторинга наверное зайдет либо прометей либо кликхаус. Коллектор скорее всего придется обвешивать своими плагинами тк 100% подходящего под задачу думаю не существует, перспективно выглядит та же нетдата или телеграф, нужно выбирать кто удобнее. Еще пара моментов: 1. пуш или пулл и соответственно 2. как коллектор найдет бэкенд (или наоборот). Если нужно будет собирать метрики изнутри расчетных задач пуш выглядит правильнее (задачи живут не долго и каждый раз разные) но тут каждый «студент» должен будет кодить отправку метрик


Ivan
31.12.2017
21:12:48
С Новым годом от команды Айхор Хостинга!!!!

Salavat
31.12.2017
21:27:53
Сахалин услышал вас )

Evgeny
01.01.2018
20:31:49
Спасибо за совет сделать все на основе typescript-template-datasource. На этот раз все получилось.
У меня еще один вопрос. Я хочу сделать следующее - у меня есть автодополнение метрик, тегов и значений тегов. Хочется чтобы при дополнении значения тега вылезали не только возможные значения, как сейчас, но и список всех Query переменных. Откуда их можно извлечь? Я что-то пока не нашел где они хранятся.

Dmitry
01.01.2018
21:40:40


Alexander
02.01.2018
07:13:48

Evgeny
02.01.2018
10:31:21