@metrics_ru

Страница 261 из 681
Алексей
06.09.2017
22:07:03
ну для прома не очень.

для инфлюкса довольно да.

собственно остается только графит :)

Nik
06.09.2017
22:07:54
Он стабильнее?

Google
Алексей
06.09.2017
22:08:44
ну приседать там тоже надо. но у меня в эксплуатации были только эти двое. про графит может много сказать @Civiloid

Он стабильнее?
коллектор какой ?

Nik
06.09.2017
22:09:44
А под коллектором кого имеешь ввиду?

Алексей
06.09.2017
22:10:45
что собирает метрики

Nik
06.09.2017
22:10:56
Сам сижу пишу

В текущий момент - заббикс агент с безумной башовой обвязкой

Но это говно должно умереть

Пока написал коллектор на golang, уже дня 4 работает

Алексей
06.09.2017
22:12:09
по какой причине не подошли существующие ?

Nik
06.09.2017
22:12:53
существующий коллектор? Я видел где в углу интернета, что их можно завернуть на пром

Но там очень страшное говно, и его надо срыть

(И оторвать руки тому, кто это писал)

Алексей
06.09.2017
22:13:33
в описании канала есть полный список того что вообще бывает

Google
Алексей
06.09.2017
22:13:42
если есть дополнения к списку велкам

Nik
06.09.2017
22:13:56
Это табличка которая?

Алексей
06.09.2017
22:14:27
существующий коллектор? Я видел где в углу интернета, что их можно завернуть на пром
у меня в качестве коллеткора telegraf. хвалить не буду. ругать сильно тоже. работает и довольно всеяден.

Алексей
06.09.2017
22:16:43
да там паритет в приципе

Nik
06.09.2017
22:16:47
Экспортёр к каучу например пришлось писать руками

Тот что есть на гитхабе- года два как мертв

Алексей
06.09.2017
22:17:20
у прома много анлистед экпортеров

лучше всего смотреть их в табличке port_allocataions

Nik
06.09.2017
22:18:18
Буду иметь ввиду.

И я тут подумал, наверно ещё недели две потыкаю пром

Если совсем плохо, попробую в графит

Алексей
06.09.2017
22:19:10
телеграф может в все три более менеее базы

ну и я очень надеюсь что релиз прома будет вот вот

Nik
06.09.2017
22:19:53
Там кстати по срокам что обещали?

И есть ли хоть что то по прому на русском?

Алексей
06.09.2017
22:20:44
сомневаюсь что вообще что то на русском пригодное есть для чтения.

Nik
06.09.2017
22:21:17
Ну повод начать что то писать на русском. Давно хотел завести блог на медиуме)

Алексей
06.09.2017
22:21:46
по прому много на https://www.robustperception.io/

собственно его один из разработв и ведет

Google
Nik
06.09.2017
22:23:25
И ещё, животрепещущий вопрос

Можно ли добавлять хосты прому без ребута

Может там метод есть на перечитку конфига?

Алексей
06.09.2017
22:24:15
да. сервис дискавери же есть

Nik
06.09.2017
22:24:26
Пойду гуглить

Алексей
06.09.2017
22:25:21
https://prometheus.io/docs/operating/configuration/#configuration-file

всё что _sd_

GithubReleases
06.09.2017
22:27:46
https://github.com/lomik/go-carbon/releases/Version 0.11.0 was tagged

Sergey
07.09.2017
06:07:38
Если совсем плохо, попробую в графит
Учти что тебе алертилку надо будет выбрать

Evgeny
07.09.2017
06:51:12
но за нарушение регламента использования - сядут
Как человек пиливший скаду много лет - нет не сядет. Скада это мониторинг режима. Она не используется для критически важных функций. У нас был случай, когда из-за бага со временем (использовалось локальное время, которое ВНЕЗАПНО прыгнуло на час назад, код не вывез такого) режим на одной АС был ненаблюдаем в течении часа. В итоге даже разработчика не уволили. От вашего NOC нормальная скада отличается тем, что в ней есть модель системы, она не просто циферки мониторит, а знает что это частота, это генерация, это переток. Она может быть испольована для расчета того что произойдет тогда, когда, например, подстанция будет выведена из эксплуатации на плановый ремонт, какие перетоки возникнут в системе если оборвется ЛЭП и тд и тп. В общем, NOC project на скаду не оч. похож. Я не пытаюсь доказать что он плох, если что. Просто занудствую за терминологию.

Dmitry
07.09.2017
06:59:52
я утверждал, что NOC - это SCADA?

кстати, fm/pm в NOC сидят как раз поверх inventory. Так что NOC не цифирки мониторит, а каждая величина имеет размерность и смысл. И он снял именно напряжение, а не длину удава

Dmitry
07.09.2017
07:02:20
и эти данные вполне можно использовать для моделирования

и NOC достаточно умен, чтобы понять, что не просто упала железка и утащила за собой n сервисов

но и этим падением разорвалось кольцо и еще m сервисов остались без резерва

SCADA упоминалась в контексте того, что мониторинг “критически важных” функций — это ближе к SCADA

чем к рисованию графиков

и не надо путать ситуацию, когда объект остался без мониторинга на какое-то время

и ситуацию, при которой объект остался без мониторинга и случилась авария, которую можно было предотвратить при своевременной реакции и которая привела к жертвам

в РТ - любой несчастный случай - комиссия, расследование, с результатами которого должны ознакомиться все руководители

Google
Dmitry
07.09.2017
07:19:55
валятся постоянно

хорошо мозги прочищает

а про “критичный для бизнеса web-сервис” — как-то смешно читать. Обычно сильно преувеличивают масштабы и не учитывают, что не прошедшие транзакции в большинстве случаев совершают потом

badoo и иннову в то время, когда я ими занимался, сложно было назвать маленькими ?

Evgeny
07.09.2017
07:36:06
и ситуацию, при которой объект остался без мониторинга и случилась авария, которую можно было предотвратить при своевременной реакции и которая привела к жертвам
Так не бывает. SCADA (любая вообще) это не делает. Она вообще не управляет процессами. Существует множество уровней защиты от аварий на той же АС и SCADA в их число не входит.

Nik
07.09.2017
07:36:37
Учти что тебе алертилку надо будет выбрать
Вот это отдельная боль. Очень не хочу конфигурть графики и Алерты в разных местах

Evgeny
07.09.2017
07:37:26
а про “критичный для бизнеса web-сервис” — как-то смешно читать. Обычно сильно преувеличивают масштабы и не учитывают, что не прошедшие транзакции в большинстве случаев совершают потом
могу привести пример - ad сеть, упал фронт и сеть перестала видеть клики, перестала считать бабло, никаких повторных транзакций пользователь у себя в браузере делать не будет

Sergey
07.09.2017
07:40:57
ну я вот выбирал из 3х вариантов: 1) все на пром - условно проще но имеем условно заббикс некст ген 2) вариации двух бекендов один из которых пром с алертингом 3) карбон + бозон + карбон-кликхаус жизнь-боль

Admin
ERROR: S client not available

Dmitry
07.09.2017
07:45:51
акционеры захотели потратить хотя бы 50% от “ущерба” на железо для резервирования “критичного” сервиса?

Sergey
07.09.2017
07:47:34
ну вот допустим кликхаус для статистики и пром для собственно мониторинга с алертингом

Dmitry
07.09.2017
07:47:45
они не удивлялись, что система мониторинга этого “критичного” сервиса крутится на списанном серваке с помойки?

в моем понимании “критичный ущерб” == “непоправимые последствия"

прибило кого, компания разорилась

Sergey
07.09.2017
07:49:43
я когда стал разгребать все эти мониторинги понял что если на что то сяду то потом будет почти такая же боль слезать (если что) на что то новоемолодежноевотэтовсе - поэтому пихнул в архитектуру между коллектингом и бекендом систему доставки (кафку)

Dmitry
07.09.2017
07:49:48
во всех остальных случаях - критичность — просто треп ради красивого словца

Sergey
07.09.2017
07:50:07
стало все потолще, но появились плюшки

Dmitry
07.09.2017
07:50:55
затраты должны соотноситься с ущербом

Google
Gleb
07.09.2017
07:51:24
во всех остальных случаях - критичность — просто треп ради красивого словца
да так и есть, в мелких телекомах которые живут иногда за счёт пары жирных клиентов это вообще обычная тема, не хотят потратить один раз на железо 5X рублей, а потом теряют абонента который приносил им в месяц 1X

Dmitry
07.09.2017
07:51:49
я даже обратное видел

не хотели тратить суммы меньше месячного платежа

Vladimir
07.09.2017
07:53:19
@Anc1ent я видел одну компанию которая арендовала железо в одном немецком хостере. Из-за особенностей хостера у них было примерно 4-6 дней дней когда часть сервиса лежала. Это стоило в недополученной прибыли примерно годиной аренды в нормальном датацентре и приближалась к цене покупки своего-своего железа

но народ думал как бы подать в суд на хостера

Dmitry
07.09.2017
07:53:46
по мне - все это - управляемые риски

Gleb
07.09.2017
07:54:24
ну я пока сколько живу почему-то вижу что про риски думают только "админы", а не эффективные менеджеры

чудеса

Dmitry
07.09.2017
07:54:34
критичный сервис все-таки должен быть распределенным и учитывать ситуацию, когда часть железа и софта просто лежит

Dmitry
07.09.2017
07:54:55
ну тогда он не критичный

?

Vladimir
07.09.2017
07:55:00
но делать его распределенным - сложна

Dmitry
07.09.2017
07:55:10
или legacy

Gleb
07.09.2017
07:55:16
критичный сервис все-таки должен быть распределенным и учитывать ситуацию, когда часть железа и софта просто лежит
да это вообще нормально когда что-нибудь не работает или просто всё выключили, а назад не включилось

Vladimir
07.09.2017
07:55:16
поэтому он например на ручном приводе переключается

Dmitry
07.09.2017
07:55:24
ну вот пример

Sergey
07.09.2017
07:55:26
ага типа ибмка размером со слона

Страница 261 из 681