@metrics_ru

Страница 480 из 681
Vladimir
05.03.2018
21:50:07
я за свою жизнь видел ситуации когда "наебнулось все" было очевидно, но все подразумевало весь мониторинг, все сервисы а иногда и офисную сеть за компанию

Alexander
05.03.2018
21:51:15
и тем не менее достаточно сложно учесть все чтобы оно жило вот именно так
ну отказ одного любого ДЦ (если их, конечно, больше одного), имхо, все-таки стоит предусматривать.

Google
Vladimir
05.03.2018
21:51:31
угу, например недоступность внешнего сервиса отправки СМСок или тупняк оператора который отправляет СМСки )

ну отказ одного любого ДЦ (если их, конечно, больше одного), имхо, все-таки стоит предусматривать.
но например в чем преимущество отказоустойчивого мониторинга перед мониторингом каждого ДЦ как независимой сущности?

и например мониторинг доступности мониторинга соседних ДЦ

Alexander
05.03.2018
21:53:31
А потом придет понимание, что мониторить мониторинг не достаточно и что надо еще мониторить алертинг этого мониторинга
в нормальном режиме (отказ до 1 ДЦ) мониторинг должен быть отказоустойчивым и мониторить сам себя, а на случай глобальной катастрофы сделать внешний мониторинг, не связанный с основной инфраструктурой.

Alexey
05.03.2018
21:54:10
ну отказ одного любого ДЦ (если их, конечно, больше одного), имхо, все-таки стоит предусматривать.
отказ ДЦ это очень абстрактно. Если вы потеряли 50% емкости сервиса то вот это и надо мониторить. Сетевики будут мониторить полосу до ДЦ, девопсы емкость приложения, бизнес количество транзакций или доступность сервиса в регионе

Alexander
05.03.2018
21:56:12
отказ ДЦ это очень абстрактно. Если вы потеряли 50% емкости сервиса то вот это и надо мониторить. Сетевики будут мониторить полосу до ДЦ, девопсы емкость приложения, бизнес количество транзакций или доступность сервиса в регионе
сервис может оставаться при сбое доступным, но, например, у него отваливается страница регистрации пользователя. никто, ведь, обычно не отслеживает 100% ручек на сайте. и низкоуровневый мониторинг, способный рассказать о масштабных проблемах тут выручает.

Alexey
05.03.2018
22:01:53
Alexander
05.03.2018
22:07:06
каждая ручка на сайте в описанной Вами ситуации это микросервис, и его доступность мониторится по тому же принципу. В идеале командой поддержки данного сервиса.
по микросервису на каждую существенную с точки зрения бизнеса ручку - это, все-таки, немного перебор. плюс, даже если микросервис там отдельный, то его отказ не обязательно будет заметен из другого дц, а локальный для этого дц мониторинг упал.

т.е., например, регистрация не работает у тех юзеров, которые попадают в сбойный дц.

а настройка мониторинга кросс-ДЦ всего существенного уже не выглядит сильно рациональнее отказоустойчивого мониторинга.

Vladimir
05.03.2018
22:29:08
тем, что не теряется доступ до сервисных метрик в сбойном дц.
Вопрос в том, стоит ли это существенного усложнения системы мониторинга?

Google
Artem
06.03.2018
05:57:50
cp -R grafan4 grafana5; sed -e s,4.6.2,5.0.0,g Makefile; make fetch; sha256 $DISTDIR/grafana*5*; vim distinfo; make stage; pkg-plist > pkg-plist; vim pkg-plist; make clean install

хм, пизжу, size лучше так вкорячить (cd $DISTDIR && wc -c grafana* | awk '/grafana/ {print "SIZE (" $2 ") = " $1}') >> distinfo

Alexey
06.03.2018
05:58:53
Это что щас БСД было?

Artem
06.03.2018
05:59:10
до

Alexey
06.03.2018
05:59:12
А оно ещё живо?

Artem
06.03.2018
05:59:21
еще не замейнтенили 5-ю графану, решил сам

ну смотри, есть у тебя хранилище с 40тб, и что с ним еще делать? пущай мониторит себе сервера

Alexey
06.03.2018
06:00:57
Ну хз, а если сторадж упадёт, то где графики для него смотреть?

Artem
06.03.2018
06:01:55
ну как он упадет, по твоему? ?

там 15 дисков и качественное железо

Alexey
06.03.2018
06:02:34
Лол, не разу такого не было и вот опять =)

Artem
06.03.2018
06:03:27
ну серьезно, BSD у меня никогда не падала, работаю с ней почти 13 лет

Andrew
06.03.2018
06:23:43
ну как он упадет, по твоему? ?
Опасное заблуждение ))

Artem
06.03.2018
06:23:57
лишь бы руки прямые были

Andrew
06.03.2018
06:24:15
Нет. Упасть может вообще что угодно и когда угодно.

Artem
06.03.2018
06:25:03
пусть попробует ?

Andrew
06.03.2018
06:25:04
Ты просто можешь быть убежден, что у тебя ничего не может поломаться, но тем хуже для тебя, когда оно таки поломается

Artem
06.03.2018
06:25:48
ок, но это тема для другого чата уже.

Alexey
06.03.2018
06:34:17
ну серьезно, BSD у меня никогда не падала, работаю с ней почти 13 лет
Цепей Маркова на тебя не хватает, да и теорвера немного. Опыта бы тоже было неплохо, но это со временем придёт.

Artem
06.03.2018
06:34:57
лишь бы не собаки Павлова ?

Google
Konstantin
06.03.2018
07:18:50
Artem
06.03.2018
07:19:30
Еще бы

Konstantin
06.03.2018
07:22:59
А какой общий объём стора и сколько RAM отдёшь zfs'у?

Artem
06.03.2018
07:23:18
Позже скажу, я на пляже)

Да там 90+ оперативы.

Evgeny
06.03.2018
09:54:26
Как вам такая идея - запускаем на каждом хосте свой инстанс TSDB и все метрики (host level) и контейнеры пишем туда, т.е. эдакий sidecar. Отдельный сервис федерирует все эти данные (индексирует метрики, хранящиеся в каждой локальной TSDB) и пробрасывает запросы к конкретным хостам, при необходимости. Для клиентов это все выглядит как одна большая TSDB.

Phil
06.03.2018
09:55:59
А почему в графане на дашбордах конпка "-" есть, а "+" нет?

Vladimir
06.03.2018
09:56:44
особенно для прогнозирования а не для мониторинга

но ты описал netdata :)

Evgeny
06.03.2018
09:59:51
ну можно в тот же пром экспортировать, просто в проме ты не будешь держать данные с той же плотностью записи как на хосте

Andor
06.03.2018
09:59:56
каждому хосту - по прометеусу!

каждому прометеусу - по федерейшну!

фабрики рабочим

Google
Vladimir
06.03.2018
10:01:03
скорее наоборот, в проме можно это себе позволить

Admin
ERROR: S client not available

Vladimir
06.03.2018
10:01:06
а на хосте сложнее

Evgeny
06.03.2018
10:01:08
потому что вот понять что с сервисом было до того как он перестал отвечать - бывает полезно
можно же рестартануть, данные останутся, но неудобно конечно

Vladimir
06.03.2018
10:01:12
может на хосте каждый процент диска и памяти на счету

рестартанул - вся история тю-тю

так что ее надо куда-то увозить еще

но юзкейс под локальный сторадж есть

покуда из него можно забрать данные дальше

Evgeny
06.03.2018
10:02:10
так я же про хосты а не контейнеры, контейнер на какой-то машине крутится в любом случае, даже если он эфимерный

Vladimir
06.03.2018
10:02:13
примерно похожий подход у intel snap и у netdata

Alexey
06.03.2018
10:04:05
Как вам такая идея - запускаем на каждом хосте свой инстанс TSDB и все метрики (host level) и контейнеры пишем туда, т.е. эдакий sidecar. Отдельный сервис федерирует все эти данные (индексирует метрики, хранящиеся в каждой локальной TSDB) и пробрасывает запросы к конкретным хостам, при необходимости. Для клиентов это все выглядит как одна большая TSDB.
Звучит прекрасно. Только вот что будет если у тебя нода сдохнет? А если новая придёт? А где информация как что шардить хранится? А что если эта база помрёт? К чему я это — задизайнить надёжную распределённую систему поверх нераспределённой — сложно.

Vladimir
06.03.2018
10:06:43
@SaveTheRbtz можно взять и броадкастить запросы :D

evix
06.03.2018
10:07:10
держи две прокси на vrrp

Alexey
06.03.2018
10:08:20
Ну, бродкастить сработает пока у тебя сервера не сдохнут по очереди — представь ты в течение недели добавляешь новый сервер, а в замен сжигаешь старый

Vladimir
06.03.2018
10:08:32
@SaveTheRbtz да я представляю )

Evgeny
06.03.2018
10:10:57
Звучит прекрасно. Только вот что будет если у тебя нода сдохнет? А если новая придёт? А где информация как что шардить хранится? А что если эта база помрёт? К чему я это — задизайнить надёжную распределённую систему поверх нераспределённой — сложно.
Обычно в системе уже есть знания о хостах. Ну там hosts файл в ansible например. Но вот нормальную распределенную TSDB я пока не видел, либо piggyback на чем-нибудь вроде HBase, либо полу-ручные операции по масштабированию/шардингу, либо вообще нет.

тут как раз пофиг, запустили новый, переиндексировали и все (при условии что хосты известны)

в очень динамичном окружении на тысячи серверов это конечно проблематично все, согласен

Google
Andor
06.03.2018
10:14:35
На прошлой работе наелись бардака

Evgeny
06.03.2018
10:15:53
нормальный дискавери не проблема написать, взять Memberlist от Hashicorp, например

Andor
06.03.2018
10:16:49
или просто взять puppet, который уже был

c puppetdb

Artem
06.03.2018
10:17:54
А какой общий объём стора и сколько RAM отдёшь zfs'у?
NAME SIZE ALLOC FREE EXPANDSZ FRAG CAP DEDUP HEALTH ALTROOT tank 43.2T 22.9T 20.3T - 19% 52% 1.00x ONLINE - Mem: 342M Active, 3258M Inact, 876K Laundry, 79G Wired, 107M Buf, 12G Free

Alexey
06.03.2018
10:23:22
Неплохой сторадж для домашнего офиса =)

Artem
06.03.2018
10:23:49
ну не совсем домашний, но, да, мало серьезных проектых

Alexey
06.03.2018
10:26:42
Ну в современные серваки можно воткнуть в районе сотни дисков, PMR — в районе 10ТБ будет. SMR можно и 16+, соответственно на сервак 1-1.5ПБ, делать реально

Phil
06.03.2018
10:27:16
Хм... А если я в prometheus в node_exporter делаю ключи —collector.xxxx, он всё остальное выбрасывает что ли?

Alexey
06.03.2018
10:27:52
Дальше вопрос, сколько нужно IOPS на сервак и сколько сети можно воткнуть

Artem
06.03.2018
10:28:07
я там бекапы складирую, мне пох)

Страница 480 из 681