
Vladimir
05.03.2018
21:50:07
я за свою жизнь видел ситуации когда "наебнулось все" было очевидно, но все подразумевало весь мониторинг, все сервисы а иногда и офисную сеть за компанию

Alexey
05.03.2018
21:50:55

Alexander
05.03.2018
21:51:15

Google

Vladimir
05.03.2018
21:51:31
угу, например недоступность внешнего сервиса отправки СМСок или тупняк оператора который отправляет СМСки )
и например мониторинг доступности мониторинга соседних ДЦ

Alexander
05.03.2018
21:53:31

Alexey
05.03.2018
21:54:10

Alexander
05.03.2018
21:56:12

Alexey
05.03.2018
22:01:53

Alexander
05.03.2018
22:07:06
т.е., например, регистрация не работает у тех юзеров, которые попадают в сбойный дц.
а настройка мониторинга кросс-ДЦ всего существенного уже не выглядит сильно рациональнее отказоустойчивого мониторинга.

Алексей
05.03.2018
22:18:29

Vladimir
05.03.2018
22:29:08

Google

Artem
06.03.2018
05:57:50
cp -R grafan4 grafana5; sed -e s,4.6.2,5.0.0,g Makefile; make fetch; sha256 $DISTDIR/grafana*5*; vim distinfo; make stage; pkg-plist > pkg-plist; vim pkg-plist; make clean install
хм, пизжу, size лучше так вкорячить (cd $DISTDIR && wc -c grafana* | awk '/grafana/ {print "SIZE (" $2 ") = " $1}') >> distinfo

Alexey
06.03.2018
05:58:53
Это что щас БСД было?

Artem
06.03.2018
05:59:10
до

Alexey
06.03.2018
05:59:12
А оно ещё живо?

Artem
06.03.2018
05:59:21
еще не замейнтенили 5-ю графану, решил сам
ну смотри, есть у тебя хранилище с 40тб, и что с ним еще делать? пущай мониторит себе сервера

Alexey
06.03.2018
06:00:57
Ну хз, а если сторадж упадёт, то где графики для него смотреть?

Artem
06.03.2018
06:01:55
ну как он упадет, по твоему? ?
там 15 дисков и качественное железо

Alexey
06.03.2018
06:02:34
Лол, не разу такого не было и вот опять =)

Artem
06.03.2018
06:03:27
ну серьезно, BSD у меня никогда не падала, работаю с ней почти 13 лет

Andrew
06.03.2018
06:23:43

Artem
06.03.2018
06:23:57
лишь бы руки прямые были

Andrew
06.03.2018
06:24:15
Нет.
Упасть может вообще что угодно и когда угодно.

Artem
06.03.2018
06:25:03
пусть попробует ?

Andrew
06.03.2018
06:25:04
Ты просто можешь быть убежден, что у тебя ничего не может поломаться, но тем хуже для тебя, когда оно таки поломается

Artem
06.03.2018
06:25:48
ок, но это тема для другого чата уже.

Alexey
06.03.2018
06:34:17

Artem
06.03.2018
06:34:57
лишь бы не собаки Павлова ?

Google

Konstantin
06.03.2018
07:18:50

Artem
06.03.2018
07:19:30
Еще бы

Konstantin
06.03.2018
07:22:59
А какой общий объём стора и сколько RAM отдёшь zfs'у?

Artem
06.03.2018
07:23:18
Позже скажу, я на пляже)
Да там 90+ оперативы.

Evgeny
06.03.2018
09:54:26
Как вам такая идея - запускаем на каждом хосте свой инстанс TSDB и все метрики (host level) и контейнеры пишем туда, т.е. эдакий sidecar.
Отдельный сервис федерирует все эти данные (индексирует метрики, хранящиеся в каждой локальной TSDB) и пробрасывает запросы к конкретным хостам, при необходимости. Для клиентов это все выглядит как одна большая TSDB.

Magistr
06.03.2018
09:55:57

Phil
06.03.2018
09:55:59
А почему в графане на дашбордах конпка "-" есть, а "+" нет?

Vladimir
06.03.2018
09:56:05
потому что вот понять что с сервисом было до того как он перестал отвечать - бывает полезно
DC-wide еще спорно
а host-wide полезно

Vladimir
06.03.2018
09:56:44
особенно для прогнозирования а не для мониторинга
но ты описал netdata :)

отделение
06.03.2018
09:59:38

Evgeny
06.03.2018
09:59:51
ну можно в тот же пром экспортировать, просто в проме ты не будешь держать данные с той же плотностью записи как на хосте

Andor
06.03.2018
09:59:56
каждому хосту - по прометеусу!
каждому прометеусу - по федерейшну!
фабрики рабочим

Vladimir
06.03.2018
10:00:47

Google

Vladimir
06.03.2018
10:01:03
скорее наоборот, в проме можно это себе позволить

Admin
ERROR: S client not available

Vladimir
06.03.2018
10:01:06
а на хосте сложнее

Evgeny
06.03.2018
10:01:08

Vladimir
06.03.2018
10:01:12
может на хосте каждый процент диска и памяти на счету
рестартанул - вся история тю-тю
так что ее надо куда-то увозить еще
но юзкейс под локальный сторадж есть
покуда из него можно забрать данные дальше

Evgeny
06.03.2018
10:02:10
так я же про хосты а не контейнеры, контейнер на какой-то машине крутится в любом случае, даже если он эфимерный

Vladimir
06.03.2018
10:02:13
примерно похожий подход у intel snap и у netdata

Alexey
06.03.2018
10:04:05

Vladimir
06.03.2018
10:06:43
@SaveTheRbtz можно взять и броадкастить запросы :D

evix
06.03.2018
10:07:10
держи две прокси на vrrp

Alexey
06.03.2018
10:08:20
Ну, бродкастить сработает пока у тебя сервера не сдохнут по очереди — представь ты в течение недели добавляешь новый сервер, а в замен сжигаешь старый

Vladimir
06.03.2018
10:08:32
@SaveTheRbtz да я представляю )

Evgeny
06.03.2018
10:10:57
тут как раз пофиг, запустили новый, переиндексировали и все (при условии что хосты известны)
в очень динамичном окружении на тысячи серверов это конечно проблематично все, согласен

Google

Andor
06.03.2018
10:14:35
На прошлой работе наелись бардака

Evgeny
06.03.2018
10:15:53
нормальный дискавери не проблема написать, взять Memberlist от Hashicorp, например

Andor
06.03.2018
10:16:49
или просто взять puppet, который уже был
c puppetdb

Artem
06.03.2018
10:17:54

Alexey
06.03.2018
10:23:22
Неплохой сторадж для домашнего офиса =)

Artem
06.03.2018
10:23:49
ну не совсем домашний, но, да, мало серьезных проектых

Alexey
06.03.2018
10:26:42
Ну в современные серваки можно воткнуть в районе сотни дисков, PMR — в районе 10ТБ будет. SMR можно и 16+, соответственно на сервак 1-1.5ПБ, делать реально

Phil
06.03.2018
10:27:16
Хм... А если я в prometheus в node_exporter делаю ключи —collector.xxxx, он всё остальное выбрасывает что ли?

Alexey
06.03.2018
10:27:52
Дальше вопрос, сколько нужно IOPS на сервак и сколько сети можно воткнуть

Artem
06.03.2018
10:28:07
я там бекапы складирую, мне пох)