
Alexey
23.04.2018
14:08:02
prometheus
маршрутизируй метрики. Все там рулится.

M
23.04.2018
14:08:41
Используем федерацию
тоесть вы их по какой то типа локации - под локации - физический контейр - обьединяете практически в одну метрику ?

Alexey
23.04.2018
14:08:52
Нет, это можно в графане отыграть

Google

Alexey
23.04.2018
14:09:06
загружать группы по количеству входных.
Например в шаблоны добавляешь ДЦ а их берешь из активных ДЦ консула а внутри подключаешь метрики уже локальные

Andor
23.04.2018
14:09:40
1000000 серверов? думаю, у вас уже есть самописная система мониторинга

Alexey
23.04.2018
14:10:15
ААА миллион )) опыта нет, сорри не туда полез )

M
23.04.2018
14:10:45
ну далеко ходить не будем вот яндекс например
у них есть миллион как думаете

Alexey
23.04.2018
14:10:54
Яндекс свою пильнул
и там сильно меньше миллиона )

M
23.04.2018
14:11:15
чем их не устраивали текущие
а google например

Alexey
23.04.2018
14:11:24
тогда не было прометея

Andor
23.04.2018
14:11:25
у гугла по оценке от 2 до 6 миллионов

Alexey
23.04.2018
14:11:40
прометей - сейчас покрывает все нужные потребности )

Google

M
23.04.2018
14:12:03
ну вот 2 - 6 миллионов ну как мониторить это прометеем

Bogdan (SirEdvin)
23.04.2018
14:12:10
Как написано в FAQ - не все. Просто мы с минусами можем только мерится, а крупные компании пилят свои штуки

Favoretti
23.04.2018
14:12:11
федерация

Andor
23.04.2018
14:12:21

M
23.04.2018
14:12:23
блин ладно я не использовал ))

Alexey
23.04.2018
14:12:24
Это не будет единой базой. Выше же писал, сегментирую, федерация

Andor
23.04.2018
14:12:24
но он не серебряная пуля

M
23.04.2018
14:12:35
я про федерации

Andor
23.04.2018
14:12:42

Alexey
23.04.2018
14:12:47
Федерация не пуля, нужно сегментировать

Bogdan (SirEdvin)
23.04.2018
14:13:03
"мириться"?
Да, кажется, я неграмотен. Немного печально :(

M
23.04.2018
14:13:04
ну например возьмем тот же гугл

Bogdan (SirEdvin)
23.04.2018
14:13:36
Промом можно мониторить не все 1кк серверов, а кусками.

Nklya
23.04.2018
14:13:36

M
23.04.2018
14:13:41
ну например внедрили они прометей
и хотят просто смотреть статус включен или выключен

Bogdan (SirEdvin)
23.04.2018
14:14:07
Тот же Гугл, согласно слухам, не внедряет мониторинг на уровне компании. У них все по отделам. И в рамках отдела своя веселуха.

M
23.04.2018
14:14:10
нужна ли им графана там?
хм

Google

Favoretti
23.04.2018
14:14:31

M
23.04.2018
14:14:56
а вот по поводу отдела типа отдел в россии и у них своя инфраструктура там и они сами ее мониторят ?
или как это работает

Bogdan (SirEdvin)
23.04.2018
14:15:02
Вот у вас 1кк серверов. И там на всех из них крутится одно и то же приложение, что ли? Скорее всего, у вас ряд интегрированных, но не связанных продуктов. Зачем вам мониторить их всей вместе?

Favoretti
23.04.2018
14:15:07
"Мониторинг Гугла" это как-то... с непониманием дела. У гогла 100 бизнесов разных. зачем им мониторинг всея гугла?

M
23.04.2018
14:15:19
я вот например интересуюсь как они мониторят и обслуживают чтото типа AWS GoogleCloud

Bogdan (SirEdvin)
23.04.2018
14:15:25
Теоретически, отдел gmail мониторит gmail, отдел youtube мониторит youtube.

Andor
23.04.2018
14:15:25
подозреваю что у гугла BorgMon

M
23.04.2018
14:15:30
там ведь явно дохрена серверов

Bogdan (SirEdvin)
23.04.2018
14:15:39
GoogleCloud по датацентрам.

Favoretti
23.04.2018
14:15:51

Bogdan (SirEdvin)
23.04.2018
14:16:12
Ну и да, отдельные сервисы тоже, скорее всего. Причем, вполне может быть, что разными системами.

M
23.04.2018
14:16:54
я вот даже не особо понимаю как построить нормально графический мониторинг графаны на 100 серверов
ну по одному серверу понимаю переключение

Bogdan (SirEdvin)
23.04.2018
14:17:16
Зачем вам графический мониторинг? Всмысле глазами?

Andor
23.04.2018
14:17:18
а что тебя интересует в этих 100 серверов?

Bogdan (SirEdvin)
23.04.2018
14:17:39
А почему не алертами тогда?

evix
23.04.2018
14:17:46
подозреваю что графики нужны начальству

Zhenia
23.04.2018
14:17:49

M
23.04.2018
14:17:51

Google

Andor
23.04.2018
14:17:56

M
23.04.2018
14:18:08

Bogdan (SirEdvin)
23.04.2018
14:18:08
Ну и вспоминая тему группы - зачем вообще мониторить сервера?

Andor
23.04.2018
14:18:11

Favoretti
23.04.2018
14:18:13
кого интересует в наше время мониторинг памяти/аптайма и т.д.
SL-based мониторинг.

Bogdan (SirEdvin)
23.04.2018
14:18:31
Может лучше стоит показывать на графиках uptime, latency и прочие крутые штуки для приложения?

Andor
23.04.2018
14:18:47
интересует тех, кто занимается планированием капасити

Favoretti
23.04.2018
14:18:58
перестаньте смотреть на то, как чувствует себя отдельный сервер. Собирайте эти метрики, но смотрите на них редко.

Andor
23.04.2018
14:19:01
в кластере может тупо не хватать мощей и надо брать новые хосты

Admin
ERROR: S client not available

Andor
23.04.2018
14:19:04
например.

evix
23.04.2018
14:19:24
ну вот у нас начальники любят присылать скрины с вопросами "а что это за провал в пиле?" или "почему тут 90% цпу постоянно занято?"

Andor
23.04.2018
14:19:26
но да. обычно не надо

evix
23.04.2018
14:19:31
"патамушта"

Favoretti
23.04.2018
14:19:33
ну, это аггрегейт метрики по аvailable cpu в кластере
а не каждый отдельный сервер.

Andor
23.04.2018
14:19:47
конечно

Favoretti
23.04.2018
14:20:02

Andor
23.04.2018
14:20:02
но для них надо собирать для каждого отдельного сервера

Google

Favoretti
23.04.2018
14:20:10
Собирать это одно дело.
Вот тебе и сегментация например
если серверов миллион - делаем один пром, которые сгребает только CPU статистику

Andor
23.04.2018
14:20:29
ну и иногда полезно для разбора инцидентов

M
23.04.2018
14:20:30

Bogdan (SirEdvin)
23.04.2018
14:21:29
Ну, в итоге:
- Показывайте метрики приложения
- Если уж кто-то запросил метрики серверов - показывайте аггрегацию. Перцентили или какую-то другую наркоманию.

evix
23.04.2018
14:23:21
у нас вон дружественный отдел собирает три метрики с хоста. аггрегированные. раз в 5 минут. все счастливы.

M
23.04.2018
14:24:35
А может ктото расшарит скрины кто как графическую часть организовал
кстати func now() в проме уже нет уже time()

Andor
23.04.2018
14:25:29
значит запамятовал

Bogdan (SirEdvin)
23.04.2018
14:25:31
https://grafana.com/dashboards тут есть примеры

Favoretti
23.04.2018
14:25:51

Andor
23.04.2018
14:26:20
вот теперь правильная формулировка

Bogdan (SirEdvin)
23.04.2018
14:26:26
Если у вас 1к серверов и проблема на каком-то одном - его проще пересоздать, мне кажется.

Favoretti
23.04.2018
14:26:42
а если эта проблема будет на одном повторяться
и этот один каждый раз разный?
1к серверов - не показатель
без контекста
1к серверов для одного сервиса? - полностью согласен

Andor
23.04.2018
14:27:35
на прошлой работы было 3.5к серверов вроде бы

Favoretti
23.04.2018
14:27:39
1к серверов на котором 5000 приложений в кластерах по 5? - пересоздать наверное не так-то просто

Andor
23.04.2018
14:28:01
если под кубером, то как два пальца :)