@metrics_ru

Страница 520 из 681
Alexey
23.04.2018
14:08:02
prometheus

маршрутизируй метрики. Все там рулится.

M
23.04.2018
14:08:41
Используем федерацию
тоесть вы их по какой то типа локации - под локации - физический контейр - обьединяете практически в одну метрику ?

Alexey
23.04.2018
14:08:52
Нет, это можно в графане отыграть

Google
Alexey
23.04.2018
14:09:06
загружать группы по количеству входных.

Например в шаблоны добавляешь ДЦ а их берешь из активных ДЦ консула а внутри подключаешь метрики уже локальные

Andor
23.04.2018
14:09:40
1000000 серверов? думаю, у вас уже есть самописная система мониторинга

Alexey
23.04.2018
14:10:15
ААА миллион )) опыта нет, сорри не туда полез )

M
23.04.2018
14:10:45
ну далеко ходить не будем вот яндекс например

у них есть миллион как думаете

Alexey
23.04.2018
14:10:54
Яндекс свою пильнул

и там сильно меньше миллиона )

M
23.04.2018
14:11:15
чем их не устраивали текущие

а google например

Alexey
23.04.2018
14:11:24
тогда не было прометея

Andor
23.04.2018
14:11:25
у гугла по оценке от 2 до 6 миллионов

Alexey
23.04.2018
14:11:40
прометей - сейчас покрывает все нужные потребности )

Google
M
23.04.2018
14:12:03
ну вот 2 - 6 миллионов ну как мониторить это прометеем

Bogdan (SirEdvin)
23.04.2018
14:12:10
Как написано в FAQ - не все. Просто мы с минусами можем только мерится, а крупные компании пилят свои штуки

Favoretti
23.04.2018
14:12:11
федерация

M
23.04.2018
14:12:23
блин ладно я не использовал ))

Alexey
23.04.2018
14:12:24
Это не будет единой базой. Выше же писал, сегментирую, федерация

Andor
23.04.2018
14:12:24
но он не серебряная пуля

M
23.04.2018
14:12:35
я про федерации

Alexey
23.04.2018
14:12:47
Федерация не пуля, нужно сегментировать

Bogdan (SirEdvin)
23.04.2018
14:13:03
"мириться"?
Да, кажется, я неграмотен. Немного печально :(

M
23.04.2018
14:13:04
Федерация не пуля, нужно сегментировать
сегментировать я не очень понимаю что имеется ввиду

ну например возьмем тот же гугл

Bogdan (SirEdvin)
23.04.2018
14:13:36
Промом можно мониторить не все 1кк серверов, а кусками.

Nklya
23.04.2018
14:13:36
Яндекс свою пильнул
В яндексе графит и сейчас впиливают пром

M
23.04.2018
14:13:41
ну например внедрили они прометей

и хотят просто смотреть статус включен или выключен

Bogdan (SirEdvin)
23.04.2018
14:14:07
Тот же Гугл, согласно слухам, не внедряет мониторинг на уровне компании. У них все по отделам. И в рамках отдела своя веселуха.

M
23.04.2018
14:14:10
нужна ли им графана там?

хм

Google
M
23.04.2018
14:14:56
а вот по поводу отдела типа отдел в россии и у них своя инфраструктура там и они сами ее мониторят ?

или как это работает

Bogdan (SirEdvin)
23.04.2018
14:15:02
Вот у вас 1кк серверов. И там на всех из них крутится одно и то же приложение, что ли? Скорее всего, у вас ряд интегрированных, но не связанных продуктов. Зачем вам мониторить их всей вместе?

Favoretti
23.04.2018
14:15:07
"Мониторинг Гугла" это как-то... с непониманием дела. У гогла 100 бизнесов разных. зачем им мониторинг всея гугла?

M
23.04.2018
14:15:19
я вот например интересуюсь как они мониторят и обслуживают чтото типа AWS GoogleCloud

Bogdan (SirEdvin)
23.04.2018
14:15:25
Теоретически, отдел gmail мониторит gmail, отдел youtube мониторит youtube.

Andor
23.04.2018
14:15:25
подозреваю что у гугла BorgMon

M
23.04.2018
14:15:30
там ведь явно дохрена серверов

Bogdan (SirEdvin)
23.04.2018
14:15:39
GoogleCloud по датацентрам.

Favoretti
23.04.2018
14:15:51
я вот например интересуюсь как они мониторят и обслуживают чтото типа AWS GoogleCloud
AWS и GoogleCloud это куча разных сервисов. Отдельно и мониторят.

Bogdan (SirEdvin)
23.04.2018
14:16:12
Ну и да, отдельные сервисы тоже, скорее всего. Причем, вполне может быть, что разными системами.

M
23.04.2018
14:16:54
я вот даже не особо понимаю как построить нормально графический мониторинг графаны на 100 серверов

ну по одному серверу понимаю переключение

Bogdan (SirEdvin)
23.04.2018
14:17:16
Зачем вам графический мониторинг? Всмысле глазами?

Andor
23.04.2018
14:17:18
а что тебя интересует в этих 100 серверов?

Bogdan (SirEdvin)
23.04.2018
14:17:39
А почему не алертами тогда?

evix
23.04.2018
14:17:46
подозреваю что графики нужны начальству

M
23.04.2018
14:17:51
а что тебя интересует в этих 100 серверов?
ну возьмем просто память uptime cpu

Google
Andor
23.04.2018
14:17:56
M
23.04.2018
14:18:08
подозреваю что графики нужны начальству
графики внушают доверие им и они их любят

Bogdan (SirEdvin)
23.04.2018
14:18:08
Ну и вспоминая тему группы - зачем вообще мониторить сервера?

Andor
23.04.2018
14:18:11
ну возьмем просто память uptime cpu
ты хочешь это всё видеть на графиках?

Favoretti
23.04.2018
14:18:13
кого интересует в наше время мониторинг памяти/аптайма и т.д.

SL-based мониторинг.

Bogdan (SirEdvin)
23.04.2018
14:18:31
Может лучше стоит показывать на графиках uptime, latency и прочие крутые штуки для приложения?

Andor
23.04.2018
14:18:47
интересует тех, кто занимается планированием капасити

Favoretti
23.04.2018
14:18:58
перестаньте смотреть на то, как чувствует себя отдельный сервер. Собирайте эти метрики, но смотрите на них редко.

Andor
23.04.2018
14:19:01
в кластере может тупо не хватать мощей и надо брать новые хосты

Admin
ERROR: S client not available

Andor
23.04.2018
14:19:04
например.

evix
23.04.2018
14:19:24
ну вот у нас начальники любят присылать скрины с вопросами "а что это за провал в пиле?" или "почему тут 90% цпу постоянно занято?"

Andor
23.04.2018
14:19:26
но да. обычно не надо

evix
23.04.2018
14:19:31
"патамушта"

Favoretti
23.04.2018
14:19:33
ну, это аггрегейт метрики по аvailable cpu в кластере

а не каждый отдельный сервер.

Andor
23.04.2018
14:19:47
конечно

Andor
23.04.2018
14:20:02
но для них надо собирать для каждого отдельного сервера

Google
Favoretti
23.04.2018
14:20:10
Собирать это одно дело.

Вот тебе и сегментация например

если серверов миллион - делаем один пром, которые сгребает только CPU статистику

Andor
23.04.2018
14:20:29
ну и иногда полезно для разбора инцидентов

M
23.04.2018
14:20:30
Собирать это одно дело.
cобирать это не такая сложная задача

Bogdan (SirEdvin)
23.04.2018
14:21:29
Ну, в итоге: - Показывайте метрики приложения - Если уж кто-то запросил метрики серверов - показывайте аггрегацию. Перцентили или какую-то другую наркоманию.

evix
23.04.2018
14:23:21
у нас вон дружественный отдел собирает три метрики с хоста. аггрегированные. раз в 5 минут. все счастливы.

M
23.04.2018
14:24:35
А может ктото расшарит скрины кто как графическую часть организовал

кстати func now() в проме уже нет уже time()

Andor
23.04.2018
14:25:29
значит запамятовал

Bogdan (SirEdvin)
23.04.2018
14:25:31
https://grafana.com/dashboards тут есть примеры

Favoretti
23.04.2018
14:25:51
Ну, в итоге: - Показывайте метрики приложения - Если уж кто-то запросил метрики серверов - показывайте аггрегацию. Перцентили или какую-то другую наркоманию.
Не, индивидуальные метрики нужны и важны, но смотреть в них надо только лишь для deep-dive в какую-то проблему.

ну и иногда полезно для разбора инцидентов
конечно. но пялиться в них каждый день имхо зло :)

Andor
23.04.2018
14:26:20
вот теперь правильная формулировка

Bogdan (SirEdvin)
23.04.2018
14:26:26
Если у вас 1к серверов и проблема на каком-то одном - его проще пересоздать, мне кажется.

Favoretti
23.04.2018
14:26:42
а если эта проблема будет на одном повторяться

и этот один каждый раз разный?

1к серверов - не показатель

без контекста

1к серверов для одного сервиса? - полностью согласен

Andor
23.04.2018
14:27:35
на прошлой работы было 3.5к серверов вроде бы

Favoretti
23.04.2018
14:27:39
1к серверов на котором 5000 приложений в кластерах по 5? - пересоздать наверное не так-то просто

Andor
23.04.2018
14:28:01
если под кубером, то как два пальца :)

Страница 520 из 681