@metrics_ru

« Назад

Страница 520 из 681

Далее »

Alexey

23.04.2018
14:08:02

prometheus

маршрутизируй метрики. Все там рулится.

M

23.04.2018
14:08:41

Используем федерацию

тоесть вы их по какой то типа локации - под локации - физический контейр - обьединяете практически в одну метрику ?

Alexey

23.04.2018
14:08:52

Нет, это можно в графане отыграть

Google

Alexey

23.04.2018
14:09:06

загружать группы по количеству входных.

Например в шаблоны добавляешь ДЦ а их берешь из активных ДЦ консула а внутри подключаешь метрики уже локальные

Andor

23.04.2018
14:09:40

1000000 серверов? думаю, у вас уже есть самописная система мониторинга

Alexey

23.04.2018
14:10:15

ААА миллион )) опыта нет, сорри не туда полез )

M

23.04.2018
14:10:45

ну далеко ходить не будем вот яндекс например

у них есть миллион как думаете

Alexey

23.04.2018
14:10:54

Яндекс свою пильнул

и там сильно меньше миллиона )

M

23.04.2018
14:11:15

чем их не устраивали текущие

а google например

Alexey

23.04.2018
14:11:24

тогда не было прометея

Andor

23.04.2018
14:11:25

у гугла по оценке от 2 до 6 миллионов

Alexey

23.04.2018
14:11:40

прометей - сейчас покрывает все нужные потребности )

Google

M

23.04.2018
14:12:03

ну вот 2 - 6 миллионов ну как мониторить это прометеем

Bogdan (SirEdvin)

23.04.2018
14:12:10

Как написано в FAQ - не все. Просто мы с минусами можем только мерится, а крупные компании пилят свои штуки

Favoretti

23.04.2018
14:12:11

федерация

Andor

23.04.2018
14:12:21

прометей - сейчас покрывает все нужные потребности )

нужные вам

M

23.04.2018
14:12:23

блин ладно я не использовал ))

Alexey

23.04.2018
14:12:24

Это не будет единой базой. Выше же писал, сегментирую, федерация

Andor

23.04.2018
14:12:24

но он не серебряная пуля

M

23.04.2018
14:12:35

я про федерации

Andor

23.04.2018
14:12:42

Как написано в FAQ - не все. Просто мы с минусами можем только мерится, а крупные компании пилят свои штуки

"мириться"?

Alexey

23.04.2018
14:12:47

Федерация не пуля, нужно сегментировать

Bogdan (SirEdvin)

23.04.2018
14:13:03

"мириться"?

Да, кажется, я неграмотен. Немного печально :(

M

23.04.2018
14:13:04

Федерация не пуля, нужно сегментировать

сегментировать я не очень понимаю что имеется ввиду

ну например возьмем тот же гугл

Bogdan (SirEdvin)

23.04.2018
14:13:36

Промом можно мониторить не все 1кк серверов, а кусками.

Nklya

23.04.2018
14:13:36

Яндекс свою пильнул

В яндексе графит и сейчас впиливают пром

M

23.04.2018
14:13:41

ну например внедрили они прометей

и хотят просто смотреть статус включен или выключен

Bogdan (SirEdvin)

23.04.2018
14:14:07

Тот же Гугл, согласно слухам, не внедряет мониторинг на уровне компании. У них все по отделам. И в рамках отдела своя веселуха.

M

23.04.2018
14:14:10

нужна ли им графана там?

хм

Google

Favoretti

23.04.2018
14:14:31

Тот же Гугл, согласно слухам, не внедряет мониторинг на уровне компании. У них все по отделам. И в рамках отдела своя веселуха.

Это не слухи :)

M

23.04.2018
14:14:56

а вот по поводу отдела типа отдел в россии и у них своя инфраструктура там и они сами ее мониторят ?

или как это работает

Bogdan (SirEdvin)

23.04.2018
14:15:02

Вот у вас 1кк серверов. И там на всех из них крутится одно и то же приложение, что ли? Скорее всего, у вас ряд интегрированных, но не связанных продуктов. Зачем вам мониторить их всей вместе?

Favoretti

23.04.2018
14:15:07

"Мониторинг Гугла" это как-то... с непониманием дела. У гогла 100 бизнесов разных. зачем им мониторинг всея гугла?

M

23.04.2018
14:15:19

я вот например интересуюсь как они мониторят и обслуживают чтото типа AWS GoogleCloud

Bogdan (SirEdvin)

23.04.2018
14:15:25

Теоретически, отдел gmail мониторит gmail, отдел youtube мониторит youtube.

Andor

23.04.2018
14:15:25

подозреваю что у гугла BorgMon

M

23.04.2018
14:15:30

там ведь явно дохрена серверов

Bogdan (SirEdvin)

23.04.2018
14:15:39

GoogleCloud по датацентрам.

Favoretti

23.04.2018
14:15:51

я вот например интересуюсь как они мониторят и обслуживают чтото типа AWS GoogleCloud

AWS и GoogleCloud это куча разных сервисов. Отдельно и мониторят.

Bogdan (SirEdvin)

23.04.2018
14:16:12

Ну и да, отдельные сервисы тоже, скорее всего. Причем, вполне может быть, что разными системами.

M

23.04.2018
14:16:54

я вот даже не особо понимаю как построить нормально графический мониторинг графаны на 100 серверов

ну по одному серверу понимаю переключение

Bogdan (SirEdvin)

23.04.2018
14:17:16

Зачем вам графический мониторинг? Всмысле глазами?

Andor

23.04.2018
14:17:18

а что тебя интересует в этих 100 серверов?

Bogdan (SirEdvin)

23.04.2018
14:17:39

А почему не алертами тогда?

evix

23.04.2018
14:17:46

подозреваю что графики нужны начальству

Zhenia

23.04.2018
14:17:49

я вот даже не особо понимаю как построить нормально графический мониторинг графаны на 100 серверов

хитмап?

M

23.04.2018
14:17:51

а что тебя интересует в этих 100 серверов?

ну возьмем просто память uptime cpu

Google

Andor

23.04.2018
14:17:56

В яндексе графит и сейчас впиливают пром

а джагглер куда дели?

M

23.04.2018
14:18:08

подозреваю что графики нужны начальству

графики внушают доверие им и они их любят

Bogdan (SirEdvin)

23.04.2018
14:18:08

Ну и вспоминая тему группы - зачем вообще мониторить сервера?

Andor

23.04.2018
14:18:11

ну возьмем просто память uptime cpu

ты хочешь это всё видеть на графиках?

Favoretti

23.04.2018
14:18:13

кого интересует в наше время мониторинг памяти/аптайма и т.д.

SL-based мониторинг.

Bogdan (SirEdvin)

23.04.2018
14:18:31

Может лучше стоит показывать на графиках uptime, latency и прочие крутые штуки для приложения?

Andor

23.04.2018
14:18:47

интересует тех, кто занимается планированием капасити

Favoretti

23.04.2018
14:18:58

перестаньте смотреть на то, как чувствует себя отдельный сервер. Собирайте эти метрики, но смотрите на них редко.

Andor

23.04.2018
14:19:01

в кластере может тупо не хватать мощей и надо брать новые хосты

Admin

ERROR: S client not available

Andor

23.04.2018
14:19:04

например.

evix

23.04.2018
14:19:24

ну вот у нас начальники любят присылать скрины с вопросами "а что это за провал в пиле?" или "почему тут 90% цпу постоянно занято?"

Andor

23.04.2018
14:19:26

но да. обычно не надо

evix

23.04.2018
14:19:31

"патамушта"

Favoretti

23.04.2018
14:19:33

ну, это аггрегейт метрики по аvailable cpu в кластере

а не каждый отдельный сервер.

Andor

23.04.2018
14:19:47

конечно

Favoretti

23.04.2018
14:20:02

ну вот у нас начальники любят присылать скрины с вопросами "а что это за провал в пиле?" или "почему тут 90% цпу постоянно занято?"

Убери эти графики и они перестанут приходить с тупыми вопросами

Andor

23.04.2018
14:20:02

но для них надо собирать для каждого отдельного сервера

Google

Favoretti

23.04.2018
14:20:10

Собирать это одно дело.

Вот тебе и сегментация например

если серверов миллион - делаем один пром, которые сгребает только CPU статистику

Andor

23.04.2018
14:20:29

ну и иногда полезно для разбора инцидентов

M

23.04.2018
14:20:30

Собирать это одно дело.

cобирать это не такая сложная задача

Bogdan (SirEdvin)

23.04.2018
14:21:29

Ну, в итоге: - Показывайте метрики приложения - Если уж кто-то запросил метрики серверов - показывайте аггрегацию. Перцентили или какую-то другую наркоманию.

evix

23.04.2018
14:23:21

у нас вон дружественный отдел собирает три метрики с хоста. аггрегированные. раз в 5 минут. все счастливы.

M

23.04.2018
14:24:35

А может ктото расшарит скрины кто как графическую часть организовал

кстати func now() в проме уже нет уже time()

Andor

23.04.2018
14:25:29

значит запамятовал

Bogdan (SirEdvin)

23.04.2018
14:25:31

https://grafana.com/dashboards тут есть примеры

Favoretti

23.04.2018
14:25:51

Ну, в итоге: - Показывайте метрики приложения - Если уж кто-то запросил метрики серверов - показывайте аггрегацию. Перцентили или какую-то другую наркоманию.

Не, индивидуальные метрики нужны и важны, но смотреть в них надо только лишь для deep-dive в какую-то проблему.

ну и иногда полезно для разбора инцидентов

конечно. но пялиться в них каждый день имхо зло :)

Andor

23.04.2018
14:26:20

вот теперь правильная формулировка

Bogdan (SirEdvin)

23.04.2018
14:26:26

Если у вас 1к серверов и проблема на каком-то одном - его проще пересоздать, мне кажется.

Favoretti

23.04.2018
14:26:42

а если эта проблема будет на одном повторяться

и этот один каждый раз разный?

1к серверов - не показатель

без контекста

1к серверов для одного сервиса? - полностью согласен

Andor

23.04.2018
14:27:35

на прошлой работы было 3.5к серверов вроде бы

Favoretti

23.04.2018
14:27:39

1к серверов на котором 5000 приложений в кластерах по 5? - пересоздать наверное не так-то просто

Andor

23.04.2018
14:28:01

если под кубером, то как два пальца :)

« Назад

Страница 520 из 681

Далее »

Открыть в Telegram