@metrics_ru

« Назад

Страница 191 из 681

Далее »

Subbotin

21.06.2017
06:21:44

А как вообще без количества ядер сырой LA воспринимать?

Дрочить на него можно

Vladimir

21.06.2017
06:22:24

Так он и снимает сырую, но в шаблонах по-умолчанию она пересчитана уже в полезную величину вместо бесполезной

Вот я не согласен во первых с таким умолчанием, во вторых с таким подходом

Sergey

21.06.2017
06:23:02

Так он и снимает сырую, но в шаблонах по-умолчанию она пересчитана уже в полезную величину вместо бесполезной

так удобно же количество процессоров и застекированное LA воспринимать, или не?

Subbotin

21.06.2017
06:24:07

Вот я не согласен во первых с таким умолчанием, во вторых с таким подходом

Некоторые и в жопу долбятся

Google

Alex

21.06.2017
06:24:27

А кто смотрит LA не опираясь на знания количества ядер?

Vladimir

21.06.2017
06:24:36

Некоторые и в жопу долбятся

Не, ну вы можете конечно продолжать долбиться с деленым ла

Ваше право

Sergey

21.06.2017
06:26:11

А кто смотрит LA не опираясь на знания количества ядер?

ну в теории конечно ради некого феншуя можно (об)деленное ЛА смотреть - но тогда все равно если наизусть не помнишь надо лезть и смотреть скокаж там ядер отсыпано... в жаббиксе так делают :)

Alexander

21.06.2017
06:29:16

Если у меня 8 ядер и однопоточное приложение, которое грузит ядро, скажем, на 5, то la pecpu будет ~0.6. Это, мне кажется, не очень отражает картину происходящего.

Sergey

21.06.2017
06:29:42

ага

Vladimir

21.06.2017
06:30:33

Начнем с того, что percpu должно быть именно per CPU, то есть это должно быть столько величин сколько цпу в системе, но Линукс такую статистику не предоставляет

Sergey

21.06.2017
06:30:36

и поэтому у нас и так и сяк сейчас хранится (я с жаббикса мигрирую)

lastsky

21.06.2017
06:30:47

Общепринятого?

команда uptime 24 года так показывает LA.

(а точнее, немного больше)

Sergey

21.06.2017
06:31:16

и это учитывая какой там фронтенд прям "очень" удобно

Vladimir

21.06.2017
06:31:40

Во вторых в общем метрика не самая полезная в целом

Особенно с учётом того как она рассчитывается

Google

Sergey

21.06.2017
06:32:51

она в теории может быть полезна если не снимать посекундно загрузку процессоров напрямую

Alexander

21.06.2017
06:32:52

Да, она для одноядерных систем еще более-менее, а для многоядерных сложно найти вменяемое объяснение.

Vladimir

21.06.2017
06:33:00

(для тех кто думает что это список процессов, я предлагаю пройти в loadavg.c и посмотреть как оно сейчас считается, а потом как бонус - как оно считается для nohz)

Sergey

21.06.2017
06:33:35

потому что в ином случае можно ее собственно достаточно точно посчитать из этих данных

Vladimir

21.06.2017
06:33:45

Да, она для одноядерных систем еще более-менее, а для многоядерных сложно найти вменяемое объяснение.

Там даже для одноядерных систем она очень интересно рассчитывается

Subbotin

21.06.2017
06:51:20

Начнем с того, что percpu должно быть именно per CPU, то есть это должно быть столько величин сколько цпу в системе, но Линукс такую статистику не предоставляет

На этом ядре 4 процесса ожидают исполнения а на это 20.

Vladimir

21.06.2017
06:51:56

На этом ядре 4 процесса ожидают исполнения а на это 20.

Для тех кто наивно считает что там процессы я уже предложил пройти в код.

Dmitry

21.06.2017
07:18:28

LA - это вообще хер пойми что, но на него почему-то принято теребонькать кончик

Какой-то натуральный карго-культ из времён однопроцессорных пней, FreeBSD 2.2.7, пятого редхата и сайтов citforum и "всероссийский клуб вебмастеров".

Тогда девять из десяти этих "вебмастеров" фапали на LA в топе и "регулировали" количество чайлдов апача. Уже тогда не понимая смысла.

Alexander

21.06.2017
07:32:44

По идее, это просто индикатор того, что стоит посмотреть остальные счетчики и проверить, все ли нормально.

Zhenia

21.06.2017
07:42:31

а не проще алертить по остальным счетчикам сразу? и не заставлять себя делать лишнее движение

Dmitry

21.06.2017
07:44:12

Че вообще шум

Собирайте и то и то

Не?

Zhenia

21.06.2017
07:45:35

скучно людям за утренним кофе

lastsky

21.06.2017
07:46:28

а не проще алертить по остальным счетчикам сразу? и не заставлять себя делать лишнее движение

просто алертилка не резиновая. а тут одна метрика LA показывает погоду, и в общем то обращает внимание на возросшую нагрузку (шеф, что-то пошло не так), чем свою функцию выполняет.

Dmitry

21.06.2017
07:50:17

Можно алертить в разное

Одно будет будить тебя в холодном поту, другое можно смотреть за утренним кофе

lastsky

21.06.2017
07:51:52

ну это да. безусловно. однако вот есть 4к метрик с узла и предложение алертить по остальным счетчикам подразумевает что.

Google

lastsky

21.06.2017
07:54:05

поэтому я алерчу то что важно и меня будит в холодном поту, что-то просто собираю. смотрю там за кофем. а так собираю всё, в том числе то что я никогда даже в графане не буду рисовать. но понадобится - схожу в прометей и нарисую.

Andor

21.06.2017
07:54:59

+1

Sergey

21.06.2017
07:55:32

даешь богу метрик алерты на 100 страниц кода учитывающие вообще все :)

Zhenia

21.06.2017
07:55:47

ну, я бы предпочел алертить по отдельным метрикам, чем по LA

Sergey

21.06.2017
07:56:26

поэтому я алерчу то что важно и меня будит в холодном поту, что-то просто собираю. смотрю там за кофем. а так собираю всё, в том числе то что я никогда даже в графане не буду рисовать. но понадобится - схожу в прометей и нарисую.

а подход собирать но не отрисовывать не кажется слегка излишним?

lastsky

21.06.2017
07:57:40

а подход собирать но не отрисовывать не кажется слегка излишним?

нет. это экономия ресурсов. в базе они всегда есть но не каждый день все разрезы во всем метрикам нужно смотреть. прикинь 4k графиков посмотреть за кофе?

Sergey

21.06.2017
07:57:55

т.е. если брать мониторинг as a service как в Владимира - то норм. Просто периодически строить статы и говорить тому кто льет - вот смотри ты нам нагенерил 20Т данных но никогда их не читал - подумай над этим

Vladimir

21.06.2017
07:59:22

т.е. если брать мониторинг as a service как в Владимира - то норм. Просто периодически строить статы и говорить тому кто льет - вот смотри ты нам нагенерил 20Т данных но никогда их не читал - подумай над этим

Если б 20... Ах, если б всего лишь 20

Sergey

21.06.2017
07:59:40

ну если что то собирается то я вот по этому пилю представление - иначе зачем оно мне надо в базе если я его оперативно глянуть не могу - это же моя система. получается лишняя нагрузка на базу

Если б 20... Ах, если б всего лишь 20

ну мне и такие цифры не дадут :) потому как сейчас это льется в хранилку за ахулион денег - просто потому что... не спрашивайте :)

Vladimir

21.06.2017
08:02:43

а про метрики - тут есть два подхода

Sergey

21.06.2017
08:03:34

я так то в теории за то чтобы и 10к метрик в секунду (а лучше на каждый тик процессора) собирать хранить и в системе поиска аномалий прогонять с ИИ. если вот завтра будут квантовые компы и это будет бесплатно для ресурсов хоста

Vladimir

21.06.2017
08:04:03

fuckup-driven и попытка спрогнозировать чо полезно

в первом - случился факап, добавили метрик чтобы его задетектить

lastsky

21.06.2017
08:04:13

а подход собирать но не отрисовывать не кажется слегка излишним?

у @Civiloid другие объемы, масштабы, стэк и подход, соответственно. нет смысла сравнивать сотэн сервантов с прометеем у меня и тыщи серверов и виртуалок с кучей кастомных метрик.

Vladimir

21.06.2017
08:04:22

во втором - берем и пишем все, а там авось пригодится

в первом случаи очевидно факапы дебажить сложнее будет

Sergey

21.06.2017
08:04:40

ну у нас обычно задача что собирать дается тому кто потом будет за систему отвечать

Vladimir

21.06.2017
08:04:40

и заметить сложнее

а во втором дикий оверхед на хранилку

Google

Vladimir

21.06.2017
08:05:07

притом дикий это реально имеем 200ТБ данных из которых по кругу читаем гигабайты

одного и того же набора метрик

Zhenia

21.06.2017
08:05:34

тут вопрос что важнее бизнесу, оверхед на данные или скорость разбора факапов

Vladimir

21.06.2017
08:05:38

ну да

Sergey

21.06.2017
08:05:55

дальше оно идет по пути факдривен + скиллапанья человека по продукту

ага, и где то посередине суммы за систему мониторинга и за время на разбор встречаются

Zhenia

21.06.2017
08:08:51

ну, я просто думаю что час простоя букинга стоит дороже 200ТБ данных

Sergey

21.06.2017
08:09:33

ну так букинг думаю написан не так чтобы там даже если что то стрельнуло это аффектило весь букинг :)

Zhenia

21.06.2017
08:10:06

никогда не знаешь что стрельнет

Sergey

21.06.2017
08:10:25

так что скорее час работы админа (или некой группы разбора) которая будет смотреть что стрельнуло

Admin

ERROR: S client not available

Zhenia

21.06.2017
08:11:50

ну, нам никто не скажет, как там что устроено

Sergey

21.06.2017
08:11:54

проблема в том что метрики дают неточную картину даже если их очень много - из разряда вот там пошли очереди начался затуп и в итоге это заафектило вот это и то

lastsky

21.06.2017
08:12:57

проблема в том что метрики дают неточную картину даже если их очень много - из разряда вот там пошли очереди начался затуп и в итоге это заафектило вот это и то

вам помогут нейросети и RCA.

лет через 10 может быть

чтобы такое получить от мониторинга

Sergey

21.06.2017
08:13:26

а дальше смотрят в профилировщики критичных систем (или сначала смотрят) и метрики в системе мониторинга это + к информативности а не панацея

угу

lastsky

21.06.2017
08:13:47

пока этого нет.

Sergey

21.06.2017
08:15:27

ну вот я доклад одноклассников смотрел - они запилили поиск аномалий поучили его месяца 3 и говорят что покрыли им достаточно хорошо их системы

Google

Zhenia

21.06.2017
08:16:06

вопрос сколько это стоит

Sergey

21.06.2017
08:16:24

я подобную систему буду наверное ближе к осени-зиме пилить

сказали 2.5 человека за 3 месяца запилили

до продакта

призвать бы их в церковь :)

Zhenia

21.06.2017
08:17:24

а можно ссылку?

мне больше интересно сколько железо нейросетка скушала

Sergey

21.06.2017
08:18:13

сейчас покопаюсь в истории

по моему они не озвучивали... и это не нейросетка

сервак сидящий на потоке метрик и сравнивающий данные со смещением за 1 день за 1 неделю 1 месяц (с агреггрегацией ессна)

https://www.youtube.com/watch?v=liQVI5JK11Y

ну и как бы да... это бизнес метрики... их на порядки меньше чем системных

Denys ??

21.06.2017
08:23:45

для бизнес много чего есть

эластик новый

prophet фейсбуковский

lastsky

21.06.2017
08:24:16

сервак сидящий на потоке метрик и сравнивающий данные со смещением за 1 день за 1 неделю 1 месяц (с агреггрегацией ессна)

ну такое и в алертинге прометея можно вкрутить, взяв интервалы с вычетом и сравнения математикой. я так делал для часовых интервалов. речь все таки про тренды или мы говорим о RCA?

Sergey

21.06.2017
08:25:40

думаю это тренды

RCA я в мониторинге не видел... оно хоть где то есть?

tivoli просьба не упоминать :) его нам продать не смогли

lastsky

21.06.2017
08:28:14

будет. лет через 10.

в tivoli тебе сначала нужно этот RCA наполовину самому написать и основное там - что первое случилось по времени.

Sergey

21.06.2017
08:28:48

т.е. примерно когда и квантовые компы :)

ну мы им выгрузили данные и они через пару месяцев сказали что вода мокрая а солнышко яркое...

« Назад

Страница 191 из 681

Далее »

Открыть в Telegram