@metrics_ru

Страница 191 из 681
Subbotin
21.06.2017
06:21:44
Vladimir
21.06.2017
06:22:24
Так он и снимает сырую, но в шаблонах по-умолчанию она пересчитана уже в полезную величину вместо бесполезной
Вот я не согласен во первых с таким умолчанием, во вторых с таким подходом

Sergey
21.06.2017
06:23:02
Так он и снимает сырую, но в шаблонах по-умолчанию она пересчитана уже в полезную величину вместо бесполезной
так удобно же количество процессоров и застекированное LA воспринимать, или не?

Google
Alex
21.06.2017
06:24:27
А кто смотрит LA не опираясь на знания количества ядер?

Vladimir
21.06.2017
06:24:36
Некоторые и в жопу долбятся
Не, ну вы можете конечно продолжать долбиться с деленым ла

Ваше право

Sergey
21.06.2017
06:26:11
А кто смотрит LA не опираясь на знания количества ядер?
ну в теории конечно ради некого феншуя можно (об)деленное ЛА смотреть - но тогда все равно если наизусть не помнишь надо лезть и смотреть скокаж там ядер отсыпано... в жаббиксе так делают :)

Alexander
21.06.2017
06:29:16
Если у меня 8 ядер и однопоточное приложение, которое грузит ядро, скажем, на 5, то la pecpu будет ~0.6. Это, мне кажется, не очень отражает картину происходящего.

Sergey
21.06.2017
06:29:42
ага

Vladimir
21.06.2017
06:30:33
Начнем с того, что percpu должно быть именно per CPU, то есть это должно быть столько величин сколько цпу в системе, но Линукс такую статистику не предоставляет

Sergey
21.06.2017
06:30:36
и поэтому у нас и так и сяк сейчас хранится (я с жаббикса мигрирую)

lastsky
21.06.2017
06:30:47
Общепринятого?
команда uptime 24 года так показывает LA.

(а точнее, немного больше)

Sergey
21.06.2017
06:31:16
и это учитывая какой там фронтенд прям "очень" удобно

Vladimir
21.06.2017
06:31:40
Во вторых в общем метрика не самая полезная в целом

Особенно с учётом того как она рассчитывается

Google
Sergey
21.06.2017
06:32:51
она в теории может быть полезна если не снимать посекундно загрузку процессоров напрямую

Alexander
21.06.2017
06:32:52
Да, она для одноядерных систем еще более-менее, а для многоядерных сложно найти вменяемое объяснение.

Vladimir
21.06.2017
06:33:00
(для тех кто думает что это список процессов, я предлагаю пройти в loadavg.c и посмотреть как оно сейчас считается, а потом как бонус - как оно считается для nohz)

Sergey
21.06.2017
06:33:35
потому что в ином случае можно ее собственно достаточно точно посчитать из этих данных

Vladimir
21.06.2017
06:33:45
Да, она для одноядерных систем еще более-менее, а для многоядерных сложно найти вменяемое объяснение.
Там даже для одноядерных систем она очень интересно рассчитывается

Vladimir
21.06.2017
06:51:56
На этом ядре 4 процесса ожидают исполнения а на это 20.
Для тех кто наивно считает что там процессы я уже предложил пройти в код.

Dmitry
21.06.2017
07:18:28
LA - это вообще хер пойми что, но на него почему-то принято теребонькать кончик

Какой-то натуральный карго-культ из времён однопроцессорных пней, FreeBSD 2.2.7, пятого редхата и сайтов citforum и "всероссийский клуб вебмастеров".

Тогда девять из десяти этих "вебмастеров" фапали на LA в топе и "регулировали" количество чайлдов апача. Уже тогда не понимая смысла.

Alexander
21.06.2017
07:32:44
По идее, это просто индикатор того, что стоит посмотреть остальные счетчики и проверить, все ли нормально.

Zhenia
21.06.2017
07:42:31
а не проще алертить по остальным счетчикам сразу? и не заставлять себя делать лишнее движение

Dmitry
21.06.2017
07:44:12
Че вообще шум

Собирайте и то и то

Не?

Zhenia
21.06.2017
07:45:35
скучно людям за утренним кофе

lastsky
21.06.2017
07:46:28
а не проще алертить по остальным счетчикам сразу? и не заставлять себя делать лишнее движение
просто алертилка не резиновая. а тут одна метрика LA показывает погоду, и в общем то обращает внимание на возросшую нагрузку (шеф, что-то пошло не так), чем свою функцию выполняет.

Dmitry
21.06.2017
07:50:17
Можно алертить в разное

Одно будет будить тебя в холодном поту, другое можно смотреть за утренним кофе

lastsky
21.06.2017
07:51:52
ну это да. безусловно. однако вот есть 4к метрик с узла и предложение алертить по остальным счетчикам подразумевает что.

Google
lastsky
21.06.2017
07:54:05
поэтому я алерчу то что важно и меня будит в холодном поту, что-то просто собираю. смотрю там за кофем. а так собираю всё, в том числе то что я никогда даже в графане не буду рисовать. но понадобится - схожу в прометей и нарисую.

Andor
21.06.2017
07:54:59
+1

Sergey
21.06.2017
07:55:32
даешь богу метрик алерты на 100 страниц кода учитывающие вообще все :)

Zhenia
21.06.2017
07:55:47
ну, я бы предпочел алертить по отдельным метрикам, чем по LA

lastsky
21.06.2017
07:57:40
а подход собирать но не отрисовывать не кажется слегка излишним?
нет. это экономия ресурсов. в базе они всегда есть но не каждый день все разрезы во всем метрикам нужно смотреть. прикинь 4k графиков посмотреть за кофе?

Sergey
21.06.2017
07:57:55
т.е. если брать мониторинг as a service как в Владимира - то норм. Просто периодически строить статы и говорить тому кто льет - вот смотри ты нам нагенерил 20Т данных но никогда их не читал - подумай над этим

Sergey
21.06.2017
07:59:40
ну если что то собирается то я вот по этому пилю представление - иначе зачем оно мне надо в базе если я его оперативно глянуть не могу - это же моя система. получается лишняя нагрузка на базу

Если б 20... Ах, если б всего лишь 20
ну мне и такие цифры не дадут :) потому как сейчас это льется в хранилку за ахулион денег - просто потому что... не спрашивайте :)

Vladimir
21.06.2017
08:02:43
а про метрики - тут есть два подхода

Sergey
21.06.2017
08:03:34
я так то в теории за то чтобы и 10к метрик в секунду (а лучше на каждый тик процессора) собирать хранить и в системе поиска аномалий прогонять с ИИ. если вот завтра будут квантовые компы и это будет бесплатно для ресурсов хоста

Vladimir
21.06.2017
08:04:03
fuckup-driven и попытка спрогнозировать чо полезно

в первом - случился факап, добавили метрик чтобы его задетектить

lastsky
21.06.2017
08:04:13
а подход собирать но не отрисовывать не кажется слегка излишним?
у @Civiloid другие объемы, масштабы, стэк и подход, соответственно. нет смысла сравнивать сотэн сервантов с прометеем у меня и тыщи серверов и виртуалок с кучей кастомных метрик.

Vladimir
21.06.2017
08:04:22
во втором - берем и пишем все, а там авось пригодится

в первом случаи очевидно факапы дебажить сложнее будет

Sergey
21.06.2017
08:04:40
ну у нас обычно задача что собирать дается тому кто потом будет за систему отвечать

Vladimir
21.06.2017
08:04:40
и заметить сложнее

а во втором дикий оверхед на хранилку

Google
Vladimir
21.06.2017
08:05:07
притом дикий это реально имеем 200ТБ данных из которых по кругу читаем гигабайты

одного и того же набора метрик

Zhenia
21.06.2017
08:05:34
тут вопрос что важнее бизнесу, оверхед на данные или скорость разбора факапов

Vladimir
21.06.2017
08:05:38
ну да

Sergey
21.06.2017
08:05:55
дальше оно идет по пути факдривен + скиллапанья человека по продукту

ага, и где то посередине суммы за систему мониторинга и за время на разбор встречаются

Zhenia
21.06.2017
08:08:51
ну, я просто думаю что час простоя букинга стоит дороже 200ТБ данных

Sergey
21.06.2017
08:09:33
ну так букинг думаю написан не так чтобы там даже если что то стрельнуло это аффектило весь букинг :)

Zhenia
21.06.2017
08:10:06
никогда не знаешь что стрельнет

Sergey
21.06.2017
08:10:25
так что скорее час работы админа (или некой группы разбора) которая будет смотреть что стрельнуло

Admin
ERROR: S client not available

Zhenia
21.06.2017
08:11:50
ну, нам никто не скажет, как там что устроено

Sergey
21.06.2017
08:11:54
проблема в том что метрики дают неточную картину даже если их очень много - из разряда вот там пошли очереди начался затуп и в итоге это заафектило вот это и то

Sergey
21.06.2017
08:13:26
а дальше смотрят в профилировщики критичных систем (или сначала смотрят) и метрики в системе мониторинга это + к информативности а не панацея

угу

lastsky
21.06.2017
08:13:47
пока этого нет.

Sergey
21.06.2017
08:15:27
ну вот я доклад одноклассников смотрел - они запилили поиск аномалий поучили его месяца 3 и говорят что покрыли им достаточно хорошо их системы

Google
Zhenia
21.06.2017
08:16:06
вопрос сколько это стоит

Sergey
21.06.2017
08:16:24
я подобную систему буду наверное ближе к осени-зиме пилить

сказали 2.5 человека за 3 месяца запилили

до продакта

призвать бы их в церковь :)

Zhenia
21.06.2017
08:17:24
а можно ссылку?

мне больше интересно сколько железо нейросетка скушала

Sergey
21.06.2017
08:18:13
сейчас покопаюсь в истории

по моему они не озвучивали... и это не нейросетка

сервак сидящий на потоке метрик и сравнивающий данные со смещением за 1 день за 1 неделю 1 месяц (с агреггрегацией ессна)

https://www.youtube.com/watch?v=liQVI5JK11Y

ну и как бы да... это бизнес метрики... их на порядки меньше чем системных

Denys ??
21.06.2017
08:23:45
для бизнес много чего есть

эластик новый

prophet фейсбуковский

lastsky
21.06.2017
08:24:16
сервак сидящий на потоке метрик и сравнивающий данные со смещением за 1 день за 1 неделю 1 месяц (с агреггрегацией ессна)
ну такое и в алертинге прометея можно вкрутить, взяв интервалы с вычетом и сравнения математикой. я так делал для часовых интервалов. речь все таки про тренды или мы говорим о RCA?

Sergey
21.06.2017
08:25:40
думаю это тренды

RCA я в мониторинге не видел... оно хоть где то есть?

tivoli просьба не упоминать :) его нам продать не смогли

lastsky
21.06.2017
08:28:14
будет. лет через 10.

в tivoli тебе сначала нужно этот RCA наполовину самому написать и основное там - что первое случилось по времени.

Sergey
21.06.2017
08:28:48
т.е. примерно когда и квантовые компы :)

ну мы им выгрузили данные и они через пару месяцев сказали что вода мокрая а солнышко яркое...

Страница 191 из 681