
Subbotin
21.06.2017
06:21:44

Vladimir
21.06.2017
06:22:24

Sergey
21.06.2017
06:23:02

Subbotin
21.06.2017
06:24:07

Google

Alex
21.06.2017
06:24:27
А кто смотрит LA не опираясь на знания количества ядер?

Vladimir
21.06.2017
06:24:36
Ваше право

Sergey
21.06.2017
06:26:11

Alexander
21.06.2017
06:29:16
Если у меня 8 ядер и однопоточное приложение, которое грузит ядро, скажем, на 5, то la pecpu будет ~0.6. Это, мне кажется, не очень отражает картину происходящего.

Sergey
21.06.2017
06:29:42
ага

Vladimir
21.06.2017
06:30:33
Начнем с того, что percpu должно быть именно per CPU, то есть это должно быть столько величин сколько цпу в системе, но Линукс такую статистику не предоставляет

Sergey
21.06.2017
06:30:36
и поэтому у нас и так и сяк сейчас хранится (я с жаббикса мигрирую)

lastsky
21.06.2017
06:30:47
(а точнее, немного больше)

Sergey
21.06.2017
06:31:16
и это учитывая какой там фронтенд прям "очень" удобно

Vladimir
21.06.2017
06:31:40
Во вторых в общем метрика не самая полезная в целом
Особенно с учётом того как она рассчитывается

Google

Sergey
21.06.2017
06:32:51
она в теории может быть полезна если не снимать посекундно загрузку процессоров напрямую

Alexander
21.06.2017
06:32:52
Да, она для одноядерных систем еще более-менее, а для многоядерных сложно найти вменяемое объяснение.

Vladimir
21.06.2017
06:33:00
(для тех кто думает что это список процессов, я предлагаю пройти в loadavg.c и посмотреть как оно сейчас считается, а потом как бонус - как оно считается для nohz)

Sergey
21.06.2017
06:33:35
потому что в ином случае можно ее собственно достаточно точно посчитать из этих данных

Vladimir
21.06.2017
06:33:45

Subbotin
21.06.2017
06:51:20

Vladimir
21.06.2017
06:51:56

Dmitry
21.06.2017
07:18:28
LA - это вообще хер пойми что, но на него почему-то принято теребонькать кончик
Какой-то натуральный карго-культ из времён однопроцессорных пней, FreeBSD 2.2.7, пятого редхата и сайтов citforum и "всероссийский клуб вебмастеров".
Тогда девять из десяти этих "вебмастеров" фапали на LA в топе и "регулировали" количество чайлдов апача. Уже тогда не понимая смысла.

Alexander
21.06.2017
07:32:44
По идее, это просто индикатор того, что стоит посмотреть остальные счетчики и проверить, все ли нормально.

Zhenia
21.06.2017
07:42:31
а не проще алертить по остальным счетчикам сразу? и не заставлять себя делать лишнее движение

Dmitry
21.06.2017
07:44:12
Че вообще шум
Собирайте и то и то
Не?

Zhenia
21.06.2017
07:45:35
скучно людям за утренним кофе

lastsky
21.06.2017
07:46:28

Dmitry
21.06.2017
07:50:17
Можно алертить в разное
Одно будет будить тебя в холодном поту, другое можно смотреть за утренним кофе

lastsky
21.06.2017
07:51:52
ну это да. безусловно. однако вот есть 4к метрик с узла и предложение алертить по остальным счетчикам подразумевает что.

Google

lastsky
21.06.2017
07:54:05
поэтому я алерчу то что важно и меня будит в холодном поту, что-то просто собираю. смотрю там за кофем. а так собираю всё, в том числе то что я никогда даже в графане не буду рисовать. но понадобится - схожу в прометей и нарисую.

Andor
21.06.2017
07:54:59
+1

Sergey
21.06.2017
07:55:32
даешь богу метрик алерты на 100 страниц кода учитывающие вообще все :)

Zhenia
21.06.2017
07:55:47
ну, я бы предпочел алертить по отдельным метрикам, чем по LA

Sergey
21.06.2017
07:56:26

lastsky
21.06.2017
07:57:40

Sergey
21.06.2017
07:57:55
т.е. если брать мониторинг as a service как в Владимира - то норм. Просто периодически строить статы и говорить тому кто льет - вот смотри ты нам нагенерил 20Т данных но никогда их не читал - подумай над этим

Vladimir
21.06.2017
07:59:22

Sergey
21.06.2017
07:59:40
ну если что то собирается то я вот по этому пилю представление - иначе зачем оно мне надо в базе если я его оперативно глянуть не могу - это же моя система. получается лишняя нагрузка на базу

Vladimir
21.06.2017
08:02:43
а про метрики - тут есть два подхода

Sergey
21.06.2017
08:03:34
я так то в теории за то чтобы и 10к метрик в секунду (а лучше на каждый тик процессора) собирать хранить и в системе поиска аномалий прогонять с ИИ. если вот завтра будут квантовые компы и это будет бесплатно для ресурсов хоста

Vladimir
21.06.2017
08:04:03
fuckup-driven и попытка спрогнозировать чо полезно
в первом - случился факап, добавили метрик чтобы его задетектить

lastsky
21.06.2017
08:04:13

Vladimir
21.06.2017
08:04:22
во втором - берем и пишем все, а там авось пригодится
в первом случаи очевидно факапы дебажить сложнее будет

Sergey
21.06.2017
08:04:40
ну у нас обычно задача что собирать дается тому кто потом будет за систему отвечать

Vladimir
21.06.2017
08:04:40
и заметить сложнее
а во втором дикий оверхед на хранилку

Google

Vladimir
21.06.2017
08:05:07
притом дикий это реально имеем 200ТБ данных из которых по кругу читаем гигабайты
одного и того же набора метрик

Zhenia
21.06.2017
08:05:34
тут вопрос что важнее бизнесу, оверхед на данные или скорость разбора факапов

Vladimir
21.06.2017
08:05:38
ну да

Sergey
21.06.2017
08:05:55
дальше оно идет по пути факдривен + скиллапанья человека по продукту
ага, и где то посередине суммы за систему мониторинга и за время на разбор встречаются

Zhenia
21.06.2017
08:08:51
ну, я просто думаю что час простоя букинга стоит дороже 200ТБ данных

Sergey
21.06.2017
08:09:33
ну так букинг думаю написан не так чтобы там даже если что то стрельнуло это аффектило весь букинг :)

Zhenia
21.06.2017
08:10:06
никогда не знаешь что стрельнет

Sergey
21.06.2017
08:10:25
так что скорее час работы админа (или некой группы разбора) которая будет смотреть что стрельнуло

Admin
ERROR: S client not available

Zhenia
21.06.2017
08:11:50
ну, нам никто не скажет, как там что устроено

Sergey
21.06.2017
08:11:54
проблема в том что метрики дают неточную картину даже если их очень много - из разряда вот там пошли очереди начался затуп и в итоге это заафектило вот это и то

lastsky
21.06.2017
08:12:57
лет через 10 может быть
чтобы такое получить от мониторинга

Sergey
21.06.2017
08:13:26
а дальше смотрят в профилировщики критичных систем (или сначала смотрят) и метрики в системе мониторинга это + к информативности а не панацея
угу

lastsky
21.06.2017
08:13:47
пока этого нет.

Sergey
21.06.2017
08:15:27
ну вот я доклад одноклассников смотрел - они запилили поиск аномалий поучили его месяца 3 и говорят что покрыли им достаточно хорошо их системы

Google

Zhenia
21.06.2017
08:16:06
вопрос сколько это стоит

Sergey
21.06.2017
08:16:24
я подобную систему буду наверное ближе к осени-зиме пилить
сказали 2.5 человека за 3 месяца запилили
до продакта
призвать бы их в церковь :)

Zhenia
21.06.2017
08:17:24
а можно ссылку?
мне больше интересно сколько железо нейросетка скушала

Sergey
21.06.2017
08:18:13
сейчас покопаюсь в истории
по моему они не озвучивали... и это не нейросетка
сервак сидящий на потоке метрик и сравнивающий данные со смещением за 1 день за 1 неделю 1 месяц (с агреггрегацией ессна)
https://www.youtube.com/watch?v=liQVI5JK11Y
ну и как бы да... это бизнес метрики... их на порядки меньше чем системных

Denys ??
21.06.2017
08:23:45
для бизнес много чего есть
эластик новый
prophet фейсбуковский

lastsky
21.06.2017
08:24:16

Sergey
21.06.2017
08:25:40
думаю это тренды
RCA я в мониторинге не видел... оно хоть где то есть?
tivoli просьба не упоминать :) его нам продать не смогли

lastsky
21.06.2017
08:28:14
будет. лет через 10.
в tivoli тебе сначала нужно этот RCA наполовину самому написать и основное там - что первое случилось по времени.

Sergey
21.06.2017
08:28:48
т.е. примерно когда и квантовые компы :)
ну мы им выгрузили данные и они через пару месяцев сказали что вода мокрая а солнышко яркое...