@metrics_ru

Страница 179 из 681
Zhenia
13.06.2017
18:50:50
там не только пинг меряется, пинг как грубый пример метрики, котрую нужно снимать чаще раза в минуту

Vladimir
13.06.2017
18:51:06
То есть выполнимая когда это пхп, нджинкс и больше ничего

Sheridan
13.06.2017
18:51:48
Невыполнимая задача
При конечном числе нод априори выполнимая :)

Google
Vladimir
13.06.2017
18:52:02
Zhenia
13.06.2017
18:52:05
ну вот сколько у тебя серверов

Sheridan
13.06.2017
18:52:18
уже ноль

Zhenia
13.06.2017
18:52:24
и сколько жалоб на пробелмы с продуктом прилетает в саппорт в день

Zhenia
13.06.2017
18:52:54
0,3
в лучшем случае тысяча

Sheridan
13.06.2017
18:53:18
тысяча чего?

Zhenia
13.06.2017
18:53:30
была правда, после того как все отдали мейлру, я благополучно уволился

тысяча чего?
тикетов в сутки

Vladimir
13.06.2017
18:54:17
Я видел тут презенташку китайцев одних (алибаба)

Zhenia
13.06.2017
18:54:37
а ребятам из саппорта не интересно, как часто у тебя метрики снимаются, им нужно просто красивая картинка, где они могут быстро глянуть чо и как

Vladimir
13.06.2017
18:54:52
Они гордились что онкол инженер у них раньше получал 100+ алертов в дневную смену и 30 ночью, а теперь всего 30 днём и 10 ночью

Google
Zhenia
13.06.2017
18:55:03
графана и кибана им для этого подходит почти идеально

и до инженера доходит дай боже 20 тикетов

хотел показать тулзу, для чека коннекта юзеров, но ее мейлру себе не взял

Sheridan
13.06.2017
18:56:11
тикетов в сутки
тикетов в куда?

Zhenia
13.06.2017
18:56:22
Sheridan
13.06.2017
18:56:41
нет, у меня 0,3

Zhenia
13.06.2017
18:56:44
если ты не дашь саппорту способ самому посмотреть данные - дергать будут тебя

Sheridan
13.06.2017
18:56:45
было\

lastsky
13.06.2017
18:56:47
это видимо случай когда алерт сам превращается в тикет?

Zhenia
13.06.2017
18:57:09
это случай, когда алерт превращается в 120 тикетов)

потому что спайки\лаги\дроп с сервера

Sheridan
13.06.2017
18:57:25
это видимо случай когда алерт сам превращается в тикет?
решается чуть ли не на щелчок пальцами, по крайней мере за день точно

lastsky
13.06.2017
18:57:44
ну это да, понятно.

Sheridan
13.06.2017
18:57:53
да?
я чтото не так написал?

Zhenia
13.06.2017
18:58:05
ну, давай, напиши решение за день

lastsky
13.06.2017
18:58:09
алертменеджер шлет например письмо в redmine а redmine с плагином автооткрытия тикетов по e-mail с определенног сорса

Sergey
13.06.2017
18:58:12
я чтото не так написал?
тут опять scale mismatch.

lastsky
13.06.2017
18:58:13
оно уже написано

Zhenia
13.06.2017
18:58:14
ну хотя бы алгоритм

Google
Sheridan
13.06.2017
18:58:17
какой сервис, какое событие, какой трекер?

Sergey
13.06.2017
18:58:26
где-то так в 1000 раз.

lastsky
13.06.2017
18:58:29
это всё настраивается в redmine уже

Zhenia
13.06.2017
18:58:30
Sheridan
13.06.2017
18:58:39
если(событие) то отсылаем мессадж в треккер используя его api

Zhenia
13.06.2017
18:58:52
событие - любая проблема на стороне юзера

юзер сам напишет тебе жалобу

Sergey
13.06.2017
18:59:04
если(событие) то отсылаем мессадж в треккер используя его api
круто. пришел утром - 9230 тикетов в трекере.

lastsky
13.06.2017
18:59:21
а ваще чот мне кажется что мы отошли от темы метрик и стали обсуждать тему саппорта.

Zhenia
13.06.2017
18:59:22
а теперь собери статистику с интервалом раз в минуту, что бы понять у кого проблема

lastsky
13.06.2017
18:59:26
и чат превратился во флуд.

Zhenia
13.06.2017
18:59:28
пиковый онлайн - 30 тысяч

Sergey
13.06.2017
18:59:30
кажется у нас была одна проблема, а появилось 9231

Sheridan
13.06.2017
18:59:45
круто. пришел утром - 9230 тикетов в трекере.
Значит всё легло и ты уже увооен и расстрелян. Ибо в треккер не стоит всё подряд суовать а только важное

Sergey
13.06.2017
18:59:56
Значит всё легло и ты уже увооен и расстрелян. Ибо в треккер не стоит всё подряд суовать а только важное
нет, это значит что всего лишь 0.01% пользователей заимело проблемы за ночь.

Sheridan
13.06.2017
19:01:12
нет, это значит что всего лишь 0.01% пользователей заимело проблемы за ночь.
А, вы таки хотите с пользователей собирать? Там по другому. Нехай софт шлёт письма роботу, который рассовывает тикеты в треккер. Количество писем и события при которых они будуд итти обсудите уже сами :)

Zhenia
13.06.2017
19:01:15
вопрос в том, насколько тебе не похуй на юзеров

и насколько тебя за это ебут

Sheridan
13.06.2017
19:01:39
или пользователи купили не софт а услугу:

?

Google
Zhenia
13.06.2017
19:02:10
пользователь - игрок в игру

он платит тебе денежку что бы играть в нее

Sheridan
13.06.2017
19:02:25
ваша игра - софт или услуга?

Zhenia
13.06.2017
19:02:41
и то и другое

lastsky
13.06.2017
19:02:56
софт как услуга )

SaaS

злостные оффтоперы. давайте про метрики а?

Sheridan
13.06.2017
19:03:23
вы продаете клиента игры а потом сервера для командной игры?

Можанг?

Zhenia
13.06.2017
19:03:37
нет, мы ничего не продаем

Admin
ERROR: S client not available

Zhenia
13.06.2017
19:03:40
ф2п

Sheridan
13.06.2017
19:03:51
тогда к чему разговор про сферических коней?

Zhenia
13.06.2017
19:04:26
бля, как тебе обьяснить

хотя зачем, я уже пытался пару раз

Sheridan
13.06.2017
19:04:35
ф2п
значит таки услуга. Значит метрики на вашей стороне.

с клиента их сдёргивать... Ну разве что автоматом натравливать ноду на клиента при его обращении в саппорт

иначе можно утонуть в этих метриках и никакая графана не поможет...

Zhenia
13.06.2017
19:06:52
это не поможет, если у тебя был берст между двумя серверами

или шина переполнилась

Google
Zhenia
13.06.2017
19:07:16
или еще 99 вариантов на твоей стороне

которые длились пару секунд

Sheridan
13.06.2017
19:07:24
это не поможет, если у тебя был берст между двумя серверами
тогда я вообще не пойму чего вы мне мозг полоскаете :)

которые длились пару секунд
а, ты про то что не надо часто собирать?

Zhenia
13.06.2017
19:08:20
про то, что сбор метрик с низким интервалом - иногда оправдано необходимая мера

Sheridan
13.06.2017
19:08:44
в том то и дело, что надо подходить к вопросу шагом а не бегом. Подумать какие метрики надо часто, какие редко, какие чуть ли не вручную.

я правильно выше написал?

lastsky
13.06.2017
19:09:21
у прометея например scrape_interval один на весь сервер.

Zhenia
13.06.2017
19:09:28
я правильно выше написал?
да, но раз в минуту в высоко нагруженных системах - редко

lastsky
13.06.2017
19:10:10
или per-job? )

Zhenia
13.06.2017
19:10:14
раз секунд в20 максимум

Sheridan
13.06.2017
19:10:20
Andor
13.06.2017
19:11:02
или per-job? )
per job, при этом джобы можно объединять через релейбелинг

lastsky
13.06.2017
19:11:44
а ну понятно. если его в конфиге нету, то значит 15, подумал штирлиц.

cat /etc/prometheus/prometheus.yml global: scrape_interval: 15s

интересно, да, надо будет затестировать.

Vladimir
13.06.2017
19:14:00
@Sheridan_ru у тебя пока мышление еще масштабами "10 серверов и 0 бюджета"

Алексей
13.06.2017
19:15:05
про то, что сбор метрик с низким интервалом - иногда оправдано необходимая мера
индульгенция тебе. иди с богом и не греши. интервал больше 30 секунд не оправдан на высоконагруженной системе грешен.

Sheridan
13.06.2017
19:15:12
@Sheridan_ru у тебя пока мышление еще масштабами "10 серверов и 0 бюджета"
Это параллельно тому что я написал сейчас тут..

Страница 179 из 681