@metrics_ru

Страница 35 из 681
ptchol
22.09.2016
12:46:08
странно при любой проблеме, пытаться решить ее написанием кода )

Dmitry
22.09.2016
12:46:31
ну вообще то не при любой, а при конкретно твоей

ты же не осилил поменять сигнал - а это и есть способ номер один

собственно единственно правильный способ

Google
ptchol
22.09.2016
12:47:15
эээ

окай гай

Kirill
22.09.2016
12:50:14
у нас всегда было retention.hostname.subsystem.counter и я ни разу не жалел о такой схеме
а как бы ты с такой системой назвал метрику, в которой лежит, например, время копирования файла?

Dmitry
22.09.2016
12:50:51
one_min.superhost.subsystem_that_copies_a_file.time м?)

или copy_time

Kirill
22.09.2016
12:51:18
хм)

Vladimir
22.09.2016
17:30:54
#naming как вы метрики именуете? нагуглил кучу советов вроде hostname.app.subsystem.noun.past_verbтипа s1.huifikator.webserver.words.huified, но это всё про каунтеры, а как называть gauges и timers?
У нас первым идет кластер (условно по глобальному назначению - например load balancers, nginx, sys, db, ...) Потом в зависимости от кластера уже, часто сервис.датацентр.метрика

Maxim
23.09.2016
17:20:16
коллеги

смарите чо

sum(100.0 - (sum by (host)(cpu_usage_idle{host=~"$host.*"}))/(count by (host)(cpu_usage_idle{host=~"$host.*"})))

есть прометей, телеграф и графана

вот эта шняга выше - это перцентаж занятости процессора

на одном хосте

Google
Maxim
23.09.2016
17:21:30
а как посчитать для всей выборки разом?

чтобы в singlestat запихать

ptchol
23.09.2016
20:19:10
На тему тестирования SHDD под метриками.

картинка после замены какая то такая.

у меня непонимание кол-во операций уменьшилось, значит поидее время отклика стало выше. Но почему такая фигня с очередью, и взвешенным временем ? ну и соотвественно от обратного, если saturation примерно такой же, а в очереди меньше операций, суммарно взвешенное время (очередь+использование) ниже, почему кол-во операций меньше а не больше ?

ptchol
23.09.2016
22:13:39
хм.

и вот хрен проверишь теперь.

Vladimir
23.09.2016
22:13:49
Увы, ответа не знаю, но 512б -> 4кб сектор у диска может объяснить такое

ptchol
23.09.2016
22:13:49
хотя.

я могу сказать разницу. до было ext4 новый xfs но размер чанка рейда одинаковый

Vladimir
23.09.2016
22:20:42
Xfs точно менее надежен и более быстр, если брать умолчантя

ptchol
23.09.2016
22:20:55
да брось

быстрее на мелких объектах

Vladimir
23.09.2016
22:21:35
Я к тому что кэширование промежуточного агрессивнее ценой того что при ресете больше проблем будет

ptchol
23.09.2016
22:25:49
там докатывается

там конденсаторик на slc

Vladimir
23.09.2016
22:32:20
Это то что в кэше диска

А то что в раме то ой

ptchol
23.09.2016
22:36:00
эт да

Google
Vladimir
23.09.2016
22:45:43
Почему?
Ну оно примерно такие же гарантии дает как ext4 + nobarrier + data=writeback

Vladimir
23.09.2016
22:47:48
Про барьеры откуда инфо?
Ниоткуда, я не знаю достоверно, просто по поведению при отключении питания кажется так

Roman
23.09.2016
22:49:12
я могу сказать разницу. до было ext4 новый xfs но размер чанка рейда одинаковый
xfs активно сортирует io, потому при прочих равных меньше гоняет головки по диску.

Ниоткуда, я не знаю достоверно, просто по поведению при отключении питания кажется так
Поведению какого года на каком ядре? Я спрашиваю, потому что в 3.2 поменяли механизм журналирования.

Roman
23.09.2016
22:52:33
Сейчас гарантии такие же как у ext4 без data=journal.

Vladimir
23.09.2016
22:54:45
Ну хорошо тогда.

Roman
23.09.2016
22:56:22
Вообще, глядя на число фиксов для ext4 как-то даже страшно использовать ее

Алексей
24.09.2016
10:16:19
чем снимал метрики ?

ptchol
24.09.2016
11:02:19
Maxim
24.09.2016
11:12:46
а телеграф никто не юзает?

Алексей
24.09.2016
11:12:56
я юзаю

Maxim
24.09.2016
11:12:58
о

скажи, у него net_bytes_sent и net_bytes_recv в каких единицах вообще?

Алексей
24.09.2016
11:14:07
в байтах

у тя в прометеусе тоже небъется rate ?

Google
Maxim
24.09.2016
11:14:28
выгребаю графаной из прометея вот так: sum by(host, interface) (irate(net_bytes_recv{host=~"$host.*", interface=~"eth.*"}[5m]))

и получаю цифру ровно в 10 раз ниже заббикса

Алексей
24.09.2016
11:15:05
Максим, мы с тобой 2 недели назад дебажили ровно эту же проблему.

только у меня

при чем у меня _все_ каунтеры так.

ровно в 10 раз меньше.

Maxim
24.09.2016
11:15:58
тлен какой-то...

Dmitry
24.09.2016
11:16:09
байты с битами не попутали?

Maxim
24.09.2016
11:16:18
нене, это каунтер

Алексей
24.09.2016
11:16:23
при том у меня телеграф отдает в инфлюкс и в прометеуй

прометей рисует в 10 раз меньше

Maxim
24.09.2016
11:16:37
а инфлюкс типа верно?

Алексей
24.09.2016
11:16:41
да :(

Maxim
24.09.2016
11:16:48
однако...

блин, причем с node_exporter'ом все было ок

ну цифры сходились

Алексей
24.09.2016
11:17:30
не факт....

у меня такое же повдеение на node_exporter

я для этого спецом водрузил его на ноутбук

Maxim
24.09.2016
11:17:56
кстати, а diskio_read_bytes / diskio_write_bytes снимаешь?

Google
Алексей
24.09.2016
11:18:19
да

Maxim
24.09.2016
11:18:31
тут у меня вообще запредельная картинка

https://dl.dropboxusercontent.com/s/d7m8pdusca9sjut/Grafana_-_Host_Stats_2016-09-24_14-18-47.png?dl=0

все "пики" ровненько по 179.0 mbps

Алексей
24.09.2016
11:19:48
а скинь формулу

я у ся проверю

Maxim
24.09.2016
11:20:06
irate(diskio_read_bytes{host=~"$host.*"}[5m])

Алексей
24.09.2016
11:21:55
ыы

Maxim
24.09.2016
11:22:38
бггг

причем такое чувство, что мы какие-то жалкие неудачники

всмысле - только мы с тобой

вот например дашборд: https://grafana.net/dashboards/371

в нем есть нетворк

https://grafana.net/api/dashboards/371/images/287/image

качаем, смотрим

"targets": [ { "expr": "irate(node_network_receive_bytes{alias=\"$instance\", device!=\"lo\"}[5m])", "intervalFactor": 1, "legendFormat": "Inbound: {{ device }}", "refId": "A", "step": 120 }, { "expr": "irate(node_network_transmit_bytes{alias=\"$instance\", device!=\"lo\"}[5m])", "intervalFactor": 1, "legendFormat": "Outbound: {{ device }}", "refId": "B", "step": 120 }

ну и ищем десять различий

судя по node_network_transmit_bytes - это node_exporter

Страница 35 из 681