@metrics_ru

« Назад

Страница 35 из 681

Далее »

ptchol

22.09.2016
12:46:08

странно при любой проблеме, пытаться решить ее написанием кода )

Dmitry

22.09.2016
12:46:31

ну вообще то не при любой, а при конкретно твоей

ты же не осилил поменять сигнал - а это и есть способ номер один

собственно единственно правильный способ

Google

ptchol

22.09.2016
12:47:15

эээ

окай гай

Kirill

22.09.2016
12:50:14

у нас всегда было retention.hostname.subsystem.counter и я ни разу не жалел о такой схеме

а как бы ты с такой системой назвал метрику, в которой лежит, например, время копирования файла?

Dmitry

22.09.2016
12:50:51

one_min.superhost.subsystem_that_copies_a_file.time м?)

или copy_time

Kirill

22.09.2016
12:51:18

хм)

Vladimir

22.09.2016
17:30:54

#naming как вы метрики именуете? нагуглил кучу советов вроде hostname.app.subsystem.noun.past_verbтипа s1.huifikator.webserver.words.huified, но это всё про каунтеры, а как называть gauges и timers?

У нас первым идет кластер (условно по глобальному назначению - например load balancers, nginx, sys, db, ...) Потом в зависимости от кластера уже, часто сервис.датацентр.метрика

Maxim

23.09.2016
17:20:16

коллеги

смарите чо

sum(100.0 - (sum by (host)(cpu_usage_idle{host=~"$host.*"}))/(count by (host)(cpu_usage_idle{host=~"$host.*"})))

есть прометей, телеграф и графана

вот эта шняга выше - это перцентаж занятости процессора

на одном хосте

Google

Maxim

23.09.2016
17:21:30

а как посчитать для всей выборки разом?

чтобы в singlestat запихать

ptchol

23.09.2016
20:19:10

На тему тестирования SHDD под метриками.

картинка после замены какая то такая.

у меня непонимание кол-во операций уменьшилось, значит поидее время отклика стало выше. Но почему такая фигня с очередью, и взвешенным временем ? ну и соотвественно от обратного, если saturation примерно такой же, а в очереди меньше операций, суммарно взвешенное время (очередь+использование) ниже, почему кол-во операций меньше а не больше ?

Vladimir

23.09.2016
22:13:00

у меня непонимание кол-во операций уменьшилось, значит поидее время отклика стало выше. Но почему такая фигня с очередью, и взвешенным временем ? ну и соотвественно от обратного, если saturation примерно такой же, а в очереди меньше операций, суммарно взвешенное время (очередь+использование) ниже, почему кол-во операций меньше а не больше ?

Пальцем в небо - возможно количество операций уменьшилось потому что размер сектора поменялся и ос оптимизирует мелкие записи.

ptchol

23.09.2016
22:13:39

хм.

и вот хрен проверишь теперь.

Vladimir

23.09.2016
22:13:49

Увы, ответа не знаю, но 512б -> 4кб сектор у диска может объяснить такое

ptchol

23.09.2016
22:13:49

хотя.

я могу сказать разницу. до было ext4 новый xfs но размер чанка рейда одинаковый

Vladimir

23.09.2016
22:20:42

Xfs точно менее надежен и более быстр, если брать умолчантя

ptchol

23.09.2016
22:20:55

да брось

быстрее на мелких объектах

Vladimir

23.09.2016
22:21:35

Я к тому что кэширование промежуточного агрессивнее ценой того что при ресете больше проблем будет

ptchol

23.09.2016
22:25:49

там докатывается

там конденсаторик на slc

Vladimir

23.09.2016
22:32:20

Это то что в кэше диска

А то что в раме то ой

ptchol

23.09.2016
22:36:00

эт да

Google

Roman

23.09.2016
22:43:59

Xfs точно менее надежен и более быстр, если брать умолчантя

Почему?

Vladimir

23.09.2016
22:45:43

Почему?

Ну оно примерно такие же гарантии дает как ext4 + nobarrier + data=writeback

Roman

23.09.2016
22:46:50

Ну оно примерно такие же гарантии дает как ext4 + nobarrier + data=writeback

Про барьеры откуда инфо?

Vladimir

23.09.2016
22:47:48

Про барьеры откуда инфо?

Ниоткуда, я не знаю достоверно, просто по поведению при отключении питания кажется так

Roman

23.09.2016
22:49:12

я могу сказать разницу. до было ext4 новый xfs но размер чанка рейда одинаковый

xfs активно сортирует io, потому при прочих равных меньше гоняет головки по диску.

Ниоткуда, я не знаю достоверно, просто по поведению при отключении питания кажется так

Поведению какого года на каком ядре? Я спрашиваю, потому что в 3.2 поменяли механизм журналирования.

Vladimir

23.09.2016
22:51:23

Поведению какого года на каком ядре? Я спрашиваю, потому что в 3.2 поменяли механизм журналирования.

Что то из диапазонов 2.6.32-2.6.38 помню хорошо

Roman

23.09.2016
22:52:33

Что то из диапазонов 2.6.32-2.6.38 помню хорошо

Это старая версия xfs.

Сейчас гарантии такие же как у ext4 без data=journal.

Vladimir

23.09.2016
22:54:45

Ну хорошо тогда.

Roman

23.09.2016
22:56:22

Вообще, глядя на число фиксов для ext4 как-то даже страшно использовать ее

Dmitry

24.09.2016
05:17:47

Вообще, глядя на число фиксов для ext4 как-то даже страшно использовать ее

Как раз таки нет

Алексей

24.09.2016
10:16:19

чем снимал метрики ?

ptchol

24.09.2016
11:02:19

чем снимал метрики ?

коллектд.

Maxim

24.09.2016
11:12:46

а телеграф никто не юзает?

Алексей

24.09.2016
11:12:56

я юзаю

Maxim

24.09.2016
11:12:58

о

скажи, у него net_bytes_sent и net_bytes_recv в каких единицах вообще?

Алексей

24.09.2016
11:14:07

в байтах

у тя в прометеусе тоже небъется rate ?

Google

Maxim

24.09.2016
11:14:28

выгребаю графаной из прометея вот так: sum by(host, interface) (irate(net_bytes_recv{host=~"$host.*", interface=~"eth.*"}[5m]))

и получаю цифру ровно в 10 раз ниже заббикса

Алексей

24.09.2016
11:15:05

Максим, мы с тобой 2 недели назад дебажили ровно эту же проблему.

только у меня

при чем у меня _все_ каунтеры так.

ровно в 10 раз меньше.

Maxim

24.09.2016
11:15:58

тлен какой-то...

Admin

ERROR: S client not available

Dmitry

24.09.2016
11:16:09

байты с битами не попутали?

Maxim

24.09.2016
11:16:18

нене, это каунтер

Алексей

24.09.2016
11:16:23

при том у меня телеграф отдает в инфлюкс и в прометеуй

прометей рисует в 10 раз меньше

Maxim

24.09.2016
11:16:37

а инфлюкс типа верно?

Алексей

24.09.2016
11:16:41

да :(

Maxim

24.09.2016
11:16:48

однако...

блин, причем с node_exporter'ом все было ок

ну цифры сходились

Алексей

24.09.2016
11:17:30

не факт....

у меня такое же повдеение на node_exporter

я для этого спецом водрузил его на ноутбук

Google

Maxim

24.09.2016
11:17:56

кстати, а diskio_read_bytes / diskio_write_bytes снимаешь?

Алексей

24.09.2016
11:18:19

да

Maxim

24.09.2016
11:18:31

тут у меня вообще запредельная картинка

https://dl.dropboxusercontent.com/s/d7m8pdusca9sjut/Grafana_-_Host_Stats_2016-09-24_14-18-47.png?dl=0

все "пики" ровненько по 179.0 mbps

Алексей

24.09.2016
11:19:48

а скинь формулу

я у ся проверю

Maxim

24.09.2016
11:20:06

irate(diskio_read_bytes{host=~"$host.*"}[5m])

Алексей

24.09.2016
11:21:55

ыы

Maxim

24.09.2016
11:22:38

бггг

причем такое чувство, что мы какие-то жалкие неудачники

всмысле - только мы с тобой

вот например дашборд: https://grafana.net/dashboards/371

в нем есть нетворк

https://grafana.net/api/dashboards/371/images/287/image

качаем, смотрим

"targets": [ { "expr": "irate(node_network_receive_bytes{alias=\"$instance\", device!=\"lo\"}[5m])", "intervalFactor": 1, "legendFormat": "Inbound: {{ device }}", "refId": "A", "step": 120 }, { "expr": "irate(node_network_transmit_bytes{alias=\"$instance\", device!=\"lo\"}[5m])", "intervalFactor": 1, "legendFormat": "Outbound: {{ device }}", "refId": "B", "step": 120 }

ну и ищем десять различий

судя по node_network_transmit_bytes - это node_exporter

« Назад

Страница 35 из 681

Далее »

Открыть в Telegram