@metrics_ru

Страница 6 из 681
Dmitry
23.08.2016
10:32:28
сами по себе carbon и whisper терпимы. но это ...

вот это? долбитесь в шары или что? :)

оставим пока за скобками, что не у всех бояр валит 1.5М в минуту :))))

Paul
23.08.2016
10:34:07
сами по себе carbon и whisper терпимы. но это ...
терпимы - значит "можно пользоваться". Но whisper-ом можно пользоваться только в качестве демо. 5-6 хостов в мониторинге уложат его нафиг

Google
Vladimir
23.08.2016
10:34:41
то есть - кривое говно на, внимание, джанге
Есть carbonapi на го, есть graphite-api на фласке

Dmitry
23.08.2016
10:34:54
Есть carbonapi на го, есть graphite-api на фласке
то есть фразы ниже ты не прочел, ок

Vladimir
23.08.2016
10:35:48
то есть фразы ниже ты не прочел, ок
Да, не прочел. Увидел уже потом что ты упомянул графит-апи

терпимы - значит "можно пользоваться". Но whisper-ом можно пользоваться только в качестве демо. 5-6 хостов в мониторинге уложат его нафиг
У нас на виспер прилетает без учета репликации 2 млн уникальных точек В СЕКУНДУ. И примерно 20к метрики в секунду читается. Полет нормальный

Правда от ванильного стека остался только html+js от графит-веба и carbon-cache на сторадже

Phil
23.08.2016
10:46:24
Короче. Чисятков крыжик показывал, после которого виспер уделывает даже инфлюкс

Vladimir
23.08.2016
10:46:58
Короче. Чисятков крыжик показывал, после которого виспер уделывает даже инфлюкс
Он и так уделывает инфлюкс ) ну или уделывал верчи. С 0.7 по 0.13

Но нужно тюнить

Paul
23.08.2016
11:03:13
ничоси :) где собирается 2M точек в секунду?
мне больше интересно - как? Какое железо, какая СХД?

Kirill
23.08.2016
11:19:39
и на настроил один параметр
что за параметр надо настроить в ванильном графайт-стеке, чтобы винты не насиловать?

Алексей
23.08.2016
11:20:09
блин я не помню. спросите @demeliorator

Google
Kirill
23.08.2016
11:25:38
carbon.conf.example:MAX_UPDATES_PER_SECOND = 500 carbon.conf.example:MAX_DATAPOINTS_PER_MESSAGE = 500

да, первый похож) спс

И еще можно на файловой системе барьеры повырубать и все вот это вот

Vladimir
23.08.2016
11:51:52
мне больше интересно - как? Какое железо, какая СХД?
железо - блейды 2xE5-2620v3, 128GB Ram, 2x1.6TB SAS/SATA SSD в Raid0 (SAS - Toshiba, SATA - Intel S3510 если я не ошибаюсь). Таких боксиков порядка 50 + 4x дублирование для отказоустойчивости (2х в рамках ДЦ и столько же во второй ДЦ)

Vladimir
23.08.2016
11:55:06
то есть RAID0 SSD? мда
ну да, а что?

то есть RAID0 SSD? мда
из интересной статистики, на этот объем данных сумарно (с учетом репликаций) выходит где-то 3 млн IOPS на запись

собственно поэтому не какое-то СХД

и там порядка 130ТБ метрик сумарно хранится.

то есть RAID0 SSD? мда
есть товарищи, которые гоняют виспер на netapp'ах на обычных дисках по FC

у нхи тоже вполне работает, не на таких объемах правда

Paul
23.08.2016
11:59:20
ну да, а что?
просто вы заливаете пожар керосином. С такими СХД быстро будет работать все. А если сделать ramdrive - то, может быть даже и быстрее. Помнится, Чистяков рассказывал про mail.ru, у которых был RAID0 из 16, если память не изменяет, SSD

Vladimir
23.08.2016
12:00:15
на raid1 все таке пашет

тем более эти sata/sas диски не такие чтоб прям быстрые

Vladimir
23.08.2016
12:01:11
у нас и сата и сас есть

смотря какое железо

Google
Vladimir
23.08.2016
12:01:30
там несколько разных вендоров железа и несколько поколений серверов в перемешку

где-то стоит сас, потому что так его продали

где-то стоит сата потому что у этого вендора проблемы с сас дисками

еще раз - скорость дисков в нашем случаи не проблема, был бы один диск или рейд1 - было бы все также.

рейд0 там потому что raid0 vs jbod не дает никакой разницы в пользу jbod'а.

проблемы у нас в том, что из-за кастомного стэка мы не используем кэш carbon-cache'а и поэтому данные доступны только после записи

т.е. задержка в пару минут есть

и менеджить сотни бэкэндов виспера уже сложновато становится, из-за кастомности стэка не подходят стаднартные утилиты (или подходят, но очень ограниченно)

и то что в виспере точки занимают по 12 байт тоже не очень конечно

ptchol
23.08.2016
20:36:17
А кто с графаной живет ?

Vladimir
23.08.2016
20:36:30
Все или почти все

lastsky
23.08.2016
20:36:37
вот именно ) лучше спрашивай )

ptchol
23.08.2016
20:36:53
Володь ну тыж не подсказал)) хоть и живешь)

Такая ситуация. есть метрика типа host.$host.systemd_stats.users.$user.cpuacct.usage она делится на другую метрику. типа кол-во ядер там.

вопрос, как постекать эти метрики корректно, а не чтобы среднее получалось

дело в том что если сделать мулььтиселект для метрик, то мы получаем что суммируются все метрики, и делятся на общую сумму ядер и получаем среднее как бы по кластеру

а нада считать по каждой ноде,и складывать

Алексей
23.08.2016
20:41:54
а при чем тут графана то :)

графит чистоый воды

Vladimir
23.08.2016
20:42:04
А если сверху groupByNode?

Google
Алексей
23.08.2016
20:42:16
вот вот тут к сторадже за группировкой надо

Vladimir
23.08.2016
20:42:36
Хотя конечно сложно. Проще сразу нормированными слать

ptchol
23.08.2016
20:45:46
а при чем тут графана то :)
всмысле причем ? я хочу выбрать 5 нод и 5 пользователей и посмотреть сколько они cpu сожрали и чтобы график был постекан по нодам.

Vladimir
23.08.2016
20:47:42
я вообще не уверен что в графане такое выйдет

с графитным апи

ptchol
23.08.2016
20:48:06
а теги как работают ?

не помогут ?

Алексей
23.08.2016
20:48:13
в инфлюксе group так можно

Vladimir
23.08.2016
20:48:36
такое можно много где, но в графите кажется апи слишком топорный для этого

помогу ттолько если ты одновременно user + host буцдешь выбирать

или я опять тебя не понимаю )

ptchol
23.08.2016
20:50:01
так я вместе выбираю, какая разница то ?

Vladimir
23.08.2016
20:50:19
у тебя какая задача?

есть host1, host2 и user1, user2

сколько и каких метрик ты хочешь получить?

(не в графитной формулировке, а в математической)

ptchol
23.08.2016
20:52:09
я хочу получить занятость cpu этими пользователями на этих нодах

Vladimir
23.08.2016
20:52:19
на каждой?

ptchol
23.08.2016
20:52:29
на каждой и суммировать

Vladimir
23.08.2016
20:53:27
а чем это отличается от прост овыборки по метрике?

Google
Vladimir
23.08.2016
20:54:16
тем что у тебя cpuacct надо делить на количество ядер на host'е?

ptchol
23.08.2016
20:54:41
да

Vladimir
23.08.2016
20:56:00
и твоя проблема в том чтоб получить количество ядер?

ptchol
23.08.2016
20:56:26
нет.

Vladimir
23.08.2016
20:56:30
а в чем?

ptchol
23.08.2016
20:56:50
проблема в том что он в первой метрики из за того чтобы glob $host вытаскивает все значения

Vladimir
23.08.2016
20:57:05
так, а тебе нужны какие?

ptchol
23.08.2016
20:57:18
а потом divide series на все glob $host cpu count

в результате мы получением %загруженности каждой ноды от общего размера кластера, где полная суммар всех cputime/cpucount это 100%

*получаем

понимаешь ?

Vladimir
23.08.2016
20:59:25
у тебя проблема в том что cpucount сумируется весь?

на все ноды

ptchol
23.08.2016
20:59:38
даааа !

Vladimir
23.08.2016
21:00:06
в последнем случаи тебе поможет groupByNode(query, 1, 'sumSeries') кажется

оно сделает у тебя count($host) метрик per host

но я не помню нужно ли править divideSeries чтобы там было метрика к метрике или оно и так работает

ptchol
23.08.2016
21:03:00
gateway timeout ))

ща )

а груп нужно сделать до дивайда да ?

Страница 6 из 681