
Dmitry
23.08.2016
10:32:28
сами по себе carbon и whisper терпимы. но это ...
вот это? долбитесь в шары или что? :)
оставим пока за скобками, что не у всех бояр валит 1.5М в минуту :))))

Paul
23.08.2016
10:34:07

Google

Vladimir
23.08.2016
10:34:41

Dmitry
23.08.2016
10:34:54

Vladimir
23.08.2016
10:35:48
Правда от ванильного стека остался только html+js от графит-веба и carbon-cache на сторадже

Phil
23.08.2016
10:46:24
Короче. Чисятков крыжик показывал, после которого виспер уделывает даже инфлюкс

Vladimir
23.08.2016
10:46:58
Но нужно тюнить

lastsky
23.08.2016
10:52:58

Paul
23.08.2016
11:03:13

Kirill
23.08.2016
11:19:39

Алексей
23.08.2016
11:20:09
блин я не помню. спросите @demeliorator

Google

Phil
23.08.2016
11:22:44

Kirill
23.08.2016
11:25:38
carbon.conf.example:MAX_UPDATES_PER_SECOND = 500
carbon.conf.example:MAX_DATAPOINTS_PER_MESSAGE = 500
да, первый похож) спс
И еще можно на файловой системе барьеры повырубать и все вот это вот

Vladimir
23.08.2016
11:51:52
мне больше интересно - как? Какое железо, какая СХД?
железо - блейды 2xE5-2620v3, 128GB Ram, 2x1.6TB SAS/SATA SSD в Raid0 (SAS - Toshiba, SATA - Intel S3510 если я не ошибаюсь). Таких боксиков порядка 50 + 4x дублирование для отказоустойчивости (2х в рамках ДЦ и столько же во второй ДЦ)

Paul
23.08.2016
11:54:42

Vladimir
23.08.2016
11:55:06
то есть RAID0 SSD? мда
из интересной статистики, на этот объем данных сумарно (с учетом репликаций) выходит где-то 3 млн IOPS на запись
собственно поэтому не какое-то СХД
и там порядка 130ТБ метрик сумарно хранится.
у нхи тоже вполне работает, не на таких объемах правда

Paul
23.08.2016
11:59:20
ну да, а что?
просто вы заливаете пожар керосином. С такими СХД быстро будет работать все. А если сделать ramdrive - то, может быть даже и быстрее. Помнится, Чистяков рассказывал про mail.ru, у которых был RAID0 из 16, если память не изменяет, SSD

Vladimir
23.08.2016
12:00:15
на raid1 все таке пашет
тем более эти sata/sas диски не такие чтоб прям быстрые

Paul
23.08.2016
12:01:06

Vladimir
23.08.2016
12:01:11
у нас и сата и сас есть
смотря какое железо

Google

Vladimir
23.08.2016
12:01:30
там несколько разных вендоров железа и несколько поколений серверов в перемешку
где-то стоит сас, потому что так его продали
где-то стоит сата потому что у этого вендора проблемы с сас дисками
еще раз - скорость дисков в нашем случаи не проблема, был бы один диск или рейд1 - было бы все также.
рейд0 там потому что raid0 vs jbod не дает никакой разницы в пользу jbod'а.
проблемы у нас в том, что из-за кастомного стэка мы не используем кэш carbon-cache'а и поэтому данные доступны только после записи
т.е. задержка в пару минут есть
и менеджить сотни бэкэндов виспера уже сложновато становится, из-за кастомности стэка не подходят стаднартные утилиты (или подходят, но очень ограниченно)
и то что в виспере точки занимают по 12 байт тоже не очень конечно

ptchol
23.08.2016
20:36:17
А кто с графаной живет ?

Vladimir
23.08.2016
20:36:30
Все или почти все

lastsky
23.08.2016
20:36:37
вот именно ) лучше спрашивай )

ptchol
23.08.2016
20:36:53
Володь ну тыж не подсказал)) хоть и живешь)
Такая ситуация.
есть метрика типа
host.$host.systemd_stats.users.$user.cpuacct.usage
она делится на другую метрику. типа кол-во ядер там.
вопрос, как постекать эти метрики корректно, а не чтобы среднее получалось
дело в том что если сделать мулььтиселект для метрик, то мы получаем что суммируются все метрики, и делятся на общую сумму ядер и получаем среднее как бы по кластеру
а нада считать по каждой ноде,и складывать

Алексей
23.08.2016
20:41:54
а при чем тут графана то :)
графит чистоый воды

Vladimir
23.08.2016
20:42:04
А если сверху groupByNode?

Google

Алексей
23.08.2016
20:42:16
вот вот тут к сторадже за группировкой надо

Vladimir
23.08.2016
20:42:36
Хотя конечно сложно. Проще сразу нормированными слать

ptchol
23.08.2016
20:45:46
а при чем тут графана то :)
всмысле причем ? я хочу выбрать 5 нод и 5 пользователей и посмотреть сколько они cpu сожрали и чтобы график был постекан по нодам.

Vladimir
23.08.2016
20:47:42
я вообще не уверен что в графане такое выйдет
с графитным апи

ptchol
23.08.2016
20:48:06
а теги как работают ?
не помогут ?

Алексей
23.08.2016
20:48:13
в инфлюксе group так можно

Vladimir
23.08.2016
20:48:36
такое можно много где, но в графите кажется апи слишком топорный для этого
помогу ттолько если ты одновременно user + host буцдешь выбирать
или я опять тебя не понимаю )

ptchol
23.08.2016
20:50:01
так я вместе выбираю, какая разница то ?

Vladimir
23.08.2016
20:50:19
у тебя какая задача?
есть host1, host2 и user1, user2
сколько и каких метрик ты хочешь получить?
(не в графитной формулировке, а в математической)

ptchol
23.08.2016
20:52:09
я хочу получить занятость cpu этими пользователями на этих нодах

Vladimir
23.08.2016
20:52:19
на каждой?

ptchol
23.08.2016
20:52:29
на каждой и суммировать

Vladimir
23.08.2016
20:53:27
а чем это отличается от прост овыборки по метрике?

Google

Vladimir
23.08.2016
20:54:16
тем что у тебя cpuacct надо делить на количество ядер на host'е?

ptchol
23.08.2016
20:54:41
да

Vladimir
23.08.2016
20:56:00
и твоя проблема в том чтоб получить количество ядер?

ptchol
23.08.2016
20:56:26
нет.

Vladimir
23.08.2016
20:56:30
а в чем?

ptchol
23.08.2016
20:56:50
проблема в том что он в первой метрики из за того чтобы glob $host вытаскивает все значения

Vladimir
23.08.2016
20:57:05
так, а тебе нужны какие?

ptchol
23.08.2016
20:57:18
а потом divide series на все glob $host cpu count
в результате мы получением %загруженности каждой ноды от общего размера кластера, где полная суммар всех cputime/cpucount это 100%
*получаем
понимаешь ?

Vladimir
23.08.2016
20:59:25
у тебя проблема в том что cpucount сумируется весь?
на все ноды

ptchol
23.08.2016
20:59:38
даааа !

Vladimir
23.08.2016
21:00:06
в последнем случаи тебе поможет groupByNode(query, 1, 'sumSeries') кажется
оно сделает у тебя count($host) метрик per host
но я не помню нужно ли править divideSeries чтобы там было метрика к метрике или оно и так работает

ptchol
23.08.2016
21:03:00
gateway timeout ))
ща )
а груп нужно сделать до дивайда да ?