@metrics_ru

« Назад

Страница 6 из 681

Далее »

Dmitry

23.08.2016
10:32:28

сами по себе carbon и whisper терпимы. но это ...

вот это? долбитесь в шары или что? :)

оставим пока за скобками, что не у всех бояр валит 1.5М в минуту :))))

Paul

23.08.2016
10:34:07

сами по себе carbon и whisper терпимы. но это ...

терпимы - значит "можно пользоваться". Но whisper-ом можно пользоваться только в качестве демо. 5-6 хостов в мониторинге уложат его нафиг

Google

Vladimir

23.08.2016
10:34:41

то есть - кривое говно на, внимание, джанге

Есть carbonapi на го, есть graphite-api на фласке

Dmitry

23.08.2016
10:34:54

Есть carbonapi на го, есть graphite-api на фласке

то есть фразы ниже ты не прочел, ок

Vladimir

23.08.2016
10:35:48

то есть фразы ниже ты не прочел, ок

Да, не прочел. Увидел уже потом что ты упомянул графит-апи

терпимы - значит "можно пользоваться". Но whisper-ом можно пользоваться только в качестве демо. 5-6 хостов в мониторинге уложат его нафиг

Или его нужно уметь готовить

терпимы - значит "можно пользоваться". Но whisper-ом можно пользоваться только в качестве демо. 5-6 хостов в мониторинге уложат его нафиг

У нас на виспер прилетает без учета репликации 2 млн уникальных точек В СЕКУНДУ. И примерно 20к метрики в секунду читается. Полет нормальный

Правда от ванильного стека остался только html+js от графит-веба и carbon-cache на сторадже

Phil

23.08.2016
10:46:24

Короче. Чисятков крыжик показывал, после которого виспер уделывает даже инфлюкс

Vladimir

23.08.2016
10:46:58

Короче. Чисятков крыжик показывал, после которого виспер уделывает даже инфлюкс

Он и так уделывает инфлюкс ) ну или уделывал верчи. С 0.7 по 0.13

Но нужно тюнить

lastsky

23.08.2016
10:52:58

У нас на виспер прилетает без учета репликации 2 млн уникальных точек В СЕКУНДУ. И примерно 20к метрики в секунду читается. Полет нормальный

ничоси :) где собирается 2M точек в секунду?

Paul

23.08.2016
11:03:13

ничоси :) где собирается 2M точек в секунду?

мне больше интересно - как? Какое железо, какая СХД?

Kirill

23.08.2016
11:19:39

и на настроил один параметр

что за параметр надо настроить в ванильном графайт-стеке, чтобы винты не насиловать?

Алексей

23.08.2016
11:20:09

блин я не помню. спросите @demeliorator

Google

Phil

23.08.2016
11:22:44

что за параметр надо настроить в ванильном графайт-стеке, чтобы винты не насиловать?

grep цифра 500

Kirill

23.08.2016
11:25:38

carbon.conf.example:MAX_UPDATES_PER_SECOND = 500 carbon.conf.example:MAX_DATAPOINTS_PER_MESSAGE = 500

да, первый похож) спс

И еще можно на файловой системе барьеры повырубать и все вот это вот

Vladimir

23.08.2016
11:51:52

ничоси :) где собирается 2M точек в секунду?

booking.com :)

мне больше интересно - как? Какое железо, какая СХД?

железо - блейды 2xE5-2620v3, 128GB Ram, 2x1.6TB SAS/SATA SSD в Raid0 (SAS - Toshiba, SATA - Intel S3510 если я не ошибаюсь). Таких боксиков порядка 50 + 4x дублирование для отказоустойчивости (2х в рамках ДЦ и столько же во второй ДЦ)

Paul

23.08.2016
11:54:42

железо - блейды 2xE5-2620v3, 128GB Ram, 2x1.6TB SAS/SATA SSD в Raid0 (SAS - Toshiba, SATA - Intel S3510 если я не ошибаюсь). Таких боксиков порядка 50 + 4x дублирование для отказоустойчивости (2х в рамках ДЦ и столько же во второй ДЦ)

то есть RAID0 SSD? мда

Vladimir

23.08.2016
11:55:06

то есть RAID0 SSD? мда

ну да, а что?

то есть RAID0 SSD? мда

из интересной статистики, на этот объем данных сумарно (с учетом репликаций) выходит где-то 3 млн IOPS на запись

собственно поэтому не какое-то СХД

и там порядка 130ТБ метрик сумарно хранится.

то есть RAID0 SSD? мда

есть товарищи, которые гоняют виспер на netapp'ах на обычных дисках по FC

у нхи тоже вполне работает, не на таких объемах правда

Paul

23.08.2016
11:59:20

ну да, а что?

просто вы заливаете пожар керосином. С такими СХД быстро будет работать все. А если сделать ramdrive - то, может быть даже и быстрее. Помнится, Чистяков рассказывал про mail.ru, у которых был RAID0 из 16, если память не изменяет, SSD

Vladimir

23.08.2016
12:00:15

просто вы заливаете пожар керосином. С такими СХД быстро будет работать все. А если сделать ramdrive - то, может быть даже и быстрее. Помнится, Чистяков рассказывал про mail.ru, у которых был RAID0 из 16, если память не изменяет, SSD

у нас скорость дисков не проблема. Там рейд0 из двух дисков просто потому что нет преимуществ перед jbod'ом, а ставить 2x железа ради raid1 глупо

на raid1 все таке пашет

тем более эти sata/sas диски не такие чтоб прям быстрые

Paul

23.08.2016
12:01:06

тем более эти sata/sas диски не такие чтоб прям быстрые

так SATA, SAS или SSD?

Vladimir

23.08.2016
12:01:11

у нас и сата и сас есть

смотря какое железо

Google

Vladimir

23.08.2016
12:01:30

там несколько разных вендоров железа и несколько поколений серверов в перемешку

где-то стоит сас, потому что так его продали

где-то стоит сата потому что у этого вендора проблемы с сас дисками

еще раз - скорость дисков в нашем случаи не проблема, был бы один диск или рейд1 - было бы все также.

рейд0 там потому что raid0 vs jbod не дает никакой разницы в пользу jbod'а.

проблемы у нас в том, что из-за кастомного стэка мы не используем кэш carbon-cache'а и поэтому данные доступны только после записи

т.е. задержка в пару минут есть

и менеджить сотни бэкэндов виспера уже сложновато становится, из-за кастомности стэка не подходят стаднартные утилиты (или подходят, но очень ограниченно)

и то что в виспере точки занимают по 12 байт тоже не очень конечно

ptchol

23.08.2016
20:36:17

А кто с графаной живет ?

Vladimir

23.08.2016
20:36:30

Все или почти все

lastsky

23.08.2016
20:36:37

вот именно ) лучше спрашивай )

ptchol

23.08.2016
20:36:53

Володь ну тыж не подсказал)) хоть и живешь)

Такая ситуация. есть метрика типа host.$host.systemd_stats.users.$user.cpuacct.usage она делится на другую метрику. типа кол-во ядер там.

вопрос, как постекать эти метрики корректно, а не чтобы среднее получалось

дело в том что если сделать мулььтиселект для метрик, то мы получаем что суммируются все метрики, и делятся на общую сумму ядер и получаем среднее как бы по кластеру

а нада считать по каждой ноде,и складывать

Алексей

23.08.2016
20:41:54

а при чем тут графана то :)

графит чистоый воды

Vladimir

23.08.2016
20:42:04

А если сверху groupByNode?

Google

Алексей

23.08.2016
20:42:16

вот вот тут к сторадже за группировкой надо

Vladimir

23.08.2016
20:42:36

Хотя конечно сложно. Проще сразу нормированными слать

ptchol

23.08.2016
20:45:46

а при чем тут графана то :)

всмысле причем ? я хочу выбрать 5 нод и 5 пользователей и посмотреть сколько они cpu сожрали и чтобы график был постекан по нодам.

Vladimir

23.08.2016
20:47:42

я вообще не уверен что в графане такое выйдет

с графитным апи

ptchol

23.08.2016
20:48:06

а теги как работают ?

не помогут ?

Алексей

23.08.2016
20:48:13

в инфлюксе group так можно

Vladimir

23.08.2016
20:48:36

такое можно много где, но в графите кажется апи слишком топорный для этого

помогу ттолько если ты одновременно user + host буцдешь выбирать

или я опять тебя не понимаю )

ptchol

23.08.2016
20:50:01

так я вместе выбираю, какая разница то ?

Vladimir

23.08.2016
20:50:19

у тебя какая задача?

есть host1, host2 и user1, user2

сколько и каких метрик ты хочешь получить?

(не в графитной формулировке, а в математической)

ptchol

23.08.2016
20:52:09

я хочу получить занятость cpu этими пользователями на этих нодах

Vladimir

23.08.2016
20:52:19

на каждой?

ptchol

23.08.2016
20:52:29

на каждой и суммировать

Vladimir

23.08.2016
20:53:27

а чем это отличается от прост овыборки по метрике?

Google

Vladimir

23.08.2016
20:54:16

тем что у тебя cpuacct надо делить на количество ядер на host'е?

ptchol

23.08.2016
20:54:41

да

Vladimir

23.08.2016
20:56:00

и твоя проблема в том чтоб получить количество ядер?

ptchol

23.08.2016
20:56:26

нет.

Vladimir

23.08.2016
20:56:30

а в чем?

ptchol

23.08.2016
20:56:50

проблема в том что он в первой метрики из за того чтобы glob $host вытаскивает все значения

Vladimir

23.08.2016
20:57:05

так, а тебе нужны какие?

ptchol

23.08.2016
20:57:18

а потом divide series на все glob $host cpu count

в результате мы получением %загруженности каждой ноды от общего размера кластера, где полная суммар всех cputime/cpucount это 100%

*получаем

понимаешь ?

Vladimir

23.08.2016
20:59:25

у тебя проблема в том что cpucount сумируется весь?

на все ноды

ptchol

23.08.2016
20:59:38

даааа !

Vladimir

23.08.2016
21:00:06

в последнем случаи тебе поможет groupByNode(query, 1, 'sumSeries') кажется

оно сделает у тебя count($host) метрик per host

но я не помню нужно ли править divideSeries чтобы там было метрика к метрике или оно и так работает

ptchol

23.08.2016
21:03:00

gateway timeout ))

ща )

а груп нужно сделать до дивайда да ?

« Назад

Страница 6 из 681

Далее »

Открыть в Telegram