@metrics_ru

Страница 194 из 681
lastsky
22.06.2017
09:44:44
т.е. вместо +1 сервис который будет выполнять 1 функцию надо тащить +n компонент чтобы этот +1 заработал
вот я тоже заебался экспортеры собрать и в итоге оставил только два экспортера.

terry
22.06.2017
09:44:57
я не так выразился, просто бекап это не то что нужно и нужен мониторинг мониторинга

Sergey
22.06.2017
09:47:14
это решается относительно просто для одной системы (не кластерной), в кластерных это является проблемой самой системы и решается сложно

вот я тоже заебался экспортеры собрать и в итоге оставил только два экспортера.
я на перебор агентов потратил много времени... в итоге пока пилю snap-telemetry.io

Google
Sergey
22.06.2017
09:52:57
или ты не про сбор?

Andor
22.06.2017
09:54:08
ещё-один-проект-который-называется-snap

lastsky
22.06.2017
09:54:48
я на перебор агентов потратил много времени... в итоге пока пилю snap-telemetry.io
я про сбор. потому что все остальные функции успешно выполняет связка proemtheus - alertmanager - grafana - telegram ботики

Sergey
22.06.2017
09:54:58
не... пока им ничего не коммитил т.к. не ясен вопрос с присутствием нас на гитхабе

его пилит подразделение интела... видимо их тоже подзае... что непонятно что юзать

архитектурно он прикольный... но часть плагинов написано как бы это сказать... второпях

если вкраце то на хосте запускается ядро которое само ничего делать не умеет кроме как грузить на хост плагины (исполняемые файлы) и таски и соотвественно управляет этим. в него стучаться можно по рест апи: заливать плагины, грузить таски в json формате, и онлайн смотреть метрики

Wom
22.06.2017
10:00:51
"рузить на хост плагины (исполняемые файлы)" - звучит страшно

Sergey
22.06.2017
10:02:09
внутри оно все по gRPC работает, и да плагины ессна можно подписывать и оно проверять будет подпись

они там аналог консула еще пилят - типа объединяешь агенты по ключу в монады и пихнув конфиг или плагин в один хост через некоторое время оно само расползается на всю группу само... полгода эту фичу они считают бетой

"рузить на хост плагины (исполняемые файлы)" - звучит страшно
ну и как бы рест апи можно на локалхост только включить и работать с ним из локального контекста

ещё-один-проект-который-называется-snap
если бы не какой то графана конф на котором они запилили свой плагин (сырой), ну и возможно спонсором конфы был интел :)... я бы об этом проекте вообще никогда не узнал и остановился бы на телеграфе

Google
Vladimir
22.06.2017
10:21:07
prometheus/prometheus: 2.0.0-alpha.3 / 2017-06-22 was tagged

быстро клепают однако

Sergey
22.06.2017
10:22:32
быстро клепают однако
у них кстати какая бизнес модель? чтоб примерно представлять что они могут с продуктом сделать

ptchol
22.06.2017
10:23:13
мы сейчас админа ищем, и каждый второй на вопрос "какую бы систему мониторинга вы сейчас взяли в качестве универсальной и под апликейшен метрики и под системные", отвечают прометеус. А дальше я трольбасю на тему "чем он лучше заббикса", и вот печаль в том что никто не может объяснить

Andor
22.06.2017
10:23:28
тем, что няшный

Andor
22.06.2017
10:24:04
для меня было бы: с заббиксом у меня нет опыта, а с прометеем полтора года использования в продакшне

Sergey
22.06.2017
10:25:20
эээ... ну вот графану я понимаю - с ней все норм будет (если только их не купит кто то жирный и тогда все может испортиться), а тут прям вот голый энтузизазизм?

Vladimir
22.06.2017
10:25:47
Sergey как у нашего кода - сделали клевый проект, решили выложить

никакого профита с него нет, кроме строчки в резюме

и хайринга конторой

которая владеет этими разрабами

Sergey
22.06.2017
10:30:25
ну с вами как то тоже понятно... запилили код кторый полезен и на гитхабе в теории можно комьюнити собрать которое будет либо баги ловить либо что то может даже умное делать... собственно я нас так же выставлю вскоре. т.к. то что вы пилите это не продукт который вы продаете то болота а ля инфлюкс не будет. Согласись что по тому что пилите вы документации практически нет... а в прометее ее прям многа и она хорошая. Это не они в саундклауде? или я путаю?

ptchol
22.06.2017
10:37:28
Настройку можно в гит положить. Про это разве не говорят?
да никто про алертменеджера не может всопмнить и про пушгетвей

Sergey
22.06.2017
10:39:06
я вот поэтому к тому же телеграфу с осторожностью отношусь... в начале запилили модно молодежно поддерживаем все что только можно (прошло время) а зачем вам вот это и это - есть же наш супер пупер бекенд (и мы его даже кому то продаем)

Sergey
22.06.2017
10:40:47
тогда в теории пока все должно быть с ними хорошо )

Google
Sergey
22.06.2017
10:48:53
сколько кстати одна нода прометея держит потока в метрик/сек (условно 12 ядер и 64гб озу, без упора в диск)?

lastsky
22.06.2017
10:50:42
сколько кстати одна нода прометея держит потока в метрик/сек (условно 12 ядер и 64гб озу, без упора в диск)?
ну потянет 50-70k метрик думаю точно. возможно больше. поищи нагрузочные тесты, их делали в сравнениях, где-то презентацию даже видел.

если без упора в диск то и больше потянет. ssd ставишь с кешем и погнали.

Vladimir
22.06.2017
10:51:31
Sergey
22.06.2017
10:51:39
это 50-70к по которым проверки идут?

lastsky
22.06.2017
10:51:46
это 50-70к по которым проверки идут?
нет, без проверок. проверки - отдельная тема. их надо как выяснилось учиться правильно писать, чтобы не было потребности писать 1k проверок.

Sergey
22.06.2017
10:52:43
у меня поток 2-3М, придется какую то филтрашку пилить

Andor
22.06.2017
10:53:14
зависит от того, что у тебя с правилами агрегации

у нас агрегаций много и 100к/сек держим спокойно

lastsky
22.06.2017
10:53:45
согласен, это тоже оч. важно.

Sergey
22.06.2017
10:54:16
ну т.е сырой поток он не переварит, аггрегировать на вход он сам умеет или надо его кормить?

Andor
22.06.2017
10:54:55
https://prometheus.io/docs/practices/rules/

Fedor
22.06.2017
10:54:57
на огромное количество проверок

условно огромное

Sergey
22.06.2017
10:55:25
вопрос предугадан )

а не - это мне ответ

значит умеет сам

lastsky
22.06.2017
10:57:49
а подскажи, пожалуйсте, где почитать
https://prometheus.io/docs/practices/alerting/

Google
Andor
22.06.2017
10:58:58
алерты это те же агрегации

принципиальной разницы нет, точно так же считаются

Sergey
22.06.2017
10:59:55
я о нем читал еще в прошлом году, дошел вот как раз до того что 800к и отложил на полку

lastsky
22.06.2017
11:00:17
а подскажи, пожалуйсте, где почитать
https://docs.google.com/document/d/199PqyG3UsyXlwieHaqbGiWVa8eMWi8zzAn0YfcApr8Q/edit ещё вот стоит прочесть.

Fedor
22.06.2017
11:00:31
спасибо!

Andor
22.06.2017
11:00:34
на голом прометее мы засирали метриками и получали 600-700к в секунду

500к стабильно, 600-700 - не очень стабильно

Fedor
22.06.2017
11:00:43
находил документ, даже открывал, но что-то не прочитал

Andor
22.06.2017
11:00:51
но нам столько не надо, просто бенчмаркали на глазок

Admin
ERROR: S client not available

Vladimir
22.06.2017
11:00:52
lastsky
22.06.2017
11:01:31
500к стабильно, 600-700 - не очень стабильно
дальнейший скалинг - видимо федерация. то есть 800k точно не лимит.

Andor
22.06.2017
11:02:15
нет конечно, не лимит

ну и да, у нас федерация уже

Sergey
22.06.2017
11:02:31
ну как бы методика в лоб... на аггрегациях сейчас и живем уже... несколько лет

Andor
22.06.2017
11:02:44
у нас устоявшееся сэмплов/сек около 100к на каждом инстансе

Sergey
22.06.2017
11:03:08
а толстость инстанса?

Andor
22.06.2017
11:03:31
24-32-40 ядер и 128 памяти

и ссд

разные

Google
Andor
22.06.2017
11:03:56
ну и прометей у нас сейчас старый, никак не соберусь обновлять

Sergey
22.06.2017
11:04:09
мда... не сильно дешево

Andor
22.06.2017
11:04:20
ну у нас агрегаций

тыщ 10

тебе вряд ли столько надо :)

Sergey
22.06.2017
11:05:27
вопрос спорный ) пока это все уперлось в жаббикс и поэтому желания пресекаются уже долгое время

так что как только наступит воля... думаю мы до цифирок Владимира дойдем :) разве что с административной частью управления храненем метрик у нас все по проще

а да.. у нас 600к агрегаций :) или что то около

Sergey
22.06.2017
11:22:25
ага, он слегка подглючивает и сделан собственно просто чтобы показать концепцию

т.е. в рамках графаны решить задачу - вот мы запустили 10 нод с тестовой фигней и там агент которые собирает данные - хотим посмотреть эти данные а писать или не писать их мы чуть позже решим - никак, надо какую то прокси мутить и плагин переделать чтобы он с прокси список хостов получал и это было бы поле выбора.

можно конечно запилить 10 временных датасорсов и задача как бы решена, но как то мне кажется не сильно красиво это

Alexander
22.06.2017
11:29:55
Ну да. Мы еще в одном плагине делаем что-то подобное, поэтому баги с RxJs находим и фиксим по возможности.

т.е. в рамках графаны решить задачу - вот мы запустили 10 нод с тестовой фигней и там агент которые собирает данные - хотим посмотреть эти данные а писать или не писать их мы чуть позже решим - никак, надо какую то прокси мутить и плагин переделать чтобы он с прокси список хостов получал и это было бы поле выбора.
Одним плагином не обойтись - запросы идут через бэкенд, поэтому в режиме proxy url датасорса подставляется на сервере. То есть в самом плагине нельзя адрес указать, на который слать запросы. Только в direct access режиме.

Sergey
22.06.2017
11:41:23
Ну так я и описал 2 решения - либо мы генерим датасорсы где каждый датасорс - хост с которого метрики хотим смотреть и в принципе все работает. Либо нужен какой то прокси который будет выдавать список хостов и через себя пакеты пропускать, но тогда нужно этот плагин допиливать. Не так?

Sergey
22.06.2017
11:49:34
графитом по любому надо управлять... он такой хрупкий )

Да, все так, не понял сначала про прокси. Я подумал, что он только список отдает.
не, ну понятие прокси как бы включает в себя что через него данные бегут )

Alexander
22.06.2017
11:51:11
Да )

Sergey
22.06.2017
11:51:19
точнее что то... )

Alex
22.06.2017
12:11:01
точнее что то... )
что то кроме данных? опасно

Страница 194 из 681