@metrics_ru

Страница 220 из 681
Magistr
27.07.2017
08:21:46
имхо вакансии в devops_jobs лучше, всеравно население примерно одно и тоже

Pablo
27.07.2017
08:22:15
нуууууууу мне сказали что можно тут если про метрики =)

Итак вакансия — пилить мониторинг и метрики! https://hh.ru/vacancy/22105822

Vladimir
27.07.2017
08:22:43
наверное если суперпрофильное - то можно )

Google
Alexandr
27.07.2017
08:23:57
В девопсджобс запости

Vladimir
27.07.2017
08:24:11
я бы сказал что это в golang_jobs какой-нить

Pablo
27.07.2017
08:24:32
ок, спс за рекомендации

Vladimir
27.07.2017
08:24:34
но я забыл как там канал зовется

Alexandr
27.07.2017
08:25:07
Так, скриншот...





Короче такое дерьмо

Pablo
27.07.2017
08:30:23
Можно. Усредняй значения верхними и нижними персинтилями, 10 и 90 нааоимер. Строй доверительный интервал с переносом день в день
уточняю: мы на каждом интервале считаем q10 и потом на окне (за вчерашний день?) усредняем и используем это как порог, или мы имеем метрику и на окне считаем q10 и по нему ориентируемся?

Alexandr
27.07.2017
08:30:44
Короче, у этих чуваков механизм рассчета настраивался

или настраивается до сих пор

Ты мог (можешь) делать рассчет пн > вт, вт > ср и тд, или сделать mon_week1 > mon_week2 > mon_week3

Блин, вопрос твой не до конца понял...

Google
Alexandr
27.07.2017
08:32:32
ааа, первое

Pablo
27.07.2017
08:32:33
я не вижу проблему как такого рода "anomaly detection" сделать даже на графите или чем угодно если есть time shift и оконные усреднения.

Andrei
27.07.2017
09:14:52
это некое абтракнтное представление, что такое бывает* или опыт есть и конкретные примеры?
ну для примера, в очердном обновлении у приложения стала подтекать память, не сильно, но со временем накапливается и хочется это сразу понять, а не в момент падения или срабатывания алерта. Или в какой-то момент незначительно выросло время коннекта от балансера к вебфронту и это привело к большему числу одновременно установленных соединений, которые стали упираться в ограничеие по их числу и из-за этого выросло число таймаутов/502. Те больше как инструмент для анализа - "скажи что было подозрительного и необычного за вчера", а админ уже сам решит обращать внимание на это или нет. или это пока еще фантастика =)

Andrei
27.07.2017
09:19:50
сразу = по человеческим меркам, за день хотя бы)

Ivan
27.07.2017
09:32:52
Интерфейс знаком, но вопрос не понял - если еще актуально сформулируйте пожалуйста

Ivan
27.07.2017
09:34:23
А, это много объясняет.

Pablo
27.07.2017
09:38:10
сразу = по человеческим меркам, за день хотя бы)
ну не в прометеусе вот можно сделать — как показали выше и в okmeter =)

Ivan
27.07.2017
09:40:18
Denys ??
27.07.2017
09:48:55
Все просто - народ хочет магии. Раз - и компьютер рассказал где плохо. Но нет, пока такого нет, даже в коммерческих решениях, коих куча - но все больше заточено под аналитику а не под мониторинг. А в опенсорсе тем более ничего нет, все пишут свое. Вон Elasticsearch из последних выкатил свой ML – но он тоже коммерческий.

Pablo
27.07.2017
09:50:06
есть Anodot коммерческий. но я считаю что проблема (найди то непойми что) вообще нерешаема.

и на самом деле просто поставлена неправильно

Vladimir
27.07.2017
09:52:37
и обычно через "пойми что, потом найти"

Alexander
27.07.2017
09:53:17
Народ, подскажите, настроил snmp_exporter для prometheus, хочу мониторить кастомные метрики с mikrotik маршрутизатора. Сгенерировал их с помощью generator из комплекта snmp_exporter. Добавил модуль в конфиг прометея: - job_name: 'snmp_exporter' static_configs: - targets: - x.x.x.x # Адрес моего девайса. metrics_path: /snmp params: module: [default, mikrotik_wireless] relabel_configs: - source_labels: [__address__] target_label: __param_target - source_labels: [__param_target] target_label: instance - target_label: __address__ replacement: grafana-zabbix.org:9116 # SNMP exporter. В графане и прометее вижу только метрики из default модуля, из mikrotik_wireless вижу, только если зайти на эндпойнт snmp и указать этот модуль в url: http://grafana-zabbix.org:9116/snmp?target=x.x.x.x&module=mikrotik_wireless

Метрики собираются нормально, проблема их только достать из прометея.

Andor
27.07.2017
09:55:11
а в списке таргетов какие урлы видишь?

Google
Andor
27.07.2017
09:55:12
в прометее

Alexander
27.07.2017
09:55:46


http://grafana-zabbix.org:9116/snmp?module=default&module=mikrotik_wireless&target=188.243.223.130

Это адрес по ссылке http://grafana-zabbix.org:9116/snmp1

Но я порылся в исходниках, snmp_exporter только первый module считывает

Andor
27.07.2017
10:01:32
ну звучит логично

а нафиг ты два передаёшь?

Alexander
27.07.2017
10:02:21
Я не передаю, это он такую ссылку строит

В конфиге module - это список значений, логично, что туда можно несколько модулей передать.

Если указать так, то я вижу свои метрики из кастомного модуля params: module: [mikrotik_wireless, default]

Denys ??
27.07.2017
10:05:50
есть Anodot коммерческий. но я считаю что проблема (найди то непойми что) вообще нерешаема.
Так я не спорю. Просто ожидания у народа завышенные - именно хотят чтобы компьютер сделал магию и сказал даже больше чем квалифицированный спец. Общий тренд ожиданий от ML - они даже называют его AI.

Alexander
27.07.2017
10:07:54
Или нужно отдельный target на каждый модуль добавлять?

Alexander
27.07.2017
10:10:16
Все, нашел, нельзя так https://github.com/prometheus/snmp_exporter/issues/129

Ivan
27.07.2017
10:13:07
да даже meatbag'и плохо решают эту проблему, да )
жалкий человечишка обнаружил проблему на одном графике, пометил ее для робота как аномалию, и робот нашел ее еще на паре тысяч метрик из миллиона. думаю профит от всего этого тут зарыт. мясной оператор (без него никуда) ищет новое + скармливает сетке, сетка учится и все ошибки такого класса начинает находить

Google
Sergey
27.07.2017
10:14:39
привет.

Vladimir
27.07.2017
10:14:57
а еще потом тебе ндао научиться отвечать на вопрос "как работает сетка" )



даже лучше так

Sergey
27.07.2017
10:17:10
ммм, богосорт

Ivan
27.07.2017
10:17:22
это да, не говоря уже о том, что это реализуется совсем не тривиально. НО, в пользу такого подхода работает большое количество накопленных в мониторинге данных которые можно использовать для обучения. может быть часть этих данных даже размечена уже инцидентами. Это не отменяет необходимости конечно кому-то посидеть пол-года тыкая в графики и помечая их "хороший" "плохой" "аномалия класса XYZ".

потом сетка переобучается и начинает показывать только то что мы нашли с помощью обучения.
это тоже результат, на самом деле, на автомате определять хорошо известные проблемы в сотнях тысяч временных рядов.

а еще потом тебе ндао научиться отвечать на вопрос "как работает сетка" )
а вот это как раз не обязательно =) как минимум, пока точного ответа не придумали. "так подстроились веса" — самое точное что можно по этому поводу сказать

Admin
ERROR: S client not available

Sergey
27.07.2017
10:22:20
переобучение даст скорее результат "мы не видим новых алертов вообще, а куча старых перестала показываться". мне очень нравится идея этого подхода, но я не вижу ни одного работающего решения. и подозреваю, что это не просто так.

Vladimir
27.07.2017
10:23:07
а вот это как раз не обязательно =) как минимум, пока точного ответа не придумали. "так подстроились веса" — самое точное что можно по этому поводу сказать
как раз обязательно чтобы понять произошло ли переобучение и ваще какие классы алертов оно будет детектить, а какие нет )

иначе ты получишь на выходе черный ящик который неизвестно как работает и непонятно как чинить

то есть ты будешь подавать на вход данные и получать на выходе непонятное нечто, похожее на алерты

без какой либо уверенности что внутри адекватная обработка

Ivan
27.07.2017
10:24:41
иначе ты получишь на выходе черный ящик который неизвестно как работает и непонятно как чинить
достаточно точное описание состояния ML на данный момент, как мне кажется =)

без какой либо уверенности что внутри адекватная обработка
уверенности нет пока даже на переднем крае этой темы. гугловские глубокие сетки детектят котиков на картинках точнее человека, а все что могут сказать их разработчики это то что "ну на первых слоях определяются признаки наличия простых признаков вроде четких линий, а последние слои определяют "котовость""

Ivan
27.07.2017
10:34:39
в этом очень большая беда этих методов. самое страшное что их тянут в такие области, как например автопилоты для машин. была где-то статья про американского самоделкина, которые поставил в свою тачку комп с видеокарточками, облепил машину лидарами и камерами и ездил так несколько месяцев обучая свой черный ящик вождению (я бы даже сказал своему стилю вождения), обучившись автопилот дальше смог водить машину сам.

Google
Ivan
27.07.2017
10:35:08
вот аномалии в графиках я бы еще поискал так, а в машину к тому чуваку точно бы не сел )

Vladimir
27.07.2017
10:57:16
@ivanvg кстати про машины, я сторонник того чтобы транспортом управляла единая система с пониманием где какая машина, куда ей надо и пр.

адаптирующаяся под это

то есть просто отнять у людей руль и педали

и рулить трафиком в масштабах города чуть больше чем полностью

но опять же не с текущими технологиями

Ivan
27.07.2017
11:17:52
@ivanvg кстати про машины, я сторонник того чтобы транспортом управляла единая система с пониманием где какая машина, куда ей надо и пр.
@Civiloid в идеале машины должны быть все же автономны и способны обмениваться информацией друг с другом, в централизованную систему им хорошо бы ходить только для справки. представь такой централизованный скайнет на масштабах Москвы, он падает/тормозит/выкатили неудачный апдейт и на улице ад. Но ты прав это даже не завтра и не послезавтра будет.

Ivan
27.07.2017
11:37:32
прям ошибки найдёте?
_в_ _теории_ да. инцидент, или ситуация предваряющая инцидент, на графиках — это картинка, которую надо распознать. задача распознавания и классификации картинок вроде, как решена. как оно получится на практике, сказать нельзя, из присутствующих никто коммерческое не щупал и свое так глубоко не довел. вернее сказать то можно: 1)что-то оно будет находить, 2) что-то нет, 3) где-то будет лажать, 4) кто-то должен будет для нее размечать инциденты, 5) классифицировать картинки и 6) все это займет много времени с неизвестным результатом. Стоит оно того или нет решает каждый сам

Denys ??
27.07.2017
11:46:06
Ну похоже все кому нужно уже решили. Я много слушал что та или иная контора у себя внедрила anomaly detection, но как правило это звучит как "а вот этот квадратик на схеме - это детектор аномалий, он нам аномалии детектирует". Все.

Sergey
27.07.2017
11:47:13
Oleg
27.07.2017
14:29:11
https://github.com/etsy/skyline а вот это смотрел кто?

Алексей
27.07.2017
14:29:42
комитов нет два года.

Vladimir
27.07.2017
14:32:10
комитов нет два года.
может это значит что проект достиг зрелости и больше не нуждается в улучшениях? )

https://github.com/etsy/skyline/issues/121 - впрочем исходя из этого кажется что просто его решили не развивать в таком состоянии

Алексей
27.07.2017
14:33:31
может это значит что проект достиг зрелости и больше не нуждается в улучшениях? )
да. как правило в опенсорсе если нет комимтов два года значит всё. доделали.

Vladimir
27.07.2017
14:34:23
https://github.com/earthgecko/skyline

вот кстати форк который жив

https://github.com/etsy/skyline/issues/119#issuecomment-113085556

Alexander
27.07.2017
14:35:48
etsy - это которые StatsD делают?

Страница 220 из 681