
Magistr
27.07.2017
08:21:46
имхо вакансии в devops_jobs лучше, всеравно население примерно одно и тоже

Pablo
27.07.2017
08:22:15
нуууууууу мне сказали что можно тут если про метрики =)
Итак вакансия — пилить мониторинг и метрики! https://hh.ru/vacancy/22105822

Vladimir
27.07.2017
08:22:43
наверное если суперпрофильное - то можно )

Google

Alexandr
27.07.2017
08:23:57
В девопсджобс запости

Vladimir
27.07.2017
08:24:11
я бы сказал что это в golang_jobs какой-нить

Pablo
27.07.2017
08:24:32
ок, спс за рекомендации

Vladimir
27.07.2017
08:24:34
но я забыл как там канал зовется

Alexandr
27.07.2017
08:25:07
Так, скриншот...
Короче такое дерьмо

Pablo
27.07.2017
08:30:23

Alexandr
27.07.2017
08:30:44
Короче, у этих чуваков механизм рассчета настраивался
или настраивается до сих пор
Ты мог (можешь) делать рассчет пн > вт, вт > ср и тд, или сделать mon_week1 > mon_week2 > mon_week3
Блин, вопрос твой не до конца понял...

Google

Alexandr
27.07.2017
08:32:32
ааа, первое

Pablo
27.07.2017
08:32:33
я не вижу проблему как такого рода "anomaly detection" сделать даже на графите или чем угодно если есть time shift и оконные усреднения.

Andrei
27.07.2017
09:14:52
это некое абтракнтное представление, что такое бывает* или опыт есть и конкретные примеры?
ну для примера, в очердном обновлении у приложения стала подтекать память, не сильно, но со временем накапливается и хочется это сразу понять, а не в момент падения или срабатывания алерта. Или в какой-то момент незначительно выросло время коннекта от балансера к вебфронту и это привело к большему числу одновременно установленных соединений, которые стали упираться в ограничеие по их числу и из-за этого выросло число таймаутов/502. Те больше как инструмент для анализа - "скажи что было подозрительного и необычного за вчера", а админ уже сам решит обращать внимание на это или нет. или это пока еще фантастика =)

Pablo
27.07.2017
09:17:50
ок, звучит норм, спасибо за ответ.

Andrei
27.07.2017
09:19:50
сразу = по человеческим меркам, за день хотя бы)

Ivan
27.07.2017
09:32:52
Интерфейс знаком, но вопрос не понял - если еще актуально сформулируйте пожалуйста

Alexandr
27.07.2017
09:33:56

Ivan
27.07.2017
09:34:23
А, это много объясняет.

Pablo
27.07.2017
09:38:10

Ivan
27.07.2017
09:40:18

Denys ??
27.07.2017
09:48:55
Все просто - народ хочет магии. Раз - и компьютер рассказал где плохо. Но нет, пока такого нет, даже в коммерческих решениях, коих куча - но все больше заточено под аналитику а не под мониторинг. А в опенсорсе тем более ничего нет, все пишут свое. Вон Elasticsearch из последних выкатил свой ML – но он тоже коммерческий.

Pablo
27.07.2017
09:50:06
есть Anodot коммерческий. но я считаю что проблема (найди то непойми что) вообще нерешаема.
и на самом деле просто поставлена неправильно

Vladimir
27.07.2017
09:52:37
и обычно через "пойми что, потом найти"


Alexander
27.07.2017
09:53:17
Народ, подскажите, настроил snmp_exporter для prometheus, хочу мониторить кастомные метрики с mikrotik маршрутизатора. Сгенерировал их с помощью generator из комплекта snmp_exporter. Добавил модуль в конфиг прометея:
- job_name: 'snmp_exporter'
static_configs:
- targets:
- x.x.x.x # Адрес моего девайса.
metrics_path: /snmp
params:
module: [default, mikrotik_wireless]
relabel_configs:
- source_labels: [__address__]
target_label: __param_target
- source_labels: [__param_target]
target_label: instance
- target_label: __address__
replacement: grafana-zabbix.org:9116 # SNMP exporter.
В графане и прометее вижу только метрики из default модуля, из mikrotik_wireless вижу, только если зайти на эндпойнт snmp и указать этот модуль в url:
http://grafana-zabbix.org:9116/snmp?target=x.x.x.x&module=mikrotik_wireless
Метрики собираются нормально, проблема их только достать из прометея.

Andor
27.07.2017
09:55:11
а в списке таргетов какие урлы видишь?

Google

Andor
27.07.2017
09:55:12
в прометее

Alexander
27.07.2017
09:55:46
http://grafana-zabbix.org:9116/snmp?module=default&module=mikrotik_wireless&target=188.243.223.130
Это адрес по ссылке http://grafana-zabbix.org:9116/snmp1
Но я порылся в исходниках, snmp_exporter только первый module считывает

Andor
27.07.2017
10:01:32
ну звучит логично
а нафиг ты два передаёшь?

Alexander
27.07.2017
10:02:21
Я не передаю, это он такую ссылку строит
В конфиге module - это список значений, логично, что туда можно несколько модулей передать.
Если указать так, то я вижу свои метрики из кастомного модуля
params:
module: [mikrotik_wireless, default]

Denys ??
27.07.2017
10:05:50

Alexander
27.07.2017
10:07:54
Или нужно отдельный target на каждый модуль добавлять?

Alexander
27.07.2017
10:10:16
Все, нашел, нельзя так https://github.com/prometheus/snmp_exporter/issues/129

Ivan
27.07.2017
10:13:07
да даже meatbag'и плохо решают эту проблему, да )
жалкий человечишка обнаружил проблему на одном графике, пометил ее для робота как аномалию, и робот нашел ее еще на паре тысяч метрик из миллиона. думаю профит от всего этого тут зарыт. мясной оператор (без него никуда) ищет новое + скармливает сетке, сетка учится и все ошибки такого класса начинает находить

Vladimir
27.07.2017
10:13:39
их надо упорно обучать
фильтровать false positive и false negative
и т.п.
оно вот так как описано не очень работает на текущем уровне развития технологий

Sergey
27.07.2017
10:14:38

Google

Sergey
27.07.2017
10:14:39
привет.

Vladimir
27.07.2017
10:14:57
а еще потом тебе ндао научиться отвечать на вопрос "как работает сетка" )
даже лучше так

Sergey
27.07.2017
10:17:10
ммм, богосорт

Ivan
27.07.2017
10:17:22
это да, не говоря уже о том, что это реализуется совсем не тривиально. НО, в пользу такого подхода работает большое количество накопленных в мониторинге данных которые можно использовать для обучения. может быть часть этих данных даже размечена уже инцидентами. Это не отменяет необходимости конечно кому-то посидеть пол-года тыкая в графики и помечая их "хороший" "плохой" "аномалия класса XYZ".

Admin
ERROR: S client not available

Sergey
27.07.2017
10:22:20
переобучение даст скорее результат "мы не видим новых алертов вообще, а куча старых перестала показываться".
мне очень нравится идея этого подхода, но я не вижу ни одного работающего решения. и подозреваю, что это не просто так.

Vladimir
27.07.2017
10:23:07
иначе ты получишь на выходе черный ящик который неизвестно как работает и непонятно как чинить
то есть ты будешь подавать на вход данные и получать на выходе непонятное нечто, похожее на алерты
без какой либо уверенности что внутри адекватная обработка

Ivan
27.07.2017
10:24:41
без какой либо уверенности что внутри адекватная обработка
уверенности нет пока даже на переднем крае этой темы. гугловские глубокие сетки детектят котиков на картинках точнее человека, а все что могут сказать их разработчики это то что "ну на первых слоях определяются признаки наличия простых признаков вроде четких линий, а последние слои определяют "котовость""

Vladimir
27.07.2017
10:30:03
а вот бизнесу немного страшно когда нейроночка не определит важную аномалию )

Ivan
27.07.2017
10:34:39
в этом очень большая беда этих методов. самое страшное что их тянут в такие области, как например автопилоты для машин. была где-то статья про американского самоделкина, которые поставил в свою тачку комп с видеокарточками, облепил машину лидарами и камерами и ездил так несколько месяцев обучая свой черный ящик вождению (я бы даже сказал своему стилю вождения), обучившись автопилот дальше смог водить машину сам.

Google

Ivan
27.07.2017
10:35:08
вот аномалии в графиках я бы еще поискал так, а в машину к тому чуваку точно бы не сел )

Vladimir
27.07.2017
10:57:16
@ivanvg кстати про машины, я сторонник того чтобы транспортом управляла единая система с пониманием где какая машина, куда ей надо и пр.
адаптирующаяся под это
то есть просто отнять у людей руль и педали
и рулить трафиком в масштабах города чуть больше чем полностью
но опять же не с текущими технологиями

Ivan
27.07.2017
11:17:52

Pablo
27.07.2017
11:26:16


Ivan
27.07.2017
11:37:32
прям ошибки найдёте?
_в_ _теории_ да. инцидент, или ситуация предваряющая инцидент, на графиках — это картинка, которую надо распознать. задача распознавания и классификации картинок вроде, как решена. как оно получится на практике, сказать нельзя, из присутствующих никто коммерческое не щупал и свое так глубоко не довел.
вернее сказать то можно: 1)что-то оно будет находить, 2) что-то нет, 3) где-то будет лажать, 4) кто-то должен будет для нее размечать инциденты, 5) классифицировать картинки и 6) все это займет много времени с неизвестным результатом. Стоит оно того или нет решает каждый сам

Denys ??
27.07.2017
11:46:06
Ну похоже все кому нужно уже решили. Я много слушал что та или иная контора у себя внедрила anomaly detection, но как правило это звучит как "а вот этот квадратик на схеме - это детектор аномалий, он нам аномалии детектирует". Все.

Sergey
27.07.2017
11:47:13

Oleg
27.07.2017
14:29:11
https://github.com/etsy/skyline а вот это смотрел кто?

Алексей
27.07.2017
14:29:42
комитов нет два года.

Vladimir
27.07.2017
14:32:10
https://github.com/etsy/skyline/issues/121 - впрочем исходя из этого кажется что просто его решили не развивать в таком состоянии

Алексей
27.07.2017
14:33:31

Vladimir
27.07.2017
14:34:23
https://github.com/earthgecko/skyline
вот кстати форк который жив
https://github.com/etsy/skyline/issues/119#issuecomment-113085556

Alexander
27.07.2017
14:35:48
etsy - это которые StatsD делают?