@metrics_ru

« Назад

Страница 220 из 681

Далее »

Magistr

27.07.2017
08:21:46

имхо вакансии в devops_jobs лучше, всеравно население примерно одно и тоже

Pablo

27.07.2017
08:22:15

нуууууууу мне сказали что можно тут если про метрики =)

Итак вакансия — пилить мониторинг и метрики! https://hh.ru/vacancy/22105822

Vladimir

27.07.2017
08:22:43

наверное если суперпрофильное - то можно )

Google

Alexandr

27.07.2017
08:23:57

В девопсджобс запости

Vladimir

27.07.2017
08:24:11

я бы сказал что это в golang_jobs какой-нить

Pablo

27.07.2017
08:24:32

ок, спс за рекомендации

Vladimir

27.07.2017
08:24:34

но я забыл как там канал зовется

Alexandr

27.07.2017
08:25:07

Так, скриншот...

Короче такое дерьмо

Pablo

27.07.2017
08:30:23

Можно. Усредняй значения верхними и нижними персинтилями, 10 и 90 нааоимер. Строй доверительный интервал с переносом день в день

уточняю: мы на каждом интервале считаем q10 и потом на окне (за вчерашний день?) усредняем и используем это как порог, или мы имеем метрику и на окне считаем q10 и по нему ориентируемся?

Alexandr

27.07.2017
08:30:44

Короче, у этих чуваков механизм рассчета настраивался

или настраивается до сих пор

Ты мог (можешь) делать рассчет пн > вт, вт > ср и тд, или сделать mon_week1 > mon_week2 > mon_week3

Блин, вопрос твой не до конца понял...

Google

Alexandr

27.07.2017
08:32:32

ааа, первое

Pablo

27.07.2017
08:32:33

я не вижу проблему как такого рода "anomaly detection" сделать даже на графите или чем угодно если есть time shift и оконные усреднения.

Andrei

27.07.2017
09:14:52

это некое абтракнтное представление, что такое бывает* или опыт есть и конкретные примеры?

ну для примера, в очердном обновлении у приложения стала подтекать память, не сильно, но со временем накапливается и хочется это сразу понять, а не в момент падения или срабатывания алерта. Или в какой-то момент незначительно выросло время коннекта от балансера к вебфронту и это привело к большему числу одновременно установленных соединений, которые стали упираться в ограничеие по их числу и из-за этого выросло число таймаутов/502. Те больше как инструмент для анализа - "скажи что было подозрительного и необычного за вчера", а админ уже сам решит обращать внимание на это или нет. или это пока еще фантастика =)

Pablo

27.07.2017
09:17:50

ок, звучит норм, спасибо за ответ.

ну для примера, в очердном обновлении у приложения стала подтекать память, не сильно, но со временем накапливается и хочется это сразу понять, а не в момент падения или срабатывания алерта. Или в какой-то момент незначительно выросло время коннекта от балансера к вебфронту и это привело к большему числу одновременно установленных соединений, которые стали упираться в ограничеие по их числу и из-за этого выросло число таймаутов/502. Те больше как инструмент для анализа - "скажи что было подозрительного и необычного за вчера", а админ уже сам решит обращать внимание на это или нет. или это пока еще фантастика =)

течет медленно, хочется понять сразу - кажется несовместимые условия)

Andrei

27.07.2017
09:19:50

сразу = по человеческим меркам, за день хотя бы)

Ivan

27.07.2017
09:32:52

Интерфейс знаком, но вопрос не понял - если еще актуально сформулируйте пожалуйста

Alexandr

27.07.2017
09:33:56

Интерфейс знаком, но вопрос не понял - если еще актуально сформулируйте пожалуйста

Это был ответ, не вопрос

Ivan

27.07.2017
09:34:23

А, это много объясняет.

Pablo

27.07.2017
09:38:10

Интерфейс знаком, но вопрос не понял - если еще актуально сформулируйте пожалуйста

что за интерфейс

сразу = по человеческим меркам, за день хотя бы)

ну не в прометеусе вот можно сделать — как показали выше и в okmeter =)

Ivan

27.07.2017
09:40:18

что за интерфейс

bmc proactivenet

Denys ??

27.07.2017
09:48:55

Все просто - народ хочет магии. Раз - и компьютер рассказал где плохо. Но нет, пока такого нет, даже в коммерческих решениях, коих куча - но все больше заточено под аналитику а не под мониторинг. А в опенсорсе тем более ничего нет, все пишут свое. Вон Elasticsearch из последних выкатил свой ML – но он тоже коммерческий.

Pablo

27.07.2017
09:50:06

есть Anodot коммерческий. но я считаю что проблема (найди то непойми что) вообще нерешаема.

и на самом деле просто поставлена неправильно

Vladimir

27.07.2017
09:52:37

есть Anodot коммерческий. но я считаю что проблема (найди то непойми что) вообще нерешаема.

да даже meatbag'и плохо решают эту проблему, да )

и обычно через "пойми что, потом найти"

Alexander

27.07.2017
09:53:17

Народ, подскажите, настроил snmp_exporter для prometheus, хочу мониторить кастомные метрики с mikrotik маршрутизатора. Сгенерировал их с помощью generator из комплекта snmp_exporter. Добавил модуль в конфиг прометея: - job_name: 'snmp_exporter' static_configs: - targets: - x.x.x.x # Адрес моего девайса. metrics_path: /snmp params: module: [default, mikrotik_wireless] relabel_configs: - source_labels: [__address__] target_label: __param_target - source_labels: [__param_target] target_label: instance - target_label: __address__ replacement: grafana-zabbix.org:9116 # SNMP exporter. В графане и прометее вижу только метрики из default модуля, из mikrotik_wireless вижу, только если зайти на эндпойнт snmp и указать этот модуль в url: http://grafana-zabbix.org:9116/snmp?target=x.x.x.x&module=mikrotik_wireless

Метрики собираются нормально, проблема их только достать из прометея.

Andor

27.07.2017
09:55:11

а в списке таргетов какие урлы видишь?

Google

Andor

27.07.2017
09:55:12

в прометее

Alexander

27.07.2017
09:55:46

http://grafana-zabbix.org:9116/snmp?module=default&module=mikrotik_wireless&target=188.243.223.130

Это адрес по ссылке http://grafana-zabbix.org:9116/snmp1

Но я порылся в исходниках, snmp_exporter только первый module считывает

Andor

27.07.2017
10:01:32

ну звучит логично

а нафиг ты два передаёшь?

Alexander

27.07.2017
10:02:21

Я не передаю, это он такую ссылку строит

В конфиге module - это список значений, логично, что туда можно несколько модулей передать.

Если указать так, то я вижу свои метрики из кастомного модуля params: module: [mikrotik_wireless, default]

Denys ??

27.07.2017
10:05:50

есть Anodot коммерческий. но я считаю что проблема (найди то непойми что) вообще нерешаема.

Так я не спорю. Просто ожидания у народа завышенные - именно хотят чтобы компьютер сделал магию и сказал даже больше чем квалифицированный спец. Общий тренд ожиданий от ML - они даже называют его AI.

Alexander

27.07.2017
10:07:54

Или нужно отдельный target на каждый модуль добавлять?

Alexander

27.07.2017
10:10:16

Все, нашел, нельзя так https://github.com/prometheus/snmp_exporter/issues/129

Ivan

27.07.2017
10:13:07

да даже meatbag'и плохо решают эту проблему, да )

жалкий человечишка обнаружил проблему на одном графике, пометил ее для робота как аномалию, и робот нашел ее еще на паре тысяч метрик из миллиона. думаю профит от всего этого тут зарыт. мясной оператор (без него никуда) ищет новое + скармливает сетке, сетка учится и все ошибки такого класса начинает находить

Vladimir

27.07.2017
10:13:39

жалкий человечишка обнаружил проблему на одном графике, пометил ее для робота как аномалию, и робот нашел ее еще на паре тысяч метрик из миллиона. думаю профит от всего этого тут зарыт. мясной оператор (без него никуда) ищет новое + скармливает сетке, сетка учится и все ошибки такого класса начинает находить

но дело в том что сетки эти узкоспециализированные

их надо упорно обучать

фильтровать false positive и false negative

и т.п.

оно вот так как описано не очень работает на текущем уровне развития технологий

Sergey

27.07.2017
10:14:38

жалкий человечишка обнаружил проблему на одном графике, пометил ее для робота как аномалию, и робот нашел ее еще на паре тысяч метрик из миллиона. думаю профит от всего этого тут зарыт. мясной оператор (без него никуда) ищет новое + скармливает сетке, сетка учится и все ошибки такого класса начинает находить

потом сетка переобучается и начинает показывать только то что мы нашли с помощью обучения.

Google

Sergey

27.07.2017
10:14:39

привет.

Vladimir

27.07.2017
10:14:57

а еще потом тебе ндао научиться отвечать на вопрос "как работает сетка" )

даже лучше так

Sergey

27.07.2017
10:17:10

ммм, богосорт

Ivan

27.07.2017
10:17:22

это да, не говоря уже о том, что это реализуется совсем не тривиально. НО, в пользу такого подхода работает большое количество накопленных в мониторинге данных которые можно использовать для обучения. может быть часть этих данных даже размечена уже инцидентами. Это не отменяет необходимости конечно кому-то посидеть пол-года тыкая в графики и помечая их "хороший" "плохой" "аномалия класса XYZ".

потом сетка переобучается и начинает показывать только то что мы нашли с помощью обучения.

это тоже результат, на самом деле, на автомате определять хорошо известные проблемы в сотнях тысяч временных рядов.

а еще потом тебе ндао научиться отвечать на вопрос "как работает сетка" )

а вот это как раз не обязательно =) как минимум, пока точного ответа не придумали. "так подстроились веса" — самое точное что можно по этому поводу сказать

Admin

ERROR: S client not available

Sergey

27.07.2017
10:22:20

переобучение даст скорее результат "мы не видим новых алертов вообще, а куча старых перестала показываться". мне очень нравится идея этого подхода, но я не вижу ни одного работающего решения. и подозреваю, что это не просто так.

Vladimir

27.07.2017
10:23:07

а вот это как раз не обязательно =) как минимум, пока точного ответа не придумали. "так подстроились веса" — самое точное что можно по этому поводу сказать

как раз обязательно чтобы понять произошло ли переобучение и ваще какие классы алертов оно будет детектить, а какие нет )

иначе ты получишь на выходе черный ящик который неизвестно как работает и непонятно как чинить

то есть ты будешь подавать на вход данные и получать на выходе непонятное нечто, похожее на алерты

без какой либо уверенности что внутри адекватная обработка

Ivan

27.07.2017
10:24:41

иначе ты получишь на выходе черный ящик который неизвестно как работает и непонятно как чинить

достаточно точное описание состояния ML на данный момент, как мне кажется =)

переобучение даст скорее результат "мы не видим новых алертов вообще, а куча старых перестала показываться". мне очень нравится идея этого подхода, но я не вижу ни одного работающего решения. и подозреваю, что это не просто так.

есть https://grokstream.com/ и уже помянутый тут модуль от эластика, может кто использовал?

без какой либо уверенности что внутри адекватная обработка

уверенности нет пока даже на переднем крае этой темы. гугловские глубокие сетки детектят котиков на картинках точнее человека, а все что могут сказать их разработчики это то что "ну на первых слоях определяются признаки наличия простых признаков вроде четких линий, а последние слои определяют "котовость""

Vladimir

27.07.2017
10:30:03

уверенности нет пока даже на переднем крае этой темы. гугловские глубокие сетки детектят котиков на картинках точнее человека, а все что могут сказать их разработчики это то что "ну на первых слоях определяются признаки наличия простых признаков вроде четких линий, а последние слои определяют "котовость""

конечно, но как бы если сеточка не определит котика или определит песика или слоника как котика - это не страшно

а вот бизнесу немного страшно когда нейроночка не определит важную аномалию )

Ivan

27.07.2017
10:34:39

в этом очень большая беда этих методов. самое страшное что их тянут в такие области, как например автопилоты для машин. была где-то статья про американского самоделкина, которые поставил в свою тачку комп с видеокарточками, облепил машину лидарами и камерами и ездил так несколько месяцев обучая свой черный ящик вождению (я бы даже сказал своему стилю вождения), обучившись автопилот дальше смог водить машину сам.

Google

Ivan

27.07.2017
10:35:08

вот аномалии в графиках я бы еще поискал так, а в машину к тому чуваку точно бы не сел )

Vladimir

27.07.2017
10:57:16

@ivanvg кстати про машины, я сторонник того чтобы транспортом управляла единая система с пониманием где какая машина, куда ей надо и пр.

адаптирующаяся под это

то есть просто отнять у людей руль и педали

и рулить трафиком в масштабах города чуть больше чем полностью

но опять же не с текущими технологиями

Ivan

27.07.2017
11:17:52

@ivanvg кстати про машины, я сторонник того чтобы транспортом управляла единая система с пониманием где какая машина, куда ей надо и пр.

@Civiloid в идеале машины должны быть все же автономны и способны обмениваться информацией друг с другом, в централизованную систему им хорошо бы ходить только для справки. представь такой централизованный скайнет на масштабах Москвы, он падает/тормозит/выкатили неудачный апдейт и на улице ад. Но ты прав это даже не завтра и не послезавтра будет.

Pablo

27.07.2017
11:26:16

жалкий человечишка обнаружил проблему на одном графике, пометил ее для робота как аномалию, и робот нашел ее еще на паре тысяч метрик из миллиона. думаю профит от всего этого тут зарыт. мясной оператор (без него никуда) ищет новое + скармливает сетке, сетка учится и все ошибки такого класса начинает находить

прям ошибки найдёте?

это тоже результат, на самом деле, на автомате определять хорошо известные проблемы в сотнях тысяч временных рядов.

какие конкретно проблемы в неизвестных времянных рядах?

Ivan

27.07.2017
11:37:32

прям ошибки найдёте?

_в_ _теории_ да. инцидент, или ситуация предваряющая инцидент, на графиках — это картинка, которую надо распознать. задача распознавания и классификации картинок вроде, как решена. как оно получится на практике, сказать нельзя, из присутствующих никто коммерческое не щупал и свое так глубоко не довел. вернее сказать то можно: 1)что-то оно будет находить, 2) что-то нет, 3) где-то будет лажать, 4) кто-то должен будет для нее размечать инциденты, 5) классифицировать картинки и 6) все это займет много времени с неизвестным результатом. Стоит оно того или нет решает каждый сам

Denys ??

27.07.2017
11:46:06

Ну похоже все кому нужно уже решили. Я много слушал что та или иная контора у себя внедрила anomaly detection, но как правило это звучит как "а вот этот квадратик на схеме - это детектор аномалий, он нам аномалии детектирует". Все.

Sergey

27.07.2017
11:47:13

Ну похоже все кому нужно уже решили. Я много слушал что та или иная контора у себя внедрила anomaly detection, но как правило это звучит как "а вот этот квадратик на схеме - это детектор аномалий, он нам аномалии детектирует". Все.

там часто всё "внедрение" сводится к напихиванию агентов во все места, которые данные шлют в облако, которое что-то возвращает (NewRelic, DataDog, Nginx Amplify)

Oleg