@metrics_ru

« Назад

Страница 619 из 681

Далее »

Alexey

21.08.2018
18:34:05

?

Paul

21.08.2018
18:34:14

А чем сложен Zabbix? И кем не поддерживается?

не пробовали настроить мониторинг сетевого оборудования на нем? Когда метрик МНОГО?

Andor

21.08.2018
18:34:25

Кстати, вопрос в тему. Мне вот нужно часть метрик в prometheus защитить аутентификацией или как-то по другому. Как я понимаю, только еще один инстант prometheus + local bind + nginx/что-то еще для входа?

тебе это не нужно

Paul

21.08.2018
18:34:32

в заббиксе есть миллион способов отстрелить себе пятку

Google

Andor

21.08.2018
18:34:34

в прометее нет метрик-левел секурити

Alexey

21.08.2018
18:34:41

не пробовали настроить мониторинг сетевого оборудования на нем? Когда метрик МНОГО?

Да, насколько я понимаю, главный ужас в нем - это масштабирование

Andor

21.08.2018
18:34:45

и вообще нет секурити, подразумевается что ты в доверенной сети

Paul

21.08.2018
18:34:48

тебе это не нужно

никогда не решайте за других, что им надо а что нет

что за свинство такое вообще

Andrey

21.08.2018
18:34:55

не пробовали настроить мониторинг сетевого оборудования на нем? Когда метрик МНОГО?

Ииии? :) В чём конкретно проблема, с Вашей точки зрения?

Paul

21.08.2018
18:35:04

Кстати, вопрос в тему. Мне вот нужно часть метрик в prometheus защитить аутентификацией или как-то по другому. Как я понимаю, только еще один инстант prometheus + local bind + nginx/что-то еще для входа?

да, это самый простой вариант

Andor

21.08.2018
18:35:06

что за свинство такое вообще

добро пожаловать в интернет

Paul

21.08.2018
18:35:11

Ииии? :) В чём конкретно проблема, с Вашей точки зрения?

помирает оно

под смешной нагрузкой помирает

Andrey

21.08.2018
18:35:44

помирает оно

Так ведь от чего помирает? Есть же конкретная причина.

Kirill

21.08.2018
18:35:50

помирает там база

Paul

21.08.2018
18:36:06

Так ведь от чего помирает? Есть же конкретная причина.

метрик слишком много, снмп-поллер работает крайне криворуко

Google

Alexey

21.08.2018
18:36:08

помирает там база

Какая разница, какой компонент постирает?

Bogdan (SirEdvin)

21.08.2018
18:36:08

тебе это не нужно

Мне - нет. А вот бизнес считает, что ему это нужно, способа донести ему это у меня нет, так как конкретно в этом случае со своей позиции он прав)

Kirill

21.08.2018
18:36:17

так как метрик много партициониирования из коробки нет

Andor

21.08.2018
18:36:36

Мне - нет. А вот бизнес считает, что ему это нужно, способа донести ему это у меня нет, так как конкретно в этом случае со своей позиции он прав)

можно поставить второй прометей с такими вот данными

Andrey

21.08.2018
18:36:47

метрик слишком много, снмп-поллер работает крайне криворуко

Ага. Тем не менее инсталляции масштабов Сбертеха показывают, что это можно побороть вполне.

Bogdan (SirEdvin)

21.08.2018
18:36:49

Ну вот это самое простое, что пришло мне в голову и что я буду делать

А еще отдельный endpoint в django с какой-то защитой :)

Andor

21.08.2018
18:37:06

геморрой в общем

Kirill

21.08.2018
18:37:12

ну снмп сам по себе не очень

Bogdan (SirEdvin)

21.08.2018
18:37:38

Если бы не бизнес с их странными требованиями, то проблем в IT сфере вообще бы не было, да :)

Kirill

21.08.2018
18:37:43

обычно на железке он первый под нагрузке и сдохнет

Alexey

21.08.2018
18:37:44

Ага. Тем не менее инсталляции масштабов Сбертеха показывают, что это можно побороть вполне.

У них 20к значений в секунду. У меня такое с десятка сервисов + хостов. Это только начало

Paul

21.08.2018
18:37:51

ну снмп сам по себе не очень

ну когда у вас железка 95 года выпуска - выбирать не приходится особо

У них 20к значений в секунду. У меня такое с десятка сервисов + хостов. Это только начало

от такого даже оракл сдохнет

Andrey

21.08.2018
18:38:17

У них 20к значений в секунду. У меня такое с десятка сервисов + хостов. Это только начало

Эмм... А что вы делаете с таким количеством метрик ПОТОМ?

Alexey

21.08.2018
18:38:21

А графит на простом жестком диске держит. И не только он

Andrey

21.08.2018
18:38:36

Эмм... А что вы делаете с таким количеством метрик ПОТОМ?

Ну т.е. собрали их и... ЧТО дальше-то?

Andor

21.08.2018
18:39:01

у нас прометей собирал 400к сэмплов в секунду и рисовал графики на сотнях мониторов в разных странах

400к это один из инстансов был

Alexey

21.08.2018
18:39:21

Эмм... А что вы делаете с таким количеством метрик ПОТОМ?

У меня специфика в том, что метрики нужны за последний +- час, а потом уже неинтересны. Поэтому поток большой, а истории почти нет

Google

Andor

21.08.2018
18:39:24

очевидно что большая часть данных там никогда не читалась

Alexey

21.08.2018
18:39:49

Ну т.е. собрали их и... ЧТО дальше-то?

Дальше алертинг и все такое. Смотреть такое глазами никто не будет, конечно

Bogdan (SirEdvin)

21.08.2018
18:39:54

Ну т.е. собрали их и... ЧТО дальше-то?

Часть используется для алертов и дашбордов, а остальные лежат на всякий случай.

Современный мониторинг - лучше больше, чем меньше.

Alexey

21.08.2018
18:40:14

очевидно что большая часть данных там никогда не читалась

Это характерно дня любой системы сбора метрик. Они все в основном пишут

Современный мониторинг - лучше больше, чем меньше.

Абсолютно согласен

Netdata - отличный пример.

Andrey

21.08.2018
18:41:44

Это характерно дня любой системы сбора метрик. Они все в основном пишут

В любой записи должен быть какой-то смысл. Если это не Splunk/ELK, то не очень понятен смысл просто "писать, чтобы писать". У нас, например, Zabbix для анализа проблем и генерации оповещений.

Andor

21.08.2018
18:42:10

у нас на прошлой работе начали прометея внедрять когда в один прекрасный месяц заплатили сервису librato 40к баксов

Andrey

21.08.2018
18:43:16

Собственно графики мало кто смотрит, и это какие-то ключевые вещи. Невозможно просто посадить человека, неотрывно следящего за графиками и принимающего на основе анализа естественным интеллектом какие-то решения. Слишком много информации - так же плохо, как и её недостаток.

Andor

21.08.2018
18:43:29

понятно что спустя год в сумме серваки прометея дороже вышли, но и качество метрик стало несравнимо выше

Bogdan (SirEdvin)

21.08.2018
18:43:55

Графики нужны для анализа ситуации, которая уже произошла. Зачем неотрывно смотреть в графики?

Andor

21.08.2018
18:44:10

да просто на телеке красиво выглядит :)

Bogdan (SirEdvin)

21.08.2018
18:44:16

Это да

Alexey

21.08.2018
18:44:34

В любой записи должен быть какой-то смысл. Если это не Splunk/ELK, то не очень понятен смысл просто "писать, чтобы писать". У нас, например, Zabbix для анализа проблем и генерации оповещений.

Смысл в том, что когда что-то ломается, лучше иметь больше данных, чем меньше

Гораздо проще расследовать

Bogdan (SirEdvin)

21.08.2018
18:45:15

Если у меня получится, потом буду хвастатся настройкой этого плагина: https://grafana.com/plugins/jdbranham-diagram-panel

Andrey

21.08.2018
18:45:23

Графики нужны для анализа ситуации, которая уже произошла. Зачем неотрывно смотреть в графики?

Если это мониторинг приложений, то там нужны удобные средства доступа к такой информации, тут я бы наверное предпочёл Splunk, а не какие-то чудо-средства, собирающие миллиарды метрик и способные их тупо показать - и ничег более. Это не Big Data, это Trash Data какой-то уже

Andor

21.08.2018
18:46:08

Если у меня получится, потом буду хвастатся настройкой этого плагина: https://grafana.com/plugins/jdbranham-diagram-panel

сколько ожидается узлов?

Bogdan (SirEdvin)

21.08.2018
18:46:18

Если это мониторинг приложений, то там нужны удобные средства доступа к такой информации, тут я бы наверное предпочёл Splunk, а не какие-то чудо-средства, собирающие миллиарды метрик и способные их тупо показать - и ничег более. Это не Big Data, это Trash Data какой-то уже

Тупо показать - это всмысле? Что prometheus, что graphite поддерживают больше количество различных запросов с операциями + алерты

Google

Andor

21.08.2018
18:46:42

у меня, когда я пробовал, не вышло нарисовать простенькую схему с двухсторонними связями для пяти узлов

не говоря уже про то чтобы метрики им добавить

Bogdan (SirEdvin)

21.08.2018
18:46:57

сколько ожидается узлов?

Я планировал по приложениями, у меня где-то 14 приложенией будет. Возможно что-то сожму в одно, там дублирование.

Alexey

21.08.2018
18:47:08

Если у меня получится, потом буду хвастатся настройкой этого плагина: https://grafana.com/plugins/jdbranham-diagram-panel

О, это будет интересно!

Nklya

21.08.2018
18:47:43

Собственно графики мало кто смотрит, и это какие-то ключевые вещи. Невозможно просто посадить человека, неотрывно следящего за графиками и принимающего на основе анализа естественным интеллектом какие-то решения. Слишком много информации - так же плохо, как и её недостаток.

Кто-то остался в 2005 тоже

Andrey

21.08.2018
18:48:23

Мало того, штуки типа Splunk'а и прочие близкие к Big Data могут предсказывать неблагоприятное развитие ситуации, ну и вообще предсказывать, машинно обучаясь на предыдущих данных. Но вообще именно по мониторигу приложений согласен, что Zabbix тут весьма фигов. С 3.4.6 вроде бы он уже умеет совать данные в Elastic, и это должен быть определённый прорыв, но пока конечно работа с history - полный треш, если метрик реально много

Nklya

21.08.2018
18:49:43

В правилах чата кстати есть, что за упоминание Z в полном имени и за развязывание холиваров про него клиент получает ro на неделю-другую

В описании есть FAQ, там все написано http://bit.ly/2AHQRa9

Andrey

21.08.2018
18:50:32

Кто-то остался в 2005 тоже

Я считаю, что данные либо нужно собирать потоком как это делает тот же Splunk, чтобы потом иметь возможность это "море данных" анализировать автоматизированными средствами, включая инструментарий AI, либо - нужно хотя бы понимать, что с этими данными делать.

Admin

ERROR: S client not available

Alexey

21.08.2018
18:50:33

Мало того, штуки типа Splunk'а и прочие близкие к Big Data могут предсказывать неблагоприятное развитие ситуации, ну и вообще предсказывать, машинно обучаясь на предыдущих данных. Но вообще именно по мониторигу приложений согласен, что Zabbix тут весьма фигов. С 3.4.6 вроде бы он уже умеет совать данные в Elastic, и это должен быть определённый прорыв, но пока конечно работа с history - полный треш, если метрик реально много

Насчёт предсказаний: пока не верится, что они что-то кроме того, что диск скоро кончится могут предсказывать. По крайней мере, я не видел

Andor

21.08.2018
18:51:18

потому что у всех эти предсказния очень кастомные

Alexey

21.08.2018
18:51:19

Я считаю, что данные либо нужно собирать потоком как это делает тот же Splunk, чтобы потом иметь возможность это "море данных" анализировать автоматизированными средствами, включая инструментарий AI, либо - нужно хотя бы понимать, что с этими данными делать.

Так мы понимаем. Разве не понимаем?

Andor

21.08.2018
18:51:21

и корреляции

Nklya

21.08.2018
18:51:27

собирать метрики из логов спланком, который стоит как два самолета - классический путь ынтырпрайза

Зачастую у них спланк - это единственный мониторинг, который работает и отлавливает факапы

Andrey

21.08.2018
18:52:05

Насчёт предсказаний: пока не верится, что они что-то кроме того, что диск скоро кончится могут предсказывать. По крайней мере, я не видел

Это предсказание значений, причём здесь конкрентное применение?

Alexey

21.08.2018
18:52:59

Это предсказание значений, причём здесь конкрентное применение?

А зачем предсказывать значения?

Andrey

21.08.2018
18:53:16

Так мы понимаем. Разве не понимаем?

И с помощью чего анализируете собранной графитом или прометеусом?

Alexey

21.08.2018
18:53:46

И с помощью чего анализируете собранной графитом или прометеусом?

Я ж говорю, когда что-то ломается, я начинаю уже смотреть реальные графики

Google

Alexey

21.08.2018
18:53:50

глазами

Кстати, по поводу предсказаний ? : https://graphite.readthedocs.io/en/latest/functions.html#graphite.render.functions.holtWintersForecast

Andrey

21.08.2018
18:54:56

Я ж говорю, когда что-то ломается, я начинаю уже смотреть реальные графики

Ну так предсказание и помогает предупредить вас о том, что есть негативный тренд. А, например, обнаружение аномалий помогает выявить нестандартное поведение приложения, на которое, очень возможно, стоит обратить внимание

Кстати, по поводу предсказаний ? : https://graphite.readthedocs.io/en/latest/functions.html#graphite.render.functions.holtWintersForecast

В таком виде оно даже в zabbix есть. Хотя работает понятное дело как с учётом скорости чтения history

Alexey

21.08.2018
18:57:44

Ну вот пример понедельника. Админы мне говорят: "Твоя виртуалка иногда сильно жрёт диск, причём делает она это каждые 20 минут в течение пары секунд". Я начинаю разбираться, оказывается, у меня приложение свопило пару мегабайт, а раз в 15 минут у меня приходил GC и поднимал эту память с диска. Результат раз в 15 минут пики по 5 Мбайт/с с диска длительностью в 1-2 секунды

Аномалий тут, в целом, нет - всегда каждые 15 минут жрёт :)

Andrey

21.08.2018
18:59:43

Ну вот пример понедельника. Админы мне говорят: "Твоя виртуалка иногда сильно жрёт диск, причём делает она это каждые 20 минут в течение пары секунд". Я начинаю разбираться, оказывается, у меня приложение свопило пару мегабайт, а раз в 15 минут у меня приходил GC и поднимал эту память с диска. Результат раз в 15 минут пики по 5 Мбайт/с с диска длительностью в 1-2 секунды

Мда. У коллеги справа от меня та же беда с Кафкой :(

Тьфу, совсем уже крыша едет, слева от меня! Справа проход :( Короче, да, для мониторинга приложений Z хреноват. Собственно, под это дело у нас как раз сейчас Splunk активно внедряют

ОК, ок. У меня, кстати, Gateway timeout при доступе к FAQ

Nklya

21.08.2018
19:02:37

Там есть кнопочка "Instant view" для читателей из мордора

Alexey

21.08.2018
19:02:57

Да работает всё, у меня так точно

Robert

21.08.2018
19:04:10

У меня тоже не работает

Nklya

21.08.2018
19:04:29

telegra.ph заблокирован вместе с остальной инфрой телеги

?

21.08.2018
19:06:40

ОК, ок. У меня, кстати, Gateway timeout при доступе к FAQ

гы. используй Browsec

Andrey

21.08.2018
19:07:33

1. Реляционные базы данных не подходят для time-series. Справедливости ради, они в послденее время оченьл активно пилят интеграцию с ELK и в бета-варианте она вполне сносно работает. У меня на тестовом стенде тоже проблем нет, но в продуктиве использовать немного стрёмно (http-запросы совсем не радуют)

Andor

21.08.2018
19:07:54

ELK-то дофига реляционная база данных

Nklya

21.08.2018
19:09:36

эластик примерно так же подходит для tsdb, как и мускуль ранее. у владышева хорошее чутье как всегда))

Andor

21.08.2018
19:12:52

блин, а таймскейл только сингл-нод дают бесплатно?

Andrey

21.08.2018
19:21:11

Ну вот пример понедельника. Админы мне говорят: "Твоя виртуалка иногда сильно жрёт диск, причём делает она это каждые 20 минут в течение пары секунд". Я начинаю разбираться, оказывается, у меня приложение свопило пару мегабайт, а раз в 15 минут у меня приходил GC и поднимал эту память с диска. Результат раз в 15 минут пики по 5 Мбайт/с с диска длительностью в 1-2 секунды

Сорри за оффтоп, можно в личку, если это принципиально или просто в 2-х словах: почему в принципе происходило сваливание чего-либо в swap? У нас такая проблема наблюдается при том, что политика ОС "не свопить до последнего" - и памяти хватает вполне. Но память JVM попадает как-то в своп всё равно.

Andor

21.08.2018
19:23:01

а ещё можно изучить как в линуксе работает swap и в какой версии поведение vm.swappines поменяли

Alexey

21.08.2018
19:24:22

По идее vm.swappiness = 1 и этого в большинстве случаев должно хватает, но иногда реально свопится без причины. Чтобы такого не было, можно делать mlock, тогда никогда не засвопится

« Назад

Страница 619 из 681

Далее »

Открыть в Telegram