@metrics_ru

Страница 619 из 681
Alexey
21.08.2018
18:34:05
?

Paul
21.08.2018
18:34:14
А чем сложен Zabbix? И кем не поддерживается?
не пробовали настроить мониторинг сетевого оборудования на нем? Когда метрик МНОГО?

Paul
21.08.2018
18:34:32
в заббиксе есть миллион способов отстрелить себе пятку

Google
Andor
21.08.2018
18:34:34
в прометее нет метрик-левел секурити

Alexey
21.08.2018
18:34:41
не пробовали настроить мониторинг сетевого оборудования на нем? Когда метрик МНОГО?
Да, насколько я понимаю, главный ужас в нем - это масштабирование

Andor
21.08.2018
18:34:45
и вообще нет секурити, подразумевается что ты в доверенной сети

Paul
21.08.2018
18:34:48
тебе это не нужно
никогда не решайте за других, что им надо а что нет

что за свинство такое вообще

Andrey
21.08.2018
18:34:55
Andor
21.08.2018
18:35:06
что за свинство такое вообще
добро пожаловать в интернет

Paul
21.08.2018
18:35:11
под смешной нагрузкой помирает

Andrey
21.08.2018
18:35:44
помирает оно
Так ведь от чего помирает? Есть же конкретная причина.

Kirill
21.08.2018
18:35:50
помирает там база

Paul
21.08.2018
18:36:06
Так ведь от чего помирает? Есть же конкретная причина.
метрик слишком много, снмп-поллер работает крайне криворуко

Google
Alexey
21.08.2018
18:36:08
помирает там база
Какая разница, какой компонент постирает?

Bogdan (SirEdvin)
21.08.2018
18:36:08
тебе это не нужно
Мне - нет. А вот бизнес считает, что ему это нужно, способа донести ему это у меня нет, так как конкретно в этом случае со своей позиции он прав)

Kirill
21.08.2018
18:36:17
так как метрик много партициониирования из коробки нет

Andrey
21.08.2018
18:36:47
метрик слишком много, снмп-поллер работает крайне криворуко
Ага. Тем не менее инсталляции масштабов Сбертеха показывают, что это можно побороть вполне.

Bogdan (SirEdvin)
21.08.2018
18:36:49
Ну вот это самое простое, что пришло мне в голову и что я буду делать

А еще отдельный endpoint в django с какой-то защитой :)

Andor
21.08.2018
18:37:06
геморрой в общем

Kirill
21.08.2018
18:37:12
ну снмп сам по себе не очень

Bogdan (SirEdvin)
21.08.2018
18:37:38
Если бы не бизнес с их странными требованиями, то проблем в IT сфере вообще бы не было, да :)

Kirill
21.08.2018
18:37:43
обычно на железке он первый под нагрузке и сдохнет

Alexey
21.08.2018
18:37:44
Ага. Тем не менее инсталляции масштабов Сбертеха показывают, что это можно побороть вполне.
У них 20к значений в секунду. У меня такое с десятка сервисов + хостов. Это только начало

Paul
21.08.2018
18:37:51
ну снмп сам по себе не очень
ну когда у вас железка 95 года выпуска - выбирать не приходится особо

Andrey
21.08.2018
18:38:17
Alexey
21.08.2018
18:38:21
А графит на простом жестком диске держит. И не только он

Andrey
21.08.2018
18:38:36
Andor
21.08.2018
18:39:01
у нас прометей собирал 400к сэмплов в секунду и рисовал графики на сотнях мониторов в разных странах

400к это один из инстансов был

Alexey
21.08.2018
18:39:21
Эмм... А что вы делаете с таким количеством метрик ПОТОМ?
У меня специфика в том, что метрики нужны за последний +- час, а потом уже неинтересны. Поэтому поток большой, а истории почти нет

Google
Andor
21.08.2018
18:39:24
очевидно что большая часть данных там никогда не читалась

Alexey
21.08.2018
18:39:49
Ну т.е. собрали их и... ЧТО дальше-то?
Дальше алертинг и все такое. Смотреть такое глазами никто не будет, конечно

Bogdan (SirEdvin)
21.08.2018
18:39:54
Ну т.е. собрали их и... ЧТО дальше-то?
Часть используется для алертов и дашбордов, а остальные лежат на всякий случай.

Современный мониторинг - лучше больше, чем меньше.

Alexey
21.08.2018
18:40:14
очевидно что большая часть данных там никогда не читалась
Это характерно дня любой системы сбора метрик. Они все в основном пишут

Netdata - отличный пример.

Andrey
21.08.2018
18:41:44
Это характерно дня любой системы сбора метрик. Они все в основном пишут
В любой записи должен быть какой-то смысл. Если это не Splunk/ELK, то не очень понятен смысл просто "писать, чтобы писать". У нас, например, Zabbix для анализа проблем и генерации оповещений.

Andor
21.08.2018
18:42:10
у нас на прошлой работе начали прометея внедрять когда в один прекрасный месяц заплатили сервису librato 40к баксов

Andrey
21.08.2018
18:43:16
Собственно графики мало кто смотрит, и это какие-то ключевые вещи. Невозможно просто посадить человека, неотрывно следящего за графиками и принимающего на основе анализа естественным интеллектом какие-то решения. Слишком много информации - так же плохо, как и её недостаток.

Andor
21.08.2018
18:43:29
понятно что спустя год в сумме серваки прометея дороже вышли, но и качество метрик стало несравнимо выше

Bogdan (SirEdvin)
21.08.2018
18:43:55
Графики нужны для анализа ситуации, которая уже произошла. Зачем неотрывно смотреть в графики?

Andor
21.08.2018
18:44:10
да просто на телеке красиво выглядит :)

Bogdan (SirEdvin)
21.08.2018
18:44:16
Это да

Bogdan (SirEdvin)
21.08.2018
18:45:15
Если у меня получится, потом буду хвастатся настройкой этого плагина: https://grafana.com/plugins/jdbranham-diagram-panel

Andrey
21.08.2018
18:45:23
Графики нужны для анализа ситуации, которая уже произошла. Зачем неотрывно смотреть в графики?
Если это мониторинг приложений, то там нужны удобные средства доступа к такой информации, тут я бы наверное предпочёл Splunk, а не какие-то чудо-средства, собирающие миллиарды метрик и способные их тупо показать - и ничег более. Это не Big Data, это Trash Data какой-то уже

Google
Andor
21.08.2018
18:46:42
у меня, когда я пробовал, не вышло нарисовать простенькую схему с двухсторонними связями для пяти узлов

не говоря уже про то чтобы метрики им добавить

Bogdan (SirEdvin)
21.08.2018
18:46:57
сколько ожидается узлов?
Я планировал по приложениями, у меня где-то 14 приложенией будет. Возможно что-то сожму в одно, там дублирование.

Andrey
21.08.2018
18:48:23
Мало того, штуки типа Splunk'а и прочие близкие к Big Data могут предсказывать неблагоприятное развитие ситуации, ну и вообще предсказывать, машинно обучаясь на предыдущих данных. Но вообще именно по мониторигу приложений согласен, что Zabbix тут весьма фигов. С 3.4.6 вроде бы он уже умеет совать данные в Elastic, и это должен быть определённый прорыв, но пока конечно работа с history - полный треш, если метрик реально много

Nklya
21.08.2018
18:49:43
В правилах чата кстати есть, что за упоминание Z в полном имени и за развязывание холиваров про него клиент получает ro на неделю-другую

В описании есть FAQ, там все написано http://bit.ly/2AHQRa9

Andrey
21.08.2018
18:50:32
Кто-то остался в 2005 тоже
Я считаю, что данные либо нужно собирать потоком как это делает тот же Splunk, чтобы потом иметь возможность это "море данных" анализировать автоматизированными средствами, включая инструментарий AI, либо - нужно хотя бы понимать, что с этими данными делать.

Admin
ERROR: S client not available

Andor
21.08.2018
18:51:18
потому что у всех эти предсказния очень кастомные

Andor
21.08.2018
18:51:21
и корреляции

Nklya
21.08.2018
18:51:27
собирать метрики из логов спланком, который стоит как два самолета - классический путь ынтырпрайза

Зачастую у них спланк - это единственный мониторинг, который работает и отлавливает факапы

Alexey
21.08.2018
18:52:59
Andrey
21.08.2018
18:53:16
Так мы понимаем. Разве не понимаем?
И с помощью чего анализируете собранной графитом или прометеусом?

Alexey
21.08.2018
18:53:46
И с помощью чего анализируете собранной графитом или прометеусом?
Я ж говорю, когда что-то ломается, я начинаю уже смотреть реальные графики

Google
Alexey
21.08.2018
18:53:50
глазами

Кстати, по поводу предсказаний ? : https://graphite.readthedocs.io/en/latest/functions.html#graphite.render.functions.holtWintersForecast

Andrey
21.08.2018
18:54:56
Я ж говорю, когда что-то ломается, я начинаю уже смотреть реальные графики
Ну так предсказание и помогает предупредить вас о том, что есть негативный тренд. А, например, обнаружение аномалий помогает выявить нестандартное поведение приложения, на которое, очень возможно, стоит обратить внимание

Кстати, по поводу предсказаний ? : https://graphite.readthedocs.io/en/latest/functions.html#graphite.render.functions.holtWintersForecast
В таком виде оно даже в zabbix есть. Хотя работает понятное дело как с учётом скорости чтения history

Alexey
21.08.2018
18:57:44
Ну вот пример понедельника. Админы мне говорят: "Твоя виртуалка иногда сильно жрёт диск, причём делает она это каждые 20 минут в течение пары секунд". Я начинаю разбираться, оказывается, у меня приложение свопило пару мегабайт, а раз в 15 минут у меня приходил GC и поднимал эту память с диска. Результат раз в 15 минут пики по 5 Мбайт/с с диска длительностью в 1-2 секунды

Аномалий тут, в целом, нет - всегда каждые 15 минут жрёт :)

Andrey
21.08.2018
18:59:43
Тьфу, совсем уже крыша едет, слева от меня! Справа проход :( Короче, да, для мониторинга приложений Z хреноват. Собственно, под это дело у нас как раз сейчас Splunk активно внедряют

ОК, ок. У меня, кстати, Gateway timeout при доступе к FAQ

Nklya
21.08.2018
19:02:37
Там есть кнопочка "Instant view" для читателей из мордора

Alexey
21.08.2018
19:02:57
Да работает всё, у меня так точно

Robert
21.08.2018
19:04:10
У меня тоже не работает

Nklya
21.08.2018
19:04:29
telegra.ph заблокирован вместе с остальной инфрой телеги

Andrey
21.08.2018
19:07:33
1. Реляционные базы данных не подходят для time-series. Справедливости ради, они в послденее время оченьл активно пилят интеграцию с ELK и в бета-варианте она вполне сносно работает. У меня на тестовом стенде тоже проблем нет, но в продуктиве использовать немного стрёмно (http-запросы совсем не радуют)

Andor
21.08.2018
19:07:54
ELK-то дофига реляционная база данных

Nklya
21.08.2018
19:09:36
эластик примерно так же подходит для tsdb, как и мускуль ранее. у владышева хорошее чутье как всегда))

Andor
21.08.2018
19:12:52
блин, а таймскейл только сингл-нод дают бесплатно?

Andrey
21.08.2018
19:21:11
Ну вот пример понедельника. Админы мне говорят: "Твоя виртуалка иногда сильно жрёт диск, причём делает она это каждые 20 минут в течение пары секунд". Я начинаю разбираться, оказывается, у меня приложение свопило пару мегабайт, а раз в 15 минут у меня приходил GC и поднимал эту память с диска. Результат раз в 15 минут пики по 5 Мбайт/с с диска длительностью в 1-2 секунды
Сорри за оффтоп, можно в личку, если это принципиально или просто в 2-х словах: почему в принципе происходило сваливание чего-либо в swap? У нас такая проблема наблюдается при том, что политика ОС "не свопить до последнего" - и памяти хватает вполне. Но память JVM попадает как-то в своп всё равно.

Andor
21.08.2018
19:23:01
а ещё можно изучить как в линуксе работает swap и в какой версии поведение vm.swappines поменяли

Alexey
21.08.2018
19:24:22
По идее vm.swappiness = 1 и этого в большинстве случаев должно хватает, но иногда реально свопится без причины. Чтобы такого не было, можно делать mlock, тогда никогда не засвопится

Страница 619 из 681