
Alexey
21.08.2018
18:34:05
?

Paul
21.08.2018
18:34:14

Andor
21.08.2018
18:34:25

Paul
21.08.2018
18:34:32
в заббиксе есть миллион способов отстрелить себе пятку

Google

Andor
21.08.2018
18:34:34
в прометее нет метрик-левел секурити

Alexey
21.08.2018
18:34:41

Andor
21.08.2018
18:34:45
и вообще нет секурити, подразумевается что ты в доверенной сети

Paul
21.08.2018
18:34:48
что за свинство такое вообще

Andrey
21.08.2018
18:34:55

Paul
21.08.2018
18:35:04

Andor
21.08.2018
18:35:06

Paul
21.08.2018
18:35:11
под смешной нагрузкой помирает

Andrey
21.08.2018
18:35:44
помирает оно
Так ведь от чего помирает? Есть же конкретная причина.

Kirill
21.08.2018
18:35:50
помирает там база

Paul
21.08.2018
18:36:06

Google

Alexey
21.08.2018
18:36:08

Bogdan (SirEdvin)
21.08.2018
18:36:08
тебе это не нужно
Мне - нет. А вот бизнес считает, что ему это нужно, способа донести ему это у меня нет, так как конкретно в этом случае со своей позиции он прав)

Kirill
21.08.2018
18:36:17
так как метрик много партициониирования из коробки нет

Andor
21.08.2018
18:36:36

Andrey
21.08.2018
18:36:47

Bogdan (SirEdvin)
21.08.2018
18:36:49
Ну вот это самое простое, что пришло мне в голову и что я буду делать
А еще отдельный endpoint в django с какой-то защитой :)

Andor
21.08.2018
18:37:06
геморрой в общем

Kirill
21.08.2018
18:37:12
ну снмп сам по себе не очень

Bogdan (SirEdvin)
21.08.2018
18:37:38
Если бы не бизнес с их странными требованиями, то проблем в IT сфере вообще бы не было, да :)

Kirill
21.08.2018
18:37:43
обычно на железке он первый под нагрузке и сдохнет

Alexey
21.08.2018
18:37:44

Paul
21.08.2018
18:37:51

Andrey
21.08.2018
18:38:17

Alexey
21.08.2018
18:38:21
А графит на простом жестком диске держит. И не только он

Andrey
21.08.2018
18:38:36

Andor
21.08.2018
18:39:01
у нас прометей собирал 400к сэмплов в секунду и рисовал графики на сотнях мониторов в разных странах
400к это один из инстансов был

Alexey
21.08.2018
18:39:21

Google

Andor
21.08.2018
18:39:24
очевидно что большая часть данных там никогда не читалась

Alexey
21.08.2018
18:39:49

Bogdan (SirEdvin)
21.08.2018
18:39:54
Современный мониторинг - лучше больше, чем меньше.

Alexey
21.08.2018
18:40:14
Netdata - отличный пример.

Andrey
21.08.2018
18:41:44

Andor
21.08.2018
18:42:10
у нас на прошлой работе начали прометея внедрять когда в один прекрасный месяц заплатили сервису librato 40к баксов

Andrey
21.08.2018
18:43:16
Собственно графики мало кто смотрит, и это какие-то ключевые вещи. Невозможно просто посадить человека, неотрывно следящего за графиками и принимающего на основе анализа естественным интеллектом какие-то решения. Слишком много информации - так же плохо, как и её недостаток.

Andor
21.08.2018
18:43:29
понятно что спустя год в сумме серваки прометея дороже вышли, но и качество метрик стало несравнимо выше

Bogdan (SirEdvin)
21.08.2018
18:43:55
Графики нужны для анализа ситуации, которая уже произошла. Зачем неотрывно смотреть в графики?

Andor
21.08.2018
18:44:10
да просто на телеке красиво выглядит :)

Bogdan (SirEdvin)
21.08.2018
18:44:16
Это да

Alexey
21.08.2018
18:44:34

Bogdan (SirEdvin)
21.08.2018
18:45:15
Если у меня получится, потом буду хвастатся настройкой этого плагина: https://grafana.com/plugins/jdbranham-diagram-panel

Andrey
21.08.2018
18:45:23

Andor
21.08.2018
18:46:08

Bogdan (SirEdvin)
21.08.2018
18:46:18

Google

Andor
21.08.2018
18:46:42
у меня, когда я пробовал, не вышло нарисовать простенькую схему с двухсторонними связями для пяти узлов
не говоря уже про то чтобы метрики им добавить

Bogdan (SirEdvin)
21.08.2018
18:46:57
сколько ожидается узлов?
Я планировал по приложениями, у меня где-то 14 приложенией будет. Возможно что-то сожму в одно, там дублирование.

Alexey
21.08.2018
18:47:08

Nklya
21.08.2018
18:47:43

Andrey
21.08.2018
18:48:23
Мало того, штуки типа Splunk'а и прочие близкие к Big Data могут предсказывать неблагоприятное развитие ситуации, ну и вообще предсказывать, машинно обучаясь на предыдущих данных.
Но вообще именно по мониторигу приложений согласен, что Zabbix тут весьма фигов. С 3.4.6 вроде бы он уже умеет совать данные в Elastic, и это должен быть определённый прорыв, но пока конечно работа с history - полный треш, если метрик реально много

Nklya
21.08.2018
18:49:43
В правилах чата кстати есть, что за упоминание Z в полном имени и за развязывание холиваров про него клиент получает ro на неделю-другую
В описании есть FAQ, там все написано
http://bit.ly/2AHQRa9

Andrey
21.08.2018
18:50:32
Кто-то остался в 2005 тоже
Я считаю, что данные либо нужно собирать потоком как это делает тот же Splunk, чтобы потом иметь возможность это "море данных" анализировать автоматизированными средствами, включая инструментарий AI, либо - нужно хотя бы понимать, что с этими данными делать.

Admin
ERROR: S client not available

Alexey
21.08.2018
18:50:33
Мало того, штуки типа Splunk'а и прочие близкие к Big Data могут предсказывать неблагоприятное развитие ситуации, ну и вообще предсказывать, машинно обучаясь на предыдущих данных.
Но вообще именно по мониторигу приложений согласен, что Zabbix тут весьма фигов. С 3.4.6 вроде бы он уже умеет совать данные в Elastic, и это должен быть определённый прорыв, но пока конечно работа с history - полный треш, если метрик реально много
Насчёт предсказаний: пока не верится, что они что-то кроме того, что диск скоро кончится могут предсказывать. По крайней мере, я не видел

Andor
21.08.2018
18:51:18
потому что у всех эти предсказния очень кастомные

Alexey
21.08.2018
18:51:19

Andor
21.08.2018
18:51:21
и корреляции

Nklya
21.08.2018
18:51:27
собирать метрики из логов спланком, который стоит как два самолета - классический путь ынтырпрайза
Зачастую у них спланк - это единственный мониторинг, который работает и отлавливает факапы

Andrey
21.08.2018
18:52:05

Alexey
21.08.2018
18:52:59

Andrey
21.08.2018
18:53:16

Alexey
21.08.2018
18:53:46

Google

Alexey
21.08.2018
18:53:50
глазами
Кстати, по поводу предсказаний ? : https://graphite.readthedocs.io/en/latest/functions.html#graphite.render.functions.holtWintersForecast

Andrey
21.08.2018
18:54:56


Alexey
21.08.2018
18:57:44
Ну вот пример понедельника. Админы мне говорят: "Твоя виртуалка иногда сильно жрёт диск, причём делает она это каждые 20 минут в течение пары секунд". Я начинаю разбираться, оказывается, у меня приложение свопило пару мегабайт, а раз в 15 минут у меня приходил GC и поднимал эту память с диска. Результат раз в 15 минут пики по 5 Мбайт/с с диска длительностью в 1-2 секунды
Аномалий тут, в целом, нет - всегда каждые 15 минут жрёт :)

Andrey
21.08.2018
18:59:43
Тьфу, совсем уже крыша едет, слева от меня! Справа проход :( Короче, да, для мониторинга приложений Z хреноват. Собственно, под это дело у нас как раз сейчас Splunk активно внедряют
ОК, ок. У меня, кстати, Gateway timeout при доступе к FAQ

Nklya
21.08.2018
19:02:37
Там есть кнопочка "Instant view" для читателей из мордора

Alexey
21.08.2018
19:02:57
Да работает всё, у меня так точно

Robert
21.08.2018
19:04:10
У меня тоже не работает

Nklya
21.08.2018
19:04:29
telegra.ph заблокирован вместе с остальной инфрой телеги

?
21.08.2018
19:06:40

Andrey
21.08.2018
19:07:33
1. Реляционные базы данных не подходят для time-series.
Справедливости ради, они в послденее время оченьл активно пилят интеграцию с ELK и в бета-варианте она вполне сносно работает. У меня на тестовом стенде тоже проблем нет, но в продуктиве использовать немного стрёмно (http-запросы совсем не радуют)

Andor
21.08.2018
19:07:54
ELK-то дофига реляционная база данных

Nklya
21.08.2018
19:09:36
эластик примерно так же подходит для tsdb, как и мускуль ранее.
у владышева хорошее чутье как всегда))

Andor
21.08.2018
19:12:52
блин, а таймскейл только сингл-нод дают бесплатно?

Andrey
21.08.2018
19:21:11

Andor
21.08.2018
19:23:01
а ещё можно изучить как в линуксе работает swap и в какой версии поведение vm.swappines поменяли

Alexey
21.08.2018
19:24:22
По идее vm.swappiness = 1 и этого в большинстве случаев должно хватает, но иногда реально свопится без причины. Чтобы такого не было, можно делать mlock, тогда никогда не засвопится