
Марк ☢
08.01.2018
10:29:47

Sergey
08.01.2018
10:29:55

Grigoriy
08.01.2018
10:36:43

Google

Grigoriy
08.01.2018
10:39:49

Nklya
08.01.2018
10:43:54
Доносить нужно до бизнеса, а не до девелоперов имхо

User ?
08.01.2018
10:48:13

Alexander
08.01.2018
11:11:05

Stanislav
08.01.2018
11:11:14
Бизнес обычно предпочитает не слышать про операционные проблемы

Nklya
08.01.2018
11:11:57

Alexander
08.01.2018
11:15:26
какой там бизнес

Stanislav
08.01.2018
11:16:48
Доносить - это от слова донос?

Старый
08.01.2018
11:43:44
а зачем?
усовершенствованная схема конфигурации
фильтрация сообщений не только по приоритетам, но и по их содержанию
поддержка regexps (regular expressions)
более гибкое манипулирование и организация логов
возможность шифрования канала передачи данных с помощью IPSec/Stunnel
пишут

Denys ??
08.01.2018
11:47:18
https://thenewstack.io/log-analysis-can-bring-frontend-engineers-call/
Полезно почитать "Beware Automated Anomaly Detection" и ниже

Nklya
08.01.2018
11:49:02
Инфлюкс детектед))

Google

Denys ??
08.01.2018
11:49:27
вот весь talk - https://www.youtube.com/watch?v=4MocfHoZDrw
Не, инфлюкс там только организатор конференции
“The truth is, there’s all these wacky things happening in our systems all the time. They’re not actionable, they’re not diagnosable, and there’s nothing for you to do about it. On the other hand, if you build these models, even if you work hard you get lots of indications something abnormal happened, and the cost-benefit is exactly the reverse of what we as engineers are wired to think,” said Schwartz. Having these systems in place can create more work, essentially.
“Alerts that come in that are non-actionable immediately turn alerting systems into a Gmail filter to the trash bin. They create pager burnout. These results come out of a black box that’s not interpretable. The data is already highly digested. It is surprising how quickly you end up six or eight degrees away from the original input,” said Schwartz.
А то народ все святой Грааль ищет.


Alexander
08.01.2018
11:58:29
единственное, что реально в rsyslog неудобно (хотя и возможно), так это модифицировать логи на лету, но он, вроде, и не совсем для этого. не знаю, может быть, в syslog-ng с этим получше.


Andor
08.01.2018
12:17:36
привет
посоветуйте внешний сервис для мониторинга наших сервисов
ну типа чтобы он на главную сайта заходил и дёргал урл и потом по нему графики рисовал и алертил если чо лежит
(на самом деле не только на главную)
смотрю на statuscake и uptimerobot

Andrew
08.01.2018
12:20:02
Тот же пингадмин?

Grigoriy
08.01.2018
12:20:05

Andor
08.01.2018
12:20:42
я прост никогда такими не пользовался, потому спрашиваю

Andrew
08.01.2018
12:20:47
ping-admin.ru
Пользуюсь последние несколько лет, гибкий конфиг, проверяет все что надо, много точек

Andor
08.01.2018
12:20:59
мне не российский надо бы
но я посмотрю, спасибо

Andrew
08.01.2018
12:21:12
Тогда вон выше - хост трекер

Pablo
08.01.2018
12:21:29

Andor
08.01.2018
12:21:30
его тоже смотрю :)

Google

Andor
08.01.2018
12:21:31
спасибо

Pablo
08.01.2018
12:22:13
Хост трекер российский же

Grigoriy
08.01.2018
12:23:38

Andrew
08.01.2018
12:23:43

Pablo
08.01.2018
12:24:22

Andrew
08.01.2018
12:26:17
Очевидно из-за необходимости выполнения запросов с точек по всему миру, а не только из рф

Alexander
08.01.2018
12:50:13
лог должен прилетать без изменений
а уже потом делать с ним что угодно

Andor
08.01.2018
12:53:57

Nick
08.01.2018
13:33:50

Alexander
08.01.2018
13:34:07

Andrey
08.01.2018
15:02:16
привет. а что удобно использовать для управления алертами в prometheus? есть ли какие то кастомные дашборды?

отделение
08.01.2018
15:06:53
а что подразумевается под управлением и чем морда родного alertmanager-а не устраивает?

Алексей
08.01.2018
15:08:45
удобно использовать alerta
штатная морда немного не очень.

Alexander
08.01.2018
15:40:27

Andor
08.01.2018
15:42:21
пока самой клёвой по фичам кажется statuscake.com
у алерты фич мало и цена не самая клёвая

Google

Andor
08.01.2018
15:43:02
а, это кажется про другое была фраза про алертьу

Алексей
08.01.2018
15:43:19
алерта фришная.
и ответ был про другое да

Andor
08.01.2018
15:44:54
есть ещё alerta.com

Алексей
08.01.2018
15:46:37
она alertra.com
с еще одной r

Andor
08.01.2018
15:50:00
блин, точняк

Алексей
08.01.2018
15:51:33
но домен они себе отжали да :)

Admin
ERROR: S client not available

Andor
08.01.2018
16:04:14
ну вощем оно выглядит самым интересным по фичам которые нам нужны
нигде нет строгой проверки хтпп-кода, кроме как у них
например я хочу проверять что по такому-то урлу отдаётся 404
а не 200 например
host-tracker очень хорош, но именно этой фичи в нём нет, есть только игнорирование кодов

Pablo
08.01.2018
17:12:58
а нужно именно чтобы worldwide проверялось?
в смысле вам связанность важна или локальный проверялщик чем то еще не подходит?

Alexander
08.01.2018
17:34:08
Привет, использую telegraf+influxdb+grafana. В grafana алерты только с графиков можно присылать и они не гибкие (не отсылает с графика, содержащий шаблон, не отсылает теги в теле сообщения). Я так понимаю надо использовать Kapacitor? Или другой сервис прикручивать?

Andor
08.01.2018
17:58:12

Pablo
08.01.2018
17:59:35

Andor
08.01.2018
18:01:16
У нас используются разные регионы, надо проверять разные из разных

Google

Pablo
08.01.2018
18:05:27
Наверное что я пытаюсь спросить - почему не проверять одни из других? Зачем вообще внешний сервис?

Andrew
08.01.2018
18:10:28
Ну это вполне очевидно, нужен независимый мониторинг
От собственной инфры

Andor
08.01.2018
20:40:47
именно так

Sergey
09.01.2018
08:42:31
@rlomonosov Привет! а в 2х словах какой сакральный смысл роллапов в graphite-clickhouse? Показывать аггрегаты до того как КХ их умнет (как оказалось это надо делать полуручным способом)
Ну и небольшой соцопрос, кто какое партиционирование в КХ (c carbon-clickhouse) выбрал (желательно указать самый длинный период хранения).
А то вот выбираю между по дням и недельным, но день у меня 2 часа оптимайзица, а недельный пока не пробовал (14ч?). Немного настораживает оговорка в доках что больше нескольких тысяч партиций - айяйяй а хранить надо будет лет 5 точно

Roman
09.01.2018
08:46:47
Протокол графита так устроен, что нельзя передавать просто "значение, время". Данные передаются в формате "начало, окончание, шаг в секундах, набор значений". В первую очередь rollup в graphite-clickhouse нужен для того чтобы выбрать шаг, к которому надо привести значения

Sergey
09.01.2018
08:49:24
скорректирую вопрос - можно в роллап графит-КХ вписать только первый ретеншан и оно корректно работает даже если оптимизацию в КХ сделать в середине периода выборки
т.е. оно рисует условно 2 дня по секундам, 1 день по часам и 3 дня по секундам (если оптимайз запускался только на 1 день в середине и партиционирование по дням)
но если роллап сделать как настройки в КХ то сам графит будет "прятать" то, что в КХ оптимизация еще не запускалась... а место на диске ням ням :)
вот вопрос - такое поведение графит-КХ - это фича?

Roman
09.01.2018
08:57:36
Ну да. Графит-КХ просто роллапит то, что сам КХ еще не успел. Чтобы отображение данных было предсказуемым и соответствовало тому, что ты настроил

Sergey
09.01.2018
09:05:39
я про то что можно полностью роллап из КХ не брать а указать только первый ретеншан и оно корректно работает при этом

Roman
09.01.2018
09:07:58
отображение будет похоже на корректное только если у тебя метод аггрегации avg. Для какого-нить sum это будет уже не так
Ну и по сети между graphite-web/carbonapi и graphite-clickhouse оно передает кучу лишних данных. Если у тебя данные в КХ за указанный период уже сагрегироваллись до часов, а в rollup.xml вписано "по секундам", то передаваться оно будет как "значение, 3599 null-ов, значение, 3599 null-ов, ..."

Sergey
09.01.2018
09:11:37
ага, спасибо!

Vladimir
09.01.2018
09:30:30
я б сказал что хуже другое
carbonzipper и carbonapi плохо работают в ситуации когда несколько источников дали разные размерности данных
то 300 точек, а другой 305

Sergey
09.01.2018
09:34:14
тут скорее будет что один 300 а другой 30000

Vladimir
09.01.2018
10:01:57