
Vladimir
14.04.2017
13:08:07
автоматизации как-то конечно помогут

Xeniya MTS
14.04.2017
13:08:14
угу, а где интерфейс поиска лучше?

Vladimir
14.04.2017
13:08:16
ну точнее как помогут
оно везде транслироваться будет в Lucene query

Google

Vladimir
14.04.2017
13:08:33
тебе все равно ставить ES
а морды можешь крутить какие нравятся
У них вроде есть какие-то инструменты даже по алертингу и прочему, но все будет зависить от того что в ES
Тебе нужно чем-то (rsyslog/logstash/fluentd) парсить эти логи и делать из них структурированные логи )
тогда это имеет какой-то смысл
а парсеры надо настраивать под каждый формат логов
плюс ты получишь operational overhead на работу с ES
он не беспроблемный, его надо будет поддерживать, чинить, обновлять, тюнить

Xeniya MTS
14.04.2017
13:11:12
Да, я знаю, уже сталкивалась, но не как с хранилкой логов

Vladimir
14.04.2017
13:11:44
короче идеальный случай когда тебе логи уже будут идти структурированные
но тогда тебе даже руками из консоли станет проще делать выборки

Xeniya MTS
14.04.2017
13:12:41
Мне скорее нужно написать утилиты, которые будут делать эти выборки сами, и повесить логику на результаты этих выборок

Zhenia
14.04.2017
13:12:52
Ага. Я программеров заставил в джсоне логи писать. Но ес с кабаной нужен саппорту

Google

Zhenia
14.04.2017
13:13:20
Ес просто удобно централизирует хранение

Xeniya MTS
14.04.2017
13:13:53

Vladimir
14.04.2017
13:14:16
@polnoch я 5-ую кибану еще не видел, но 4-ая очень инопланетная, грейлог был понятнее

Xeniya MTS
14.04.2017
13:14:24
Но у чата нет какого-то общего мнения, что лучше, greylog, или ELK, или что ещё?

Vladimir
14.04.2017
13:14:29
но если с нуля ставить то это уже ес5, и либо кибана5, либо грейлог
вот что лучше - смотри ты, потому что тебе этим пользоваться
у них разные подходы к организации интерфейса
грейлог создает впечатление более админско-ориентированного, а кибана как некий интерфейс где ты хочешь найти не знаешь что и узнаешь в процессе поиска

Ivan
14.04.2017
13:15:59
у нас грейлог используют для хранения логов самописных приложений, а ЕЛК для хранения логов сервисов

Xeniya MTS
14.04.2017
13:16:20
ну пользоваться - на самом деле этому некому. Т.е. сейчас рабочий процесс построен так, что в красивый интерфейс zabbix никто не смотрит, разве что раз в месяц, а используются в основном его фишки по автодискавери и автоподключению темплейтов

Vladimir
14.04.2017
13:16:38
@polnoch выбирай что ТЕБЕ понравится

Xeniya MTS
14.04.2017
13:16:41
поэтому красота интерфейса опять же не важна, зато важно, что бы было красивое API

Vladimir
14.04.2017
13:16:42
если что переиграешь потом

Xeniya MTS
14.04.2017
13:17:18

Ivan
14.04.2017
13:17:36

Vladimir
14.04.2017
13:19:47
А что больше нравится?

Zhenia
14.04.2017
13:24:19
у меня саппорт не смог в грейлог
хз почему

ptchol
14.04.2017
15:55:09
я не понимаю как им пользуются для логов люди )

Google

Zhenia
14.04.2017
16:02:56
У меня логи в очереди в реббите лежат
Иначе не успеваю закидывать данные

Vladimir
14.04.2017
16:03:25

nikoinlove
14.04.2017
16:05:00
в минуту?
это даже не смешно:)

Dmitrii
14.04.2017
16:28:45
Я вот все читаю все эти "достижения" людей, как они логи собирают, ставят ELK, собирают террабайты логов в день. А потом задаюсь вопросом — зачем?
Ну серьезно, зачем вам куча бесхозной информации, которую надо обрабатывать, хранить, обслуживать и не терять.
Это примерно как с мониторингом. "У нас 100500 метрик отслеживается, смотрите какой я молодец!". Собсна, вопрос, зачем? Нахуя столько метрик, когда можно подумать головой один раз, и собирать 10 метрик, по которым можно сделать вывод о выходе из строя какой-то из подсистем.
Может мне кто-нибудь объяснить? Может я отсталый просто?)

Dmitry
14.04.2017
16:32:42
Зачем 10 метрик, если достаточно одной - "все работает / ничего работает".

Magistr
14.04.2017
16:33:07

Denys ??
14.04.2017
16:33:13
Отсталый :)

Denys ??
14.04.2017
16:33:21
Шутко

Dmitrii
14.04.2017
16:34:15

Dmitry
14.04.2017
16:34:36
Не успеет, его уже уволят

Dmitrii
14.04.2017
16:34:37
Делать тысячи метрик и обтекать потом разворачивая кластера ELK ИМХО бредово

Denys ??
14.04.2017
16:35:03
Это часть философии разработки
http://highscalability.com/log-everything-all-time

Dmitrii
14.04.2017
16:35:09
У нас в клаудвотче порядка 50 метрик заведено
Я не могу представить ситуации когда они бы не покрыли какой-то кейс

Google

Denys ??
14.04.2017
16:35:54
смишно

Magistr
14.04.2017
16:36:15

Denys ??
14.04.2017
16:37:11
или вот https://www.datadoghq.com/blog/monitoring-101-collecting-data/

Dmitrii
14.04.2017
16:37:22
Вот пример, на базе в AWS у нас метрика на CPU:
1) Ниже 5%
2) Выше 45%

Denys ??
14.04.2017
16:37:30
"Instrument everything and collect as many work metrics, resource metrics, and events as you reasonably can. Observability of complex systems demands comprehensive measurements."

Magistr
14.04.2017
16:37:35
ну и да кластер мониторинга стоит гораздо меньше чем то время которое придеться потратить когда придеться разбираться с проблемами

Dmitrii
14.04.2017
16:37:42
Первая покрывает кейс когда бекенд отвалился, вторая когда хуйню задеплоили

Admin
ERROR: S client not available

Magistr
14.04.2017
16:38:06

Dmitry
14.04.2017
16:38:19
Или, наоборот, кто-то думает, что сел и хорошо подумал покрыв все кейсы. А потом словит где-то проблему и будет оправдываться "а я не знаю, откуда это, у меня нет логов на это... но я напишу, обязательно напишу" ;)

Dmitrii
14.04.2017
16:38:21
Я именно щас про железячные метрики

Denys ??
14.04.2017
16:38:39
В большой организации твой тщательно подобранный набор метрик протухнет дня через 3 максимум

Magistr
14.04.2017
16:38:58

Denys ??
14.04.2017
16:39:12
Тупо из за количества изменений в системе

Magistr
14.04.2017
16:39:26
остальное то как раз бизнес генерирует, там всяки латенси ответа от базы бекэндов и прочие счетчики запросов

Denys ??
14.04.2017
16:40:27
Ну можно подумать и с другой стороны - если не самые дурные инженеры не в самых дурных конторах так делают - значит есть какой то в этом смысл?

Dmitrii
14.04.2017
16:41:22
У каждого бизнеса свои критерии. Если манифест написал задрот из финансовой сферы, это не значит что проекты средней руки должны бежать и делать так же

Max
14.04.2017
16:42:08
Видел я такой цирк

Nazar
14.04.2017
16:42:20

Max
14.04.2017
16:42:31
Каждые 10 минут тебя трясёт мониторинг, в т. Ч. Ночью

Google

Max
14.04.2017
16:42:49
Потому что бизнес сказал не отключать уведомления ночью
Впизду

Andrey
14.04.2017
16:43:43
ну значит неправильно настроен мониторинг
если сервис в мониторинге - у сервиса проблема
если это не проблема, а нормальное поведение (скажем, во время бэкапа) - мониторинг нужно настроить так, чтобы он не реагировал в это время на эти значения
я капитан очевидность, да?

Max
14.04.2017
16:44:40
Это к вопросу об 100500 метрик на каждый чих

Dmitrii
14.04.2017
16:45:11
Не все отклонения требуют немедленного реагирования
Даже при правильно настроенном мониторинге
Некоторые алерты могут подождать день а сервис все равно работать

Алексей
14.04.2017
17:21:15
господа, а в порядке пятницы, а вам не кажется что программстов надо всех взять и на галеры отправить ?

Igor
14.04.2017
17:21:34
отправить с галер на галеры?

Алексей
14.04.2017
17:22:05

Igor
14.04.2017
17:22:32
опять ебаное.ит протекает

Алексей
14.04.2017
17:23:59
как же заебало "продуманное программирование". когда при деланье интеграции с ад забывают вытягивать группы. или при выполении джобоа на многих нодах не предусматривают возможность взять переменные с одной ноды и притащить их как входные данные для другой ноды.

Pavel
14.04.2017
17:24:18
квазигалеры

Алексей
14.04.2017
17:24:19
и таких вот примеров очевидных вещей чо то становится просто много

ptchol
14.04.2017
17:25:28

Алексей
14.04.2017
17:25:41
я про персональную да.