
Sheridan
05.02.2017
20:49:08
с места ответить не гоов

Roman
05.02.2017
20:49:13

Sheridan
05.02.2017
20:49:31

Vladimir
05.02.2017
20:49:37

Google

Vladimir
05.02.2017
20:49:41
Упирался в сеть
Можно было читать вполне это

Roman
05.02.2017
20:49:58

Vladimir
05.02.2017
20:50:10
Ссд можно даже на хдд заменить было если рецд10 взять
Давай сделай на мунине

Zhenia
05.02.2017
20:50:56
так, нагиос + графит же нормальная связка?

Vladimir
05.02.2017
20:50:59
Разные - сервера, виртуалки, софт, бизнес метрики
Он получше будет

Roman
05.02.2017
20:52:13

Vladimir
05.02.2017
20:52:20
Если статистику - то норм

Google

Vladimir
05.02.2017
20:52:24

Sheridan
05.02.2017
20:52:24
8ядер

Vladimir
05.02.2017
20:52:42

Zhenia
05.02.2017
20:52:49
ага, спасибо. Прометей просто никогда не использовал, посмотрю, но да мониторинг и статистику по потреблению ресурсов

Roman
05.02.2017
20:52:51

Sheridan
05.02.2017
20:53:02
а, у вас в секунду...
мунин не так работает

Vladimir
05.02.2017
20:53:19

Zhenia
05.02.2017
20:53:32

Sergey
05.02.2017
20:53:44

Vladimir
05.02.2017
20:54:00
Просто они приходят периодически

Sheridan
05.02.2017
20:54:37
Внимание, вопрос: вы точно уверены что вам нжно именно каждую секунду поток собирать? Мониторинг он всетаки не для этого, он для определения трендов...

Vladimir
05.02.2017
20:54:39
И получается что каждую секунду где то 2.5 млн в среднем
Просто у нас 30+ тысяч хостов
Еще софт
Еще бизнес данные

Sheridan
05.02.2017
20:55:11
мунин сам раз в х времени опрашивает сенсоры

Google

Alexander
05.02.2017
20:55:17
Тогда можно дать советы
Понятно.
- Хранить в базе метрики.
- Количество реквестов - меньше 500 в секунду.
- Возможность горизонтально масштабировать, т.е. создание нового шарда не было чем-то заоблачным и сложным.
- Фолт толеранс (пережить брейн сплит, например)
- Удобные тулзы для мониторинга самой базы(даже если за деньги)
Звучит все равно немного обще, но основное - это возможность горизонтально масштабировать и мониторить

Vladimir
05.02.2017
20:55:18
Еще виртуалки

Sheridan
05.02.2017
20:55:20
сенсоры тупо висят и ждут запроса

Roman
05.02.2017
20:55:42

Sheridan
05.02.2017
20:56:04
норм шаг это 3-10 минут

Roman
05.02.2017
20:56:17

Vladimir
05.02.2017
20:56:20

Старый
05.02.2017
20:56:28
Троллят
я вот был на собеседовании в артвизио, они исингу и прометей считают ненужными

Vladimir
05.02.2017
20:56:33
Где то раз в секунду норм

Zhenia
05.02.2017
20:56:42

Sergey
05.02.2017
20:56:47

Zhenia
05.02.2017
20:56:57
у меня бывают спайки cpu на минуту

Sheridan
05.02.2017
20:57:01

Старый
05.02.2017
20:57:12
Продолжай
а ещё считают контейнеры хайпом, как и питон, по их мнению нужен в основном раби

Sergey
05.02.2017
20:57:34

Старый
05.02.2017
20:57:45

Roman
05.02.2017
20:57:47

Sheridan
05.02.2017
20:57:51

Google

Sheridan
05.02.2017
20:58:21
Даже у меня сообщает

Roman
05.02.2017
20:58:24

Sheridan
05.02.2017
20:58:33
что сеточка?

Roman
05.02.2017
20:58:47

Zhenia
05.02.2017
20:59:03
а у тебя шаг в 3 минуты
как ты будешь диагностировать?

Sheridan
05.02.2017
20:59:26

Roman
05.02.2017
20:59:45
Вот 50 секунд был пакетлосс. У клиентов боль. А мониторинг ничего не расскажет

Zhenia
05.02.2017
21:00:02

Старый
05.02.2017
21:00:04

Zhenia
05.02.2017
21:00:16
тебе нужно написать отчет что не так случилось и как это поправить
а не говорить, ну я уменьшу шаг, что бы при следующем сбое увидеть проблему

Старый
05.02.2017
21:00:42
вот например, есть настроенный заббикс на 1300 хостов, как все хосты и метрики, что заббикс собирает, перенести в другой мониторинг

Alex
05.02.2017
21:00:46

Vladimir
05.02.2017
21:00:56

Sheridan
05.02.2017
21:01:01
Точнее, на данный момент не ясна

Daniel
05.02.2017
21:01:18
повторяется рандомно 10 раз в сутки

Google

Zhenia
05.02.2017
21:01:26

Daniel
05.02.2017
21:01:28
надо искать, почему

Sheridan
05.02.2017
21:01:30

Zhenia
05.02.2017
21:01:34
никому и никогда

Roman
05.02.2017
21:01:39

Sheridan
05.02.2017
21:01:44
Или вы будете следом еще условия выдумывать ?

Zhenia
05.02.2017
21:01:55

Sheridan
05.02.2017
21:01:59

Старый
05.02.2017
21:02:00
на ssd?
нормальное кол-во оперативы выделить и использовать btrfs?

Zhenia
05.02.2017
21:02:02
да нет, это вполне реальные кейсы

Daniel
05.02.2017
21:02:30

Sheridan
05.02.2017
21:03:04
Нет, блять, мы будем тратить тысячи не своих зелени на мониторинг чтобы "ав друг нам пригодятся данные посекундные", когда на самом деле достаточно раз в 5мин опросить и при проблемах зачастить

Roman
05.02.2017
21:03:17

Sheridan
05.02.2017
21:03:22
И вообщето, проблемы через логи разрешабются
а не через проценты свободы сети

Daniel
05.02.2017
21:03:31
не разрешаются

Старый
05.02.2017
21:03:32

Roman
05.02.2017
21:03:41

Zhenia
05.02.2017
21:03:51

Sheridan
05.02.2017
21:03:55

Daniel
05.02.2017
21:04:14
в логах аномально высокие задержки, но нет ошибок

Roman
05.02.2017
21:04:16
чтением
как логи помогут диагностировать проблемы в сети?