@devops_ru

Страница 2218 из 4568
Sheridan
05.02.2017
20:49:08
с места ответить не гоов

Roman
05.02.2017
20:49:13
Я мунин с землёй ел. В ём кучка моих плагинов есть
И? Вот надо нам 2-3 млн точек в секунду. Какое железо надо для munin?

Sheridan
05.02.2017
20:49:31
Vladimir
05.02.2017
20:49:37
с места ответить не гоов
У меня просто в тестах на такое один сервер с 12 ядрами и ссдшкой лопатил

Google
Vladimir
05.02.2017
20:49:41
Упирался в сеть

Можно было читать вполне это

Roman
05.02.2017
20:49:58
что за точки, как собирать?
Да не важно что за точки. Важно их количество

Vladimir
05.02.2017
20:50:10
Ссд можно даже на хдд заменить было если рецд10 взять

Давай сделай на мунине

что за точки, как собирать?
У нас поток данных по компании - 2.5 млн точек в секунду

Zhenia
05.02.2017
20:50:56
так, нагиос + графит же нормальная связка?

Vladimir
05.02.2017
20:50:59
Разные - сервера, виртуалки, софт, бизнес метрики

так, нагиос + графит же нормальная связка?
Если мониторинг то ставьте прометея

Он получше будет

Roman
05.02.2017
20:52:13
так, нагиос + графит же нормальная связка?
Графит умрет на таком потоке

Vladimir
05.02.2017
20:52:20
Если статистику - то норм

Google
Sheridan
05.02.2017
20:52:24
Да не важно что за точки. Важно их количество
Ну у меня тыщ этак 200-400 (я не считал) лопатил старый ксеон в 8Гб оперативы и зеркалом на сата

8ядер

Zhenia
05.02.2017
20:52:49
ага, спасибо. Прометей просто никогда не использовал, посмотрю, но да мониторинг и статистику по потреблению ресурсов

Roman
05.02.2017
20:52:51
Sheridan
05.02.2017
20:53:02
а, у вас в секунду...

мунин не так работает

Vladimir
05.02.2017
20:53:19
Графит умрет на таком потоке
Если взять go-carbon то можно легко 250-300 тысяч а секунду на ссд писать

Zhenia
05.02.2017
20:53:32
Графит умрет на таком потоке
у меня парк маленький, где-то тысячи три точек будет

Sergey
05.02.2017
20:53:44
а, у вас в секунду...
Одна точка снимается пусть раз в минуту. Просто их всего миллионы.

Vladimir
05.02.2017
20:54:00
а, у вас в секунду...
Это усреднение

Просто они приходят периодически

Sheridan
05.02.2017
20:54:37
Внимание, вопрос: вы точно уверены что вам нжно именно каждую секунду поток собирать? Мониторинг он всетаки не для этого, он для определения трендов...

Vladimir
05.02.2017
20:54:39
И получается что каждую секунду где то 2.5 млн в среднем

Просто у нас 30+ тысяч хостов

Еще софт

Еще бизнес данные

Sheridan
05.02.2017
20:55:11
мунин сам раз в х времени опрашивает сенсоры

Google
Alexander
05.02.2017
20:55:17
Тогда можно дать советы
Понятно. - Хранить в базе метрики. - Количество реквестов - меньше 500 в секунду. - Возможность горизонтально масштабировать, т.е. создание нового шарда не было чем-то заоблачным и сложным. - Фолт толеранс (пережить брейн сплит, например) - Удобные тулзы для мониторинга самой базы(даже если за деньги) Звучит все равно немного обще, но основное - это возможность горизонтально масштабировать и мониторить

Vladimir
05.02.2017
20:55:18
Еще виртуалки

Sheridan
05.02.2017
20:55:20
сенсоры тупо висят и ждут запроса

Sheridan
05.02.2017
20:56:04
норм шаг это 3-10 минут

Roman
05.02.2017
20:56:17
мунин сам раз в х времени опрашивает сенсоры
Сколько времени он будет опрашивать 30-40к хостов?

Vladimir
05.02.2017
20:56:20
большой шаг имхо это больше часа
Для каких то кейсов раз в день ок

Старый
05.02.2017
20:56:28
Троллят
я вот был на собеседовании в артвизио, они исингу и прометей считают ненужными

Vladimir
05.02.2017
20:56:33
Где то раз в секунду норм

Zhenia
05.02.2017
20:56:42
Zhenia
05.02.2017
20:56:57
у меня бывают спайки cpu на минуту

Sheridan
05.02.2017
20:57:01
Где то раз в секунду норм
раз в секунду это только для кпу и то для посмотреть приттестах

Старый
05.02.2017
20:57:12
Продолжай
а ещё считают контейнеры хайпом, как и питон, по их мнению нужен в основном раби

Roman
05.02.2017
20:57:47
норм шаг это 3-10 минут
Допустим, мы вещаем видео в интернеты. За 3 минуты дохрена всего может произойти

Sheridan
05.02.2017
20:57:51
у меня бывают спайки cpu на минуту
"бывают" != "категорически всегда"

Google
Sheridan
05.02.2017
20:58:21
Даже у меня сообщает

Sheridan
05.02.2017
20:58:33
что сеточка?

Roman
05.02.2017
20:58:47
гм, а что оно при сбое само у вас не сообщает?
Отлично. И как понять причину сбоя?

Zhenia
05.02.2017
20:59:03
"бывают" != "категорически всегда"
будит тебя саппорт, у части клиентов висло приложение, в течении полутора минут, у них куча тикетов

а у тебя шаг в 3 минуты

как ты будешь диагностировать?

Sheridan
05.02.2017
20:59:26
Отлично. И как понять причину сбоя?
Элементарно: продумать это заранее и написать скрипт так чтобы он это предусмотрел

как ты будешь диагностировать?
уменьшу шаг для тестов

Roman
05.02.2017
20:59:45
Вот 50 секунд был пакетлосс. У клиентов боль. А мониторинг ничего не расскажет

Zhenia
05.02.2017
21:00:02
уменьшу шаг для тестов
поздно, было 10 минут назад

Старый
05.02.2017
21:00:04
Ты конечно же пойдёшь к ним работать?
кстати, расскажи мне, есть ли какая быстрая миграция между мониторингами, даже интерено стало, в гугле чтот забанили, ничего найти не могу

Zhenia
05.02.2017
21:00:16
тебе нужно написать отчет что не так случилось и как это поправить

а не говорить, ну я уменьшу шаг, что бы при следующем сбое увидеть проблему

Старый
05.02.2017
21:00:42
вот например, есть настроенный заббикс на 1300 хостов, как все хосты и метрики, что заббикс собирает, перенести в другой мониторинг

Sheridan
05.02.2017
21:01:01
поздно, было 10 минут назад
Было и пропало? Проблемы нет.

Точнее, на данный момент не ясна

Daniel
05.02.2017
21:01:18
повторяется рандомно 10 раз в сутки

Google
Zhenia
05.02.2017
21:01:26
Было и пропало? Проблемы нет.
ты так на собеседовании не скажи

Daniel
05.02.2017
21:01:28
надо искать, почему

Sheridan
05.02.2017
21:01:30
Zhenia
05.02.2017
21:01:34
никому и никогда

Roman
05.02.2017
21:01:39
Нет
на ssd?

Sheridan
05.02.2017
21:01:44
Или вы будете следом еще условия выдумывать ?

Zhenia
05.02.2017
21:01:55
на сутки уменьшить шаг
у тебя 10к хостов, проблема на части из них, рандомной

Sheridan
05.02.2017
21:01:59
надо искать, почему
И искать почему

Старый
05.02.2017
21:02:00
на ssd?
нормальное кол-во оперативы выделить и использовать btrfs?

Zhenia
05.02.2017
21:02:02
да нет, это вполне реальные кейсы

Daniel
05.02.2017
21:02:30
нормальное кол-во оперативы выделить и использовать btrfs?
вот хрыч, ну скажи - как тебе удается быть настолько некомпетентным?!

Sheridan
05.02.2017
21:03:04
Нет, блять, мы будем тратить тысячи не своих зелени на мониторинг чтобы "ав друг нам пригодятся данные посекундные", когда на самом деле достаточно раз в 5мин опросить и при проблемах зачастить

Roman
05.02.2017
21:03:17
Точнее, на данный момент не ясна
зашибись подход. в следующий рад тоже не поймали. и так месяц. за это время клиенты порвут на британский флаг

Sheridan
05.02.2017
21:03:22
И вообщето, проблемы через логи разрешабются

а не через проценты свободы сети

Daniel
05.02.2017
21:03:31
не разрешаются

Старый
05.02.2017
21:03:32
вот хрыч, ну скажи - как тебе удается быть настолько некомпетентным?!
если говорить по делу, будет меньше внимания, например, когда я в теме на лоре написал про 4 ранговую сеть(троллинг) тема сразу 20 страниц набрала

Sheridan
05.02.2017
21:03:55
как? )
чтением

Daniel
05.02.2017
21:04:14
в логах аномально высокие задержки, но нет ошибок

Roman
05.02.2017
21:04:16
чтением
как логи помогут диагностировать проблемы в сети?

Страница 2218 из 4568