@metrics_ru

Страница 618 из 681
Paul
21.08.2018
17:32:10
вообще для меня удивительно другое из этой статьи. Информация о том, что они решили начать делать мониторинг в 2015 году

как же они раньше-то жили?

```Отсутствие встроенных средств управления агентами мониторинга. В коммерческих продуктах такие средства имеются. В Zabbix этого пока нет. Нет даже обновления инструментария на агентов. Конечно, все можно сделать самостоятельно, но лучше бы получить эти возможности «из коробки».``` LLD?

такое ощущение, что парни весьма туго ориентируются в продукте. Вообще там много интересного

Google
Petr
21.08.2018
17:44:21
Странно, что BMC они не рассматривали

Andrey
21.08.2018
17:49:44
Вообще я был в Сбертехе на собеседовании, они мне показались весьма адекватными людьми. Относительно обновления конфигурации - мы в Открытых Технологиях делали такую штуку для ДИТ Москвы. Федя Константинов запилил: поскольку были запрещены удалённые команды, на агенте дёргалась "как бы метрика", которая запускала скрипт, тот скачивал новый конфиг, замещал им старый и рестартовал агент. Дёшево и сердито.

Если бы были разрешены удалённые команды - было бы проще. Самое забавное, что скрипт спокойно выполнял sudo, не знаю, как такое-то можно было протащить :)

Nklya
21.08.2018
17:55:06
а еще можно конфиги разносить каким-нибудь папетом

Ну и весь энтерпрайз состоит из такого говна и обходных костылей

Andrey
21.08.2018
17:58:26
Ну да. У заказчика-то puppet не поставишь, а в своей конфигурации - фигня вопрос. У меня есть задание ansible , которое дёргает perl'овую CGI-ку, а та формирует конфиг и возращает text/plain'ом, дальше ansible смотрит, изменилась ли конфига , и если изменилась и новая конфига не нулевого размера (мало ли CGI криво отработал) - делает бэкап старой конфиги, заменяет старую на новую и рестартует агент. Если агент стартовал - ОК, если нет - врозвращает старую конфигу на место и снова делает рестарт.

Вернее, не у меня, потому что не я её писал, я просто задание дал осевикам наваять такое :) Но работает отлично

CGI-ка моя :)

Кстати, в Сбертехе мне как раз говорили год назад, что платформа у них не единая ни разу. Этих инсталляций zabbix разрозненных там пруд пруди просто.

Andrey
21.08.2018
18:01:52
не разрешены команды, и дёргание судо по стечению звёзд, как то сложно согласуются в моём не окрепшем мозжечке

Google
Paul
21.08.2018
18:01:53
Они имеют в виду, что агенты по мановению волшебной палочки не обновляются и не умеют реконфигурироваться сервером. Но это же правда. Просто нафига это надо-то?
а, я понял мысль. Но это логично. Если у меня есть молоток - я не жду, что помимо забивки гвоздей он будет сушить клей и красить ботинки. Молоток – для забивки гвоздей, это нормально. Хочется обновлять конфиги и прочее – нужен SCM или его аналог, благо в том же линуксе есть MAC, есть SeLinux/AppArmor и можно весьма точно и гибко настроить необходимые права

не разрешены команды, и дёргание судо по стечению звёзд, как то сложно согласуются в моём не окрепшем мозжечке
для кастом-метрик все равно нужно судо. но вообще в судо можно очень интересно настроить права доступа

Andrey
21.08.2018
18:03:10
я не про то как это сделать возможным, я про то как это согласуется с ТЗ, по моему кто то кого то просто поимел

Andrey
21.08.2018
18:04:58
не разрешены команды, и дёргание судо по стечению звёзд, как то сложно согласуются в моём не окрепшем мозжечке
Там sudo только на service zabbix-agent restart (подмена конфига только благодаря тому, что права на конфиг zabbix:zabbix, что в свою очередь обеспечивалось поставкой нами "особого zabbix-агента" в rpm-пакете). Но в общем да, удалось протащить через безопасников sudo, а RemoteCommands - не удалось. Очевидно, по соображениям Гладиолуса

Наличие мониторинга доступности IT-услуг. В Zabbix есть встроенная подсистема, которая умеет подсчитывать доступность IT-услуг для дальнейшего использования в SLA. Ага, прекрасно просто. Чувак пишет красивые вещи, но сам, очевидно, IT Services не использовал от слова совсем

Paul
21.08.2018
18:07:04
remote command дает потенциальному атакующему возможность провести атаку на любой хост при успешной атаке сервера мониторинга

причем если ремоут-комманд настроен неудачно – доступ будет сходу с рутовыми правами. ОТ такого безопасник сначала лысеет, а потом седеет

Andrey
21.08.2018
18:09:04
Пока что низкая проработка мониторинга доступности IT-услуг. Здорово, что мониторинг есть, но его нужно еще дорабатывать. Сейчас не предусмотрена возможность как-либо ограничить доступ пользователей к каким-либо отдельным частям сервисно-ресурсной модели (далее СРМ). Если дерево СРМ большое, веб-интерфейс начинает тормозить. Ага, у нас уже на 1000 сервисах вставал раком. Потому что в описаниях триггеров - {ITEM.VALUE}

Andrey
21.08.2018
18:10:39
Недостаточная гибкость инвентаризации IT-инфраструктуры. Прямо сегодня с этим работал и в очередной раз тошнило от одного вида этой чудо-таблицы.

Paul
21.08.2018
18:11:15
Недостаточная гибкость инвентаризации IT-инфраструктуры. Прямо сегодня с этим работал и в очередной раз тошнило от одного вида этой чудо-таблицы.
а это потому, что сбер тюнингует бульдозер в самолет. Инвентаризация в мониторинге – это очень странное решение, как мне кажется

Andrey
21.08.2018
18:11:41
не понял этого пассажа
Чтобы отобразить дерево сервисов, заканчивающееся триггерами, нуджно отобразить описание триггеров, а в них {ITEM.VALUE}. Нетрудно догадаться, к чему это приводит.

Andrey
21.08.2018
18:14:20
а это потому, что сбер тюнингует бульдозер в самолет. Инвентаризация в мониторинге – это очень странное решение, как мне кажется
Проблема в том, что в zabbix её для чего-то сделали. И мы в НСПК тоже активно пользуемся инвентаризацией (для текстов оповещений в основном). И Сергей из Сбертеха очень верно заметил, что реализована она в zabbix просто ужасно. Т.е. ну можно в sql сделать свободный key => value, нет в этом нет никакой катастрофической проблемы. Но сделали реально мега-топорно, да ещё с загаждочными полями типа poc_1_name

Paul
21.08.2018
18:15:45
ну я подозреваю что в заббиксе ее кто-то сделали "потому что захотел" – там не один такой кусочек есть и даже не два

я например так и не понял, почему remote command не может работать через прокси

Alexey
21.08.2018
18:17:41
Хорошо, все плохо и сбертех так себе контора. Но что бы вы выбрали в 2015-м году?

Andrey
21.08.2018
18:17:57
Недостаточная гибкость ролевой модели. В Zabbix предусмотрено всего четыре роли пользователя с жестко фиксированными возможностями. Группы пользователей вполне себе роли. Но к API доступ да, было бы неплохо ограничивать как-то.

Alexey
21.08.2018
18:18:19
Google
Andrey
21.08.2018
18:18:58
Хорошо, все плохо и сбертех так себе контора. Но что бы вы выбрали в 2015-м году?
Тоже Zabbix :) Ибо изучил до фига альтернатив - и во всех есть косяки, но в zabbix они легко допиливаются напильником, в том числе и фронтенд не сложно поправить.

Конечно, если бы были начальником админов там
Да, в Сбертехе он, кстати, нафиг не нужен ИМХО. Они мониторят приложения, для чего zabbix фигово подходит.

Andor
21.08.2018
18:19:47
в 2015 я бы взял графит

Alexey
21.08.2018
18:19:55
графит
Это просто хранитель метрик по папкам. Там нет же ничего

Paul
21.08.2018
18:20:18
Тоже Zabbix :) Ибо изучил до фига альтернатив - и во всех есть косяки, но в zabbix они легко допиливаются напильником, в том числе и фронтенд не сложно поправить.
я проходил эволюцию nagios -> ganglia -> zabbix -> prometheus. Прометеус вполне прилично работает. Заббикс хуже ганглии оказадся

Andor
21.08.2018
18:20:19
ну да, ну да

Paul
21.08.2018
18:21:12
у графита до появления го-карбон самым слабым местом был диск

Alexey
21.08.2018
18:21:13
а, сборка? collectd
Я и сам на этой связке сижу и везде ее предлагаю. Но у меня масштабы и запросы не те

Alexey
21.08.2018
18:21:35
у графита до появления го-карбон самым слабым местом был диск
Да, сейчас и правда все отлично с ним стало

Paul
21.08.2018
18:21:37
я обычным whisper-ом уложил дорогущую HP SAS дисковую систему

Andor
21.08.2018
18:21:43
Andrey
21.08.2018
18:21:48
Вроде же сервера в основном
Сберсервис хотел у Сбертеха забрать весь мониторинг серверов. И собственно мониторинг серверов Сбертеховцы меньше всего упоминали. Там явно метрик от приложений по объёму на порядок-другой больше

Paul
21.08.2018
18:21:52
причем нагрузки был дэцл. Но диски сдохли

никто не мешает написать свой собственный экспортер метрик в графит, благо протокол несложный

а системные собирать коллектд

Google
Alexey
21.08.2018
18:25:22
никто не мешает написать свой собственный экспортер метрик в графит, благо протокол несложный
Как Экспортёр для графита реально лучше всего collectd подходит. Да и расширяется отлично

Paul
21.08.2018
18:25:40
нет, смотрите. У вас есть некая энтерпрайз система

Alexey
21.08.2018
18:25:50
А как мы будем этот графит реплицировать и делать HA?

Paul
21.08.2018
18:25:54
она размазана по огромной куче серверов, там у вас внутри какая-то своя внутренняя жизнь

Alexey
21.08.2018
18:26:08
Да, это так

Paul
21.08.2018
18:26:20
можно приделать к ней сбоку коллектд, а можно без него экспортировать метрики напрямую

и обычно второй вариант предпочтительнее

Admin
ERROR: S client not available

Paul
21.08.2018
18:26:37
А как мы будем этот графит реплицировать и делать HA?
нормально он реплицируется, через прокси

Alexey
21.08.2018
18:27:14
Paul
21.08.2018
18:27:32
нет, напрямую из приложения слать метрики сразу в графит

по UDP

Alexey
21.08.2018
18:28:15
Ну это и сейчас у них возможно

Paul
21.08.2018
18:28:15
там это несложно, насколько я помню. И агент в данной ситуации вам не нужен

ну это к разговору о том, может ли сбер использовать графит. Может, просто не хочет. Не понимает зачем, или не понимает как

Alexey
21.08.2018
18:29:28
Похоже, что они и правда даже не смотрели на него, что печально

Paul
21.08.2018
18:29:40
это нормально

никто не может знать все

именно для таких случаев существуют сообщества

а так же конференции и best practise

Google
Bogdan (SirEdvin)
21.08.2018
18:30:18
Судя по словам с статье им нужно было тырпрайзное решение с разделением по группам и хостам. Как я понимаю, в графите такого нет и реализовать больно

То есть централизованное решение, но что бы все было с разграничениями.

Alexey
21.08.2018
18:31:03
Paul
21.08.2018
18:31:18
То есть централизованное решение, но что бы все было с разграничениями.
надеюсь, они понимают, что в этом решении плохого

я работал со SCOMM (тогда он назывался сначала MOM а потом - SCOMM) и IBM Tivoli

ни первое ни второе нельзя описать приличным словом

Andrey
21.08.2018
18:31:50
Судя по словам с статье им нужно было тырпрайзное решение с разделением по группам и хостам. Как я понимаю, в графите такого нет и реализовать больно
У них там ещё интеграция с группами AD, причём и хосты ложатся именно в AD-группы. В этом плане у меня всё хуже из-за того, что львиная доля хостов отсутствует в AD, да плюс самих AD уже десятки, как и IPA-серверов

Alexey
21.08.2018
18:31:51
никто не может знать все
Ну уж про графит слышали все, кто хоть чуть-чуть в теме. Если они не знали, то это прям профнепригодность

Bogdan (SirEdvin)
21.08.2018
18:32:02
Да, это пришлось бы писать с нуля. Но они и так много написали, так что не выглядит сильно сложным
Мне кажется, проблема в том, что вот это требование было, а все что пришлось написать не было предусмотрено.

Bogdan (SirEdvin)
21.08.2018
18:32:41
никто не может знать все
Честно говоря, я узнал про графит из гугла. Про пром теперь тоже можно узнать из гугла. Откуда вы берете этих людей, которые не слышали? Или они просто вводят "enterprice monitoring"?

Paul
21.08.2018
18:32:43
у них там своя атмосфера, надо привыкать

Alexey
21.08.2018
18:32:51
enterprise слегка этим отличается
В моем энтерпрайзе все лучше, судя по всему

Andrey
21.08.2018
18:32:54
А в чём даёт преимущество графит? :)

Paul
21.08.2018
18:33:13
я это тоже проходил (я оттуда сбежал)

Alexey
21.08.2018
18:33:21
А в чём даёт преимущество графит? :)
Система простая как три копейки, поддерживается вообще всеми

Paul
21.08.2018
18:33:29
там даже профлитературу никто не читает

Andrey
21.08.2018
18:33:42
Система простая как три копейки, поддерживается вообще всеми
А чем сложен Zabbix? И кем не поддерживается?

Andor
21.08.2018
18:33:55
он сложен баном в этом чяте

Страница 618 из 681