не, ну а чо:
* у заббикс отвратительно работает ситуация, когда клиент не может получить данные или получает неожиданные значения (например NaN вместо 0). Он тупо банит клиента и это ужасно.
* клиенты, увы, текут по памяти. Порой приходится их убивать
* сервер довольно плохо масштабируется (говорю о 1.6 -> 2.4 - работал только с ними). В первую очередь выжираются диски. Постоянно приходится прикидывать, какие метрики мне прям нужны, а без каких я как-нибудь так проживу
* прокси помогают масштабировать, но ломают выполнение задач на ноде. То есть приходится решать, что мне нужнее - масштабирование или выполнение задачи
* очень, очень, очень неочевидный и неудобный UI. Кошмарное устройство выражений. Без толстого справочника хрен разберешься
На самом деле видно, что вы им пользовались и пользовались продолжительно, но
> у заббикс отвратительно работает ситуация, когда клиент не может получить данные или получает неожиданные значения (например NaN вместо 0). Он тупо банит клиента и это ужасно.
Если у айтема тип int, а от агента получен str, этот _конкретный_ айтем просто помечается, как "Not supported" и некоторое время не чекается повторно.
Предполагается, что раз айтем вернул белиберду, то чекалка на клиенте сломана/не настроена и не возвращает полезных данных, поэтому часто речекать её избыточно, всё-равно её исправление требует ручного внимания на этом сервере.
На самом деле время речека невалидных айтемов регулируется в Administration -> General -> Refresh unsupported items (in sec), по умолчанию 300. Можно сделать сколько угодно.
Клиенты "банятся" не за unsupported item, а при unreachable хосте.
Раньше было больше условий, при которых хост мог стать unreachable (напр.: слишком высокий параметр таймаута ответа от агента, или таймаут ответа всего по одному айтему). В сегодняшних версиях с этим всё ок.
> клиенты, увы, текут по памяти. Порой приходится их убивать
Слышал об этом только про виндовые агенты.
На версиях выше 2.4.5 я не видел репортов об этом/жалоб с проектов.
> сервер довольно плохо масштабируется (говорю о 1.6 -> 2.4 - работал только с ними). В первую очередь выжираются диски.
Как уже сказали, партиционирование. Сколько данных по метрикам, столько и сжирается.
Больше всего в RDBMS жрут текстовые логи.
> Постоянно приходится прикидывать, какие метрики мне прям нужны, а без каких я как-нибудь так проживу
Это нормально для любого мониторинга. Задаётся, что нужно мониторить за год, а что лишь оперативно. Можно забить на это, но рост потребляемого объёма неизбежен на любой платформе.
> прокси помогают масштабировать, но ломают выполнение задач на ноде. То есть приходится решать, что мне нужнее - масштабирование или выполнение задачи
да, жаль, что прокси не умеет remote commands
но remote commands плохая практика, но мы это уже обсудили; если задачи типовые, я бы добавлял их в userparameters, а с нынешними средствами всё это можно ещё и автоматизированно раскидывать
> очень, очень, очень неочевидный и неудобный UI. Кошмарное устройство выражений. Без толстого справочника хрен разберешься
Порог вхождения есть в любую технологию. Спустя время, нынешний уклад в интерфейсе становится интуитивным.
Если бы кто придумал, как иначе (лучше) впихнуть все их представления в меню, это бы уже сделали.