
Magistr
14.06.2017
14:57:16
счас вот смотрю на гошный и кликхаус, т.к манаджить виспер или церес лень
там работы то собрать пакеты и деплой

Anton
14.06.2017
14:57:46
уууууу бомбит мне

Google

Sergey
14.06.2017
14:57:59

lastsky
14.06.2017
14:59:09
но мне тоже бомбило
megacli вырезали, wifi вставили, и сказали: это блять pure server metrics

Anton
14.06.2017
14:59:44
с системд, я не про это
там есть экспортер системд
ну я включил аккаунтинг, алло, покажи сколько mysqld скушал RSS, и цпу
НИЕТ, я не вижу

lastsky
14.06.2017
15:00:09
а, он сломан? ) я только недавно его протестировал, вроде ок.

Anton
14.06.2017
15:00:16
ну вот тебе сокет, сходи в него, НИЕТ, я дбус хочу
тьфу
в 14 завезли метрики по xfs которые.... делали паниковать поочерёдно
nfs + xfs = веселья полный дом

Google

lastsky
14.06.2017
15:02:15
у меня в телеграфе как раз какую-то хуету выдавал экспортер по процессам, я задался вопросом, сколько памяти жрет nginx.
или сколько cpu
да, cpu. я даже настроил ЭТО.

Anton
14.06.2017
15:03:06
ну у меня вот телеграф тупо залипал, решается в кроне\таймером в системд
костыли костылёчки, проще таржет процесс пихнуть в доскер, и с доскера забирать с кабота

lastsky
14.06.2017
15:05:11
а выполнить ps скриптом, вырезать оттуда mem и положить в textfile не проще?
чем пихать nginx который жрет 20Gb памяти в докер.

Anton
14.06.2017
15:06:05
так скрипт нужно насиловать мне раз в хз сколько секунд
потому что обхожу я в интервале до 5 секунд

lastsky
14.06.2017
15:06:35
раз в столько же секунд, в сколько scrape_interval?
не вариант?

Anton
14.06.2017
15:06:49
скрейп интервал, это он может пойти через секунду
а может в 4.99 с
а не раз в 5 секунд

lastsky
14.06.2017
15:07:32
а, то есть может два раза одно и то же снять, а может пропустить.

Anton
14.06.2017
15:08:14
ну там примерно получается что раз в 5 сек и делает

lastsky
14.06.2017
15:08:21
ну тогда 2*scrape_interval, и нормально. я бы вообще раз в минуту снимал.

Anton
14.06.2017
15:08:23
но это очень "примерно"
тогда для траблшутинга прямо здесь и сейчас это уже балет

lastsky
14.06.2017
15:10:45
мне иногда прижмет и нужно. а иногда достаточно раз в день открыть графы по нагрузке.

Google

lastsky
14.06.2017
15:11:02
поэтому я думаю над неспешным балетом, чтобы больше не прижимало.

Anton
14.06.2017
15:11:22
ну ты понимаешь, что когда нужно траблшутить, чем больше метричек и чаще, тем лучше
а когда тебе цифарки показать, то можно и раз в минуту забирать
кстати, а юзает кто и что для отображения статуса ваших продов? типа
https://status.github.com/
https://status.aws.amazon.com/ ?
открытость гласность вот это всё
и что юзаете?

Алексей
14.06.2017
15:13:59

Anton
14.06.2017
15:14:27

Алексей
14.06.2017
15:15:31
https://cachethq.io
Вроде

Anton
14.06.2017
15:15:48
там пхп от 100рпс умирающее :(
есть ещё staytus, но он местами непонятен ещё больше

Алексей
14.06.2017
15:16:14
У парней из lineageos больше 100 rps

Anton
14.06.2017
15:16:15
и вообще 75 рпс
остальеное какое-то дохлое
у парней из линейдж ос, 6 серверов и нагрузка 1.5 анона

Алексей
14.06.2017
15:17:03

Anton
14.06.2017
15:17:21
лист саппортед девайсов?
их дженкинс

lastsky
14.06.2017
15:26:57

Google

Anton
14.06.2017
15:27:53
ну и экзотика, на баше статик генератор:
https://github.com/Cyclenerd/static_status

lastsky
14.06.2017
15:28:59
дык мне проще вкорячить в конфиг телеграфа две строчки, у меня уже есть такой кейс - сеть из узлов мониторит задержки друг до друга этим модулем. нормально получается
а здесь два прометея будут на хостах иметь два телеграфа, и друг друга спрашивать как дела.

Anton
14.06.2017
15:29:14
есть на скале, но оно без функционала вообще: https://github.com/owainlewis/status
на js, не смотрел ещё: https://github.com/ks888/LambStatus
мол у нас ок, или у нас не ок

lastsky
14.06.2017
15:29:46
а. если юзерам - то другой вопрос.

Anton
14.06.2017
15:30:00
типа мы случайно удалили базу, соряниус, прилежаниус, ЕТА - бесконечность, пакуйте чемоданы

lastsky
14.06.2017
15:30:57
прям как gitlab пару месяцев назад

Admin
ERROR: S client not available

Anton
14.06.2017
15:31:15
я про него и говорил :)
ну в смысле, я не из гитлаба); просто на их примере, прозрачность для юзера, открытость, гласность; ну вот правильные вещи
будет фиаско, если твой статусборд умрёт от юзеров быстрее прода

lastsky
14.06.2017
15:47:24
я понял, да. нет, совсем standalone статусборд не вижу смысла делать, имея одинаковые по функционалу два сервера в двух дц.
только если делать "мониторинг мониторинга" - в отдельном ДЦ поднимать нечто, которое "за этими двумя присматривает" (с)
например, инстанс t2 micro.

ptchol
14.06.2017
17:13:42
Вы не видите никакой латентности в том что люди ругающие продукт на букву з, используют прометеус ?

Andor
14.06.2017
17:21:32
Юзали з

lastsky
14.06.2017
17:53:15
никакой латентности)
я продукт на букву и не юзал

Google

lastsky
14.06.2017
17:53:45
и пока не собирался
и на букву з тоже не юзал

Sergey
14.06.2017
17:55:13

lastsky
14.06.2017
17:55:14
так что можете там сразу записать что наркоман.
амфетаминовый, кстати.
раньше писал на перле обвязки к rrdtool и на css лабал менюшки. там же были и логи в менюшках и скрипты с кнопками. красивее чем в з получалось, поэтому я сразу не понимал как можно юзать з.

ptchol
14.06.2017
18:06:26
Подходы у них похожие кажется

lastsky
14.06.2017
18:10:11
Это кич
а вариантов не было. cacti только была, 0.7.1 версия.
очень бесила

ptchol
14.06.2017
18:12:20
Был мртг

lastsky
15.06.2017
05:04:06
Был мртг
кич - искать латентных заббиксоидов в этой конфе.

ptchol
15.06.2017
05:38:39

Dmitry
15.06.2017
12:04:25
можно в проме, в алерте написать чтото типа IF value NOT IN (1,2,3)
?
не хочется городить говно типа
IF value != 1 OR value != 2

Andor
15.06.2017
12:14:34
https://www.robustperception.io/combining-alert-conditions/

Dmitry
15.06.2017
12:54:01
сам же кидал это кому то )
но это вроде не совсем то

Andor
15.06.2017
13:00:29
а что это по-твоему?