Andrey
нет, 400 мегабит - случается в другом случае, когда 100 воркеров генерируют хотябы по 4 мегабита...но это пик, не конечный, лабораторные условия не позволяют еще больше
Andrey
просто данные похожи
Andrey
по "структуре"
yopp
400 мегабит это пиковая непродолжительная нагрузка или постоянная?
Andrey
400 мегабит это пиковая непродолжительная нагрузка или постоянная?
пиковая - разбег от 100 до 400 (+-), продолжительностью часа 3, 2 раза в сутки
Viktar
Обычно такую нагрузку генерируют логи либо етл процессы
Viktar
Если логи, то имеет смысл снизить их детализацию
yopp
пиковая - разбег от 100 до 400 (+-), продолжительностью часа 3, 2 раза в сутки
ага, это те самые ~300гб обновляются два раза в сутки?
yopp
я правильно понимаю что 100 воркеров это скраперы?
Andrey
ага, это те самые ~300гб обновляются два раза в сутки?
добавляются (не обновляются) - да примерно такие данные и в таком объеме
Andrey
не текстовые
yopp
600гб в сутки это очень дорого
Andrey
в смысле не страницы в сети, хотя можно
yopp
если вы их собираетесь долго хранить
yopp
600гб в сутки даже архивов это уже очень дорого :)
Andrey
если вы их собираетесь долго хранить
да, потому и прикидываю уже неделю, как что и где сэкономить и как уложить. Вот сейчас детализацию уменьшаю
Andrey
очень
Andrey
:) даже в неделю вставка 300 гигов - дорого...
yopp
в первую очередь понять откуда возникают 300 гб
yopp
и можно ли трансформировать данные так, чтоб из 300гб, сделать 3гб
yopp
очень часто можно
Anonymous
😀 привет
Viktar
А с какой целью вам нужны эти логи в монге? Насколько я знаю для логов есть свои системы
Andrey
и можно ли трансформировать данные так, чтоб из 300гб, сделать 3гб
вот сейчас и пытаюсь, уменьшить размер json - Отправляемого
yopp
я так понимаю что у вас частный случай временного ряда по множеству объектов по нескольким сотням аттрибутов?
yopp
вы пишите прямо json строкой?
yopp
или преобразуете json в bson и пишите как документ?
Viktar
какие? - не облачные варианты
Посмотрите в сторону ELK стека
Andrey
Посмотрите в сторону ELK стека
он не тянет на равном железе такую нагрузку на запись
yopp
Посмотрите в сторону ELK стека
и бюджет на шесть нолей умножить :)
Viktar
))))
yopp
в смысле добавить шесть нолей
yopp
я в долларах считаю по привичке :)
Andrey
и штат инженеров
Andrey
на 6 0
Viktar
Большие данные = большие деньги)
yopp
какой физический смысл данных?
yopp
они структуированные?
yopp
это белые или серые данные?
yopp
конечные значения текстовые или числовые?
Andrey
они структуированные?
Структурированные. Условно 10 типов записей. Поля - 2 целых, и от 4 до 10 строк
Andrey
Данные простые. 2 целых числа и разной вложенности json со строковыми данными
yopp
а у json фиксированная схема?
Andrey
Кассандру не хочется. Эластик дорого пишет медленно. Монга?
yopp
и какие конечные типы у значений
Andrey
а у json фиксированная схема?
Как раз сейчас привожу к этому
yopp
а насколько большая вариативность строк?
yopp
строки большие?
yopp
у вас там тоже dns SOA и ответы whois?
Andrey
у вас там тоже dns SOA и ответы whois?
Не только. Ip и port целые. И пошли хэши сертификатов, ответы от сервисов разной длины и так далее.
yopp
а какой размер документа сейчас получается?
Andrey
Сейчас посмотрю
yopp
ответы сервисов текстовые?
yopp
я вам сейчас 25% данных съекономлю
yopp
храните в Binary типе :)
Andrey
:) ага...я думал так
yopp
base64 в монге не имеет смысла абсолютно
yopp
bson бинарный формат, но отлично с блобами совместим
Andrey
Но я не нашел(может плохо искал) чтоб логсташ или флуентд мог конвертить base в байты
yopp
форкните плагин
Andrey
А писать свой коллектор очень не хочется
Andrey
форкните плагин
Я ничерта не смыслю в руби
yopp
вам в любом случае на таких объёмах придётся писать со своей схемой
Viktar
А поиск по бинари работать будет?
yopp
но ответ, да, будет
Viktar
)) этот момент я упустил. У меня сейчас очень раннее утро)
Andrey
Придется отказаться от поиска по тексту. Или выгружать данные в эластик
yopp
Я ничерта не смыслю в руби
годовая зарплата руби разработчика выглядит смешно на фоне затрат на хранение данных :)
Andrey
годовая зарплата руби разработчика выглядит смешно на фоне затрат на хранение данных :)
Ну за эти деньги в итоге я свой коллектор на колленке нахерачу :))))
yopp
вы можете меня нанять, я вам помогу найти способ как ваши данные развернуть чтоб писать хоть на порядок меньше. ну и так вышло что у меня серебренный пояс по руби
Andrey
Поэтому и прикидываю оценку