Andrey
нет, 400 мегабит - случается в другом случае, когда 100 воркеров генерируют хотябы по 4 мегабита...но это пик, не конечный, лабораторные условия не позволяют еще больше
Andrey
просто данные похожи
Andrey
по "структуре"
yopp
400 мегабит это пиковая непродолжительная нагрузка или постоянная?
Viktar
Обычно такую нагрузку генерируют логи либо етл процессы
Viktar
Если логи, то имеет смысл снизить их детализацию
yopp
yopp
я правильно понимаю что 100 воркеров это скраперы?
Andrey
Andrey
не текстовые
yopp
600гб в сутки это очень дорого
Andrey
в смысле не страницы в сети, хотя можно
yopp
если вы их собираетесь долго хранить
yopp
600гб в сутки даже архивов это уже очень дорого :)
Andrey
Andrey
очень
Andrey
:) даже в неделю вставка 300 гигов - дорого...
yopp
в первую очередь понять откуда возникают 300 гб
yopp
и можно ли трансформировать данные так, чтоб из 300гб, сделать 3гб
yopp
очень часто можно
Anonymous
😀 привет
Viktar
А с какой целью вам нужны эти логи в монге? Насколько я знаю для логов есть свои системы
Andrey
Andrey
yopp
я так понимаю что у вас частный случай временного ряда по множеству объектов по нескольким сотням аттрибутов?
yopp
вы пишите прямо json строкой?
yopp
или преобразуете json в bson и пишите как документ?
Viktar
))))
yopp
в смысле добавить шесть нолей
Andrey
yopp
я в долларах считаю по привичке :)
Andrey
и штат инженеров
Andrey
на 6 0
Viktar
Большие данные = большие деньги)
yopp
какой физический смысл данных?
yopp
они структуированные?
yopp
это белые или серые данные?
yopp
конечные значения текстовые или числовые?
Andrey
они структуированные?
Структурированные. Условно 10 типов записей. Поля - 2 целых, и от 4 до 10 строк
Andrey
Andrey
Данные простые. 2 целых числа и разной вложенности json со строковыми данными
yopp
а у json фиксированная схема?
Andrey
Кассандру не хочется. Эластик дорого пишет медленно. Монга?
yopp
и какие конечные типы у значений
Andrey
yopp
а насколько большая вариативность строк?
yopp
строки большие?
yopp
у вас там тоже dns SOA и ответы whois?
yopp
а какой размер документа сейчас получается?
Andrey
Сейчас посмотрю
yopp
ответы сервисов текстовые?
Andrey
yopp
я вам сейчас 25% данных съекономлю
yopp
храните в Binary типе :)
Andrey
:) ага...я думал так
yopp
base64 в монге не имеет смысла абсолютно
yopp
bson бинарный формат, но отлично с блобами совместим
Andrey
Но я не нашел(может плохо искал) чтоб логсташ или флуентд мог конвертить base в байты
yopp
форкните плагин
Andrey
А писать свой коллектор очень не хочется
yopp
вам в любом случае на таких объёмах придётся писать со своей схемой
Viktar
А поиск по бинари работать будет?
yopp
yopp
но ответ, да, будет
Viktar
)) этот момент я упустил. У меня сейчас очень раннее утро)
Andrey
Придется отказаться от поиска по тексту. Или выгружать данные в эластик
Andrey
yopp
вы можете меня нанять, я вам помогу найти способ как ваши данные развернуть чтоб писать хоть на порядок меньше. ну и так вышло что у меня серебренный пояс по руби
Andrey
Andrey
Поэтому и прикидываю оценку