ему не спарсить нужно :) а отрендерить причем динамическую страницу :)
Там даже не так.
сходу да, есть у меня одна задачка
есть такая балалайка, зовется prerender - парсит страницу в generic html для всяких ботов поисковых
Юзаю поделку на node.js, течет и падает регулярно, вот мне бы легкое на питоне и главное - стабильное
вот эту сборку беру
https://hub.docker.com/r/tvanro/prerender-alpine/dockerfile
если просто откроешь сайт, то будет с JS, кнопочками и прочей фигней, что гуглбот не переваривает
а если поменяешь user-agent на googlebot (например), то получишь отрендеренную страницу с картинками и гиперссылками
в таком виде гугл ее индексирует, краулер ходит по ссылкам, создаются миниатюры и сохраненная копия.
Вот нужно скрипту url скормить, а скрипт должен сохранять html этого сайта на диск