Google
если делаю так то стоит долго
Google
но результать есть сайт в браузере открывается быстро но по чемуто на puppeteer грузится дольго
Google
так стоит до 4 минута и выдаёт результат почему так долго грузится ? сайт работает нормально
Gambit501
https://github.com/puppeteer/puppeteer/issues/1718#issuecomment-397532083
Google
Попробуй это
спасибо попробую и отпишу
Roman
Привет
Roman
Ребят а можно как то снизить вес страниц ?
Roman
Отключив там фотки или что такое ?
Roman
Я нашел
Roman
https://www.scrapehero.com/how-to-increase-web-scraping-speed-using-puppeteer/
Roman
Почитайте
Roman
Топ за свои деньги
Gambit501
Топ за свои деньги
За какие еще деньги?
Gambit501
Выше скинул самый лучший вариант, если все таки нужно исполнение скриптов на странице комментируешь строку - 'script' в const blockedResourceTypes
Gambit501
в массив - skippedResources - можешь добавлять все что необходимо если не отключено блокирование скриптов
Roman
Ого крутяк
Roman
Спасибо
Google
всем привет в puppeteer можно сделать так если скажем в ( selectors ) нечего не нашёлся проверить другой ( selectors ) скажем так /( document.querySelector('.coin') || document.querySelector('.best') || document.querySelector('h3') ) если прописать так то не работает есть способ какойто ?
Google
evaluate не использовал . есть пример |?
Google
сейчас скину
Google
спасибо большое попробую
Google
так получаю ошибку error page
Google
а как вызвать ?
Google
всем привет
Google
можете помочь как можно исправить
Google
‼️
Alex
@googleosicon переустановить зависимости?
Google
у меня vps |Centos 7
Alex
как
имею ввиду node_modules
Google
имею ввиду node_modules
удалил и заново переустановил\
Grigoriy
Доброго времени суток! У меня система работает с куками (и большим количеством пользователей) - вопрос: есть ли какая то возможность всю работу осуществлять через одно окно браузера (но чтобы куки не шарились между вкладками \ юзерами)? или может знаете какие-то способы оптимизации? ибо сейчас это куча браузеров за которыми надо следить
Grigoriy
Удялть не вариант, там все должно быть асинхронно
Назар
ну это вряд ли. В этом же смысл кук. Если не нужно одновременно всех пользователей крутить, то можно сделать очередь чтоб в 1 браузере все отработало
Roman
Привет а можно в 1 браузере создать несколько вкладок ? и там что то делать ?
Jenya
воу мощная какая настройка
Gambit501
в данном коде цикл for создает 5 вкладок
Roman
А насколько это ефективно ?
Gambit501
А насколько это ефективно ?
тут смотря что тебе надо? я скинул пример как удобно работать с неск вкладками
Gambit501
а дальше сам думай че тебе на них делать
Roman
У меня на cloud function с 1 гб стоит скраппер хотелось бы увеличить обработку
Roman
Но у меня есть сомнения что 5 вкладок влезет в 1 функцию
Roman
Спасибо большоу
Gambit501
клоуд не юзал тут уже сам думай) тести, смотри
Roman
Ладно а если есть такая ситуация что на сервере 4 рама 2 ядра
Gambit501
А вот мой вопрос насчет этих КлоудФукшен) на сколько они выгодны?
Gambit501
ну ты лучше протести и посмотри на нагрузку, к примеру впс с 2 ядрами мне мало было когда парсил в неск вкладок
Roman
Нуу зависит от ситуации просто у меня такая штука что надо 600к страниц скрапнуть в кратчайшие сроки а оно само скейлиться
Gambit501
я на алибабе клоуд брал сервер с 12 ядрами вот там хоть норм было парсить с 8 вкладками одновременно
Roman
Получаеться 600к скрапнуть за там неск часов
Roman
Ну можно и быстрее но база падает ахахахах
Gambit501
Нуу зависит от ситуации просто у меня такая штука что надо 600к страниц скрапнуть в кратчайшие сроки а оно само скейлиться
ну мне в буд просто надо будет парсить примерно 20.000 - 50.000 страниц в день, я вот и думаю, что лучше, либо клоуд функции использовать либо уже взять сервер
Roman
Сколько времени 1 страница парситься?
Roman
там смотри что гугл что амазон дают free month tier но есть момент
Roman
Гугл дает 200к запросов бесплтных но есть ограничение по нетворку и по времени на запрос
Roman
Ну имееться ввиду что будешь платить если больше будешь юзать
Roman
Мне 600к страниц с обработкою в 40-50 секунд и нетворк около 10мб на страницу вышли в 200$ но смотри я сейчас поставлю твой фильтр чтобы снизить нетворк и думаю скорость вырастет
Roman
ДУмаю буде около 100
Roman
Насколько я знаю то если идет большой прям процес то лучше сервак брать
Gambit501
Мне 600к страниц с обработкою в 40-50 секунд и нетворк около 10мб на страницу вышли в 200$ но смотри я сейчас поставлю твой фильтр чтобы снизить нетворк и думаю скорость вырастет
+ Кстати да, как написали выше если тебе не нужно обязательное исполнение js скриптов то лучше просто через get post запросы парсить
Roman
Я знаю но так не умею
Roman
Там просто infine scroll и всякий гемой
Grigoriy
Кто-нибудь сталкивался с такой проблемой, что page.evaluate( ... document.queryselector(selector) ... ) не может достать нужный элемент (несмотря на то, что в браузере в консоли всё работает) ? Насколько я понял, это связано со слишком большой вложенностью элементов в документе. Как с этим быть?
Anonymous
English only
Roman
Лолв?
Grigoriy
проверь ли елемент не в iframe или как это называеться
Нет, все что ниже лежит достать могу
Gambit501
Нет, все что ниже лежит достать могу
Должно до всего дотягиваться, попробуй в devtoolse пкм по элементу и там выбери copy => selector тебе это даст самый верный путь и попробуй получи его
Horus
Ребят, добрый день, имеется следующий вопрос: если у меня есть куки авторизованного пользователя, я могу скормить эти куки puppetter и тогда мне не потребуется авторизация на странице?
Horus
Дело в том, что мне нужно формировать пдф из странички сайта, но пароль пользователя, я разумеется не знаю, только хеш, и вот такой сумбурный вопрос возник, как мне сделать в итоге это
Horus
и тогда puppeteer сможет попасть на страничку без авторизации?
Ling
(ded xD)