@ru_python

Страница 7317 из 9768
Тимур
07.12.2018
12:22:18
Ну и как ты это парсил?
Фото вытаскивается по селектору "#viewFilmInfoWrapper #photoBlock .film-img-box img"

Yegor
07.12.2018
12:22:30
давайте тогда пойдем от противного. За сколько времени вы напишете парсер который будет перебирать все страницы сайта и выдирать с каждой страницы из html один тег с определенным классом

Тимур
07.12.2018
12:22:32
Там src = ссылку сохраняешь для качки.

Ilia
07.12.2018
12:22:35
ДА фото-то понятно...

Google
Тимур
07.12.2018
12:24:26
ДА фото-то понятно...
https://www.crummy.com/software/BeautifulSoup/bs4/doc/

Смотришь в доках, она может перебирать в цикле, там актеры в таблице ячейки <TD> все в <A> - в цикле их перебираешь и сохраняешь

Тимур
07.12.2018
12:26:32
давайте тогда пойдем от противного. За сколько времени вы напишете парсер который будет перебирать все страницы сайта и выдирать с каждой страницы из html один тег с определенным классом
Самое не понятное откуда брать страницы, выдергивать данные из тега очень просто, используешь CSS селектор. А список сайтов можно искать начинать с sitemap.xml

Тимур
07.12.2018
12:27:16
Я не понимаю как парсеры могу оценивать количественно. Если у вас правильный парсер, не важно сколько страниц.

Yegor
07.12.2018
12:27:28
на сайте около 26к страниц

Тимур
07.12.2018
12:27:53
не не, сайт один
Сайт один, но страницы которые нужно грузить, или они у тебя есть готовые. Скажем в админке добавляет сам клиент. Или ты их как робот из sitemap.xml вытаскиваешь, если он есть. Если нет сложнее.

на сайте около 26к страниц
У тебя есть список этих страниц? Если нет, и нет sitemap, то начинаешь писать первую часть твоего парсера, это Бота, который начинает с главной страницы (или с нужного раздела) и тупо собирает ссылки необходимые тебе. Возможно с регуляркой чтобы лишнее не бралось

Yegor
07.12.2018
12:29:08
я захожу на главную, там есть разделы, собираю линки на разделы, в каждом разделе пагинация. В многопоток иду в эти разделы и перебираю страницы в разделе

Тимур
07.12.2018
12:29:15
Как закончит, пишешь вторую часть, которая парсит готово отобранные страницы.

Вторая часть парсит по CSS данные, которые тебе нужны и сохраняет их также в твою БД, и сохраняет ссылки на Медиа файлы (картинки, видео) если нужно

Google
Yegor
07.12.2018
12:30:04
прямые ссылки на нужные страницы, с которых мне нужно выдернуть данные, я сохраняю в файл

Тимур
07.12.2018
12:30:19
И третья часть, по списку Медиа ссылок, качает сами ресурсы по папкам.

Yegor
07.12.2018
12:30:28
дальше открываю файл и в многопоток иду по этим ссылкам и выдергиваю нужные данные

Yegor
07.12.2018
12:31:08
Как тебе удобно, я бы с БД все делал.
не вижу глубокого смысла

Тимур
07.12.2018
12:31:13
дальше открываю файл и в многопоток иду по этим ссылкам и выдергиваю нужные данные
Если тебе скорость не важна, многопоток не обязателен. Делай их по очереди. И бана не словишь, если у них стоят защиты, не у всех сайтов есть защиты

Yegor
07.12.2018
12:31:35
для этого можно ходить через прокси

Но защит по ходу ноль

Тимур
07.12.2018
12:31:44
не вижу глубокого смысла
Ну ты бы мог следить за статусом выполнения то или иной страницы, и если у тебя упадет все, то может продолжится где остановилась

Yegor
07.12.2018
12:31:47
Ибо я уже сайт пару раз ложил)))

ну... почти ложил

Тимур
07.12.2018
12:32:02
для этого можно ходить через прокси
Он нужен только, когда есть проблема. Если ее нет. Не используй, нафиг

Yegor
07.12.2018
12:32:44
В общем ладно, пойду лабать. Там уже до готового парсера совсем немножко осталось

Тимур
07.12.2018
12:32:56
Ибо я уже сайт пару раз ложил)))
Ну зачем это было делать, спокойно бы перебирал все 26к по очереди, сохраняя медиа, долго , да, но стабильно. И если правильно сделаешь, даже с выключением твоего компа-сервера, все бы продолжалось, где остановилось

Я так и парсер цен товаров в КЗ делаю, вообще у многих защит нет. Только у крупных порталов и то там платные системы стоят.

Ilia
07.12.2018
12:34:16
Тимур
07.12.2018
12:34:39
Это же тесты были. Дело в том что если не в многопоток то будет капец как долго
На сколько долго? И разве не терпит? И не проще ли, чтобы с потоками не возиться, и лишних задач не плодить и времени лишнего своего не тратить.

Ilia
07.12.2018
12:35:51
для этого можно ходить через прокси
Но за прокси платить надо...

Yegor
07.12.2018
12:36:27
На сколько долго? И разве не терпит? И не проще ли, чтобы с потоками не возиться, и лишних задач не плодить и времени лишнего своего не тратить.
>>> 26000 / 3600 7.222222222222222 часов. Это только чтоб ссылки достать. Это в том случае если я буду по очереди открывать все 26000 страниц тратя на это секунду

Google
rasonbot
07.12.2018
12:36:59
ваша честь прошу помочь

Yegor
07.12.2018
12:37:09
Это у меня делается в среднем за 20 минут в многопоток

Ilia
07.12.2018
12:37:59
Это у меня делается в среднем за 20 минут в многопоток
Ну, уложишь сайт, тебя засветят, начнут банить... Тебе это надо ? andeniel прав...

rasonbot
07.12.2018
12:38:01


Тимур
07.12.2018
12:38:04
Хотя я думаю ты не правильно подсчитал. 26 000 это ссылок. А страниц ты будешь открывать меньше, на одной страницы у тебя будут скажем 25 ссылок, потом след. страница и тд

Yegor
07.12.2018
12:38:20
Пффф, норм) а sitemap.xml нет?
сайтмапа я не нашел

rasonbot
07.12.2018
12:38:48
когда реклама?

Yegor
07.12.2018
12:39:04
Хотя я думаю ты не правильно подсчитал. 26 000 это ссылок. А страниц ты будешь открывать меньше, на одной страницы у тебя будут скажем 25 ссылок, потом след. страница и тд
не не, это реально ссылок на страницы которые нужно парсить. постранично я открываю тоже много страниц и выдергиваю по двадцать ссылок

Катерина
07.12.2018
12:39:47
;)
07.12.2018
12:40:28
А надо?
А шо пятон интересует?

Tigran
07.12.2018
12:42:10
когда реклама?
ты чё токсичный такой

Катерина
07.12.2018
12:42:52
А шо пятон интересует?
Очень ) безумно )

Тимур
07.12.2018
12:44:07
Очень ) безумно )
Напишу глупость, но вы просто очень красивы для Питон программиста)

;)
07.12.2018
12:44:37
Очень ) безумно )
Проверка. #! /usr/bin/env python это шо такое?

Катерина
07.12.2018
12:46:37
Напишу глупость, но вы просто очень красивы для Питон программиста)
Это о том, что девушка не может быть программистом) или она не совсем девушка, или не совсем программист?!

Катерина
07.12.2018
12:46:54
Евгений
07.12.2018
12:47:23
Google
Timur
07.12.2018
12:47:29
Здравствуйте! Кому легче создавать сайты на gjango? Чем на laravel или zendframework

Евгений
07.12.2018
12:47:45
но да, глупо связывать занятия и внешний вид
только если это не цирк и женская густая рыжая борода

^^
07.12.2018
12:48:09
Admin
ERROR: S client not available

Stannis
07.12.2018
12:49:05
Други что взять в качестве миддлвари-REST для работы с mysql?

Как связка Tornado+TorMysql ?

Катерина
07.12.2018
12:49:34
А проверку не прошла
Отвлекли от ответа )

;)
07.12.2018
12:50:14
Неть

Катерина
07.12.2018
12:51:03
Неть
Просветите?

;)
07.12.2018
12:51:22
Указывает интерпретатор

Катерина
07.12.2018
12:51:55
Я очень начинающий python программист

мб HR
Иногда выполняю такие функции

Катерина
07.12.2018
12:53:36
Andrew
07.12.2018
12:53:50
Тоже красив?)
Этож. Зацени симметрию

Катерина
07.12.2018
12:54:05
Andrew
07.12.2018
12:54:15
Идеально)
И шары что надо

Google
Andrew
07.12.2018
12:54:25
Как бы двусмысленно это не звучало

Евгений
07.12.2018
12:54:44
ни

Катерина
07.12.2018
12:55:08
Ребята, может к вам девушка за помощью обратиться?!

Andrew
07.12.2018
12:57:25
Ребята, может к вам девушка за помощью обратиться?!
В общем то мы тут только для этого и собрались

Ойбек
07.12.2018
12:57:31
Здравствуйте

Andrew
07.12.2018
12:57:43
Ойбек
07.12.2018
12:57:45
Я начал программировать бота и у меня такая проблема

Alexander
07.12.2018
12:58:09
Евгений
07.12.2018
12:58:31
как бот на это отреагировал ?
ну это, как то ну проблема

Ойбек
07.12.2018
12:58:40
я вписывал код на среде pycharm

Andrew
07.12.2018
12:59:00
Я начал программировать бота и у меня такая проблема
Если проблема появилась в процессе программирования - верни всё как было

Tirinox
07.12.2018
12:59:17
Катерина, вам лучше выбрать рыцаря из чата и задавать ему вопросы лично ;)

Alexander
07.12.2018
12:59:32

Страница 7317 из 9768