
Тимур
07.12.2018
12:22:18

Yegor
07.12.2018
12:22:30
давайте тогда пойдем от противного. За сколько времени вы напишете парсер который будет перебирать все страницы сайта и выдирать с каждой страницы из html один тег с определенным классом

Тимур
07.12.2018
12:22:32
Там src = ссылку сохраняешь для качки.

Ilia
07.12.2018
12:22:35
ДА фото-то понятно...

Google

Тимур
07.12.2018
12:24:26
Смотришь в доках, она может перебирать в цикле, там актеры в таблице ячейки <TD> все в <A> - в цикле их перебираешь и сохраняешь

Andrew
07.12.2018
12:25:46

Ilia
07.12.2018
12:26:28

Тимур
07.12.2018
12:26:32

Yegor
07.12.2018
12:27:13

Тимур
07.12.2018
12:27:16
Я не понимаю как парсеры могу оценивать количественно. Если у вас правильный парсер, не важно сколько страниц.

Yegor
07.12.2018
12:27:28
на сайте около 26к страниц

Тимур
07.12.2018
12:27:53
не не, сайт один
Сайт один, но страницы которые нужно грузить, или они у тебя есть готовые. Скажем в админке добавляет сам клиент. Или ты их как робот из sitemap.xml вытаскиваешь, если он есть. Если нет сложнее.
на сайте около 26к страниц
У тебя есть список этих страниц? Если нет, и нет sitemap, то начинаешь писать первую часть твоего парсера, это Бота, который начинает с главной страницы (или с нужного раздела) и тупо собирает ссылки необходимые тебе. Возможно с регуляркой чтобы лишнее не бралось

Yegor
07.12.2018
12:29:08
я захожу на главную, там есть разделы, собираю линки на разделы, в каждом разделе пагинация. В многопоток иду в эти разделы и перебираю страницы в разделе

Тимур
07.12.2018
12:29:15
Как закончит, пишешь вторую часть, которая парсит готово отобранные страницы.
Вторая часть парсит по CSS данные, которые тебе нужны и сохраняет их также в твою БД, и сохраняет ссылки на Медиа файлы (картинки, видео) если нужно

Google

Yegor
07.12.2018
12:30:04
прямые ссылки на нужные страницы, с которых мне нужно выдернуть данные, я сохраняю в файл

Тимур
07.12.2018
12:30:19
И третья часть, по списку Медиа ссылок, качает сами ресурсы по папкам.

Yegor
07.12.2018
12:30:28
дальше открываю файл и в многопоток иду по этим ссылкам и выдергиваю нужные данные

Тимур
07.12.2018
12:30:29

Yegor
07.12.2018
12:31:08

Тимур
07.12.2018
12:31:13

Yegor
07.12.2018
12:31:35
для этого можно ходить через прокси
Но защит по ходу ноль

Тимур
07.12.2018
12:31:44
не вижу глубокого смысла
Ну ты бы мог следить за статусом выполнения то или иной страницы, и если у тебя упадет все, то может продолжится где остановилась

Yegor
07.12.2018
12:31:47
Ибо я уже сайт пару раз ложил)))
ну... почти ложил

Тимур
07.12.2018
12:32:02

Yegor
07.12.2018
12:32:44
В общем ладно, пойду лабать. Там уже до готового парсера совсем немножко осталось

Тимур
07.12.2018
12:32:56
Ибо я уже сайт пару раз ложил)))
Ну зачем это было делать, спокойно бы перебирал все 26к по очереди, сохраняя медиа, долго , да, но стабильно. И если правильно сделаешь, даже с выключением твоего компа-сервера, все бы продолжалось, где остановилось
Я так и парсер цен товаров в КЗ делаю, вообще у многих защит нет. Только у крупных порталов и то там платные системы стоят.

Yegor
07.12.2018
12:33:47

Ilia
07.12.2018
12:34:16

Тимур
07.12.2018
12:34:39

Ilia
07.12.2018
12:35:51

Yegor
07.12.2018
12:36:27

Google

rasonbot
07.12.2018
12:36:59
ваша честь прошу помочь

Тимур
07.12.2018
12:37:03

Yegor
07.12.2018
12:37:09
Это у меня делается в среднем за 20 минут в многопоток

Ilia
07.12.2018
12:37:59

rasonbot
07.12.2018
12:38:01

Тимур
07.12.2018
12:38:04
Хотя я думаю ты не правильно подсчитал. 26 000 это ссылок. А страниц ты будешь открывать меньше, на одной страницы у тебя будут скажем 25 ссылок, потом след. страница и тд

Yegor
07.12.2018
12:38:20

rasonbot
07.12.2018
12:38:48
когда реклама?

Yegor
07.12.2018
12:39:04

Катерина
07.12.2018
12:39:47

;)
07.12.2018
12:40:28

Tigran
07.12.2018
12:42:10

Катерина
07.12.2018
12:42:52

Тимур
07.12.2018
12:44:07

;)
07.12.2018
12:44:37

Катерина
07.12.2018
12:46:37

Евгений
07.12.2018
12:46:43

Катерина
07.12.2018
12:46:54

;)
07.12.2018
12:47:11

Евгений
07.12.2018
12:47:23

Google

Timur
07.12.2018
12:47:29
Здравствуйте! Кому легче создавать сайты на gjango? Чем на laravel или zendframework

Евгений
07.12.2018
12:47:45

;)
07.12.2018
12:48:01

^^
07.12.2018
12:48:09

Admin
ERROR: S client not available

Stannis
07.12.2018
12:49:05
Други что взять в качестве миддлвари-REST для работы с mysql?
Как связка Tornado+TorMysql ?

Катерина
07.12.2018
12:49:34

;)
07.12.2018
12:50:14
Неть

Катерина
07.12.2018
12:51:03

;)
07.12.2018
12:51:22
Указывает интерпретатор

Катерина
07.12.2018
12:51:55
Я очень начинающий python программист
мб HR
Иногда выполняю такие функции

Andrew
07.12.2018
12:53:15

Катерина
07.12.2018
12:53:36

Andrew
07.12.2018
12:53:50

Катерина
07.12.2018
12:54:05

Andrew
07.12.2018
12:54:15

Google

Andrew
07.12.2018
12:54:25
Как бы двусмысленно это не звучало

Евгений
07.12.2018
12:54:44
ни

Катерина
07.12.2018
12:55:08
Ребята, может к вам девушка за помощью обратиться?!

Andrew
07.12.2018
12:57:25

Евгений
07.12.2018
12:57:26

Ойбек
07.12.2018
12:57:31
Здравствуйте

Andrew
07.12.2018
12:57:43

Ойбек
07.12.2018
12:57:45
Я начал программировать бота и у меня такая проблема

Alexander
07.12.2018
12:58:09

Евгений
07.12.2018
12:58:31

Ойбек
07.12.2018
12:58:40
я вписывал код на среде pycharm

Andrew
07.12.2018
12:59:00

Tirinox
07.12.2018
12:59:17
Катерина, вам лучше выбрать рыцаря из чата и задавать ему вопросы лично ;)

Alexander
07.12.2018
12:59:32