@ru_python

« Назад

Страница 7317 из 9768

Далее »

Тимур

07.12.2018
12:22:18

Ну и как ты это парсил?

Фото вытаскивается по селектору "#viewFilmInfoWrapper #photoBlock .film-img-box img"

Yegor

07.12.2018
12:22:30

давайте тогда пойдем от противного. За сколько времени вы напишете парсер который будет перебирать все страницы сайта и выдирать с каждой страницы из html один тег с определенным классом

Тимур

07.12.2018
12:22:32

Там src = ссылку сохраняешь для качки.

Ilia

07.12.2018
12:22:35

ДА фото-то понятно...

Google

Тимур

07.12.2018
12:24:26

ДА фото-то понятно...

https://www.crummy.com/software/BeautifulSoup/bs4/doc/

Смотришь в доках, она может перебирать в цикле, там актеры в таблице ячейки <TD> все в <A> - в цикле их перебираешь и сохраняешь

Andrew

07.12.2018
12:25:46

Ну я с сайта выдергиваю около 26к нужных единиц чего-то

От рубля за позицию)

Ilia

07.12.2018
12:26:28

Смотришь в доках, она может перебирать в цикле, там актеры в таблице ячейки <TD> все в <A> - в цикле их перебираешь и сохраняешь

Но да, этот кинопоиск образцово-показательный лёгкий сайт.

Тимур

07.12.2018
12:26:32

давайте тогда пойдем от противного. За сколько времени вы напишете парсер который будет перебирать все страницы сайта и выдирать с каждой страницы из html один тег с определенным классом

Самое не понятное откуда брать страницы, выдергивать данные из тега очень просто, используешь CSS селектор. А список сайтов можно искать начинать с sitemap.xml

Yegor

07.12.2018
12:27:13

Самое не понятное откуда брать страницы, выдергивать данные из тега очень просто, используешь CSS селектор. А список сайтов можно искать начинать с sitemap.xml

не не, сайт один

Тимур

07.12.2018
12:27:16

Я не понимаю как парсеры могу оценивать количественно. Если у вас правильный парсер, не важно сколько страниц.

Yegor

07.12.2018
12:27:28

на сайте около 26к страниц

Тимур

07.12.2018
12:27:53

не не, сайт один

Сайт один, но страницы которые нужно грузить, или они у тебя есть готовые. Скажем в админке добавляет сам клиент. Или ты их как робот из sitemap.xml вытаскиваешь, если он есть. Если нет сложнее.

на сайте около 26к страниц

У тебя есть список этих страниц? Если нет, и нет sitemap, то начинаешь писать первую часть твоего парсера, это Бота, который начинает с главной страницы (или с нужного раздела) и тупо собирает ссылки необходимые тебе. Возможно с регуляркой чтобы лишнее не бралось

Yegor

07.12.2018
12:29:08

я захожу на главную, там есть разделы, собираю линки на разделы, в каждом разделе пагинация. В многопоток иду в эти разделы и перебираю страницы в разделе

Тимур

07.12.2018
12:29:15

Как закончит, пишешь вторую часть, которая парсит готово отобранные страницы.

Вторая часть парсит по CSS данные, которые тебе нужны и сохраняет их также в твою БД, и сохраняет ссылки на Медиа файлы (картинки, видео) если нужно

Google

Yegor

07.12.2018
12:30:04

прямые ссылки на нужные страницы, с которых мне нужно выдернуть данные, я сохраняю в файл

Тимур

07.12.2018
12:30:19

И третья часть, по списку Медиа ссылок, качает сами ресурсы по папкам.

Yegor

07.12.2018
12:30:28

дальше открываю файл и в многопоток иду по этим ссылкам и выдергиваю нужные данные

Тимур

07.12.2018
12:30:29

прямые ссылки на нужные страницы, с которых мне нужно выдернуть данные, я сохраняю в файл

Как тебе удобно, я бы с БД все делал.

Yegor

07.12.2018
12:31:08

Как тебе удобно, я бы с БД все делал.

не вижу глубокого смысла

Тимур

07.12.2018
12:31:13

дальше открываю файл и в многопоток иду по этим ссылкам и выдергиваю нужные данные

Если тебе скорость не важна, многопоток не обязателен. Делай их по очереди. И бана не словишь, если у них стоят защиты, не у всех сайтов есть защиты

Yegor

07.12.2018
12:31:35

для этого можно ходить через прокси

Но защит по ходу ноль

Тимур

07.12.2018
12:31:44

не вижу глубокого смысла

Ну ты бы мог следить за статусом выполнения то или иной страницы, и если у тебя упадет все, то может продолжится где остановилась

Yegor

07.12.2018
12:31:47

Ибо я уже сайт пару раз ложил)))

ну... почти ложил

Тимур

07.12.2018
12:32:02

для этого можно ходить через прокси

Он нужен только, когда есть проблема. Если ее нет. Не используй, нафиг

Yegor

07.12.2018
12:32:44

В общем ладно, пойду лабать. Там уже до готового парсера совсем немножко осталось

Тимур

07.12.2018
12:32:56

Ибо я уже сайт пару раз ложил)))

Ну зачем это было делать, спокойно бы перебирал все 26к по очереди, сохраняя медиа, долго , да, но стабильно. И если правильно сделаешь, даже с выключением твоего компа-сервера, все бы продолжалось, где остановилось

Я так и парсер цен товаров в КЗ делаю, вообще у многих защит нет. Только у крупных порталов и то там платные системы стоят.

Yegor

07.12.2018
12:33:47

Ну зачем это было делать, спокойно бы перебирал все 26к по очереди, сохраняя медиа, долго , да, но стабильно. И если правильно сделаешь, даже с выключением твоего компа-сервера, все бы продолжалось, где остановилось

Это же тесты были. Дело в том что если не в многопоток то будет капец как долго

Ilia

07.12.2018
12:34:16

Я не понимаю как парсеры могу оценивать количественно. Если у вас правильный парсер, не важно сколько страниц.

Если они с разной структурой -- важно... ОДинаковых -- конечно не важно

Тимур

07.12.2018
12:34:39

Это же тесты были. Дело в том что если не в многопоток то будет капец как долго

На сколько долго? И разве не терпит? И не проще ли, чтобы с потоками не возиться, и лишних задач не плодить и времени лишнего своего не тратить.

Ilia

07.12.2018
12:35:51

для этого можно ходить через прокси

Но за прокси платить надо...

Yegor

07.12.2018
12:36:27

На сколько долго? И разве не терпит? И не проще ли, чтобы с потоками не возиться, и лишних задач не плодить и времени лишнего своего не тратить.

>>> 26000 / 3600 7.222222222222222 часов. Это только чтоб ссылки достать. Это в том случае если я буду по очереди открывать все 26000 страниц тратя на это секунду

Google

rasonbot

07.12.2018
12:36:59

ваша честь прошу помочь

Тимур

07.12.2018
12:37:03

>>> 26000 / 3600 7.222222222222222 часов. Это только чтоб ссылки достать. Это в том случае если я буду по очереди открывать все 26000 страниц тратя на это секунду

Пффф, норм) а sitemap.xml нет?

Yegor

07.12.2018
12:37:09

Это у меня делается в среднем за 20 минут в многопоток

Ilia

07.12.2018
12:37:59

Это у меня делается в среднем за 20 минут в многопоток

Ну, уложишь сайт, тебя засветят, начнут банить... Тебе это надо ? andeniel прав...

rasonbot

07.12.2018
12:38:01

Тимур

07.12.2018
12:38:04

Хотя я думаю ты не правильно подсчитал. 26 000 это ссылок. А страниц ты будешь открывать меньше, на одной страницы у тебя будут скажем 25 ссылок, потом след. страница и тд

Yegor

07.12.2018
12:38:20

Пффф, норм) а sitemap.xml нет?

сайтмапа я не нашел

rasonbot

07.12.2018
12:38:48

когда реклама?

Yegor

07.12.2018
12:39:04

Хотя я думаю ты не правильно подсчитал. 26 000 это ссылок. А страниц ты будешь открывать меньше, на одной страницы у тебя будут скажем 25 ссылок, потом след. страница и тд

не не, это реально ссылок на страницы которые нужно парсить. постранично я открываю тоже много страниц и выдергиваю по двадцать ссылок

Катерина

07.12.2018
12:39:47

когда реклама?

А надо?

;)

07.12.2018
12:40:28

А надо?

А шо пятон интересует?

Tigran

07.12.2018
12:42:10

когда реклама?

ты чё токсичный такой

Катерина

07.12.2018
12:42:52

А шо пятон интересует?

Очень ) безумно )

Тимур

07.12.2018
12:44:07

Очень ) безумно )

Напишу глупость, но вы просто очень красивы для Питон программиста)

;)

07.12.2018
12:44:37

Очень ) безумно )

Проверка. #! /usr/bin/env python это шо такое?

Катерина

07.12.2018
12:46:37

Напишу глупость, но вы просто очень красивы для Питон программиста)

Это о том, что девушка не может быть программистом) или она не совсем девушка, или не совсем программист?!

Евгений

07.12.2018
12:46:43

Напишу глупость, но вы просто очень красивы для Питон программиста)

мб HR

Катерина

07.12.2018
12:46:54

Напишу глупость, но вы просто очень красивы для Питон программиста)

А комплимент принимаемся

;)

07.12.2018
12:47:11

Напишу глупость, но вы просто очень красивы для Питон программиста)

Лучше бы вообще не писал?

Евгений

07.12.2018
12:47:23

Напишу глупость, но вы просто очень красивы для Питон программиста)

но да, глупо связывать занятия и внешний вид

Google

Timur

07.12.2018
12:47:29

Здравствуйте! Кому легче создавать сайты на gjango? Чем на laravel или zendframework

Евгений

07.12.2018
12:47:45

но да, глупо связывать занятия и внешний вид

только если это не цирк и женская густая рыжая борода

;)

07.12.2018
12:48:01

Это о том, что девушка не может быть программистом) или она не совсем девушка, или не совсем программист?!

А проверку не прошла

^^

07.12.2018
12:48:09

А проверку не прошла

Именно

Admin

ERROR: S client not available

Stannis

07.12.2018
12:49:05

Други что взять в качестве миддлвари-REST для работы с mysql?

Как связка Tornado+TorMysql ?

Катерина

07.12.2018
12:49:34

Проверка. #! /usr/bin/env python это шо такое?

Скрипт

А проверку не прошла

Отвлекли от ответа )

;)

07.12.2018
12:50:14

Неть

Катерина

07.12.2018
12:51:03

Неть

Просветите?

;)

07.12.2018
12:51:22

Указывает интерпретатор

Катерина

07.12.2018
12:51:55

Указывает интерпретатор

Буду знать )

Я очень начинающий python программист

мб HR

Иногда выполняю такие функции

Andrew

07.12.2018
12:53:15

Напишу глупость, но вы просто очень красивы для Питон программиста)

Это ты просто меня не видел

Катерина

07.12.2018
12:53:36

Это ты просто меня не видел

Тоже красив?)

Andrew

07.12.2018
12:53:50

Тоже красив?)

Этож. Зацени симметрию

Катерина

07.12.2018
12:54:05

Этож. Зацени симметрию

Идеально)

Andrew

07.12.2018
12:54:15

Идеально)

И шары что надо

Google

Andrew

07.12.2018
12:54:25

Как бы двусмысленно это не звучало

Евгений

07.12.2018
12:54:44

ни

Катерина

07.12.2018
12:55:08

Как бы двусмысленно это не звучало

????

Ребята, может к вам девушка за помощью обратиться?!

Andrew

07.12.2018
12:57:25

Ребята, может к вам девушка за помощью обратиться?!

В общем то мы тут только для этого и собрались

Евгений

07.12.2018
12:57:26

Ребята, может к вам девушка за помощью обратиться?!

nometa.xyz

Ойбек

07.12.2018
12:57:31

Здравствуйте

Andrew

07.12.2018
12:57:43

Здравствуйте

nometa.xyz

Ойбек

07.12.2018
12:57:45

Я начал программировать бота и у меня такая проблема

Alexander

07.12.2018
12:58:09

Я начал программировать бота и у меня такая проблема

как бот на это отреагировал ?

Евгений

07.12.2018
12:58:31

как бот на это отреагировал ?

ну это, как то ну проблема

Ойбек

07.12.2018
12:58:40

я вписывал код на среде pycharm

Andrew

07.12.2018
12:59:00

Я начал программировать бота и у меня такая проблема

Если проблема появилась в процессе программирования - верни всё как было

Tirinox

07.12.2018
12:59:17

Катерина, вам лучше выбрать рыцаря из чата и задавать ему вопросы лично ;)

Alexander

07.12.2018
12:59:32

Если проблема появилась в процессе программирования - верни всё как было

Открыть в Telegram