@phpgeeks

Страница 1554 из 8430
f4rt~
13.10.2016
13:05:02
мне не жалко, кто успел как говорится

?
13.10.2016
13:05:25
у меня оба адреса есть :/

f4rt~
13.10.2016
13:05:48
Ilyas
13.10.2016
13:15:57
Подскажите, есть например интернет магаз с которого надо произвести парсинг. Каким образом можно найти ссылки всех товаров? искал в гугле не нашел, везде только показывается как выташить инфу со страницы

Google
?
13.10.2016
13:16:46
а чем ссылки не инфа?

Aleksandr
13.10.2016
13:17:08
Регуляркой

Ilyas
13.10.2016
13:17:19
ну а если например заходишь в раздел

?
13.10.2016
13:17:23
годных дом парсеров нету чтоли?

регулярками это жестко довольно

Ilyas
13.10.2016
13:17:39
а там много разделов

Roman ?
13.10.2016
13:17:43
парсить на пхп ваще помоему довольно жестко

Aleksandr
13.10.2016
13:18:04
Я регуляркой парсю картники с сайтов

F01134H
13.10.2016
13:18:05
?
13.10.2016
13:18:06
рекурсивно
аккуратно

Google
Ilyas
13.10.2016
13:18:14
точнее не разделов, а страниц раздела, там же надо в кажду страницу зайти и оттуда ссылки на товары найти или как?

?
13.10.2016
13:18:15
не поломай мозг ему

F01134H
13.10.2016
13:18:16
как на любом языке, в принципе

Roman ?
13.10.2016
13:18:27
че тут жесткого
не проще каким нибудь фантомом парсить, там все таки V8 обученный работать с домом

Ilyas
13.10.2016
13:18:29
да мне пофиг на язык) мне логику бы понять

я же вопрос не по дому задал, а как ссылки на товары найти

?
13.10.2016
13:19:25
точнее не разделов, а страниц раздела, там же надо в кажду страницу зайти и оттуда ссылки на товары найти или как?
парсер пишется под структуру сайта, и если надо пройти все ссылки на сайте, чтобы вытащить все товары, то и парсер должен делать ровно тоже самое

Roman ?
13.10.2016
13:20:12
если у тебя куча разделов с подразделами, то получай их структуру и рекурсивно обходи

?
13.10.2016
13:20:15
если есть каталог - идёшь по нему

и дёргаешь что надо

Ilyas
13.10.2016
13:20:34
ну так товары же не на одной страницы

пагинация

?
13.10.2016
13:20:44
ну вот

Roman ?
13.10.2016
13:20:48
а что с ней?

?
13.10.2016
13:20:48
ты же знаешь, что делать

F01134H
13.10.2016
13:20:50
пагинируешь знач

Ilyas
13.10.2016
13:21:41
и каждый раздел так пагинировать и ссылки парсить на товары ну понятно

F01134H
13.10.2016
13:22:05
шоб пагинация работала - вызываешь скрипт перехода на другую страницу

?
13.10.2016
13:22:05
F01134H
13.10.2016
13:22:19
или если там url юзается - переходишь на другой url

Google
Roman ?
13.10.2016
13:22:26
вау

Ilyas
13.10.2016
13:22:48
ну тут все отцы, я просто нубас, которому не ясно простите

были бы исходники чтобы вкурить) но ничего не нашел

/
13.10.2016
13:23:40
и каждый раздел так пагинировать и ссылки парсить на товары ну понятно
ну спарсил кол страниц, дальше на каждой странице одинаковые элементы, и в цикле по 100 старницам пробегись

?
13.10.2016
13:23:41
ну тут все отцы, я просто нубас, которому не ясно простите
дело не в опыте, дело в том, что на твой вопрос можно ответить немного подумав самому

Котяй Негодяй
13.10.2016
13:24:06
1. Сохраняешь имя хоста. 2. Делаешь кэш обработанных адресов. 3. Рекурсивно сибираешь все ссылки в кэш. При этом проверяй, есть ли ссылка в кэше и соответствуюет ли она имени хоста. 4. Обрабатываешь ссылки (ишешь признаки того, что это страница товара и, если это так, берёшь оттуда то, что тебе нужно).

Ilyas
13.10.2016
13:24:10
кажется сложным, когда не писал ни разу аткую штуку

?
13.10.2016
13:24:28
парсеры чаще всего довольно примитивны

?
13.10.2016
13:24:48
просто их написание довольно рутинное занятие

Котяй Негодяй
13.10.2016
13:25:24
это ты уже краулер описал, не лишнее ли вообще все ссылки дергать?
Если это инет-магаз, то нет смысла их фильтровать.

?
13.10.2016
13:25:25
причём в пыхе есть всё, чтобы парсер на коленке нахуякать

Котяй Негодяй
13.10.2016
13:25:35
Левого контента очень малый процент.

Ilyas
13.10.2016
13:25:42
ну кому рутинное а кому нет) не все же с опытные..

причём в пыхе есть всё, чтобы парсер на коленке нахуякать
ну я видел что есть либы для работы с домом, поэтому не парюст

Roman ?
13.10.2016
13:27:19
Если это инет-магаз, то нет смысла их фильтровать.
ну кстати если собрать все ссылки, потом проще пихнуть их в очередь и пустить в кучу потоков

Котяй Негодяй
13.10.2016
13:27:20
Пыха для парсинга сайтов не очень.

Roman ?
13.10.2016
13:27:30
Вот и я о том

но чисто на коленке собрать то можно, парсить в промышленных маштабах - долго

Google
Ilyas
13.10.2016
13:27:58
а есть примеры

где позырить?

Котяй Негодяй
13.10.2016
13:28:27
Потоки здесь не нужны особо даже. Нода — уже справится.

?
13.10.2016
13:28:30
Котяй Негодяй
13.10.2016
13:29:15
что лучше и почему?
Потому что пыха синхронная. большая часть времени выполнения твоего скрипта окажется ожиданием ответов на твои запросы.

что лучше и почему?
Лучше всё, что может выполняться асинхронно.

Котяй Негодяй
13.10.2016
13:29:44
Геморрой.

?
13.10.2016
13:30:05
Геморрой.
спорно

Котяй Негодяй
13.10.2016
13:30:17
И с порно тоже.

Admin
ERROR: S client not available

Roman ?
13.10.2016
13:30:46
Я видел у одних ребят решение на phantom.js (точнее на написанном к нему расширению, каспер вроде) говорили, что тот же дум в разы быстрее разбирать

Котяй Негодяй
13.10.2016
13:30:53
Ну, я бы не стал ради парсера заморачиваться, короч.

Dmitriy
13.10.2016
13:32:39
Подскажите, есть например интернет магаз с которого надо произвести парсинг. Каким образом можно найти ссылки всех товаров? искал в гугле не нашел, везде только показывается как выташить инфу со страницы
В /robots.txt находишь сылку на его sitemap карту. Загружаешь эту карту и пошаблону (если таковой есть) отфильтровываешьте сылки, что являются карточкой товара

Котяй Негодяй
13.10.2016
13:32:55
Кстати, да. =)

Если он есть.

Roman ?
13.10.2016
13:33:15
Чёт сложно. Можно и проще.
там постоянный парсинг шел, новостные агрегаторы или что то такое

Google
Dmitriy
13.10.2016
13:33:16
я таким образом выдергивал их прайсы

?
13.10.2016
13:33:29
да и сайтмап тоже не всегда генерят

[Anonymous]
13.10.2016
13:33:31
Я просто парсером по дивам бегу обычно

без сайтмапа

phpquery тотже

https://habrahabr.ru/post/69149/

?
13.10.2016
13:34:02
ну

нахуякал на коленке

Dmitriy
13.10.2016
13:34:07
а если нет роботов?
Должен быть ибо так не сможет нормально выгружать товары в маркет

?
13.10.2016
13:34:14
и пусть себе в 1 поток перебирает

Котяй Негодяй
13.10.2016
13:34:25
Roman ?
13.10.2016
13:34:46
и пусть себе в 1 поток перебирает
а если я какой нибудь ебей спарсить захочу?

поседеть успею

?
13.10.2016
13:35:04
не обязательно

Dmitriy
13.10.2016
13:35:11
Я просто парсером по дивам бегу обычно
Товаров может быть много, например thoman - 80тыс товаров из порядка 200 тыс страниц. Устанешь пробегаться

Roman ?
13.10.2016
13:35:49
golang + потоки
а если там контент аяксом подгружается

[Anonymous]
13.10.2016
13:36:04
?
13.10.2016
13:36:09
Товаров может быть много, например thoman - 80тыс товаров из порядка 200 тыс страниц. Устанешь пробегаться
даже если брать по секунде на запрос (что довольно дико сегодня), уйдёт 55 часов, до пенсии ещё далеко

Котяй Негодяй
13.10.2016
13:36:38
а если там контент аяксом подгружается
Если нет пререндера, есть вопросы к адекватноси разрабов. Это ж магазин.

?
13.10.2016
13:36:41
а если там контент аяксом подгружается
чем парсинг аякса принципиально сложнее?

Dmitriy
13.10.2016
13:36:43
golang + parse json + потоки
+ filter bot = печалька :)

Страница 1554 из 8430