
f4rt~
13.10.2016
13:05:02
мне не жалко, кто успел как говорится

?
13.10.2016
13:05:25
у меня оба адреса есть :/

f4rt~
13.10.2016
13:05:48

Ilyas
13.10.2016
13:15:57
Подскажите, есть например интернет магаз с которого надо произвести парсинг. Каким образом можно найти ссылки всех товаров? искал в гугле не нашел, везде только показывается как выташить инфу со страницы

Google

?
13.10.2016
13:16:46
а чем ссылки не инфа?

/
13.10.2016
13:16:48

Aleksandr
13.10.2016
13:17:08
Регуляркой

Ilyas
13.10.2016
13:17:19
ну а если например заходишь в раздел

?
13.10.2016
13:17:23
годных дом парсеров нету чтоли?
регулярками это жестко довольно

Ilyas
13.10.2016
13:17:39
а там много разделов

Roman ?
13.10.2016
13:17:43
парсить на пхп ваще помоему довольно жестко

Aleksandr
13.10.2016
13:18:04
Я регуляркой парсю картники с сайтов

F01134H
13.10.2016
13:18:05

?
13.10.2016
13:18:06

Google

Ilyas
13.10.2016
13:18:14
точнее не разделов, а страниц раздела, там же надо в кажду страницу зайти и оттуда ссылки на товары найти или как?

?
13.10.2016
13:18:15
не поломай мозг ему

F01134H
13.10.2016
13:18:16
как на любом языке, в принципе

Roman ?
13.10.2016
13:18:27
че тут жесткого
не проще каким нибудь фантомом парсить, там все таки V8 обученный работать с домом

Ilyas
13.10.2016
13:18:29
да мне пофиг на язык) мне логику бы понять
я же вопрос не по дому задал, а как ссылки на товары найти

?
13.10.2016
13:19:25

Roman ?
13.10.2016
13:20:12
если у тебя куча разделов с подразделами, то получай их структуру и рекурсивно обходи

?
13.10.2016
13:20:15
если есть каталог - идёшь по нему
и дёргаешь что надо

Ilyas
13.10.2016
13:20:34
ну так товары же не на одной страницы
пагинация

?
13.10.2016
13:20:44
ну вот

Roman ?
13.10.2016
13:20:48
а что с ней?

?
13.10.2016
13:20:48
ты же знаешь, что делать

F01134H
13.10.2016
13:20:50
пагинируешь знач

Ilyas
13.10.2016
13:21:41
и каждый раздел так пагинировать и ссылки парсить на товары ну понятно

F01134H
13.10.2016
13:22:05
шоб пагинация работала - вызываешь скрипт перехода на другую страницу

?
13.10.2016
13:22:05

F01134H
13.10.2016
13:22:19
или если там url юзается - переходишь на другой url

Google

Roman ?
13.10.2016
13:22:26
вау

Ilyas
13.10.2016
13:22:48
ну тут все отцы, я просто нубас, которому не ясно простите
были бы исходники чтобы вкурить) но ничего не нашел

/
13.10.2016
13:23:40

?
13.10.2016
13:23:41

Котяй Негодяй
13.10.2016
13:24:06
1. Сохраняешь имя хоста.
2. Делаешь кэш обработанных адресов.
3. Рекурсивно сибираешь все ссылки в кэш. При этом проверяй, есть ли ссылка в кэше и соответствуюет ли она имени хоста.
4. Обрабатываешь ссылки (ишешь признаки того, что это страница товара и, если это так, берёшь оттуда то, что тебе нужно).

Ilyas
13.10.2016
13:24:10
кажется сложным, когда не писал ни разу аткую штуку

?
13.10.2016
13:24:28
парсеры чаще всего довольно примитивны

Roman ?
13.10.2016
13:24:41

?
13.10.2016
13:24:48
просто их написание довольно рутинное занятие

Котяй Негодяй
13.10.2016
13:25:24

?
13.10.2016
13:25:25
причём в пыхе есть всё, чтобы парсер на коленке нахуякать

Котяй Негодяй
13.10.2016
13:25:35
Левого контента очень малый процент.

Ilyas
13.10.2016
13:25:42
ну кому рутинное а кому нет) не все же с опытные..

Roman ?
13.10.2016
13:27:19

Котяй Негодяй
13.10.2016
13:27:20
Пыха для парсинга сайтов не очень.

Roman ?
13.10.2016
13:27:30
Вот и я о том
но чисто на коленке собрать то можно, парсить в промышленных маштабах - долго

Google

Ilyas
13.10.2016
13:27:58
а есть примеры
где позырить?

Котяй Негодяй
13.10.2016
13:28:27
Потоки здесь не нужны особо даже. Нода — уже справится.

?
13.10.2016
13:28:30

Котяй Негодяй
13.10.2016
13:29:15
что лучше и почему?
Потому что пыха синхронная. большая часть времени выполнения твоего скрипта окажется ожиданием ответов на твои запросы.

?
13.10.2016
13:29:37

Котяй Негодяй
13.10.2016
13:29:44
Геморрой.

?
13.10.2016
13:30:05

Котяй Негодяй
13.10.2016
13:30:17
И с порно тоже.

Admin
ERROR: S client not available

Roman ?
13.10.2016
13:30:46
Я видел у одних ребят решение на phantom.js (точнее на написанном к нему расширению, каспер вроде)
говорили, что тот же дум в разы быстрее разбирать

Котяй Негодяй
13.10.2016
13:30:53
Ну, я бы не стал ради парсера заморачиваться, короч.

Dmitriy
13.10.2016
13:32:39

Котяй Негодяй
13.10.2016
13:32:55
Кстати, да. =)
Если он есть.

?
13.10.2016
13:33:02
не все утруждаются

Roman ?
13.10.2016
13:33:15

Google

Dmitriy
13.10.2016
13:33:16
я таким образом выдергивал их прайсы

?
13.10.2016
13:33:29
да и сайтмап тоже не всегда генерят

[Anonymous]
13.10.2016
13:33:31
Я просто парсером по дивам бегу обычно
без сайтмапа
phpquery тотже
https://habrahabr.ru/post/69149/

?
13.10.2016
13:34:02
ну
нахуякал на коленке

Dmitriy
13.10.2016
13:34:07

?
13.10.2016
13:34:14
и пусть себе в 1 поток перебирает

Котяй Негодяй
13.10.2016
13:34:25

?
13.10.2016
13:34:30

Roman ?
13.10.2016
13:34:46
поседеть успею

?
13.10.2016
13:35:04
не обязательно

Dmitriy
13.10.2016
13:35:11

[Anonymous]
13.10.2016
13:35:36

Roman ?
13.10.2016
13:35:49

[Anonymous]
13.10.2016
13:36:04

?
13.10.2016
13:36:09

Котяй Негодяй
13.10.2016
13:36:38

?
13.10.2016
13:36:41

Dmitriy
13.10.2016
13:36:43