@devops_ru

Страница 2300 из 4568
Nikolay
14.02.2017
07:44:26
поэтому трудно эмулировать

301
что 301?

Sheridan
14.02.2017
07:45:13
что 301?
Ошибка такая в протоколе есть

Nikolay
14.02.2017
07:45:19
301 всего лишь указыват на новый урл, который надо запросить

Google
Sheridan
14.02.2017
07:45:31
точнее код ответа

Nikolay
14.02.2017
07:45:33
и все реквестеры умеют ходить по редиректам

я не понял, в чем твоя идея

Sheridan
14.02.2017
07:46:06
301 всего лишь указыват на новый урл, который надо запросить
то есть ВНЕЗАПНО, уже не "отправил-получил результат", а надо еще в заголовок пришедший предварительно глянуть

Sheridan
14.02.2017
07:46:39
и все реквестеры умеют ходить по редиректам
нет, если это какой нибудь питоновский или пхпшный опен который умеет урлы открывать

Sheridan
14.02.2017
07:46:57
тот же фантом не умеет нопример

Nikolay
14.02.2017
07:47:07
ну вот я и говорю - фантом не нужен

в большинстве случаев

только если без js никуда

Sheridan
14.02.2017
07:47:35
точнее его можно научить конечно, но по умолчанию не редиректицца сам

Google
Nikolay
14.02.2017
07:47:41
а таких случаев мало

Sheridan
14.02.2017
07:47:56
жабаскрипт сейчас чуть менее чем везде

Nikolay
14.02.2017
07:47:58
ну, ты взял косяки фантома и попытался в них обвинить питон :) не надо так

Alex
14.02.2017
07:48:25
Лучше фантома ничего нет. Подключил jquery и выбираешь нужные данные, scrapy такого удобства не даст+ не известно придетя ли тебе собирать spa приложения. А так уже заточена будет архитектура сбора

Nikolay
14.02.2017
07:48:28
жабаскрипт сейчас чуть менее чем везде
последний раз пишу - в 95% при парсинге сайта тебе не нужно выполнять js, даже на современных сайтах

Alex
14.02.2017
07:48:47
Что сравнивать, это реальный браузер

Nikolay
14.02.2017
07:48:48
просто потому что механизм http не меняется от того, через js ты его дергаешь или рукамии

реальный браузер, который нафиг не нужен для задач обычного парсинга

Alex
14.02.2017
07:49:15
Mikhail
14.02.2017
07:49:22
хочу сказать, Grab - отличная штука, не такой накрученный как Scrapy, есть свой многопоточный модуль

Sheridan
14.02.2017
07:49:42
Alex
14.02.2017
07:50:04
Это дальновидно

Иначе придется все переписывать

Aleksandr
14.02.2017
07:50:26
если список сайтов не определён, что там может понадобится парсить, если всё будет нестандартизировано?

Nikolay
14.02.2017
07:50:34
Если список сайтов неопределен, то нужно выполнять жс
если список сайтов неопределен - надо всего лишь посмотреть, какой реквест надо выполнить, чтобы он стал определен

Nikolay
14.02.2017
07:51:15
а если он вообще заранее не определен - то там выполнение js не поможет

Google
Aleksandr
14.02.2017
07:51:16
поверь мне, попаданий будет процентов 60-70. Проверено
я имел ввиду не js, я про парсинг неопределённостей в принципе

Alex
14.02.2017
07:51:39
если список сайтов неопределен - надо всего лишь посмотреть, какой реквест надо выполнить, чтобы он стал определен
Видно что тебе мало что доводилось нормально парсить. Ты с обычным парсером даже поведение пользователя не эмулируешь, а на некоторых ресурсах уже есть такая защита

отслеживание склорра, кликов

Sheridan
14.02.2017
07:52:02
я имел ввиду не js, я про парсинг неопределённостей в принципе
главное цель поставить что именно надо на сайте найти. А там обходим теги, смотрим в классы, читаем ид, рисуем регекспы...

Nikolay
14.02.2017
07:52:07
Видно что тебе мало что доводилось нормально парсить. Ты с обычным парсером даже поведение пользователя не эмулируешь, а на некоторых ресурсах уже есть такая защита
мне много что доводилось парсить. И с обычным парсером вполне можно эмулировать, если скопировать запросы из браузера

Nikolay
14.02.2017
07:52:25
и ни разу мне не приходилось js юзать при парсинге

или ты придумал свой http?

Sheridan
14.02.2017
07:52:46
то есть список сайтов всё-таки определён =)
не список сайтов а список целей что найти на сайтах. Разные вещи, однако

Alex
14.02.2017
07:53:03
мне много что доводилось парсить. И с обычным парсером вполне можно эмулировать, если скопировать запросы из браузера
Нет, это бредятина. "копировать запросы из браузера" -упоротость и потеря времени. Подключая фантом и кликай, нажимай, скролль

И не теряй времени тонну

Нет, ничего ты толком не парсил и не аггрегировал

Иначе бы такой ахинеи не нес

Nikolay
14.02.2017
07:53:25
ерунду пишешь

Aleksandr
14.02.2017
07:53:36
не список сайтов а список целей что найти на сайтах. Разные вещи, однако
ну, термином было "неопределённый список сайтов", что показалось мне странным

Nikolay
14.02.2017
07:53:44
Google
Alex
14.02.2017
07:54:02
может и побольше тебя даже
По фактам твоим видно уровень компетенции

Nikolay
14.02.2017
07:54:24
я даже могу рассказать тебе, как в общем случае делается такой парсинг, там используется алгоритм сравнения содержимого

Nikolay
14.02.2017
07:54:47
По фактам твоим видно уровень компетенции
вот именно, это тебе зачем-то мышкой тыкать надо для парсинга сайта

а у меня питон справляется

Alex
14.02.2017
07:55:17
вот именно, это тебе зачем-то мышкой тыкать надо для парсинга сайта
Затем что я время экономлю и эмуляция поведения пользователя универсальна как процедура

Sheridan
14.02.2017
07:55:25
вот именно, это тебе зачем-то мышкой тыкать надо для парсинга сайта
а как ты текст то достанешь, если оно жабаскриптом генерицца во множестве случаев

Nikolay
14.02.2017
07:55:36
тебе так или иначе контент парсить надо, с js или без

и без него это делать проще

Alex
14.02.2017
07:56:06
ничего ты не экономишь, успокойся
Ты невменяем, чувак. Я написал фукнцию и она универсальна для всех сайтов. А ты сидишь и просерая время отслеживаешь заголовки

В том числе и аякс тот же примитивный

Nikolay
14.02.2017
07:56:22
а как ты текст то достанешь, если оно жабаскриптом генерицца во множестве случаев
оно не генерится джаваскриптом, джаваскрипт обычно делает форматирование только

Alex
14.02.2017
07:56:28
А уж про эмуляцию поведения юзера молчу

Nikolay
14.02.2017
07:56:33
за исключением упоротых случаев, когда реакт какой-нибудь

Aleksandr
14.02.2017
07:56:38
а как ты текст то достанешь, если оно жабаскриптом генерицца во множестве случаев
а есть где-нибудь общая статистика, какой процент сайтов сейчас аппендит тексты js'ом?

Nikolay
14.02.2017
07:56:44
тогда надо один урл посмотреть и все

Nikolay
14.02.2017
07:57:02
А уж про эмуляцию поведения юзера молчу
нету никаких проблем с эмуляцией поведениия юзера, вот вообще никаких

Google
Alex
14.02.2017
07:57:23
Nikolay
14.02.2017
07:57:45
просер времени, вот какая у тебя проблема
не пиши бред. Все упирается в удобство и умение

я на питончике быстрее распаршу, чем ты текст фантомом достанешь

Sheridan
14.02.2017
07:58:03
нету никаких проблем с эмуляцией поведениия юзера, вот вообще никаких
Даладна? Ну подгрузи ленту новостей группы вконтакта без эмуляции юзера

Nikolay
14.02.2017
07:58:04
так что не выпендривайся

Alex
14.02.2017
07:58:30
я на питончике быстрее распаршу, чем ты текст фантомом достанешь
Эм, фантом типо на вебките, а если ты не куришь тему- он на плюсах написан

Nikolay
14.02.2017
07:58:42
более нужным он для ежедневных задач от этого не стал

Alex
14.02.2017
07:58:55
так что не выпендривайся
В общем сиди оправдывайся дальше и парсь динамичные сайты питоном)))

Nikolay
14.02.2017
07:59:11
В общем сиди оправдывайся дальше и парсь динамичные сайты питоном)))
я не оправдываюсь, я просто рассказываю, как это удобнее делать

Sheridan
14.02.2017
07:59:11
а для вконтакта зачем парсить html, когда есть api?
я для примера чтобы понятно было и не пришлось простыню с объяснением писать

Nikolay
14.02.2017
07:59:18
а ты не умеешь - так и скажи

запрос со смещением это обычно, который выцепляется за минуту и потом просто берешь контент

Aleksandr
14.02.2017
08:00:39
очевидно, один из вас парсит агрессивно и часто наталкивается на сайты, где за ботовское поведение банят, а другой парсит более щадящим образом сайты, где не банят

Alex
14.02.2017
08:00:45
я для примера чтобы понятно было и не пришлось простыню с объяснением писать
Короче парню легче просрать время за отслеживанием заголовков чем нажать кнопку и словить хуком данные

Просто не компетентен

Nikolay
14.02.2017
08:01:07
Просто не компетентен
просто я этим занимаюсь регулярно, а ты нет

Страница 2300 из 4568