
Alex
14.02.2017
08:01:15
?
клоунада

Sheridan
14.02.2017
08:01:21

Alex
14.02.2017
08:01:24
я этим занимаюсь уже года два

Google

Nikolay
14.02.2017
08:01:30

Alex
14.02.2017
08:01:41
ну тогда я 10
?

Nikolay
14.02.2017
08:01:50
а у меня длиннее еще

Alex
14.02.2017
08:01:58
У меня толще

Nikolay
14.02.2017
08:02:09
короче, учи матчасть и не суй свой js туда, куда не надо
а то смешно может быть в приличном обществе

Alex
14.02.2017
08:03:13
ну или парсить неделями что бы таймауты были или тратить тысячи на тысячи прокси

Nikolay
14.02.2017
08:03:56

Alex
14.02.2017
08:04:00
Я же говорю- я сразу вижу что ты не компетентен и не понимаешь насколько сейчас собирать некоторые ресурсы
Фантом это виртуальный браузер
в нем можно почти все

Google

Nikolay
14.02.2017
08:04:15
блин, ну ты упоротый

Alex
14.02.2017
08:04:16
В том чилсе прикинуться правильным юзером

Nikolay
14.02.2017
08:04:24
не надо мне рассказывать про фантом, я с ним работал
и я знаю, что он не нужен в большинстве случаев

Alex
14.02.2017
08:04:39
А ты поришь говноту и потом вот начинают лимитировать запросы на ресурсах

Nikolay
14.02.2017
08:04:44
не умеешь, не понимаешь - перестань спорить

Alex
14.02.2017
08:04:54
Потому что привык работать по дедовски методами 90х годов
когда даже систем фильтрации трафика не было

Sheridan
14.02.2017
08:05:19

Nikolay
14.02.2017
08:05:47
который работает

Sheridan
14.02.2017
08:06:18

Nikolay
14.02.2017
08:06:21
фантом серьезно нужен крайне редко для таких задач

Sheridan
14.02.2017
08:06:41
в реальности это три разных человека

Alex
14.02.2017
08:08:16
святая простота

Nikolay
14.02.2017
08:08:38

Alex
14.02.2017
08:08:44
а я уже говорю про эмуляцию поведение юзера
а тут просто ведь можно подставить хром , реферер и получить страничку

Google

Alex
14.02.2017
08:09:00
да чувак, ты прав

Nikolay
14.02.2017
08:09:32
можно сэмулировать поведение юзера без особой сложности, если толково подойти
а в работу с куками, редиректами и прочей фигней питон тот же умеет уже тыщу лет как
в общем все, вопрос закрыт, js-фаната и любителя тыкать мышкой разумными аргументами не переубедить

Alex
14.02.2017
08:10:34
Я же говорю- через протирания часами штанов. Что бы определить КАК он определяет это поведение. Клики/скролл. Долгая долбежка логов и это НЕ УНИВЕРСАЛЬНО. Вот что важно. Когда можно 1 раз написать эмулятор который щелкает, скроллит и кликает и он будет работать везде
просто по тем инструментам которые ты используешь ясно что задачи у тебя реально простые
и ресурсы тоже, без фильтрации

Nikolay
14.02.2017
08:11:30

Alex
14.02.2017
08:11:36
?
Ну, мне ты напоминаешь пхпшника который выучил питон что бы решить задачу сбора эротических текстов с блога соседки зинки)
Поэтому для тебя все просто

Nikolay
14.02.2017
08:12:37

Alex
14.02.2017
08:12:42
подставил браузер и получил результат. да хрен так везде выйдет
просто нет компетенции, так еще и мозгов понять насколько бывают реально сложные ситуации что бы опредить как прикинуться юзером реальным для систем фильтрации

nietzschebrod
14.02.2017
08:13:49
куда по списку чатов не зайдёшь - то лор, то двач

Nikolay
14.02.2017
08:13:55

Mikhail
14.02.2017
08:14:15

Nikolay
14.02.2017
08:14:16
но тебе не понять, ты любишь фантомчик и чтобы не вникать в суть

Alex
14.02.2017
08:16:33

Nikolay
14.02.2017
08:17:49

Google

Andrey
14.02.2017
08:23:48
Бред какой-то то про фантом.

Alexander
14.02.2017
08:24:50
спасибо за вашу беседу) я даже и не думал, что мой вопрос вызовет такую дискуссию)

Andrey
14.02.2017
08:25:11
Задача стояла изначально найти все сайты на определенном движке, на входе допустим все домены Рунета. На том же питоне в десятки раз быстрее сделать 1 запрос на домен чем тоже самое с фантоном

Sergey
14.02.2017
08:26:34

Andrey
14.02.2017
08:27:05
Как раз потому что там нет браузера который выполняет js
Если бы задача стояла спарсить все сайты хотя бы главную страницу, что бы потом делать по нему выборку то фантом круче

Владимир Калинин
14.02.2017
08:27:51
писал чекер CMS когда-то. Все cms которые в базу входили можно было распознать по одному запросу. без js&

Mikhail
14.02.2017
08:27:57
интересно сколько фантомом парсить все сайты рунета? )

Andrey
14.02.2017
08:28:12

Alexander
14.02.2017
08:28:34
наверное, есть несколько способов решить задачу) я планировал пропарсить https://yandex.ru/yaca/?text=%D0%BC%D0%B0%D0%B3%D0%B0%D0%B7%D0%B8%D0%BD и найти тут все магазины на престашопе , но есть и другие варианты, наверное

Vladimir
14.02.2017
08:28:59

Владимир Калинин
14.02.2017
08:29:09
там далеко не все сайты рунета)

Vladimir
14.02.2017
08:29:18
валидная задача? валидная. Нужен там фантом? Вреден

Andrey
14.02.2017
08:29:40
У рег ру есть выгрузка всех ру доменов

Sergey
14.02.2017
08:29:45

Vladimir
14.02.2017
08:30:57

Sergey
14.02.2017
08:31:27

Alexander
14.02.2017
08:31:29

Владимир Калинин
14.02.2017
08:31:44

Google

Alexander
14.02.2017
08:32:09
http://statonline.ru/ ?

Владимир Калинин
14.02.2017
08:32:12
даже парся в серую дешевле и быстрее тонну проксей использовать чем фантомить)

Andrey
14.02.2017
08:34:01

Sergey
14.02.2017
08:34:26
извини что промазал :)

Russkii
14.02.2017
08:36:48
,
,

Vladimir
14.02.2017
08:37:16
можно и удалять сообщения, если что )
там же где edit, только delete

Alex
14.02.2017
08:52:59
Сам то читал? Как раз срач про то что Alex утверждал что парсить нужно только на фантоме.
как раз не утверждал что нужно ВСЕ парсить только на фантоме. Речь идет о парсинге ресурсов тривиальном. На фантоме это сделать легко + не будет расти инфраструктура проекта если на каких то сайтах встанет задача собирать JS данные. Если речь идет о серьезном краулере и в очереди сбора стоит миллиона 2 ресурсов, то здесь резонно уже нужны мощные оптимизашки. с++ + webkit и т.п Вопрос в том, что сборщики должны уметь понимать JS иначе- это не универсальные инструменты

Nikolay
14.02.2017
08:53:36
надо будет собирать что-то, требующее js - тогда да, а так фантом не нужен

Alex
14.02.2017
08:54:12
Именно верно, именно универсальное

Nikolay
14.02.2017
08:54:25
именно неверно

Alex
14.02.2017
08:54:32

Nikolay
14.02.2017
08:54:33
не надо плодить сущности

Alex
14.02.2017
08:55:11

Nikolay
14.02.2017
08:55:15
тривиальный парсинг ресурсов не требует фантома. Если вдруг будет непреодолимая стена из js, которую сложно пробить - тогда да, придется брать фантом

Alex
14.02.2017
08:55:24
if(ресурс с js) {} else {}

Nikolay
14.02.2017
08:55:30
но по дефолту он не нужен

Alex
14.02.2017
08:55:45
Я за универсальность и минимум переписывания в проектах