
スポーツ
10.09.2016
17:27:25
джва дня мучаюсь с этим

Zart
10.09.2016
17:27:30
subprocess.call(['command'], stdout=open('file', 'a')) например

Dmitriy
10.09.2016
17:29:55
Спасибо за книгу!

スポーツ
10.09.2016
17:30:38

Google

Zart
10.09.2016
17:31:23
по дефолту субпроцесс.Попен вызывает бинарники напрямую

スポーツ
10.09.2016
17:31:29
``Popen(["python", "hello.py", ">>", "main2.log", "2>&1"], stdout=PIPE, stderr=PIPE)

Zart
10.09.2016
17:31:47
subprocess.Popen('command > file', shell=True) для более привычного способа

スポーツ
10.09.2016
17:31:49
почему так не работало не знаешь?

Zart
10.09.2016
17:31:56
это ересь
фишка в том, что все эти » « читает шелл и делает собственные вызовы pipe/dup2 и т.п.
а в коде выше ты передаешь их как аргументы

スポーツ
10.09.2016
17:34:12
Просто лучший! Спасибо огромное, теперь меня не уволят)

Zart
10.09.2016
17:34:30
чтобы < > >> работали в Попен тебе придётся совать это всё в одну строку и юзать shell=True, от чего оно будет запущено через system(3) вместо fork+exec

スポーツ
10.09.2016
17:34:51
кстати, в доках вроде напичсано что shell=True небезопасно

Zart
10.09.2016
17:35:41
конечно. потому что в этом случае тебе надо квотировать аргументы вручную

スポーツ
10.09.2016
17:35:43
не я буду через PIPE делать, как в первом твоем примере

Zart
10.09.2016
17:36:29
PIPE нужен если ты хочешь читать ввод/вывод сам прямо в питоне

Google

Zart
10.09.2016
17:37:34
только учти кроссплатформенность если чо...
в никсах (причем вроде не всех) ты можешь чередовать чтение стдаут/стдерр и писать в стдин вызванному процессу
на винде это скорее всего вызовет дедлок
поэтому для кроссплатформенности в питоне и приделали метод communicate, который работает везде
но он синхронный

スポーツ
10.09.2016
17:45:13
ой, не через PIPE, а через stdout=open('file', 'a'), мне в логи писать надо просто
а про коммуникейт знаю, спасибо)

Темный
10.09.2016
17:47:30
кто нибудь парсер держал для авито? есть годные стать?

Pavel
10.09.2016
17:52:14

Темный
10.09.2016
17:52:56
да, статьи или готовые решения

Pavel
10.09.2016
17:54:50
я как-то писал, когда питон ток начал учить, статей прям как парсить авито толковых не находил
думаю, тут общие подходы нужно изучать, как парсить и обходить защиту от ботов
а не конкретно для авито что-то искать

V
10.09.2016
18:55:30
я тут немного амазон дрочил парсером, так и не победил толком. метод с прокси не канает, потому что почти все прокси сразу получают капчу прям с первого захода. метод ротации юзерагентов дает капчу чуть позже, чем без него. ну и там игры с кол-вом подключений, паузами и проч тоже только меняют скорость выпадения капчи. в итоге самый быстрый способ получился если парсить страниц 500 до первой капчи, запоминать на чем остановился, ждать полчасика и по-новой. юзать сервисы анти-капчи чет заломало, может попробую попозже, если руки дойдут

Темный
10.09.2016
18:56:57
жоска

Petr
10.09.2016
18:57:36
Был чувак в одном из чатов который инстограм парсил
Тоже страдал вроде

b0g3r
10.09.2016
19:25:18
определите наилучший метод, который выдаёт наибольшую задержку до капчи и используйте его вместе с анти-капча сервисами
и будет счастье

Zart
10.09.2016
19:28:21
краткое руководство как быть гондоном...

Google

V
10.09.2016
19:29:55
Тоже страдал вроде
да я думаю все крупные сервисы очень сильно умеют сопротивляться парсингу. хотя я, если честно, не очень понимаю, почему. они что, боятся, что я второй амазон открою? я понимаю нагрузка на их серваки, ну так я сделаю одно подключение и неспеша буду тянуть дату, им что, жалко?

Zart
10.09.2016
19:31:04
а как ты думаешь, зачем там вообще капча?
на дверях квартир зачем-то замки висят. им что, жалко?

V
10.09.2016
19:33:38
я же к ним никуда не лезу, паролей не ломаю, замков не вскрываю. они сами приглашают смотреть, отдают эти данные. но только людям

Dmitriy
10.09.2016
19:36:12
А роботам отдают через апи

V
10.09.2016
19:36:27
еще раз, я не пытаюсь на этом заработать, я не собираюсь писать парсеры на коммерческой основе (это довольно скучно), мне было интересно попробовать. но мотивов не понимаю
ага, про апи там не так все просто, я попробовал

Zart
10.09.2016
19:37:09
потому что люди, ходящие на сайт - это клиенты и реклама. т.е. доход
а робот, жрущий трафик и ворующий контент - это чистый убыток

V
10.09.2016
19:37:11

Zart
10.09.2016
19:37:14
капитализьм

Dmitriy
10.09.2016
19:38:07

V
10.09.2016
19:39:34

Zart
10.09.2016
19:39:57
а это им решать

V
10.09.2016
19:40:04
на вопрос не ответил. пробовал?

Zart
10.09.2016
19:40:12
раз капчу прикручивают, значит причина есть

V
10.09.2016
19:40:27
ну эт понятно, я и не стал долбиться дальше

Google

Zart
10.09.2016
19:40:36
обычно потому что боты зачастую не просто так шароёбятся

Dmitriy
10.09.2016
19:40:42

Zart
10.09.2016
19:40:47
а еще и постят рекламу и воруют емейлы
может твой спайдер и не вреден, то под раздачу попадает на общих основаниях


V
10.09.2016
19:42:18
Пробовал часть апи. У них много разного
я просто даже ключ не осилил получить, т.к. для этого надо сначала стать асошитом, а для этого надо указать конкретный сайт или приложение, где будешь юзать дату и пройти валидацию. т.е. для парсеров они тупо не дают шансов легальных. но это их право конечно.
да, статьи или готовые решения
так я к чему начал-то. сам парсер написать очень легко, берешь scrapy по которому море доков и вообще все легко ставится, пишешь спайдер там, пайплайн ну и все что там ему надо, по туториалу прям на сайте за день все пишется неспеша. а потом начинается дрочево с этими банами, капчами, 503, 500, таймауты и проч, но это все к питону уже мало отношения имеет. хотя для чайника вроде меня польза есть, сразу лучше начинаешь понимать все эти реквесты, хттп и прочий веб, так что не зря все это было
надеюсь, амазон не пострадал от моих потуг. тот десяток тыщ его записей, что слил - оставил себе на память


Темный
10.09.2016
19:50:00
ну я что-то такое писал на реквесте, потом оно перестало работать..)

b0g3r
10.09.2016
19:53:26
как приятно с недельку назад написать crud api
а теперь не смотря в код писать клиент для этого апи

Admin
ERROR: S client not available

b0g3r
10.09.2016
19:55:26
потому что статус-коды логичные и сообщения об ошибках отдаёт

Johnnie
10.09.2016
19:57:33
Сам себя не похвалишь

b0g3r
10.09.2016
19:59:01
дя

Janek
11.09.2016
05:28:47
всем утра в хату

dexofan
11.09.2016
05:51:44
часик в радость
чифир в сладость

Janek
11.09.2016
05:53:04
чифирю сейчас
кто тут у нас сокеты подключал к джанге?

Bulatbulat48
11.09.2016
05:56:27
Приветы)

Google

digital
11.09.2016
06:16:31

Janek
11.09.2016
06:17:33
преимущество использования сокетов в обмене сообщениями между юзерами и динамическом обновлении части страницы перед простым тайм-аутом?

⬗VLAD⌶K⬖
11.09.2016
08:26:02
к слову она совсем бесплатная

Александр
11.09.2016
09:13:31

F
11.09.2016
09:18:56
не слышал, чтоб в вебе сокеты использовались вообще
мы их юзали, чтоб рабочие станции с десктопным ПО между собой общались
а если тебе надо сайт обновлять, то аякса хватит
даже самая китайская железка это осилит
но завсит от таймаута, конечно

Александр
11.09.2016
09:26:43

Igor
11.09.2016
09:26:59

F
11.09.2016
09:27:07
может, мы о разных о сокетах)

Александр
11.09.2016
09:27:10

Igor
11.09.2016
09:27:12
тем же slack'ом например

Александр
11.09.2016
09:27:18
+ их в том, что они работают на всех браузерах

F
11.09.2016
09:27:36
в 2008 только вышла?

Александр
11.09.2016
09:27:41
но там проще через wrapper писать, через своеобразную абстракцию

Igor
11.09.2016
09:28:02
если вы про websocket

F
11.09.2016
09:28:02
оу, спасибо, чекну в гугле
я про обычные))

Александр
11.09.2016
09:28:29

F
11.09.2016
09:28:55
как-то вебсокеты мимо меня прошли
интересная штука, спасибо за наводку

Александр
11.09.2016
09:29:26
Эта группа больше не существует