@symfony_php

Страница 619 из 1418
Sergey
04.02.2018
19:21:00
а чем именно гошка помогла в прикидываниях? я не понимаю в чем сдеть зависимость от языка

Borys
04.02.2018
19:21:37
в данном проекте это только функционал либы

если было бы таковое в пхп - не вопрос, пробовали к слову питон - не особо устроил, но там тоже все сработало

Sergey
04.02.2018
19:22:55
"было бы таковое в пхп" - так что именно то?)

Google
Borys
04.02.2018
19:24:10
функционал который позволяет без проблем запросить какую-либо урлу к примеру из амазон, ибей или гугла, и тебя не пошлют лесом мол ты робот иди отдыхай

Sergey
04.02.2018
19:24:57
дай линк на эту либу

Borys
04.02.2018
19:25:23
го?

Sergey
04.02.2018
19:25:25
да

Borys
04.02.2018
19:25:51
могу завтра скинуть,

Sergey
04.02.2018
19:26:28
вообще в 98% случаев достаточно отправлять обратно куку, юзер агент ставить более-менее реальный и не прыгать по айпихам разным

в общем прикинуться юзером не есть проблема

проблема там где для этого есть целые алгоритмческие сети для выявления такой активности, но я такого честно на практике парсинга не встречал

Borys
04.02.2018
19:27:24
я не претендую на гуру парсинга, владение курлом и т.п.

Mikhail
04.02.2018
19:27:42
Или вообще селениум, там и джаваскрипт выполняется

Vladislav
04.02.2018
19:27:46
вообще не понял при чем там го

Sergey
04.02.2018
19:27:56
а так пул тор сети, к нему пачка проксей, главное чтобы на проксе не было форварда айпишника бгг

Google
Vladislav
04.02.2018
19:28:35
амазон ебей не знают какой у тебя язык

Ihor
04.02.2018
19:28:41
тору прокся не очень то и нужна

Borys
04.02.2018
19:28:42
тор сеть - первый повод словить блок

Sergey
04.02.2018
19:28:56
тору прокся не очень то и нужна
тор это дополнение к проксям

Vladislav
04.02.2018
19:28:56
они такие if yazik == go {give_access} ??

Ihor
04.02.2018
19:29:29
тор сеть - первый повод словить блок
это ещё нужно выкупить, что к тебе через тор сервак пришли

Sergey
04.02.2018
19:30:03
под тором нужно каждый раз себе новый айпишник выбивать, а это мутняк)

Borys
04.02.2018
19:30:07
а ты думаешь что адреса этих серваков такая тайна?

Vladislav
04.02.2018
19:30:07
ну защиту от тора делают, я помню разбирался. есть лайв список нод и тд.

Borys
04.02.2018
19:30:21
ну вот...

Vladislav
04.02.2018
19:30:26
но ебей не защищается от тора

или амазон

они разрешают заходить

Ihor
04.02.2018
19:31:06
не знал о списке

Vladislav
04.02.2018
19:32:17
обьясни почему го не определяентся амазоном?

Borys
04.02.2018
19:32:47
я бы сказал так, прежде чем делать выводы попробуйте решить мало мальски реальную задачку. Нам после того как нарисовали проблему я думал все будет легко и не принужденно, как вывод я начал изучать го и кое-что на нем написал :)

Mikhail
04.02.2018
19:34:41
лучше chrome headless)
Там можно мышкой шевелить? Эмулировать

Borys
04.02.2018
19:34:48
спарсить кого-то и я могу, речь идет о маркетплейсах серьезных дядек

Google
Vladislav
04.02.2018
19:35:05
это именно было то, о чем ты говоришь

и не могу понять как го не определяется сервисами

Sergey
04.02.2018
19:35:39
делал парсинг каталогов у тонны производителей и поставщиков, если там спалят что ты скрейпишь их, то могут быть проблемы у твоей компании на юридическом уровне... для этого сильно выебывались с прикидыванием что ты юзер

но в конечном итоге через некоторое время проект закрыли)

Sergey
04.02.2018
19:36:14
хотя интересно было)

а щас полученные знания для защиты от скрейперов будем использовать)

Borys
04.02.2018
19:38:24
сейчас у нас на каждой ноде свой ип-ник, пока не релизовано но будет так что разбросаем их по разным локациям, для запроса страницы используется дефолтный браузер

Sergey
04.02.2018
19:39:28
не, наша компания не закрылась)) просто как-то очково начальству, что это может в серьезные последствия вылезти) поэтому мы просто договариваемся напрямую с теми кого хотели парсить и нам предоставляют легально каталоги и все такое)

сложно в америке все как-то, нам этого не понять)

Alexander
04.02.2018
19:41:30
Sergey
04.02.2018
19:42:24
я понимаю такое - "мы взяли го, потому что там с корутинами можно удобно делать скрейпинг с одновременным кол-вом 1000+ запросов и при этом с небольшим потреблением ресурсов"

но мы взяли го, чтобы нас не палили.. эт такое)

Alexander
04.02.2018
19:42:35
Мы работали с рынком РФ, иногда нас банили, но менеджеры находили новые доступы на сайты поставщиков, о юридической ответственности речи не было)
Договариваться в этом плане стрёмно — актуальность и объективность информации может вызвать вопросы

Sergey
04.02.2018
19:43:01
у нас даже за ДДОС ничего предьявить не смогут

а ты говоришь парсинг))

скрейпинг*

Vladislav
04.02.2018
19:50:12
уже сделал скриншоты чата, отправляю в нужные службы

Alan
04.02.2018
19:52:13
на го да было много либ почему то именно для ебея и амазона и заказов на их парсинг гошкой

Google
Vladislav
04.02.2018
19:53:17
не могу понять в чем суть именно го )) решает же клиент, а не язык. а так да, он быстрый, того и выбирают

Sergey
04.02.2018
19:53:30
ну быстрый это спорно))

когда есть джава)

Borys
04.02.2018
19:56:10
как понимаю это стеб? :)

Alan
04.02.2018
19:56:37
прост мб удобно парсить в несколько потоков, или предоставляет высокоуровневое апи которое ходит по сайту ждет ответов, парсит, выполнят действия

Borys
04.02.2018
19:57:26
здорово, к примеру го это умеет

Admin
ERROR: S client not available

Alan
04.02.2018
19:57:32
у стима такая же обертка на ноде ну и там только один пакет который активно пилится одним разрабом

Sergey
04.02.2018
19:57:44
асинхронный curl и у пхп есть)

Alan
04.02.2018
19:57:50
поэтому все что связано со стимом в основном на ноде пишут)

чтоб не изобретать велик

Sergey
04.02.2018
19:58:04
в несколько потоков парсить это если ты в cpu упираешься

и в несколько потоков можно и на пхп)

Borys
04.02.2018
19:58:39
сложно себе представить парсинг который будет тебя жать в ресурсах cpu

Alan
04.02.2018
19:59:01
Sergey
04.02.2018
19:59:04
выкачиваешь страницу на пару мб и погнал кривой xml парсить)

Alan
04.02.2018
20:01:27
когда есть джава)
так ее вроде нода даже уделывает)

Sergey
04.02.2018
20:01:40
так ее вроде нода даже уделывает)
в чем и с какой это радости?

Alan
04.02.2018
20:02:03
ну тем же чем джава уделывает го )

https://www.techempower.com/benchmarks/

Google
Vladislav
04.02.2018
20:02:25
та ничем не уделывает. джава для обизян. пхп рулит.

Sergey
04.02.2018
20:04:06
https://www.techempower.com/benchmarks/
бенчмарк фреймворков?)

при этом я не вижу netty

Alan
04.02.2018
20:04:24
там все подряд)

спринг есть

Sergey
04.02.2018
20:04:58
спринг это фреймворк

а не сервер

это как симфони

а симфони ты можешь по-разному запускать

fpm, php-pm и тд

а там netty, jetty, undertow, tomcat и тд

в го вроде все поверх fast http или как там его

а на ноде express

Vladislav
04.02.2018
20:06:24
да

го это и есть веб сервер

Alan
04.02.2018
20:06:40
ну fasthttp там в самом верху

Sergey
04.02.2018
20:06:42
ну слушать 80й порт можно и на головй джаве

а вот как ты будешь хендлить входящие запросы за это уже отвечают все выше перечисленные сервера

где-то неблокирующие NIO, где-то тредпулы

Страница 619 из 1418