
Sergey
04.02.2018
19:21:00
а чем именно гошка помогла в прикидываниях? я не понимаю в чем сдеть зависимость от языка

Borys
04.02.2018
19:21:37
в данном проекте это только функционал либы
если было бы таковое в пхп - не вопрос, пробовали к слову питон - не особо устроил, но там тоже все сработало

Sergey
04.02.2018
19:22:55
"было бы таковое в пхп" - так что именно то?)

Google

Borys
04.02.2018
19:24:10
функционал который позволяет без проблем запросить какую-либо урлу к примеру из амазон, ибей или гугла, и тебя не пошлют лесом мол ты робот иди отдыхай

Sergey
04.02.2018
19:24:57
дай линк на эту либу

Borys
04.02.2018
19:25:23
го?

Sergey
04.02.2018
19:25:25
да

Ihor
04.02.2018
19:25:34

Borys
04.02.2018
19:25:51
могу завтра скинуть,

Sergey
04.02.2018
19:26:28
вообще в 98% случаев достаточно отправлять обратно куку, юзер агент ставить более-менее реальный и не прыгать по айпихам разным
в общем прикинуться юзером не есть проблема
проблема там где для этого есть целые алгоритмческие сети для выявления такой активности, но я такого честно на практике парсинга не встречал

Borys
04.02.2018
19:27:24
я не претендую на гуру парсинга, владение курлом и т.п.

Mikhail
04.02.2018
19:27:42
Или вообще селениум, там и джаваскрипт выполняется

Vladislav
04.02.2018
19:27:46
вообще не понял при чем там го

Sergey
04.02.2018
19:27:56
а так пул тор сети, к нему пачка проксей, главное чтобы на проксе не было форварда айпишника бгг

Google

Vladislav
04.02.2018
19:28:35
амазон ебей не знают какой у тебя язык

Ihor
04.02.2018
19:28:41
тору прокся не очень то и нужна

Borys
04.02.2018
19:28:42
тор сеть - первый повод словить блок

Sergey
04.02.2018
19:28:56

Vladislav
04.02.2018
19:28:56
они такие if yazik == go {give_access} ??

Ihor
04.02.2018
19:29:29

Sergey
04.02.2018
19:30:03
под тором нужно каждый раз себе новый айпишник выбивать, а это мутняк)

Borys
04.02.2018
19:30:07
а ты думаешь что адреса этих серваков такая тайна?

Vladislav
04.02.2018
19:30:07
ну защиту от тора делают, я помню разбирался. есть лайв список нод и тд.

Borys
04.02.2018
19:30:21
ну вот...

Vladislav
04.02.2018
19:30:26
но ебей не защищается от тора
или амазон
они разрешают заходить

Ihor
04.02.2018
19:31:06
не знал о списке

Vladislav
04.02.2018
19:32:17
обьясни почему го не определяентся амазоном?

Sergey
04.02.2018
19:32:21

Borys
04.02.2018
19:32:47
я бы сказал так, прежде чем делать выводы попробуйте решить мало мальски реальную задачку. Нам после того как нарисовали проблему я думал все будет легко и не принужденно, как вывод я начал изучать го и кое-что на нем написал :)

Vladislav
04.02.2018
19:34:07

Mikhail
04.02.2018
19:34:41

Borys
04.02.2018
19:34:48
спарсить кого-то и я могу, речь идет о маркетплейсах серьезных дядек

Google

Vladislav
04.02.2018
19:35:05
это именно было то, о чем ты говоришь
и не могу понять как го не определяется сервисами

Sergey
04.02.2018
19:35:39
делал парсинг каталогов у тонны производителей и поставщиков, если там спалят что ты скрейпишь их, то могут быть проблемы у твоей компании на юридическом уровне... для этого сильно выебывались с прикидыванием что ты юзер
но в конечном итоге через некоторое время проект закрыли)

Vladislav
04.02.2018
19:36:01

Sergey
04.02.2018
19:36:14
хотя интересно было)
а щас полученные знания для защиты от скрейперов будем использовать)

Borys
04.02.2018
19:38:24
сейчас у нас на каждой ноде свой ип-ник, пока не релизовано но будет так что разбросаем их по разным локациям, для запроса страницы используется дефолтный браузер

Sergey
04.02.2018
19:39:28
не, наша компания не закрылась)) просто как-то очково начальству, что это может в серьезные последствия вылезти) поэтому мы просто договариваемся напрямую с теми кого хотели парсить и нам предоставляют легально каталоги и все такое)
сложно в америке все как-то, нам этого не понять)

Sergey
04.02.2018
19:40:20

Alexander
04.02.2018
19:41:30

Sergey
04.02.2018
19:42:24
я понимаю такое - "мы взяли го, потому что там с корутинами можно удобно делать скрейпинг с одновременным кол-вом 1000+ запросов и при этом с небольшим потреблением ресурсов"
но мы взяли го, чтобы нас не палили.. эт такое)

Alexander
04.02.2018
19:42:35

Sergey
04.02.2018
19:43:01
у нас даже за ДДОС ничего предьявить не смогут
а ты говоришь парсинг))
скрейпинг*

Vladislav
04.02.2018
19:50:12
уже сделал скриншоты чата, отправляю в нужные службы

Alan
04.02.2018
19:52:13
на го да было много либ почему то именно для ебея и амазона и заказов на их парсинг гошкой

Google

Vladislav
04.02.2018
19:53:17
не могу понять в чем суть именно го )) решает же клиент, а не язык. а так да, он быстрый, того и выбирают

Sergey
04.02.2018
19:53:30
ну быстрый это спорно))
когда есть джава)

Borys
04.02.2018
19:56:10
как понимаю это стеб? :)

Alan
04.02.2018
19:56:37
прост мб удобно парсить в несколько потоков, или предоставляет высокоуровневое апи которое ходит по сайту ждет ответов, парсит, выполнят действия

Borys
04.02.2018
19:57:26
здорово, к примеру го это умеет

Admin
ERROR: S client not available

Alan
04.02.2018
19:57:32
у стима такая же обертка на ноде ну и там только один пакет который активно пилится одним разрабом

Sergey
04.02.2018
19:57:44
асинхронный curl и у пхп есть)

Alan
04.02.2018
19:57:50
поэтому все что связано со стимом в основном на ноде пишут)
чтоб не изобретать велик

Sergey
04.02.2018
19:58:04
в несколько потоков парсить это если ты в cpu упираешься
и в несколько потоков можно и на пхп)

Borys
04.02.2018
19:58:39
сложно себе представить парсинг который будет тебя жать в ресурсах cpu

Alan
04.02.2018
19:59:01

Sergey
04.02.2018
19:59:04
выкачиваешь страницу на пару мб и погнал кривой xml парсить)

Alan
04.02.2018
20:01:27

Sergey
04.02.2018
20:01:40

Alan
04.02.2018
20:02:03
ну тем же чем джава уделывает го )
https://www.techempower.com/benchmarks/

Google

Vladislav
04.02.2018
20:02:25
та ничем не уделывает. джава для обизян. пхп рулит.

Sergey
04.02.2018
20:04:06
при этом я не вижу netty

Alan
04.02.2018
20:04:24
там все подряд)
спринг есть

Sergey
04.02.2018
20:04:58
спринг это фреймворк
а не сервер
это как симфони
а симфони ты можешь по-разному запускать
fpm, php-pm и тд
а там netty, jetty, undertow, tomcat и тд
в го вроде все поверх fast http или как там его
а на ноде express

Vladislav
04.02.2018
20:06:24
да
го это и есть веб сервер

Alan
04.02.2018
20:06:40
ну fasthttp там в самом верху

Sergey
04.02.2018
20:06:42
ну слушать 80й порт можно и на головй джаве
а вот как ты будешь хендлить входящие запросы за это уже отвечают все выше перечисленные сервера
где-то неблокирующие NIO, где-то тредпулы