
Nikolay
14.02.2017
08:55:53
я тоже :)

Alex
14.02.2017
08:55:59
Ты - нет

Nikolay
14.02.2017
08:56:09

Alex
14.02.2017
08:56:12
Сделаем пока говнецо которое js не обрабатывает, а потом если что докостылю

Google

Alex
14.02.2017
08:56:19
Это подход близорукий

Nikolay
14.02.2017
08:56:26
ну что с тобой спорить
ты фанатик религиозный

Alex
14.02.2017
08:56:45
В фантоме не надо ничего оптимизирвоать, там все есть в коробке
а вот ты будешь именно костылить под js

Nikolay
14.02.2017
08:57:45
фантом сам по себе - тяжелая ненужная херня. Если тебе мало проблем при парсинге - тогда можно взять фантом и проблемы сразу появятся

Alex
14.02.2017
08:57:49
Меня волнуют более серьезные вопросы, как сделать так, что бы система легко масштабировалась- закинул модуль и он вклинился в сеть исполнителей. что бы балансировщик правильно раздавал задачи по парсингу

Nikolay
14.02.2017
08:58:06
на деле это всего лишь костыль для особо упоротых сайтов, которые без js парсить крайне сложно

Alex
14.02.2017
08:58:07
И у меня уже есть все, что ты бы костылил потом
Это полноценный браузер

Nikolay
14.02.2017
08:58:18
по дефолту он не нужен

Andrey
14.02.2017
08:58:19

Nikolay
14.02.2017
08:58:20

Google

Nikolay
14.02.2017
08:58:25
и поэтому это говно

Alex
14.02.2017
08:58:46

Andrey
14.02.2017
08:58:59
погоди, давай по порядку

Alex
14.02.2017
08:58:59
советы он получил

Nikolay
14.02.2017
08:59:04
и там фантом не нужен, скорее всего

Andrey
14.02.2017
08:59:25
вот его задачу чем бы ты решал

Alex
14.02.2017
09:00:59
Я уже ответил, разве нет?

Andrey
14.02.2017
09:02:00
ну мне либо перечитывать over 500 сообщений либо тебе ответить)

Nikolay
14.02.2017
09:02:24

Andrey
14.02.2017
09:03:00
ну гипотетически предположу что ты сказал - фантом
и это блин жуткий оверхед по сравнению с предложенным Николаем Питоном

Alex
14.02.2017
09:03:32
Я против недоинструмента. Сейчас 20% сайтов с динамикой. Если у тебя в задаче стоит серьезный сбор и бюджет ограничен у тебя/компании, то берешь фантом и строишь поверх него инфраструктуру. Если у тебя есть еще задача обрабатывать реально большие объемы данных, то пилишь на связке с++ + webkit перфомансный краулер как ворвер, а на java балансировщик. Логгер и прочее
Для простого сбора фантом тоже подойдет

Andrey
14.02.2017
09:03:49
банально потому что его решение будет в десятки раз быстрее и погрешность если и будет то мизерная.

Alex
14.02.2017
09:03:50
10 строк кода

Nikolay
14.02.2017
09:03:57

Alex
14.02.2017
09:04:24
на питоне все БЫСТРО делается

Andrey
14.02.2017
09:04:26

Alex
14.02.2017
09:04:29
но и на фантоме тоже

Google

Alex
14.02.2017
09:04:32
реально быстро

Andrey
14.02.2017
09:04:45
я не про скорость написания, я про скорость работы
а питоне я думаю 5кк сайтов опросить пару часов
на фантоме сутки?
а результат один

Alex
14.02.2017
09:05:22
опросить или спарсить?
Каких сайтов?
какая средняя латенси?
глубина проходки?

Andrey
14.02.2017
09:05:53
вспоминаем задачу, детект престашоп - опрос главной и поиск подстроки в результате

Nikolay
14.02.2017
09:05:57

Alex
14.02.2017
09:06:22
Ну до тебя же туго доходит. тебе русским языком сказали с чем фантом разберется
и чего нет у тебя
А на мне другие задачи уже

Nikolay
14.02.2017
09:06:59
а ты хочешь фантом вообще для всего юзать
не надо так

Alex
14.02.2017
09:07:15
В общем фантома 5к домашних страничек на среднем сервере соберет и за пол дня
несколько гигов информации, проблема тоже

Andrey
14.02.2017
09:08:06
несколько десятков гигов бы я сказа

Google

Andrey
14.02.2017
09:08:23
100-200кб * на 5кк

Nikolay
14.02.2017
09:08:55
в общем, я тебе так скажу, если тимлид увидит, что ты миллионы сайтов парсишь фантомом просто чтобы достать базовую инфу, то тебя уволят

Andrey
14.02.2017
09:09:06

Alex
14.02.2017
09:09:24
В общем проблемы нет пацаны сбора на фантоме
И разработка быстрая, и сбор быстрый
Память жрет, да, баги есть

Andrey
14.02.2017
09:09:51

Alex
14.02.2017
09:09:53
Но изначально инстурмент универсальный

Andrey
14.02.2017
09:10:04
изначально всё универсальное
только вот под каждую задачу свой инструпент

Vladimir
14.02.2017
09:10:24

Andrey
14.02.2017
09:10:31
JS и на php можно интерпретировать так то

Nikolay
14.02.2017
09:10:47

Andrey
14.02.2017
09:11:08
какую?

Alex
14.02.2017
09:11:09
кто то читает плохо

Vladimir
14.02.2017
09:11:26
Alex у тебя проф деформация - ты парсишь то где js нужен и теперь считаешь что везде js нужен
но это не так

Alex
14.02.2017
09:11:45

Vladimir
14.02.2017
09:11:51

Google

Vladimir
14.02.2017
09:11:57
с диагнозом "слабоумие"

Nikolay
14.02.2017
09:12:01

Andrey
14.02.2017
09:12:09
там да

Vladimir
14.02.2017
09:12:22
в любой форме, не имеет значение это фантом или вебкит как библиотека

Andrey
14.02.2017
09:12:31
а если просто чуваку спросили - а давайте узнаем все сайты с престашоп
а в конторе только фантом юзают

Vladimir
14.02.2017
09:12:43
как ни странно там даже питон лучше будет работать
чем плюсы с китом

Alex
14.02.2017
09:13:11

Vladimir
14.02.2017
09:13:44
там все довольно очевидно

Alex
14.02.2017
09:15:28

Nikolay
14.02.2017
09:15:48

Alex
14.02.2017
09:16:30

Nikolay
14.02.2017
09:16:31
ты понимаешь, что если работодатель не находит тебя на линкедине, то ты профнепригоден? это первый тест на работу в IT - настроить vpn/прокси
я утрирую, конечно, но тенденция такая

Alex
14.02.2017
09:17:22

Vladimir
14.02.2017
09:17:34
Alex ок, скажем так у меня был опыт работы в области где нужно было спарсить миллионы сайтов как можно быстрее.

Alex
14.02.2017
09:17:35