@devops_ru

Страница 2302 из 4568
Nikolay
14.02.2017
08:55:53
я тоже :)

Alex
14.02.2017
08:55:59
Ты - нет

Nikolay
14.02.2017
08:56:09
И за оптимизацию по задаче
нет, то, что ты выше написал - это преждевременная ненужная оптимизация

Alex
14.02.2017
08:56:12
Сделаем пока говнецо которое js не обрабатывает, а потом если что докостылю

Google
Alex
14.02.2017
08:56:19
Это подход близорукий

Nikolay
14.02.2017
08:56:26
ну что с тобой спорить

ты фанатик религиозный

Alex
14.02.2017
08:56:45
В фантоме не надо ничего оптимизирвоать, там все есть в коробке

а вот ты будешь именно костылить под js

Nikolay
14.02.2017
08:57:45
фантом сам по себе - тяжелая ненужная херня. Если тебе мало проблем при парсинге - тогда можно взять фантом и проблемы сразу появятся

Alex
14.02.2017
08:57:49
Меня волнуют более серьезные вопросы, как сделать так, что бы система легко масштабировалась- закинул модуль и он вклинился в сеть исполнителей. что бы балансировщик правильно раздавал задачи по парсингу

Nikolay
14.02.2017
08:58:06
на деле это всего лишь костыль для особо упоротых сайтов, которые без js парсить крайне сложно

Alex
14.02.2017
08:58:07
И у меня уже есть все, что ты бы костылил потом

Это полноценный браузер

Nikolay
14.02.2017
08:58:18
по дефолту он не нужен

Andrey
14.02.2017
08:58:19
В фантоме не надо ничего оптимизирвоать, там все есть в коробке
пфф. ты вообще помнишь ту проблему которую человек задал то?

Nikolay
14.02.2017
08:58:20
Google
Nikolay
14.02.2017
08:58:25
и поэтому это говно

Alex
14.02.2017
08:58:46
пфф. ты вообще помнишь ту проблему которую человек задал то?
Речь идет уже не о том, что человек что-то задал

Andrey
14.02.2017
08:58:59
погоди, давай по порядку

Alex
14.02.2017
08:58:59
советы он получил

Nikolay
14.02.2017
08:59:04
Речь идет уже не о том, что человек что-то задал
то, что человек задал - одна из типичных проблем

и там фантом не нужен, скорее всего

Andrey
14.02.2017
08:59:25
вот его задачу чем бы ты решал

Alex
14.02.2017
09:00:59
Я уже ответил, разве нет?

Andrey
14.02.2017
09:02:00
ну мне либо перечитывать over 500 сообщений либо тебе ответить)

Nikolay
14.02.2017
09:02:24
Andrey
14.02.2017
09:03:00
ну гипотетически предположу что ты сказал - фантом

и это блин жуткий оверхед по сравнению с предложенным Николаем Питоном

Alex
14.02.2017
09:03:32
Я против недоинструмента. Сейчас 20% сайтов с динамикой. Если у тебя в задаче стоит серьезный сбор и бюджет ограничен у тебя/компании, то берешь фантом и строишь поверх него инфраструктуру. Если у тебя есть еще задача обрабатывать реально большие объемы данных, то пилишь на связке с++ + webkit перфомансный краулер как ворвер, а на java балансировщик. Логгер и прочее

Для простого сбора фантом тоже подойдет

Andrey
14.02.2017
09:03:49
банально потому что его решение будет в десятки раз быстрее и погрешность если и будет то мизерная.

Alex
14.02.2017
09:03:50
10 строк кода

Alex
14.02.2017
09:04:24
на питоне все БЫСТРО делается

Alex
14.02.2017
09:04:29
но и на фантоме тоже

Google
Alex
14.02.2017
09:04:32
реально быстро

Andrey
14.02.2017
09:04:45
я не про скорость написания, я про скорость работы

а питоне я думаю 5кк сайтов опросить пару часов

на фантоме сутки?

а результат один

Alex
14.02.2017
09:05:22
опросить или спарсить?

Каких сайтов?

какая средняя латенси?

глубина проходки?

Andrey
14.02.2017
09:05:53
вспоминаем задачу, детект престашоп - опрос главной и поиск подстроки в результате

Nikolay
14.02.2017
09:05:57
какая средняя латенси?
о, умные слова пошли. А говорил, фантом сам разберется со всем

Alex
14.02.2017
09:06:22
Ну до тебя же туго доходит. тебе русским языком сказали с чем фантом разберется

и чего нет у тебя

А на мне другие задачи уже

Nikolay
14.02.2017
09:06:59
а ты хочешь фантом вообще для всего юзать

не надо так

Alex
14.02.2017
09:07:15
В общем фантома 5к домашних страничек на среднем сервере соберет и за пол дня

несколько гигов информации, проблема тоже

Andrey
14.02.2017
09:08:06
несколько десятков гигов бы я сказа

Google
Andrey
14.02.2017
09:08:23
100-200кб * на 5кк

Nikolay
14.02.2017
09:08:55
в общем, я тебе так скажу, если тимлид увидит, что ты миллионы сайтов парсишь фантомом просто чтобы достать базовую инфу, то тебя уволят

Alex
14.02.2017
09:09:24
В общем проблемы нет пацаны сбора на фантоме

И разработка быстрая, и сбор быстрый

Память жрет, да, баги есть

Alex
14.02.2017
09:09:53
Но изначально инстурмент универсальный

Andrey
14.02.2017
09:10:04
изначально всё универсальное

только вот под каждую задачу свой инструпент

Andrey
14.02.2017
09:10:31
JS и на php можно интерпретировать так то

Nikolay
14.02.2017
09:10:47
Andrey
14.02.2017
09:11:08
какую?

Alex
14.02.2017
09:11:09
в общем, я тебе так скажу, если тимлид увидит, что ты миллионы сайтов парсишь фантомом просто чтобы достать базовую инфу, то тебя уволят
" Если у тебя есть еще задача обрабатывать реально большие объемы данных, то пилишь на связке с++ + webkit перфомансный краулер как ворвер, а на java балансировщик. Логгер и прочее"(.c)

кто то читает плохо

Vladimir
14.02.2017
09:11:26
Alex у тебя проф деформация - ты парсишь то где js нужен и теперь считаешь что везде js нужен

но это не так

Alex
14.02.2017
09:11:45
Google
Vladimir
14.02.2017
09:11:57
с диагнозом "слабоумие"

Nikolay
14.02.2017
09:12:01
какую?
парсить сайты пачками

Andrey
14.02.2017
09:12:09
там да

Vladimir
14.02.2017
09:12:22
в любой форме, не имеет значение это фантом или вебкит как библиотека

Andrey
14.02.2017
09:12:31
а если просто чуваку спросили - а давайте узнаем все сайты с престашоп

а в конторе только фантом юзают

Vladimir
14.02.2017
09:12:43
как ни странно там даже питон лучше будет работать

чем плюсы с китом

Alex
14.02.2017
09:13:11
в любой форме, не имеет значение это фантом или вебкит как библиотека
а ты много проработал или так, теория с коленки?)

Vladimir
14.02.2017
09:13:44
а ты много проработал или так, теория с коленки?)
Достаточно чтобы понимать что вебкит там не нужен

а ты много проработал или так, теория с коленки?)
можешь погуглить мой линкедин и угадать откуда опыт

там все довольно очевидно

Alex
14.02.2017
09:15:28
можешь погуглить мой линкедин и угадать откуда опыт
не могу, ресурс заблокировали, а я законы чту

Alex
14.02.2017
09:16:30
можешь погуглить мой линкедин и угадать откуда опыт
Но я с тобой согласен, реально не то ляпнул. Корректнее было бы сказать v8 + c++

Nikolay
14.02.2017
09:16:31
ты понимаешь, что если работодатель не находит тебя на линкедине, то ты профнепригоден? это первый тест на работу в IT - настроить vpn/прокси

я утрирую, конечно, но тенденция такая

Vladimir
14.02.2017
09:17:34
Alex ок, скажем так у меня был опыт работы в области где нужно было спарсить миллионы сайтов как можно быстрее.

Страница 2302 из 4568