@ru_python

Страница 2000 из 9768
Roman
06.01.2017
16:17:05
В start выставить self.running = True, в воркере: while self.running

Dmitriy
06.01.2017
16:17:07
Да, просто делать get - моветон и опасно
я удалил часть кода, чтобы паста короткая была а так у меня есть обработка исключений :)

Roman
06.01.2017
16:17:50
Но т.к у тебя queue, то лучше магический таск, который завершает воркер

Google
Dmitriy
06.01.2017
16:18:33
причем нефиговый вариант) спасибо

b0g3r
06.01.2017
16:18:41
причем нефиговый вариант) спасибо
если это задача на собеседе, то стоит начать читать "Python. К вершинам мастерства"

там кстати подобная задачка тоже рассмотрена

Dmitriy
06.01.2017
16:20:08
значит будем читать)

Pavel
06.01.2017
16:20:34
Но мне кажется, что в 2017 сетевые прилады модно через асинхронщину поднимать

Dmitriy
06.01.2017
16:21:29
имеешь в виду фреймворки?

Pavel
06.01.2017
16:22:38
Go?
aiohttp, например

Roman
06.01.2017
16:26:43
aiohttp, например
Прощай, requests?

Сергей
06.01.2017
17:24:04
Прощай, requests?
А о чём речь идёт, молодые люди?

Andrew
06.01.2017
17:24:54
Прощай, requests?
Да, я перешёл уже

Google
Andrey
06.01.2017
18:04:37
Видел я последние багфиксы в aiohttp, чет стремно на него переходить

Andrey
06.01.2017
18:08:45
что не так?
Есть подозрение, что не все детские баги там еще исправлены. А масштабного тестирования юзерами еще не проводилось, поэтому эта либа может только для abc кейсов работает

Andrey
06.01.2017
18:13:01
Ну вот когда зафиксят, можно и в прод пускать )

Dmitriy
06.01.2017
19:50:55
Сделал и так, и так Ради интереса сделал замеры скорости

Почему так? С увеличением количества потоков скорость чуть-чуть увеличивается

Pavel
06.01.2017
19:52:17
код покажи, пожалуйста.

arisu
06.01.2017
19:52:19
Причины могут быть любые

Может тебя сервак тротлит

По количеству реквестов

Dmitriy
06.01.2017
19:56:27
Ну мне вот интересно. Есть тривиальная задача. Распарсить дофига страниц. Сколько потоков оптимально надо выбирать для наибольшей скорости?)

arisu
06.01.2017
19:57:13
1

Denis
06.01.2017
19:57:15
Подбирается экспериментально для каждого сайта и для твоего соединения

У меня обычно штук 20 наибольшую скорость дают

Dmitriy
06.01.2017
19:57:58
1
при использовании обоих модулей 1 поток показал наихудшие результаты так-то)

Denis
06.01.2017
19:58:00
Если сайт не против

Nikolay
06.01.2017
20:15:34
4 как 11, 11 как 4

Google
Roman
06.01.2017
22:07:46
Питон однопоточный

b0g3r
06.01.2017
22:12:33
Питон однопоточный
Это типа попытка начать спор про гил?)

Stanislav
06.01.2017
22:38:35
Питон однопоточный
https://www.youtube.com/watch?v=Obt-vMVdM8s https://www.youtube.com/watch?v=MCs5OvhV9S4

тут все сказано

смысл писать, лучше посмотри

Бизли фигню не говорит

Roman
06.01.2017
23:10:06
Это типа попытка начать спор про гил?)
Какой тут может быть спор?

b0g3r
06.01.2017
23:10:23
Действительно :)

Roman
06.01.2017
23:11:07
Человек хочет парсить. Парсинг - это чистый cpu bound.

Так что треды тут не помогут

b0g3r
06.01.2017
23:12:20
Так может стоит говорить именно так, а не как было до этого?)

К чему эти колкости?

Roman
06.01.2017
23:13:26
b0g3r
06.01.2017
23:13:41
А ответ вышел уж больно общим)

Alex
06.01.2017
23:36:51
Так что треды тут не помогут
сморя какой парсинг, попробуй чтото крупное без тредов отпарсить

Stanislav
06.01.2017
23:41:05
scrapy никто не отменял

а так как он на twisted

потоки, процессы, хреначить реально

Roman
06.01.2017
23:43:48
сморя какой парсинг, попробуй чтото крупное без тредов отпарсить
А что у нас уже есть многопоточный xml/html парсер?

Denis
07.01.2017
02:58:25
Человек хочет парсить. Парсинг - это чистый cpu bound.
Для того, чтобы распарсить страницу, нужно ее сначала загрузить

Google
Denis
07.01.2017
02:58:52
Это совсем не cpu-bound

Andrey
07.01.2017
10:14:30
шел 2017-й год, в России продолжали парсить сайты...

игорь
07.01.2017
10:17:46
ну вот так))

пока реклама так дешево стоит, то контент нафиг нужно покупать

Andrey
07.01.2017
10:19:08
так может она и стоит так дешево, потому что ее лепят к ворованному контенту? )

игорь
07.01.2017
10:19:49
Нет

от контента цены на услуги в реале не поднимутся и тогда в гугл адсенс и директе цены за клики не вырастут

не от контента зависит наш заработок

Admin
ERROR: S client not available

игорь
07.01.2017
10:21:37
пока что

Andrey
07.01.2017
10:24:52
реклама стоит дешево не из-за цен на услуги, а потому что столько готовы платить рекламодатели потому что реклама плохо продает а плохо продает она потому, что лепят ее куда попало такая логика не работает?

игорь
07.01.2017
10:25:38
А если контент будет норм, то где гарантии что люди станут вкладывать больше денег на рекламу ?

arisu
07.01.2017
10:25:55
Ну да, проще слепить еще один говносайт

игорь
07.01.2017
10:26:11
верно

arisu
07.01.2017
10:26:20
Интересно, на них вообще кто-то заходит?

На говносайты ваши

игорь
07.01.2017
10:26:30
хз я не делал, но понимаю их

и да они работают иначе наф время тратить на них ?

Denis
07.01.2017
10:40:15
Ну как же не шло

Google
Denis
07.01.2017
10:40:15
http://pastebin.com/5mHYdTtp

Roman
07.01.2017
11:38:29
Парсинг - это не выкачивание

Alex
07.01.2017
11:41:13
Парсинг - это не выкачивание
и выкачивание тоже

шел 2017-й год, в России продолжали парсить сайты...
гхм уже каждый сайт выгружает свою базу в каком нибудь формате?

На говносайты ваши
сайт может приносить прибыль вообще без трафика

arisu
07.01.2017
11:43:52
а источник прибыли каков?

Artem
07.01.2017
11:44:06
госзаказ!

Alex
07.01.2017
11:46:46
а источник прибыли каков?
ссылочные биржи например

arisu
07.01.2017
11:47:55
И кто в здравом уме будет ссылки на мертвом сайте делать?

arisu
07.01.2017
11:49:52
Какое сео?

Если на сайт даже поисковики не заходят например

Roman
07.01.2017
11:55:09
и выкачивание тоже
Ну так выкачивание отдельно, парсинг - отдельно

Alex
07.01.2017
11:55:10
Какое сео?
оффтопить не хочется, для сео чтобы подняться, нужно много хороших беков, их и покупают, там траф пох, имеет значение другие параметры

Ну так выкачивание отдельно, парсинг - отдельно
делается все вместе пачкой и парарелизируется, если речь про чтото крупное, типа выкачки вк

Roman
07.01.2017
11:56:36
делается все вместе пачкой и парарелизируется, если речь про чтото крупное, типа выкачки вк
Это не меняет постановку вопроса: у тебя по-прежнему две разные задачи

Roman
07.01.2017
12:00:30
что не отменяет парарелизацию
И как ты будешь параллелить выкачивание?

Alex
07.01.2017
12:05:00
И как ты будешь параллелить выкачивание?
из простого шардинг по айдишникам

Roman
07.01.2017
12:06:17
из простого шардинг по айдишникам
Нет, а чем параллелить будешь? Речь про python

Alex
07.01.2017
12:07:24
Нет, а чем параллелить будешь? Речь про python
и я про питон, запускай кучу демонов каждому свой диапазон айдишников и пошел

Страница 2000 из 9768