
Later
28.03.2017
18:35:57
и пытаешься уложиться в отведенное время для каждого события или работы

b0g3r
28.03.2017
18:37:30
Добрый вечер, @zagrebelin

Centrino
28.03.2017
18:37:55
это чат для начинающих тимлидов

b0g3r
28.03.2017
18:38:25
И тебе, @MarkEgorov

Google

Dmitriy
28.03.2017
18:38:44
Кикните уже

b0g3r
28.03.2017
18:39:04
Ну добрый же вечер, @serbernar

Stanislav
28.03.2017
18:39:25

b0g3r
28.03.2017
18:39:33
Спасибо

53r63rn4r
28.03.2017
18:39:33
Кого кикать?

Stanislav
28.03.2017
18:39:40
Ну, я тут не при чем

b0g3r
28.03.2017
18:39:42
Двух выше, зашли недавно

53r63rn4r
28.03.2017
18:39:58
Стасика еще?

b0g3r
28.03.2017
18:40:12
Не знаю, оба зашли, подозрительные

53r63rn4r
28.03.2017
18:41:26
Если что: зовите, я не сплю

Марк
28.03.2017
18:42:13
Налет неудался

53r63rn4r
28.03.2017
18:45:09
Всё, пиздуйте в @pyflood

Марк
28.03.2017
18:45:42
Пиздуй свою бабу ебать, задрот)

Google

Tony
28.03.2017
18:57:23
ENTRYPOINT это зачем в докере?

Sonniy
28.03.2017
19:02:13
а есть какое нить научное определение для слова парсить?
я тут просто курсач пишу где у меня парсер есть

Bulatbulat48
28.03.2017
19:05:32

Sonniy
28.03.2017
19:06:10
мне подсказали сканировать, думаю в курсовой на русском языке это более правильное слово будет

Dmitriy
28.03.2017
19:07:03
Ну вот, заходите говорит в флуд

Ivan
28.03.2017
19:07:21
scrape ?
как в сказке про колобка, где старуха по сусекам наскребла. напарсила муки на колобка, ну

53r63rn4r
28.03.2017
19:07:33
Заходи

Ivan
28.03.2017
19:08:01

Dmitriy
28.03.2017
19:08:13

Sonniy
28.03.2017
19:10:26

Ivan
28.03.2017
19:11:03

Sonniy
28.03.2017
19:11:35
анализ html страницы, а что, звучит неплохо, спасибо

Later
28.03.2017
19:11:59
Parser — объектно-ориентированный скриптовый язык программирования, созданный для генерации HTML-страниц на веб-сервере с поддержкой CGI. Разработан Студией Артемия Лебедева и выпущен под лицензией, сходной с GNU GPL.
так и напиши
под звездочкой
или под [1]

vlade11115
28.03.2017
19:12:37

Nougatman
28.03.2017
19:12:51
А не яп

Google

Later
28.03.2017
19:13:15
Парсер (англиц. parser; от parse – анализ, разбор) или синтаксический анализатор

Sonniy
28.03.2017
19:13:17

Later
28.03.2017
19:13:24
сложно в википедию зайти?

Sonniy
28.03.2017
19:14:33
я забыл о ее существовании, каюсь
обычно сразу на хабр иду

b0g3r
28.03.2017
19:17:14
А вот вспомнил бы про лексер - не было бы вопросов)

Ivan
28.03.2017
19:19:45
Парни, привет всем! Пожалуйста, подскажите мне как лучше решить задачу... Код, конечно приведу. Просто щас что-то туплю и не могу понять, как все-таки сделать открытие всех ссылок сайта..

Admin
ERROR: S client not available

Ivan
28.03.2017
19:20:04
Задача:
Представьте, что у Вас есть сайт, состоящий примерно из 300-400 страниц.
Напишите на Python скрипт, который будет анализировать сайт и выводить
перечень ссылок, находящихся на страницах сайта и ведущих на несуществующие
страницы. На входе программы - адрес сайта.
from bs4 import BeautifulSoup
from requests import get
from sys import argv
from time import sleep
def get_link_list(site):
html = BeautifulSoup(get(site).text, "html.parser")
return [x.get('href') for x in html.find_all("a")]
def main():
links_with_404_status = []
if argv[1]:
site = argv[1]
for link in get_link_list(site):
if get(link).status_code == 404:
links_with_404_status.append(link)
else:
...
else:
print("Вы не ввели адрес сайта.")
if __name__ == '__main__':
main()

Bulatbulat48
28.03.2017
19:20:41
https://doc.scrapy.org/en/latest/

Bulatbulat48
28.03.2017
19:23:44
хотя может и скрапи тянуть не нужно
кстати еще ошибки 5xx, 4xx, 3xx - могут быть
на requests я думаю правильно, может что подскажут более опытные ребята

Ivan
28.03.2017
19:27:22
Спасибо)

Сергей
28.03.2017
19:36:28
У тебя же там только главную страницу оно дергает, а надо ходить по ссылкам и смотреть ещё внутри
Так что тут проще и быстрее scrapy

b0g3r
28.03.2017
19:44:24
Либо самому сделать рекурсивный обход.
Начать с главной страницы сайта, вытащить все ссылки по домену сайта.
Для каждой ссылки повторить рекурсивно.
Каждую обойденную ссылку добавлять в сет (можно добавлять пару (url, status_code))

Сергей
28.03.2017
19:45:49
Ну и обработанные ссылки исключать при дальнейших переходах

Google

b0g3r
28.03.2017
19:48:21
Да, проверять есть ли в сете

A
28.03.2017
21:49:23
Аминь

Даниил
28.03.2017
23:10:09
Да удостоверься ты о наличии данного значения в сетеее, да не поймаешь ты баги замоооорские. Амииинь

Dmitry
28.03.2017
23:48:31
хочу, чтобы на гитхаб не заливалсь служебные файлы.
в .gitignore записано:
*.gitignore
*.gitattributes
но .gitignore на github не заливается (как и должно быть), а .gitattributes заливается. почему?

Pavel
29.03.2017
01:41:50
в первый раз вижу, чтобы в .gitignore прописывали сам .gitignore

Alex
29.03.2017
03:45:46

Dmitry
29.03.2017
03:46:33
я говорю гиту — не трогай *.gitattributes
а он трогает

Pavel
29.03.2017
03:48:09
Эта группа больше не существует