
?
27.07.2019
18:16:48
К примеру у тебя в html коде 3 одинаковых слова, твоя задача вытащить весь текст, и сохранить ссылку в формате WORD[URL]
Я выше писал, в чем проблема

?
27.07.2019
18:17:11
Вот у тебя есть страница
https://pastebin.com/hEARZqfw
В ней есть ссылки привязанные к словам
Ничего, но задача отформатировать текст так, чтобы было WORD[URL]
А если будет 2 и более одинаковых WORD, то как мне явно указать, к какому из них принадлежит ссылка?

?
27.07.2019
18:22:25
TAGS = {
"time": lambda item, copy_item: re.sub(r"<time*[^>]+>(.*)</time>", r"\t\1", copy_item),
"strong": lambda item, copy_item: re.sub(r"<strong*[^>]+>(.*)</strong>", r"\t\1", copy_item),
"br": lambda item, copy_item: copy_item.replace("<br>", "\n").replace("<br/>", "\n"),
"a": lambda item, copy_item: re.sub(r'<a href="([^\"]*)" [^>]+>([^</a>]+)</a>', r'\2[\1]', copy_item),
"span": lambda item, copy_item: re.sub(r"<span*[^>]+>(.*)</span>", r"\1", copy_item),
"i": lambda item, copy_item: re.sub(r"<i*[^>]+>(.*)</i>", r"\1", copy_item),
"p": lambda item, copy_item: re.sub(r"<p*[^>]+>(.*)</p>", r"\t\1", copy_item),
"em": lambda item, copy_item: re.sub(r"<em*[^>]+>(.*)</em>", r"\1", copy_item),
"h1": lambda item, copy_item: re.sub(r"<h1*[^>]+>(.*)</h1>", r"\t\1", copy_item),
"h2": lambda item, copy_item: re.sub(r"<h2*[^>]+>(.*)</h2>", r"\t\1", copy_item),
"h3": lambda item, copy_item: re.sub(r"<h3*[^>]+>(.*)</h3>", r"\t\1", copy_item),
"h4": lambda item, copy_item: re.sub(r"<h4*[^>]+>(.*)</h4>", r"\t\1", copy_item),
"h5": lambda item, copy_item: re.sub(r"<h5*[^>]+>(.*)</h5>", r"\t\1", copy_item),
"h6": lambda item, copy_item: re.sub(r"<h6*[^>]+>(.*)</h6>", r"\t\1", copy_item),
}
Смотри какая красота

?
27.07.2019
18:32:39
Ок
ну че, давай еще раз
Я беру новостной сайт
Забираю с него по нужным мне блокам div инфу
И так к некоторым словам привязаны слова
тег <a>
Задача сохранить текст не теряя сайтов
А имеено
any text abra kadabra tut[URL]
Я могу сделать обычный str.replace