@ru_python

Страница 9722 из 9768
Проксимов
27.07.2019
18:14:57
Что за метод?
https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D1%83%D1%82%D1%91%D0%BD%D0%BA%D0%B0

Nikolay
27.07.2019
18:15:07
Что за метод?
Становишься премьер-министром и строишь домик для уточки

Yurii
27.07.2019
18:15:53
Как мне вытащить ссылку из текста и приклеить к слову, к которому эта ссылка относится
Ссылка вытаскивается парсером, текс с ссылкой объединяется в словарь.

Google
Yurii
27.07.2019
18:16:40
Я повторюсь, и что мне это даст?
Я ответил на закоменченый вопрос.

?
27.07.2019
18:16:48
К примеру у тебя в html коде 3 одинаковых слова, твоя задача вытащить весь текст, и сохранить ссылку в формате WORD[URL]

Я выше писал, в чем проблема

Alexander
27.07.2019
18:17:05
А тебе выше ответили как её решить

?
27.07.2019
18:17:11
Вот у тебя есть страница https://pastebin.com/hEARZqfw В ней есть ссылки привязанные к словам

Ничего, но задача отформатировать текст так, чтобы было WORD[URL]

А если будет 2 и более одинаковых WORD, то как мне явно указать, к какому из них принадлежит ссылка?

Yurii
27.07.2019
18:17:27
Ну если json типа

Ничего, но задача отформатировать текст так, чтобы было WORD[URL]
Задача форматировать html а не собирать инфу?

Yurii
27.07.2019
18:19:32
Из регулярки там только re.sub надо, у некоторых либ свои методы есть и больше ничего.

Проксимов
27.07.2019
18:19:39
Google
Yurii
27.07.2019
18:19:51
Yurii
27.07.2019
18:20:15
Проксимов
27.07.2019
18:20:27
А нахрен тебе бс4 упал?
Блять ну ты ебнулся что ли

?
27.07.2019
18:20:48
А нахрен тебе бс4 упал?
ну так мне по сути из тегов только <a>

а потом bs4object.get_text()

и сразу из всех тегов текст вытаскивается

Nikolay
27.07.2019
18:21:14
?
27.07.2019
18:21:15
чтобы руками не вытаскивать регулярками

Yurii
27.07.2019
18:21:22
Блять ну ты ебнулся что ли
Ну ему нужен объект бс но зачем после редактирования текста

Проксимов
27.07.2019
18:21:59
и сразу из всех тегов текст вытаскивается
Попробуй вытаскивать не из всех

?
27.07.2019
18:22:00
Ну ему нужен объект бс но зачем после редактирования текста
Так ты либо текст из bs4object достаешь, либо преобразуешь этот объект в текст и кидаешь в re.sub

Проксимов
27.07.2019
18:22:08
Yurii
27.07.2019
18:22:15
Html

?
27.07.2019
18:22:25
TAGS = { "time": lambda item, copy_item: re.sub(r"<time*[^>]+>(.*)</time>", r"\t\1", copy_item), "strong": lambda item, copy_item: re.sub(r"<strong*[^>]+>(.*)</strong>", r"\t\1", copy_item), "br": lambda item, copy_item: copy_item.replace("<br>", "\n").replace("<br/>", "\n"), "a": lambda item, copy_item: re.sub(r'<a href="([^\"]*)" [^>]+>([^</a>]+)</a>', r'\2[\1]', copy_item), "span": lambda item, copy_item: re.sub(r"<span*[^>]+>(.*)</span>", r"\1", copy_item), "i": lambda item, copy_item: re.sub(r"<i*[^>]+>(.*)</i>", r"\1", copy_item), "p": lambda item, copy_item: re.sub(r"<p*[^>]+>(.*)</p>", r"\t\1", copy_item), "em": lambda item, copy_item: re.sub(r"<em*[^>]+>(.*)</em>", r"\1", copy_item), "h1": lambda item, copy_item: re.sub(r"<h1*[^>]+>(.*)</h1>", r"\t\1", copy_item), "h2": lambda item, copy_item: re.sub(r"<h2*[^>]+>(.*)</h2>", r"\t\1", copy_item), "h3": lambda item, copy_item: re.sub(r"<h3*[^>]+>(.*)</h3>", r"\t\1", copy_item), "h4": lambda item, copy_item: re.sub(r"<h4*[^>]+>(.*)</h4>", r"\t\1", copy_item), "h5": lambda item, copy_item: re.sub(r"<h5*[^>]+>(.*)</h5>", r"\t\1", copy_item), "h6": lambda item, copy_item: re.sub(r"<h6*[^>]+>(.*)</h6>", r"\t\1", copy_item), }

Смотри какая красота

Yurii
27.07.2019
18:22:57
Зато регулярки знаешь неплохо)

?
27.07.2019
18:23:11
Ага

Google
?
27.07.2019
18:23:27
Но спустя час я так и не решил проблему =(

Nikolay
27.07.2019
18:23:32
Бери bs4 и парси всё им

?
27.07.2019
18:23:44
Можно как-то ему мут выдать?

Max
27.07.2019
18:23:54
Бери bs4 и парси всё им
А почему не lxml?

Nikolay
27.07.2019
18:24:40
А почему не lxml?
Потому что bs4 может под собой использовать разные парсеры, включая lxml

Tishka17
27.07.2019
18:25:40
Еще один
Список объектов бля

Yurii
27.07.2019
18:25:42
Проксимов
27.07.2019
18:25:45
А почему не lxml?
Да похуй же

Yurii
27.07.2019
18:25:55
?

Tishka17
27.07.2019
18:27:47
А если будет 2 и более одинаковых WORD, то как мне явно указать, к какому из них принадлежит ссылка?
Bs4, регулярки - это способ парсить. А в чем хранить дальше данные - вообще к ним не относится. Ты так же можешь вытащить регуляркой или через бс4 данные, а потом их проебать. А можешь вытащить любым способом, а потом нормально в памяти сохранить

Tishka17
27.07.2019
18:29:02
К тому, что блин словарь с данными в памяти не имеет отношения к тому как ты для него данные достанешь

?
27.07.2019
18:29:35
Задача отформатировать html код

под задачу

Tishka17
27.07.2019
18:30:07
В бс4 у тебя есть объект "нода". Допустм ссылка. У нее есть есть текст и адрес. Вытащил, сохранил куда-нибудь

А потом делай с ними что хочешь

Задача отформатировать html код
Ты только что говорил про парсинг

Google
?
27.07.2019
18:30:39
Я не говорил, что мне нужно парсить и хранить

отформатировать

И всё

Tishka17
27.07.2019
18:31:02
Что значит "форматировать"?

?
27.07.2019
18:31:21
Привести к заданному формату*

Yurii
27.07.2019
18:31:21
Ну текст хтмл поменять)

Tishka17
27.07.2019
18:32:29
Не понятно. Тебе все таки надо расставить пробелы в коде, сохраним структуру. Поменять внешний вид страницы сохранив структуру кода. Или переделать нахрен структуру кода сохранив смысл?

?
27.07.2019
18:32:39
Ок

ну че, давай еще раз

Я беру новостной сайт

Забираю с него по нужным мне блокам div инфу

И так к некоторым словам привязаны слова

тег <a>

Задача сохранить текст не теряя сайтов

А имеено

any text abra kadabra tut[URL]

Я могу сделать обычный str.replace

Tishka17
27.07.2019
18:33:59
Так стоп

?
27.07.2019
18:34:19
но если будет несколько слов tut, а ссылка привязана только к одному из них, то уже ошибка

Google
Tishka17
27.07.2019
18:35:13
Так тебе блин распарсить сайт, вытащить из него инфу и сгенерить для нее новую страницу надо или все таки просто расставить пробелы в коде?

?
27.07.2019
18:35:38
Просто основной текст статьи

С сохранением ссылок

и сохранить в файл

Yurii
27.07.2019
18:36:08
но если будет несколько слов tut, а ссылка привязана только к одному из них, то уже ошибка
Парсер находит тег, в теге слово и ссылка. Ты берешь извлекаешь и вяжешь

?? Eugene
27.07.2019
18:36:12
Найди блок, в котором лежит основной текст и бери его

Tishka17
27.07.2019
18:36:38
Просто основной текст статьи
<a href='/index.php'><span>что-то</span><br/><strong>qwrtt</strong></a> Вот во что это должно распарситься?

Простите переформатироваться

Tishka17
27.07.2019
18:37:32
А куда дел qwrtt?

Tishka17
27.07.2019
18:38:08
Да без проблем вообще

И не только так

Ещё можно картинки в ссылки пихать

?
27.07.2019
18:38:51
Предположу что так тогда что-то qwrtt[http[s]://domain.com/index.php]

К последнему слову вяжем ссылку

Tishka17
27.07.2019
18:39:01
А "что-то" куда дел?

?
27.07.2019
18:39:12
А "что-то" куда дел?
К последнему слову вяжем ссылку*

Страница 9722 из 9768