@ru_python

« Назад

Страница 9722 из 9768

Далее »

Проксимов

27.07.2019
18:14:57

Что за метод?

https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D1%83%D1%82%D1%91%D0%BD%D0%BA%D0%B0

Nikolay

27.07.2019
18:15:07

Что за метод?

Становишься премьер-министром и строишь домик для уточки

Yurii

27.07.2019
18:15:53

Как мне вытащить ссылку из текста и приклеить к слову, к которому эта ссылка относится

Ссылка вытаскивается парсером, текс с ссылкой объединяется в словарь.

?

27.07.2019
18:16:06

Ссылка вытаскивается парсером, текс с ссылкой объединяется в словарь.

Я повторюсь, и что мне это даст?

Google

Yurii

27.07.2019
18:16:40

Я повторюсь, и что мне это даст?

Я ответил на закоменченый вопрос.

?

27.07.2019
18:16:48

К примеру у тебя в html коде 3 одинаковых слова, твоя задача вытащить весь текст, и сохранить ссылку в формате WORD[URL]

Я выше писал, в чем проблема

Alexander

27.07.2019
18:17:05

А тебе выше ответили как её решить

?

27.07.2019
18:17:11

Вот у тебя есть страница https://pastebin.com/hEARZqfw В ней есть ссылки привязанные к словам

Ничего, но задача отформатировать текст так, чтобы было WORD[URL]

А если будет 2 и более одинаковых WORD, то как мне явно указать, к какому из них принадлежит ссылка?

Yurii

27.07.2019
18:17:27

К примеру у тебя в html коде 3 одинаковых слова, твоя задача вытащить весь текст, и сохранить ссылку в формате WORD[URL]

В тексте нету словарей, словарь ты сам создаешь.

Ну если json типа

Ничего, но задача отформатировать текст так, чтобы было WORD[URL]

Задача форматировать html а не собирать инфу?

?

27.07.2019
18:18:55

Задача форматировать html а не собирать инфу?

Именно!

Yurii

27.07.2019
18:19:32

Из регулярки там только re.sub надо, у некоторых либ свои методы есть и больше ничего.

Проксимов

27.07.2019
18:19:39

Задача форматировать html а не собирать инфу?

Можно же создать новый...

Google

Yurii

27.07.2019
18:19:51

Можно же создать новый...

Тоже вариант)

?

27.07.2019
18:19:57

Из регулярки там только re.sub надо, у некоторых либ свои методы есть и больше ничего.

Да, но re.sub вернет мне уже str, а не BS4 object

Yurii

27.07.2019
18:20:15

Да, но re.sub вернет мне уже str, а не BS4 object

А нахрен тебе бс4 упал?

Проксимов

27.07.2019
18:20:27

А нахрен тебе бс4 упал?

Блять ну ты ебнулся что ли

?

27.07.2019
18:20:48

А нахрен тебе бс4 упал?

ну так мне по сути из тегов только <a>

а потом bs4object.get_text()

и сразу из всех тегов текст вытаскивается

Nikolay

27.07.2019
18:21:14

А нахрен тебе бс4 упал?

Не нужно НЕ bs4

?

27.07.2019
18:21:15

чтобы руками не вытаскивать регулярками

Yurii

27.07.2019
18:21:22

Блять ну ты ебнулся что ли

Ну ему нужен объект бс но зачем после редактирования текста

Проксимов

27.07.2019
18:21:59

и сразу из всех тегов текст вытаскивается

Попробуй вытаскивать не из всех

?

27.07.2019
18:22:00

Ну ему нужен объект бс но зачем после редактирования текста

Так ты либо текст из bs4object достаешь, либо преобразуешь этот объект в текст и кидаешь в re.sub

Проксимов

27.07.2019
18:22:08

Попробуй вытаскивать не из всех

Уровень знаний: цикл

Yurii

27.07.2019
18:22:15

чтобы руками не вытаскивать регулярками

Сохрани в файл

Html

?

27.07.2019
18:22:25

TAGS = { "time": lambda item, copy_item: re.sub(r"<time*[^>]+>(.*)</time>", r"\t\1", copy_item), "strong": lambda item, copy_item: re.sub(r"<strong*[^>]+>(.*)</strong>", r"\t\1", copy_item), "br": lambda item, copy_item: copy_item.replace("<br>", "\n").replace("<br/>", "\n"), "a": lambda item, copy_item: re.sub(r'<a href="([^\"]*)" [^>]+>([^</a>]+)</a>', r'\2[\1]', copy_item), "span": lambda item, copy_item: re.sub(r"<span*[^>]+>(.*)</span>", r"\1", copy_item), "i": lambda item, copy_item: re.sub(r"<i*[^>]+>(.*)</i>", r"\1", copy_item), "p": lambda item, copy_item: re.sub(r"<p*[^>]+>(.*)</p>", r"\t\1", copy_item), "em": lambda item, copy_item: re.sub(r"<em*[^>]+>(.*)</em>", r"\1", copy_item), "h1": lambda item, copy_item: re.sub(r"<h1*[^>]+>(.*)</h1>", r"\t\1", copy_item), "h2": lambda item, copy_item: re.sub(r"<h2*[^>]+>(.*)</h2>", r"\t\1", copy_item), "h3": lambda item, copy_item: re.sub(r"<h3*[^>]+>(.*)</h3>", r"\t\1", copy_item), "h4": lambda item, copy_item: re.sub(r"<h4*[^>]+>(.*)</h4>", r"\t\1", copy_item), "h5": lambda item, copy_item: re.sub(r"<h5*[^>]+>(.*)</h5>", r"\t\1", copy_item), "h6": lambda item, copy_item: re.sub(r"<h6*[^>]+>(.*)</h6>", r"\t\1", copy_item), }

Смотри какая красота

Yurii

27.07.2019
18:22:57

Зато регулярки знаешь неплохо)

?

27.07.2019
18:23:11

Ага

Nikolay

27.07.2019
18:23:16

Не надо так делать

Google

?

27.07.2019
18:23:27

Но спустя час я так и не решил проблему =(

Nikolay

27.07.2019
18:23:32

Бери bs4 и парси всё им

?

27.07.2019
18:23:44

Можно как-то ему мут выдать?

Max

27.07.2019
18:23:54

Бери bs4 и парси всё им

А почему не lxml?

Nikolay

27.07.2019
18:24:40

А почему не lxml?

Потому что bs4 может под собой использовать разные парсеры, включая lxml

Tishka17

27.07.2019
18:25:40

Еще один

Список объектов бля

Yurii

27.07.2019
18:25:42

Так ты либо текст из bs4object достаешь, либо преобразуешь этот объект в текст и кидаешь в re.sub

Кидаешь текст, редактируешь, сохраняешь. ??? Profit

Проксимов

27.07.2019
18:25:45

А почему не lxml?

Да похуй же

Yurii

27.07.2019
18:25:55

?

Tishka17

27.07.2019
18:27:47

А если будет 2 и более одинаковых WORD, то как мне явно указать, к какому из них принадлежит ссылка?

Bs4, регулярки - это способ парсить. А в чем хранить дальше данные - вообще к ним не относится. Ты так же можешь вытащить регуляркой или через бс4 данные, а потом их проебать. А можешь вытащить любым способом, а потом нормально в памяти сохранить

?

27.07.2019
18:28:25

Bs4, регулярки - это способ парсить. А в чем хранить дальше данные - вообще к ним не относится. Ты так же можешь вытащить регуляркой или через бс4 данные, а потом их проебать. А можешь вытащить любым способом, а потом нормально в памяти сохранить

Это к чему вообще?

Зачем вот это вот всё?

?

27.07.2019
18:28:39

Есть прямой вопрос

Tishka17

27.07.2019
18:29:02

К тому, что блин словарь с данными в памяти не имеет отношения к тому как ты для него данные достанешь

?

27.07.2019
18:29:35

К тому, что блин словарь с данными в памяти не имеет отношения к тому как ты для него данные достанешь

Мне это вообще не нужно

Задача отформатировать html код

под задачу

Tishka17

27.07.2019
18:30:07

В бс4 у тебя есть объект "нода". Допустм ссылка. У нее есть есть текст и адрес. Вытащил, сохранил куда-нибудь

А потом делай с ними что хочешь

Задача отформатировать html код

Ты только что говорил про парсинг

Google

?

27.07.2019
18:30:39

Я не говорил, что мне нужно парсить и хранить

отформатировать

И всё

Tishka17

27.07.2019
18:31:02

Что значит "форматировать"?

?

27.07.2019
18:31:21

Привести к заданному формату*

Yurii

27.07.2019
18:31:21

Ну текст хтмл поменять)

Tishka17

27.07.2019
18:32:29

Не понятно. Тебе все таки надо расставить пробелы в коде, сохраним структуру. Поменять внешний вид страницы сохранив структуру кода. Или переделать нахрен структуру кода сохранив смысл?

?

27.07.2019
18:32:39

Ок

Admin

ERROR: S client not available

?

27.07.2019
18:32:42

ну че, давай еще раз

Я беру новостной сайт

Забираю с него по нужным мне блокам div инфу

И так к некоторым словам привязаны слова

тег <a>

Задача сохранить текст не теряя сайтов

А имеено

any text abra kadabra tut[URL]

Я могу сделать обычный str.replace

Tishka17

27.07.2019
18:33:59

Так стоп

?

27.07.2019
18:34:19

но если будет несколько слов tut, а ссылка привязана только к одному из них, то уже ошибка

Google

Tishka17

27.07.2019
18:34:46

но если будет несколько слов tut, а ссылка привязана только к одному из них, то уже ошибка

Это вообще к чему?

Так тебе блин распарсить сайт, вытащить из него инфу и сгенерить для нее новую страницу надо или все таки просто расставить пробелы в коде?

?

27.07.2019
18:35:38

Так тебе блин распарсить сайт, вытащить из него инфу и сгенерить для нее новую страницу надо или все таки просто расставить пробелы в коде?

Сохранить текст статьи новостного сайта, без рекламы и всякой шляпы

Просто основной текст статьи

С сохранением ссылок

и сохранить в файл

Yurii

27.07.2019
18:36:08

но если будет несколько слов tut, а ссылка привязана только к одному из них, то уже ошибка

Парсер находит тег, в теге слово и ссылка. Ты берешь извлекаешь и вяжешь

?? Eugene

27.07.2019
18:36:12

Найди блок, в котором лежит основной текст и бери его

Tishka17

27.07.2019
18:36:38

Просто основной текст статьи

<a href='/index.php'><span>что-то</span><br/><strong>qwrtt</strong></a> Вот во что это должно распарситься?

Простите переформатироваться

?

27.07.2019
18:37:19

<a href='/index.php'><span>что-то</span><br/><strong>qwrtt</strong></a> Вот во что это должно распарситься?

что-то[http[s]://domain.com/index.php]

Tishka17

27.07.2019
18:37:32

А куда дел qwrtt?

?

27.07.2019
18:37:42

не заметил

<a href='/index.php'><span>что-то</span><br/><strong>qwrtt</strong></a> Вот во что это должно распарситься?

А так можно вообще?

Tishka17

27.07.2019
18:38:08

Да без проблем вообще

И не только так

Ещё можно картинки в ссылки пихать

?

27.07.2019
18:38:51

Предположу что так тогда что-то qwrtt[http[s]://domain.com/index.php]

К последнему слову вяжем ссылку

Tishka17

27.07.2019
18:39:01

А "что-то" куда дел?

?

27.07.2019
18:39:12

А "что-то" куда дел?

К последнему слову вяжем ссылку*

« Назад

Страница 9722 из 9768

Далее »

Открыть в Telegram