
Проксимов
02.07.2017
10:27:19
Ему прям сука в ошибке написано что поменять

Igor
02.07.2017
10:27:41
где здесь по делу? человек проблему хочет решить какую-то, а вы линтер ходячий из себя представляете. raw[:75], видите ли, ниче не делает.

Маришка
02.07.2017
10:27:56

Проксимов
02.07.2017
10:28:24

Google

Eugene
02.07.2017
10:28:35
type(raw)
len(raw)
raw[:75]
ну это и правда забавно о.о

Проксимов
02.07.2017
10:28:44
Там учат читать трейсбек
Не здесь

Igor
02.07.2017
10:29:06
ну да, это, конечно, офигенный повод хуесосить человека здесь

Проксимов
02.07.2017
10:29:21

Boojum
02.07.2017
10:30:00

?
02.07.2017
10:30:58
Вот
что вот, я и прописывал lxml, но в "" а надо было '

Проксимов
02.07.2017
10:31:22

Igor
02.07.2017
10:31:36

?
02.07.2017
10:31:56
или не ставил. не помню

Google

Проксимов
02.07.2017
10:32:44

?
02.07.2017
10:32:49
я вообще по книге читаю, а вы сразу напали

Проксимов
02.07.2017
10:32:58
Интересно что за книга


?
02.07.2017
10:33:25
Работа с HTML
Большая часть текста в Интернете находится в формате HTML-документов. Вы можете использовать веб-браузер, чтобы сохранить страницу в виде текста в локальный файл, а затем получить доступ к этому, как описано в разделе о файлах ниже. Тем не менее, если вы собираетесь делать это часто, легче всего поручить Python делать эту работу. Первый шаг такой же, как и раньше, с использованием urlopen. Забавы ради мы выберем историю BBC News под названием Блондинки вымрут через 200 лет, городская легенда выданная BBC за установленный научный факт:
>>> url = "http://news.bbc.co.uk/2/hi/health/2284783.stm"
>>> html = request.urlopen(url).read().decode('utf8')
>>> html[:60]
'<!doctype html public "-//W3C//DTD HTML 4.0 Transitional//EN'
Вы можете ввести print(html), чтобы увидеть содержимое HTML во всей своей красе, включая метатеги, карту изображений, JavaScript, формы и таблицы.
Чтобы получить текст из HTML мы будем использовать библиотеку Python под названием BeautifulSoup доступную для скачивания с сайта http://www.crummy.com/software/BeautifulSoup/:
>>> from bs4 import BeautifulSoup
>>> raw = BeautifulSoup(html).get_text()
>>> tokens = word_tokenize(raw)
>>> tokens
['BBC', 'NEWS', '|', 'Health', '|', 'Blondes', "'to", 'die', 'out', ...]


Eugene
02.07.2017
10:34:30
Норм такой скрин :D


Проксимов
02.07.2017
10:34:42
Работа с HTML
Большая часть текста в Интернете находится в формате HTML-документов. Вы можете использовать веб-браузер, чтобы сохранить страницу в виде текста в локальный файл, а затем получить доступ к этому, как описано в разделе о файлах ниже. Тем не менее, если вы собираетесь делать это часто, легче всего поручить Python делать эту работу. Первый шаг такой же, как и раньше, с использованием urlopen. Забавы ради мы выберем историю BBC News под названием Блондинки вымрут через 200 лет, городская легенда выданная BBC за установленный научный факт:
>>> url = "http://news.bbc.co.uk/2/hi/health/2284783.stm"
>>> html = request.urlopen(url).read().decode('utf8')
>>> html[:60]
'<!doctype html public "-//W3C//DTD HTML 4.0 Transitional//EN'
Вы можете ввести print(html), чтобы увидеть содержимое HTML во всей своей красе, включая метатеги, карту изображений, JavaScript, формы и таблицы.
Чтобы получить текст из HTML мы будем использовать библиотеку Python под названием BeautifulSoup доступную для скачивания с сайта http://www.crummy.com/software/BeautifulSoup/:
>>> from bs4 import BeautifulSoup
>>> raw = BeautifulSoup(html).get_text()
>>> tokens = word_tokenize(raw)
>>> tokens
['BBC', 'NEWS', '|', 'Health', '|', 'Blondes', "'to", 'die', 'out', ...]
Ну, я думаю, что было рассчитано на то что ты думаешь головой и после ошибки добавишь 4 буквы
Но это не точно


Eugene
02.07.2017
10:34:57
raw = BeautifulSoup(html).get_text()
ну вот же без кавычек ._.

Проксимов
02.07.2017
10:35:24
raw = BeautifulSoup(html, "lxml").get_text()
Всё

Маришка
02.07.2017
10:35:48
Код из интерпретатора скопировал в прогу
Топ

?
02.07.2017
10:36:14
спасибо Игорю. остальным быть добрее желаю
возможно вернусь еще с вопросом

Boojum
02.07.2017
10:38:08

Маришка
02.07.2017
10:38:12
Ну уж извините, но bs4 не трогала и хз буду ли хд

?
02.07.2017
10:38:24
я уже как-то писал . меня затроллили

Google


Евгений
02.07.2017
10:38:29
Работа с HTML
Большая часть текста в Интернете находится в формате HTML-документов. Вы можете использовать веб-браузер, чтобы сохранить страницу в виде текста в локальный файл, а затем получить доступ к этому, как описано в разделе о файлах ниже. Тем не менее, если вы собираетесь делать это часто, легче всего поручить Python делать эту работу. Первый шаг такой же, как и раньше, с использованием urlopen. Забавы ради мы выберем историю BBC News под названием Блондинки вымрут через 200 лет, городская легенда выданная BBC за установленный научный факт:
>>> url = "http://news.bbc.co.uk/2/hi/health/2284783.stm"
>>> html = request.urlopen(url).read().decode('utf8')
>>> html[:60]
'<!doctype html public "-//W3C//DTD HTML 4.0 Transitional//EN'
Вы можете ввести print(html), чтобы увидеть содержимое HTML во всей своей красе, включая метатеги, карту изображений, JavaScript, формы и таблицы.
Чтобы получить текст из HTML мы будем использовать библиотеку Python под названием BeautifulSoup доступную для скачивания с сайта http://www.crummy.com/software/BeautifulSoup/:
>>> from bs4 import BeautifulSoup
>>> raw = BeautifulSoup(html).get_text()
>>> tokens = word_tokenize(raw)
>>> tokens
['BBC', 'NEWS', '|', 'Health', '|', 'Blondes', "'to", 'die', 'out', ...]
блджад. Что за простыни? нахер такое в чат кидать?


Igor
02.07.2017
10:38:36

Маришка
02.07.2017
10:39:39
Игорь, ну ты понимаешь
парни вопрос, есть текстовый файл, как с ним работать в питоне на nltk
f = open('file.txt", "r")
это что
with open("file.txt") as f:
content = f.read()
Также можно читать построчно если файл большой.
with обязательно?
Нет, но без него нужно явно закрывать файл.
как быть с len текста

Маришка
02.07.2017
10:44:11
len("file.txt")?
len(f.read())
len(f.read())
Traceback (most recent call last):
File "<ipython-input-36-8afbe392ea3d>", line 1, in <module>
len(f.read())
ValueError: I/O operation on closed file.
TypeError: object of type 'builtin_function_or_method' has no len()
я нашел решение
with open("file.txt", "r") as file:
content = file.read()
print(content)
вот правильно
потом прописываю лен

Google

Маришка
02.07.2017
10:44:11
и все считает
ща попробую
считает
может все дело в filе вместо f
> Все дело в file вместо f
> Вместо "" нужно было '

?
02.07.2017
10:45:14

Eugene
02.07.2017
10:45:41
*стикер с Маришкой про теорию*

Admin
ERROR: S client not available

Проксимов
02.07.2017
10:46:33

Igor
02.07.2017
10:47:04
ололо, какой?

Проксимов
02.07.2017
10:47:08
Это демпинг какой то
Сказал ему что надо сделать и где

Boojum
02.07.2017
10:49:48
Я не понял, кто-то недоволен, что в beginners люди задают нубские вопросы?

Проксимов
02.07.2017
10:50:17

Igor
02.07.2017
10:50:42

Проксимов
02.07.2017
10:50:54
Ну ну ё маё ты то меня должен понять

Google

?
02.07.2017
10:51:14
здесь хотя бы ответят

Boojum
02.07.2017
10:51:39

?
02.07.2017
10:51:45
вчера спрашивал

Маришка
02.07.2017
10:51:46
Ну я лишь приебалась к парочке вещей которые не относились к вопросу и в принципе была откритикована опущена и послана нахуй тем кто не умеет читать трейсбек
Все в норме

Igor
02.07.2017
10:52:09
Ну ну ё маё ты то меня должен понять
я тебя не понимаю
вместо того, чтобы создать дружелюбную обстановку в бегиннерсах, чела затралеле, а при попытке задать бегиннерские вопросы в основной чат затралеле еще больше

Проксимов
02.07.2017
10:52:40

dmks
02.07.2017
10:52:46

Igor
02.07.2017
10:52:59
ай, ладно, все равно оффтопим

Проксимов
02.07.2017
10:53:25

?
02.07.2017
10:53:26

Проксимов
02.07.2017
10:53:32
Ты будешь отвечать?

?
02.07.2017
10:53:52

Igor
02.07.2017
10:53:55
Ты будешь отвечать?
хочу - отвечаю. не хочу - не отвечаю. зависит от количества свободного времени и желания отвечать.

Проксимов
02.07.2017
10:53:58
Или пошлёшь читать доку?

Boojum
02.07.2017
10:54:07

Маришка
02.07.2017
10:54:21

b0g3r
02.07.2017
10:54:31