如何将网页另存为文本文件?

问题描述 投票:0回答:2

我想将网页(所有内容)保存为文本文件。 (就好像您右键单击网页 - >“将页面另存为” - >“另存为文本文件”而不是html文件)

我尝试使用以下代码:

import urllib2
url=''
page = urllib2.urlopen(url)
page_content = page.read()
file = open('file_text.txt', 'w')
f.write(page_content)
f.close()

我的目标是能够保存整个文本而不需要 html 代码。 (例如我想读“è”而不是“é”)

python web text save
2个回答
4
投票

看看html2text,如上所述其他地方

import urllib2
import html2text
url=''
page = urllib2.urlopen(url)
html_content = page.read()
rendered_content = html2text.html2text(html_content)
file = open('file_text.txt', 'w')
file.write(rendered_content)
file.close()

0
投票

您可以修复错误:

import html2text  ~ ImportError: No module named html2text

通过使用 cmb 或终端类型:

pip install html2text
最新问题
© www.soinside.com 2019 - 2025. All rights reserved.