我如何在没有HTML / TAG的情况下清除我的数据以文本形式清除?

问题描述 投票:0回答:1

我正在尝试抓取此网站(底部表格)https://www.eia.gov/dnav/ng/hist/rngwhhdD.htm,到目前为止我已经获得了代码。我需要帮助来清理抓取的数据。 (我只需要文本并删除HTML代码/标签)

(下面的代码有效)(我正在Jupyter笔记本电脑中这样做)

我一直在尝试“ .text”和“ .strip”,但到目前为止还没有运气。

import bs4
from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup
import csv


#open page and grab html
my_url = ('https://www.eia.gov/dnav/ng/hist/rngwhhdD.htm')
uClient = uReq(my_url)
page_html = uClient.read()
uClient.close


#HTML parser
page_soup = soup(page_html, 'html.parser')


#Find table
soup = page_soup.findAll("td",{"class":{"B6","B3"}})

#Print table
print(soup)

我希望不使用HTML /标记代码打印所有内容。只需清除列中的文本即可。

python-3.7
1个回答
0
投票

检查以下符合您要求的代码。顺便说一句,遇到麻烦时,您可以阅读BeautifulSoup Document并编写一些代码来测试您的想法。希望对您有帮助。

BeautifulSoup Document
© www.soinside.com 2019 - 2024. All rights reserved.