我有 40,000 个 HTML 文件。每个文件都有一个表格,其中包含特定公司的损益表。
我想将所有这些数据抓取到 Stata 中。 (或者,转换为 Excel/CSV 文件)。最终产品应该是一个 Stata/Excel 文件,其中包含所有公司的列表及其资产负债表的详细信息(收入、利润等)
我可以知道如何做到这一点吗?我尝试过 Outwit,但似乎不够好。
Stata 并不是完成这项工作的最佳工具。您必须使用低级
file
命令来读取输入文本文件,然后解析出相关表(再次使用低级字符串处理)。将它们放入数据集中是最简单的部分;你也可以
expand 2 in l
replace company = "parsed name" in l
replace revenue = parsed_revenue in l
等,或使用
post
机制。 运气好的话,你会发现一些可以让事情变得更简单的软件包,但我不知道有什么,而且findit html
似乎没有带来任何可用的东西。
您应该使用Python beautifulsoup 包。从 HTML 文件中提取数据非常方便。以下是链接。
http://www.crummy.com/software/BeautifulSoup/
文档中命令很多,但重要的命令很少。以下是重要命令:
from bs4 import BeautifulSoup
#read the file
fp=open(file_name,'r')
data=fp.read()
fp.close()
#pass the data to beautifulsoup
soup = BeautifulSoup(html_doc, 'html.parser')
#extract the html elements by id and write result into file