我正在尝试使用 R 包 edgar 从多家公司的 10-K 报告中提取其业务描述。我正在使用 getBusinDescr 函数来执行此操作。但是,我只能提取第 1 项(业务描述)和第 1A 项(风险因素)。有谁知道如何操作函数“getBusinDescr”的代码以仅检索项目 1?不知何故,解析必须以“第 1A 项。风险因素”结束。
我已经在 SEC 备案工作了一段时间了,我的研究是,我的建议是要么开发自己的抓取工具,除非您知道自己在做什么,否则我不建议这样做,或者参考会计和软件存储库圣母大学金融学。您可以在此处找到链接。
人们已经下载了编码为第一阶段数据解析器的整个 10-K 文件。完整的数据集有点重,但它已经是纯文本格式,所以没有麻烦。您唯一需要做的就是定义一些正则表达式来启发式查找报告的第 1 项和第 1A 项的开头和结尾。
请随时联系我了解更多信息。
您可以使用 Selenium w/ Chromedriver 从雅虎财经抓取业务描述。
从 selenium 导入 webdriver 驱动程序 = webdriver.Chrome()
def pullDesc(ticker):
web_url = f"https://finance.yahoo.com/quote/{ticker}/profile/"
time.sleep(1.5)
driver.get(web_url)
time.sleep(0.5)
d_clss = driver.find_elements(By.CLASS_NAME, r"yf-1hj9jti")
for i in range(len(d_clss)):
if "Description\n" in d_clss[i].text:
return d_clss[i].text