从多家公司的 10-K 报告中提取业务描述(第 1 项)

问题描述 投票:0回答:2

我正在尝试使用 R 包 edgar 从多家公司的 10-K 报告中提取其业务描述。我正在使用 getBusinDescr 函数来执行此操作。但是,我只能提取第 1 项(业务描述)和第 1A 项(风险因素)。有谁知道如何操作函数“getBusinDescr”的代码以仅检索项目 1?不知何故,解析必须以“第 1A 项。风险因素”结束。

r parsing edgar
2个回答
1
投票

我已经在 SEC 备案工作了一段时间了,我的研究是,我的建议是要么开发自己的抓取工具,除非您知道自己在做什么,否则我不建议这样做,或者参考会计和软件存储库圣母大学金融学。您可以在此处找到链接。

人们已经下载了编码为第一阶段数据解析器的整个 10-K 文件。完整的数据集有点重,但它已经是纯文本格式,所以没有麻烦。您唯一需要做的就是定义一些正则表达式来启发式查找报告的第 1 项和第 1A 项的开头和结尾。

请随时联系我了解更多信息。


0
投票

您可以使用 Selenium w/ Chromedriver 从雅虎财经抓取业务描述。

从 selenium 导入 webdriver 驱动程序 = webdriver.Chrome()

def pullDesc(ticker):

    web_url = f"https://finance.yahoo.com/quote/{ticker}/profile/"    
    time.sleep(1.5)
    driver.get(web_url)
    time.sleep(0.5)
    d_clss = driver.find_elements(By.CLASS_NAME, r"yf-1hj9jti")
    for i in range(len(d_clss)):
        if "Description\n" in d_clss[i].text:
            return d_clss[i].text
© www.soinside.com 2019 - 2024. All rights reserved.