我从 SEC 的 EDAGR 进行了简单下载并解析了 XLM 文件,但有些东西不起作用。
library(xml2)
library(XML)
download.file("https://www.sec.gov/Archives/edgar/data/1026144/000175272424054979/primary_doc.xml", destfile = "ncen.txt")
ncen.data <- read_xml("ncen.txt")
ncen.xml <- xmlParse(ncen.data)
因为我想将
ncen.txt
中的所有数据保存在数据框中,所以我使用
xml.df <- xmlToDataFrame(nodes = getNodeSet(ncen.xml, "//edgarSubmission"))
但这会导致数据框为空。
ncen.txt
似乎是一个正确的 xml 文件。
对此有什么想法吗?
我尝试通过您提供的网址下载
XML
数据,但一直失败。因此,我在此解决方案中使用了另一个网络托管的 XML
文件。
library(XML)
download.file(url = "https://filesampleshub.com/download/code/xml/sample2.xml",
destfile = "myfile.xml")
myfile <- xmlParse("myfile.xml")
mydata <- xmlToDataFrame(myfile)
print(mydata)
我认为您犯的错误是将目标文件设置为
.txt
文件而不是 .xml
内的 download.file()
。文件下载到当前工作目录后,您可以使用 xmlParse()
读取它,并使用 xmlToDataFrame()
将其转换为数据框。
我希望这有帮助!