使用 R,我试图获取嵌入 html 中的 pdf 文本(理想情况下,带有一些格式)。例如,URL 是 “https://www.nycourts.gov/courts/ad2/Handdowns/2024/10-October/10-02-2024_FINAL_HANDDOWN_LIST.pdf”
使用 pdf_text 不起作用:
> pdf_text <- pdf_text("https://www.nycourts.gov/courts/ad2/Handdowns/2024/10-October/10-02-2024_FINAL_HANDDOWN_LIST.pdf")
Error in open.connection(con, "rb") :
cannot open the connection to 'https://www.nycourts.gov/courts/ad2/Handdowns/2024/10-October/10-02-2024_FINAL_HANDDOWN_LIST.pdf'
In addition: Warning message:
In open.connection(con, "rb") :
cannot open URL 'https://www.nycourts.gov/courts/ad2/Handdowns/2024/10-October/10-02-2024_FINAL_HANDDOWN_LIST.pdf': HTTP status was '403 Forbidden'
我还尝试使用 RSelenium 导航到页面并从 html 中收集任何内容,但没有成功:
> remDr$navigate("https://www.nycourts.gov/courts/ad2/Handdowns/2024/10-October/10-02-2024_FINAL_HANDDOWN_LIST.pdf")
> pageHTML <- remDr$getPageSource()[[1]]
> pageHTML
[1] "<html><head></head><body style=\"height: 100%; width: 100%; overflow: hidden; margin:0px; background-color: rgb(82, 86, 89);\"><embed name=\"843DE9299AC47C3596F8B8E1296AD1FC\" style=\"position:absolute; left: 0; top: 0;\" width=\"100%\" height=\"100%\" src=\"about:blank\" type=\"application/pdf\" internalid=\"843DE9299AC47C3596F8B8E1296AD1FC\"></body></html>"
如果无法仅获取文本,我很乐意自动下载 pdf,然后对文件进行 pdf_text,但我无法运行 Rselenium 来执行此操作。
要在任何查看器中打开远程 PDF,需要将其收集并解压缩为屏幕像素。这是使用浏览器完成的,但首先下载 PDF,然后以像素形式返回到浏览器玻璃窗口。
与设备命令行的功能完全相同
curl -A "Mozilla ()/20100101 Firefox/81.0" -O https://www.nycourts.gov/courts/ad2/Handdowns/2024/10-October/10-02-2024_FINAL_HANDDOWN_LIST.pdf & 10-02-2024_FINAL_HANDDOWN_LIST.pdf
一旦获得二进制数据,您就可以使用任何合适的 shell 函数导出超链接,因此相干的 cpdf 具有 Json 格式的简单输出,此处使用 windows find 过滤器。
cpdf -list-annotations-json 10-02-2024_FINAL_HANDDOWN_LIST.pdf |find "https"