R无法从PDF中读取文本

Question

我一直在尝试将PDF文件夹读入R以使语料库有一段时间了。我用过：

teleeos<- readtext("C:/Users/dklimkina/Desktop/Text Analysis Project/Corpus/Telehealth", encoding = "UTF-8")
directory<-("C:/Users/dklimkina/Desktop/Text Analysis Project/Corpus/Telehealth")
teleeos<- readtext(directory)

和

setwd("C:/Users/dklimkina/Desktop/Text Analysis Project/Corpus/Telehealth")
install.packages("pdftools")
library(pdftools)
files <- list.files(pattern = "pdf$")

并且我已经更改了PDF类型，但是无论我做什么，我一直得到的都是PDF error (63): Illegal character <29> in hex string。有什么想法吗？

Answer 1

尝试隔离导致问题的文件并进一步检查它是值得的。如果没有可复制的示例或无法访问原始文件，我们将无法为您提供进一步的帮助。

首先，在没有encoding =“ UTF-8”参数的情况下尝试。

您也可以尝试其他工具。由于我看到您正在使用Windows，请尝试以下操作：

下载适合您平台的xpdf工具套件。这包括您需要的部分pdftotext。
如下使用程序/附件中的Windows PowerShell ISE（集成脚本环境）（根据系统要求对路径进行调整，以运行此脚本：
cd“ C：/ Users / dklimkina / Desktop / Text Analysis Project / Corpus / Telehealth”$ FILES = ls * .pdfforeach（$ FILES中的$ f）{C：\ Program` Files \ xpdf \ bin32 \ pdftotext -enc UTF-8 $ f}

这可能会更好地将文件转换为文本。

如果该脚本失败，那么如果您成功隔离了问题pdf，请尝试仅对该文件运行pdftotext problemfile.pdf，然后查看是否可行。

R无法从PDF中读取文本

问题描述投票：0回答：1

1个回答

最新问题

R无法从PDF中读取文本

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1