R无法从PDF中读取文本

问题描述 投票:0回答:1

我一直在尝试将PDF文件夹读入R以使语料库有一段时间了。我用过:

teleeos<- readtext("C:/Users/dklimkina/Desktop/Text Analysis Project/Corpus/Telehealth", encoding = "UTF-8")
directory<-("C:/Users/dklimkina/Desktop/Text Analysis Project/Corpus/Telehealth")
teleeos<- readtext(directory) 

setwd("C:/Users/dklimkina/Desktop/Text Analysis Project/Corpus/Telehealth")
install.packages("pdftools")
library(pdftools)
files <- list.files(pattern = "pdf$")

并且我已经更改了PDF类型,但是无论我做什么,我一直得到的都是PDF error (63): Illegal character <29> in hex string。有什么想法吗?

r hex corpus quanteda
1个回答
0
投票

尝试隔离导致问题的文件并进一步检查它是值得的。如果没有可复制的示例或无法访问原始文件,我们将无法为您提供进一步的帮助。

首先,在没有encoding =“ UTF-8”参数的情况下尝试。

您也可以尝试其他工具。由于我看到您正在使用Windows,请尝试以下操作:

  1. 下载适合您平台的xpdf工具套件。这包括您需要的部分pdftotext。

  2. 如下使用程序/附件中的Windows PowerShell ISE(集成脚本环境)(根据系统要求对路径进行调整,以运行此脚本:

    cd“ C:/ Users / dklimkina / Desktop / Text Analysis Project / Corpus / Telehealth”$ FILES = ls * .pdfforeach($ FILES中的$ f){C:\ Program` Files \ xpdf \ bin32 \ pdftotext -enc UTF-8 $ f}

这可能会更好地将文件转换为文本。

如果该脚本失败,那么如果您成功隔离了问题pdf,请尝试仅对该文件运行pdftotext problemfile.pdf,然后查看是否可行。

© www.soinside.com 2019 - 2024. All rights reserved.