我想在 RStudio 中将 .pdf 文件转换为 .docx 文件。我尝试读取 .pdf 并写入 .docx,但它没有区分标题、空格、表格或图形(原始文档有标题、文本、几个图形、几个表格)。我需要 .docx 文件看起来与 .pdf 文件完全一样。
可以考虑以下方法:
library(RDCOMClient)
wordApp <- COMCreate("Word.Application")
wordApp[["Visible"]] <- TRUE
wordApp[["DisplayAlerts"]] <- FALSE
path_To_PDF_File <- "yyy.pdf"
path_To_Word_File <- "yyy.docx"
doc <- wordApp[["Documents"]]$Open(normalizePath(path_To_PDF_File),
ConfirmConversions = FALSE)
doc$SaveAs2(path_To_Word_File)
这个 R 包 包装了一个流行的 Python 包 (
pdftodocx
),可以通过以下方式安装:
devtools::install_github("Ifeanyi55/Convert2Docx")
然后就非常简单了,只需一行:
Convert2Docx::Converter(pdf_file="yourfile.pdf", docx_filename="yourfile.docx")