.pdf 到 RStudio 中的 .docx

问题描述 投票:0回答:2

我想在 RStudio 中将 .pdf 文件转换为 .docx 文件。我尝试读取 .pdf 并写入 .docx,但它没有区分标题、空格、表格或图形(原始文档有标题、文本、几个图形、几个表格)。我需要 .docx 文件看起来与 .pdf 文件完全一样。

r pdf rstudio
2个回答
0
投票

可以考虑以下方法:

library(RDCOMClient)

wordApp <- COMCreate("Word.Application")
wordApp[["Visible"]] <- TRUE
wordApp[["DisplayAlerts"]] <- FALSE
path_To_PDF_File <- "yyy.pdf"
path_To_Word_File <- "yyy.docx"

doc <- wordApp[["Documents"]]$Open(normalizePath(path_To_PDF_File),
                                   ConfirmConversions = FALSE)
doc$SaveAs2(path_To_Word_File)

0
投票

这个 R 包 包装了一个流行的 Python 包 (

pdftodocx
),可以通过以下方式安装:

devtools::install_github("Ifeanyi55/Convert2Docx")

然后就非常简单了,只需一行:

Convert2Docx::Converter(pdf_file="yourfile.pdf", docx_filename="yourfile.docx")
© www.soinside.com 2019 - 2024. All rights reserved.