有没有使用python将pdf转换为excel的方法？

Question

我有一个包含多种数据格式的 pdf 文件。单个页面有具有多行和列的表格。还有表格之外的其他段落等。我怎样才能成功地将其完全转换为 Excel 文件而不丢失格式。我尝试了一些方法，但格式丢失了，我想在 Excel 中有相同的副本，包括表格和段落。我知道 Adobe pro 可以做到这一点，但必须付费。寻求建议。

Answer 1

我尝试了几种方法，但我发现最好的方法是 tabula-py，这是一个 Python 框架，可以读取 PDF 中的表格并将其转换为 .xlsx 文件。

您需要做的就是先安装它：

pip install tabula-py

然后就可以导入到项目中了：

import tabula

然后你需要给出.pdf文件的路径和.xlsx文件的路径（这就是你想要的最终结果）。

然后你从 tabula 调用这个方法，它有效地将 pdf 文件转换为 xlsx 文件：

tabula.convert_into(file_path, output_path, output_format="xlsx")

所以整个脚本应该是这样的：

import tabula
file_path = "path/to/your/pdf/file.pdf"
output_path = "path/to/output/excel/file.xlsx"
tabula.convert_into(file_path, output_path, output_format="xlsx")

您还可以使用其他参数自定义提取过程。更多信息请查看官方文档：官方 tabula-py 文档

有没有使用python将pdf转换为excel的方法？

问题描述投票：0回答：1

1个回答

最新问题

有没有使用python将pdf转换为excel的方法？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1