有没有使用python将pdf转换为excel的方法?

问题描述 投票:0回答:1

我有一个包含多种数据格式的 pdf 文件。单个页面有具有多行和列的表格。还有表格之外的其他段落等。我怎样才能成功地将其完全转换为 Excel 文件而不丢失格式。我尝试了一些方法,但格式丢失了,我想在 Excel 中有相同的副本,包括表格和段落。我知道 Adobe pro 可以做到这一点,但必须付费。寻求建议。

python excel pdf
1个回答
0
投票

我尝试了几种方法,但我发现最好的方法是 tabula-py,这是一个 Python 框架,可以读取 PDF 中的表格并将其转换为 .xlsx 文件。

您需要做的就是先安装它:

pip install tabula-py

然后就可以导入到项目中了:

import tabula

然后你需要给出.pdf文件的路径和.xlsx文件的路径(这就是你想要的最终结果)。

然后你从 tabula 调用这个方法,它有效地将 pdf 文件转换为 xlsx 文件:

tabula.convert_into(file_path, output_path, output_format="xlsx")

所以整个脚本应该是这样的:

import tabula
file_path = "path/to/your/pdf/file.pdf"
output_path = "path/to/output/excel/file.xlsx"
tabula.convert_into(file_path, output_path, output_format="xlsx")

您还可以使用其他参数自定义提取过程。 更多信息请查看官方文档: 官方 tabula-py 文档

© www.soinside.com 2019 - 2024. All rights reserved.