我有一个包含多种数据格式的 pdf 文件。单个页面有具有多行和列的表格。还有表格之外的其他段落等。我怎样才能成功地将其完全转换为 Excel 文件而不丢失格式。我尝试了一些方法,但格式丢失了,我想在 Excel 中有相同的副本,包括表格和段落。我知道 Adobe pro 可以做到这一点,但必须付费。寻求建议。
我尝试了几种方法,但我发现最好的方法是 tabula-py,这是一个 Python 框架,可以读取 PDF 中的表格并将其转换为 .xlsx 文件。
您需要做的就是先安装它:
pip install tabula-py
然后就可以导入到项目中了:
import tabula
然后你需要给出.pdf文件的路径和.xlsx文件的路径(这就是你想要的最终结果)。
然后你从 tabula 调用这个方法,它有效地将 pdf 文件转换为 xlsx 文件:
tabula.convert_into(file_path, output_path, output_format="xlsx")
所以整个脚本应该是这样的:
import tabula
file_path = "path/to/your/pdf/file.pdf"
output_path = "path/to/output/excel/file.xlsx"
tabula.convert_into(file_path, output_path, output_format="xlsx")
您还可以使用其他参数自定义提取过程。 更多信息请查看官方文档: 官方 tabula-py 文档