从 PDF python 中提取/识别表格[已关闭]

Question

有没有支持表识别和提取的开源库？

我的意思是：

我浏览了有关此主题的类似问题，发现以下内容：

PDFMiner解决了问题3，但似乎用户需要向PDFMiner指定每个表存在的表结构（如果我错了，请纠正我）
pdf-table-extract尝试解决问题1，但根据To-Do列表，当前无法识别由空格分隔的表格。这是一个问题，因为我的 PDF 中的所有表格均由空格分隔！

目前，我认为我必须花费大量时间开发机器学习解决方案来识别 PDF 中的表格结构。因此，任何替代方法都将受到欢迎！

Answer 1

在探索 OCR 库、边界框和聚类算法的许多富有成效的时间之后 - 我找到了一个简单到让你想哭的解决方案！

我希望你使用Linux；

pdftotext -layout NAME_OF_PDF.pdf

太棒了！！

现在你有了一个漂亮的文本文件，所有信息都排列在漂亮的列中，现在格式化为 csv 等是很简单的..

正是在这样的时刻，我爱上了 Linux，这些人为所有事情想出了令人惊叹的解决方案，并且免费将其放在那里！

Answer 2

你一定要看看我的这个答案：

并查看其中包含的所有链接。

Tabula/TabulaPDF是目前可用于PDF抓取的最佳表格提取工具。

Answer 3

我只想补充 Kurt Pfeifle 非常有用的答案 - 现在有一个 Tabula 的 Python 包装器，到目前为止似乎效果很好：https://github.com/chezou/tabula-py

这会将您的 PDF 表转换为 Pandas 数据框。您还可以在 x,y 坐标中设置区域，这对于不规则数据来说显然非常方便。