有没有支持表识别和提取的开源库?
我的意思是:
我浏览了有关此主题的类似问题,发现以下内容:
目前,我认为我必须花费大量时间开发机器学习解决方案来识别 PDF 中的表格结构。因此,任何替代方法都将受到欢迎!
在探索 OCR 库、边界框和聚类算法的许多富有成效的时间之后 - 我找到了一个简单到让你想哭的解决方案!
我希望你使用Linux;
pdftotext -layout NAME_OF_PDF.pdf
太棒了!!
现在你有了一个漂亮的文本文件,所有信息都排列在漂亮的列中,现在格式化为 csv 等是很简单的..
正是在这样的时刻,我爱上了 Linux,这些人为所有事情想出了令人惊叹的解决方案,并且免费将其放在那里!
我只想补充 Kurt Pfeifle 非常有用的答案 - 现在有一个 Tabula 的 Python 包装器,到目前为止似乎效果很好:https://github.com/chezou/tabula-py
这会将您的 PDF 表转换为 Pandas 数据框。 您还可以在 x,y 坐标中设置区域,这对于不规则数据来说显然非常方便。