从 PDF python 中提取/识别表格[已关闭]

问题描述 投票:0回答:3

有没有支持表识别和提取的开源库?

我的意思是:

  1. 识别表结构是否存在
  2. 根据内容对表格进行分类
  3. 以有用的输出格式从表中提取数据,例如JSON / CSV 等

我浏览了有关此主题的类似问题,发现以下内容:

  • PDFMiner解决了问题3,但似乎用户需要向PDFMiner指定每个表存在的表结构(如果我错了,请纠正我)
  • pdf-table-extract尝试解决问题1,但根据To-Do列表,当前无法识别由空格分隔的表格。这是一个问题,因为我的 PDF 中的所有表格均由空格分隔!

目前,我认为我必须花费大量时间开发机器学习解决方案来识别 PDF 中的表格结构。因此,任何替代方法都将受到欢迎!

python pdf pdf-parsing pdf-scraping
3个回答
49
投票

在探索 OCR 库、边界框和聚类算法的许多富有成效的时间之后 - 我找到了一个简单到让你想哭的解决方案!

我希望你使用Linux;

pdftotext -layout NAME_OF_PDF.pdf

太棒了!!

现在你有了一个漂亮的文本文件,所有信息都排列在漂亮的列中,现在格式化为 csv 等是很简单的..

正是在这样的时刻,我爱上了 Linux,这些人为所有事情想出了令人惊叹的解决方案,并且免费将其放在那里!


41
投票

你一定要看看我的这个答案:

并查看其中包含的所有链接。

Tabula/TabulaPDF是目前可用于PDF抓取的最佳表格提取工具。


18
投票

我只想补充 Kurt Pfeifle 非常有用的答案 - 现在有一个 Tabula 的 Python 包装器,到目前为止似乎效果很好:https://github.com/chezou/tabula-py

这会将您的 PDF 表转换为 Pandas 数据框。 您还可以在 x,y 坐标中设置区域,这对于不规则数据来说显然非常方便。

© www.soinside.com 2019 - 2024. All rights reserved.