从 PDF 中提取表格的最佳 python 模型/库

问题描述 投票:0回答:1

我有一些 PDF,我想在其中提取表格数据,

但问题是该表是多页的,我想检测该多页表并将其设为一页

,一份 pdf 中有多个表格,因此不应混合使用

我正在寻找一些可以帮助从 PDF 中提取表格数据的模型。

我已经尝试过 Azure 文档智能,但它没有给出预期结果

以下是具体要求:

a) 能够检测多个表并能够为每个表提供 id 来对它们进行分组

b)一张表可能是多页的,因此模型应该能够检测到这一点

c) 能够检测表格的所有列

python pdf ocr azure-form-recognizer python-camelot
1个回答
0
投票

我认为最好的是GROBID

GROBID:用于从 PDF 中提取结构化内容的高级工具。 处理复杂的布局、多页表格。

Camelot> 最适合检测多个表并使用自定义逻辑处理多页表。 GROBID 最强大,但设置和使用更复杂。

© www.soinside.com 2019 - 2024. All rights reserved.