我有一些 PDF,我想在其中提取表格数据,
但问题是该表是多页的,我想检测该多页表并将其设为一页
,一份 pdf 中有多个表格,因此不应混合使用
嗨
我正在寻找一些可以帮助从 PDF 中提取表格数据的模型。
我已经尝试过 Azure 文档智能,但它没有给出预期结果
以下是具体要求:
a) 能够检测多个表并能够为每个表提供 id 来对它们进行分组
b)一张表可能是多页的,因此模型应该能够检测到这一点
c) 能够检测表格的所有列
我认为最好的是GROBID
GROBID:用于从 PDF 中提取结构化内容的高级工具。 处理复杂的布局、多页表格。
Camelot> 最适合检测多个表并使用自定义逻辑处理多页表。 GROBID 最强大,但设置和使用更复杂。