从 PDF 中提取表格的最佳 python 模型/库

Question

我有一些 PDF，我想在其中提取表格数据，

但问题是该表是多页的，我想检测该多页表并将其设为一页

，一份 pdf 中有多个表格，因此不应混合使用

嗨

我正在寻找一些可以帮助从 PDF 中提取表格数据的模型。

我已经尝试过 Azure 文档智能，但它没有给出预期结果

以下是具体要求：

a) 能够检测多个表并能够为每个表提供 id 来对它们进行分组

b）一张表可能是多页的，因此模型应该能够检测到这一点

c) 能够检测表格的所有列

Answer 1

我认为最好的是GROBID

GROBID：用于从 PDF 中提取结构化内容的高级工具。处理复杂的布局、多页表格。

Camelot> 最适合检测多个表并使用自定义逻辑处理多页表。 GROBID 最强大，但设置和使用更复杂。