当每个 PDF 格式不同时,如何检测 PDF 中的表格?

问题描述 投票:0回答:0

我手头有任务,用户有多种类型的 PDF(变体数量为 100s),我应该从中提取具有特定特征的表格。 每个 PDF 可以有多个表格。还有一个问题是,表具有相似的特征,但列名和列号可能不同。表格可以带边框或不带边框。 我可以说一切都是可变的,我现在坚持使用方法。我已经在 camelot 中成功添加了所有表,但不确定如何获得我想要的特定表。 注意:我已经使用 Langchain 和 GPT-3.5 开发了可以完成工作的模型,但我需要开发内部解决方案。我不期待任何代码帮助,我希望在方法上得到一些帮助。 谢谢

我尝试了 camelot,在使用高级参数后,我正在获取数据,但是对于不同的表,我不知道如何获取特定的表。

machine-learning deep-learning huggingface-transformers python-camelot langchain
© www.soinside.com 2019 - 2024. All rights reserved.