如何从 PDF/扫描 PDF 中的图像中提取表格?

问题描述 投票:0回答:1

工作是从扫描的 PDF 中提取表格。我尝试使用 Camelot/tabula,但没有任何效果。

关于如何提取表格有什么建议吗?

示例

enter image description here

Camelot/tabula 都没有检测到表格。 enter image description here

附上pdf链接:https://drive.google.com/file/d/1atUmkNBkOGYFn43ZQreNqSg74XRhFP61/view?usp=sharing

python ocr tabular python-camelot
1个回答
0
投票

我拍摄了屏幕截图并粘贴到 ChatGPT 4o 中。提示:“该图像包含一个文本数据表。请尽你所能,以结构化的方式提取信息。”结果:

这是从结构化格式的图像中提取的信息:

表格数据:

项目 XX 货号 材质、类型等 物品名称
005 xx 1241 2156-001 Rostskyddsvätska 防锈。液体
004 96 2126 2039-130 M6M 30 -10 规格 坚果
003 96 2122 2054-788 平斯克鲁夫 M30x300 -10.9 秒 螺柱
003 96 488 9764-015 布里卡 垫圈
001 X 387 4402-002 苯乙烯 导销

附加数据:

  • 图纸/规格标题:回转支承场安装座
  • 描述(原始语言):Vändkranslager varvsmon
  • 部分:包装规格
  • 规格:CAD
  • 比例:1:2
  • 重量(公斤):225
  • 生产组:355
  • 类型/设计组:未指定

批准信息:

通过质量控制验收 已接受生产
GK 未指定

跳棋和设计师:

  • 设计检查者:未指定
  • 绘制者:A Sedin
  • 图纸检查者:儿子
  • 已批准:3451 年,第 93 周,第 26 天

页脚信息:

  • 公司:Hägglunds
  • 文档/表格 ID:388 5719-801
  • 页数:第 1 页,共 1 页

此格式以清晰易读的方式组织表格和关键数据点。如果您需要进一步完善,请告诉我!

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.