工作是从扫描的 PDF 中提取表格。我尝试使用 Camelot/tabula,但没有任何效果。
关于如何提取表格有什么建议吗?
附上pdf链接:https://drive.google.com/file/d/1atUmkNBkOGYFn43ZQreNqSg74XRhFP61/view?usp=sharing
我拍摄了屏幕截图并粘贴到 ChatGPT 4o 中。提示:“该图像包含一个文本数据表。请尽你所能,以结构化的方式提取信息。”结果:
这是从结构化格式的图像中提取的信息:
项目 | XX | 货号 | 材质、类型等 | 物品名称 |
---|---|---|---|---|
005 | xx | 1241 2156-001 | Rostskyddsvätska | 防锈。液体 |
004 | 96 | 2126 2039-130 | M6M 30 -10 规格 | 坚果 |
003 | 96 | 2122 2054-788 | 平斯克鲁夫 M30x300 -10.9 秒 | 螺柱 |
003 | 96 | 488 9764-015 | 布里卡 | 垫圈 |
001 | X | 387 4402-002 | 苯乙烯 | 导销 |
通过质量控制验收 | 已接受生产 |
---|---|
GK | 未指定 |
此格式以清晰易读的方式组织表格和关键数据点。如果您需要进一步完善,请告诉我!