如何从 PDF/扫描 PDF 中的图像中提取表格？

Question

工作是从扫描的 PDF 中提取表格。我尝试使用 Camelot/tabula，但没有任何效果。

关于如何提取表格有什么建议吗？

示例

Camelot/tabula 都没有检测到表格。

Answer 1

我拍摄了屏幕截图并粘贴到 ChatGPT 4o 中。提示：“该图像包含一个文本数据表。请尽你所能，以结构化的方式提取信息。”结果：

这是从结构化格式的图像中提取的信息：

项目	XX	货号	材质、类型等	物品名称
005	xx	1241 2156-001	Rostskyddsvätska	防锈。液体
004	96	2126 2039-130	M6M 30 -10 规格	坚果
003	96	2122 2054-788	平斯克鲁夫 M30x300 -10.9 秒	螺柱
003	96	488 9764-015	布里卡	垫圈
001	X	387 4402-002	苯乙烯	导销

通过质量控制验收	已接受生产
GK	未指定

此格式以清晰易读的方式组织表格和关键数据点。如果您需要进一步完善，请告诉我！