读取pdf文件并提取值作为键值对python

问题描述 投票:0回答:1

我有一个 pdf 格式,我通过 OCR 阅读并使用不同的库来提取内容。 然而,提取的数据并没有给我一个键值对。 我需要值对来准确映射数据。 我的目标是从 PDF 中提取数据并将其放入 Excel 或 Word 文件中。

我附上示例 pdf 链接 https://file.io/fRmXTKONO5IW

python pdf ocr
1个回答
0
投票

我认为,您可以通过以下两种方式之一来完成。

  1. 最简单的方法 - 法学硕士

将提取的数据输入语言模型,并提示要求提供键值对和一些示例。输出通常应该是准确的,具体取决于键值对的复杂性,例如嵌套或对象类型。

  1. 防错方式 - 编程方式

使用正则表达式

text.split()
解析字符串输出,在
dict
中定义键并相应地解析所有内容。这里的困难在于考虑不同的文档类型。

© www.soinside.com 2019 - 2024. All rights reserved.