读取pdf文件并提取值作为键值对python

Question

我有一个 pdf 格式，我通过 OCR 阅读并使用不同的库来提取内容。然而，提取的数据并没有给我一个键值对。我需要值对来准确映射数据。我的目标是从 PDF 中提取数据并将其放入 Excel 或 Word 文件中。

Answer 1

我认为，您可以通过以下两种方式之一来完成。

将提取的数据输入语言模型，并提示要求提供键值对和一些示例。输出通常应该是准确的，具体取决于键值对的复杂性，例如嵌套或对象类型。

使用正则表达式

text.split()

解析字符串输出，在

dict

中定义键并相应地解析所有内容。这里的困难在于考虑不同的文档类型。