我有一个 pdf 格式,我通过 OCR 阅读并使用不同的库来提取内容。 然而,提取的数据并没有给我一个键值对。 我需要值对来准确映射数据。 我的目标是从 PDF 中提取数据并将其放入 Excel 或 Word 文件中。
我附上示例 pdf 链接 https://file.io/fRmXTKONO5IW
我认为,您可以通过以下两种方式之一来完成。
将提取的数据输入语言模型,并提示要求提供键值对和一些示例。输出通常应该是准确的,具体取决于键值对的复杂性,例如嵌套或对象类型。
使用正则表达式
text.split()
解析字符串输出,在 dict
中定义键并相应地解析所有内容。这里的困难在于考虑不同的文档类型。