解析PDF文件中的表格(当RAG时)

问题描述 投票:0回答:2

我正在使用 LLM 和 RAG 开发像 chatPDF 这样的应用程序。 我面临一个问题,我找不到 python 库来解析一个包含一些“复杂”表格的 pdf 文件。 例如 example of complex table

我尝试过 llamaIndex(SimpleDirectoryReader) 和“非结构化”库,仅获取如下文本:


SimpleDirectoryReader --- 《外设 STM32L475Vx STM32L475Rx 闪存 256KB 512KB 1MB 256KB 512KB 1MB"

非结构化--- “外设 STM32L475Vx STM32L475Rx 闪存 256KB 512KB 1MB 256KB 512KB 1MB SRAM 128 KB”


这些文字失去了产品和参数之间的结构关系(例如STM32L475Vx是“256KB 512KB 1MB”中的第一个)

langchain large-language-model information-retrieval llama-index retrieval-augmented-generation
2个回答
0
投票

我一直在研究一个分析发票的项目,需要保留订单号、客户名称、地址和产品描述等信息。

我能够在测试环境中执行此操作:https://github.com/Azure/azure-sdk-for-python/blob/main/sdk/documentintelligence/azure-ai-documentintelligence/samples/sample_analyze_receipts .py

我目前正在开发一个类,它将结果转换为 langchain 文档对象,以便在下游与 RAG 应用程序一起用于创建嵌入。

我会在有空时分享。

希望这有帮助!


0
投票

Llamaparse 就是您所需要的,将 PDF 转换为标记:https://docs.llamaindex.ai/

© www.soinside.com 2019 - 2024. All rights reserved.