解析PDF文件中的表格（当RAG时）

Question

我正在使用 LLM 和 RAG 开发像 chatPDF 这样的应用程序。我面临一个问题，我找不到 python 库来解析一个包含一些“复杂”表格的 pdf 文件。例如

我尝试过 llamaIndex(SimpleDirectoryReader) 和“非结构化”库，仅获取如下文本：

SimpleDirectoryReader --- 《外设 STM32L475Vx STM32L475Rx 闪存 256KB 512KB 1MB 256KB 512KB 1MB"

非结构化--- “外设 STM32L475Vx STM32L475Rx 闪存 256KB 512KB 1MB 256KB 512KB 1MB SRAM 128 KB”

这些文字失去了产品和参数之间的结构关系（例如STM32L475Vx是“256KB 512KB 1MB”中的第一个）

Answer 1

我一直在研究一个分析发票的项目，需要保留订单号、客户名称、地址和产品描述等信息。

我目前正在开发一个类，它将结果转换为 langchain 文档对象，以便在下游与 RAG 应用程序一起用于创建嵌入。

我会在有空时分享。

希望这有帮助！

Answer 2

Llamaparse 就是您所需要的，将 PDF 转换为标记：https://docs.llamaindex.ai/