我正在使用 LLM 和 RAG 开发像 chatPDF 这样的应用程序。 我面临一个问题,我找不到 python 库来解析一个包含一些“复杂”表格的 pdf 文件。 例如
我尝试过 llamaIndex(SimpleDirectoryReader) 和“非结构化”库,仅获取如下文本:
SimpleDirectoryReader --- 《外设 STM32L475Vx STM32L475Rx 闪存 256KB 512KB 1MB 256KB 512KB 1MB"
非结构化--- “外设 STM32L475Vx STM32L475Rx 闪存 256KB 512KB 1MB 256KB 512KB 1MB SRAM 128 KB”
这些文字失去了产品和参数之间的结构关系(例如STM32L475Vx是“256KB 512KB 1MB”中的第一个)
我一直在研究一个分析发票的项目,需要保留订单号、客户名称、地址和产品描述等信息。
我目前正在开发一个类,它将结果转换为 langchain 文档对象,以便在下游与 RAG 应用程序一起用于创建嵌入。
我会在有空时分享。
希望这有帮助!
Llamaparse 就是您所需要的,将 PDF 转换为标记:https://docs.llamaindex.ai/