如何将 pdf 作为一个文档加载

Question

我试图在 python 中将文档级别的元数据标记到我的文档中，但我发现的每个加载器都会按页面拆分文档。

有什么库或方法可以用来加载整个文档吗？

非常感谢任何帮助，谢谢！

我尝试过像 PyPDF2 这样的库，通过 langchain 上的 PyPDFLoader 加载和其他 pdf 库

我希望能够作为 1 个文档加载，但它们总是以文档列表的形式出现。

Answer 1

PyMuPDF 1.24.9 提取文本并将整个文档作为单个单元加载

安装

pip install PyMuPDF

import fitz

def extract_text_from_pdf(path):
    doc = fitz.open(path)
    full_text = ""
    for page in doc:
        full_text += page.get_text()
    doc.close()
    return full_text

如何将 pdf 作为一个文档加载

问题描述投票：0回答：1

1个回答

最新问题

如何将 pdf 作为一个文档加载

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1