如何将 pdf 作为一个文档加载

问题描述 投票:0回答:1

我试图在 python 中将文档级别的元数据标记到我的文档中,但我发现的每个加载器都会按页面拆分文档。

有什么库或方法可以用来加载整个文档吗?

非常感谢任何帮助,谢谢!

我尝试过像 PyPDF2 这样的库,通过 langchain 上的 PyPDFLoader 加载和其他 pdf 库

我希望能够作为 1 个文档加载,但它们总是以文档列表的形式出现。

python pdf langchain
1个回答
0
投票

PyMuPDF 1.24.9 提取文本并将整个文档作为单个单元加载

安装

pip install PyMuPDF

import fitz

def extract_text_from_pdf(path):
    doc = fitz.open(path)
    full_text = ""
    for page in doc:
        full_text += page.get_text()
    doc.close()
    return full_text
© www.soinside.com 2019 - 2024. All rights reserved.