我试图在 python 中将文档级别的元数据标记到我的文档中,但我发现的每个加载器都会按页面拆分文档。
有什么库或方法可以用来加载整个文档吗?
非常感谢任何帮助,谢谢!
我尝试过像 PyPDF2 这样的库,通过 langchain 上的 PyPDFLoader 加载和其他 pdf 库
我希望能够作为 1 个文档加载,但它们总是以文档列表的形式出现。
PyMuPDF 1.24.9 提取文本并将整个文档作为单个单元加载
安装
pip install PyMuPDF
import fitz
def extract_text_from_pdf(path):
doc = fitz.open(path)
full_text = ""
for page in doc:
full_text += page.get_text()
doc.close()
return full_text