提取 PDF 内容，包括 RAG 的图像

Question

我正在尝试在我的应用程序中为 RAG 构建 PDF 内容提取和分块系统。我需要将 pdf 中的图像作为 url 包含在内，以便 llm 可以在响应中使用该图像我见过的大多数解决方案都只能从pdf中提取文本内容。有什么方法可以从pdf中提取图像和文本吗？

Answer 1

0
投票

PyMuPDF 允许您对图像和表格执行此操作