我正在尝试在我的应用程序中为 RAG 构建 PDF 内容提取和分块系统。 我需要将 pdf 中的图像作为 url 包含在内,以便 llm 可以在响应中使用该图像 我见过的大多数解决方案都只能从pdf中提取文本内容。有什么方法可以从pdf中提取图像和文本吗?
PyMuPDF 允许您对图像和表格执行此操作