在 Python 中将 PDF 转换为 Markdown 并保留结构

Question

我需要将 PDF 文本文档转换为 Markdown 并维护其结构（即索引编号标题和副标题应该在 Markdown 中具有相应数量的主题标签 # 以保持相同的结构树）。我独自探索过

PDFMinersix

，但我基本上是在提取文本，但我没有看到能够将结构树映射到 Markdown 格式的功能，还是我错了？

对我来说，将文档转换为文本并能够保留结构树层次结构非常重要。 1 步或 2 步对我来说都是一样的。

有没有在类似场景中证明有效的 Python 库或最佳实践建议？我正在寻找一种可以扩展数百个文档的解决方案，因此可能没有任何硬编码，即使这些文档实际上共享大部分结构和索引。

Answer 1

也许尝试 llama_parse 和 result_type="markdown" - 这对我有用

代码：

from llama_parse import LlamaParse  # pip install llama-parse

parser = LlamaParse(
    api_key="...",  # you will need an API key, get it from https://cloud.llamaindex.ai/
    result_type="markdown"  # "markdown" and "text" are available
)

documents = parser.load_data("./my_file.pdf")

Answer 2

当用作 GenAI RAG（包含大型且复杂的文档）的输入时，通过 pdf 文档的降价保留上下文的能力导致在特定的生产 RAG 中，错误率达到 75%，正确答案达到 85%在客户端启用客户服务应用程序用例。这可能看起来偏离主题，但让业务感到恐慌的主要人工智能用例是 GenAI RAG。因此，任何改善结果的措施都是至关重要的。

在 Python 中将 PDF 转换为 Markdown 并保留结构

问题描述投票：0回答：2

2个回答

最新问题

在 Python 中将 PDF 转换为 Markdown 并保留结构

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2