我需要将 PDF 文本文档转换为 Markdown 并维护其结构(即索引编号标题和副标题应该在 Markdown 中具有相应数量的主题标签 # 以保持相同的结构树)。 我独自探索过
PDFMinersix
,但我基本上是在提取文本,但我没有看到能够将结构树映射到 Markdown 格式的功能,还是我错了?
对我来说,将文档转换为文本并能够保留结构树层次结构非常重要。 1 步或 2 步对我来说都是一样的。
有没有在类似场景中证明有效的 Python 库或最佳实践建议?我正在寻找一种可以扩展数百个文档的解决方案,因此可能没有任何硬编码,即使这些文档实际上共享大部分结构和索引。
也许尝试 llama_parse 和 result_type="markdown" - 这对我有用
代码:
from llama_parse import LlamaParse # pip install llama-parse
parser = LlamaParse(
api_key="...", # you will need an API key, get it from https://cloud.llamaindex.ai/
result_type="markdown" # "markdown" and "text" are available
)
documents = parser.load_data("./my_file.pdf")
当用作 GenAI RAG(包含大型且复杂的文档)的输入时,通过 pdf 文档的降价保留上下文的能力导致在特定的生产 RAG 中,错误率达到 75%,正确答案达到 85%在客户端启用客户服务应用程序用例。这可能看起来偏离主题,但让业务感到恐慌的主要人工智能用例是 GenAI RAG。因此,任何改善结果的措施都是至关重要的。