在 Python 中将 PDF 转换为 Markdown 并保留结构

问题描述 投票:0回答:2

我需要将 PDF 文本文档转换为 Markdown 并维护其结构(即索引编号标题和副标题应该在 Markdown 中具有相应数量的主题标签 # 以保持相同的结构树)。 我独自探索过

PDFMinersix
,但我基本上是在提取文本,但我没有看到能够将结构树映射到 Markdown 格式的功能,还是我错了?

对我来说,将文档转换为文本并能够保留结构树层次结构非常重要。 1 步或 2 步对我来说都是一样的。

有没有在类似场景中证明有效的 Python 库或最佳实践建议?我正在寻找一种可以扩展数百个文档的解决方案,因此可能没有任何硬编码,即使这些文档实际上共享大部分结构和索引。

python pdf markdown document-conversion pdfminersix
2个回答
0
投票

也许尝试 llama_parse 和 result_type="markdown" - 这对我有用

代码:

from llama_parse import LlamaParse  # pip install llama-parse

parser = LlamaParse(
    api_key="...",  # you will need an API key, get it from https://cloud.llamaindex.ai/
    result_type="markdown"  # "markdown" and "text" are available
)

documents = parser.load_data("./my_file.pdf") 

0
投票

当用作 GenAI RAG(包含大型且复杂的文档)的输入时,通过 pdf 文档的降价保留上下文的能力导致在特定的生产 RAG 中,错误率达到 75%,正确答案达到 85%在客户端启用客户服务应用程序用例。这可能看起来偏离主题,但让业务感到恐慌的主要人工智能用例是 GenAI RAG。因此,任何改善结果的措施都是至关重要的。

© www.soinside.com 2019 - 2024. All rights reserved.