如何提取pdf的正文?

问题描述 投票:0回答:1

我想提取 pdf 的正文。我所说的正文是指 pdf 解析器/阅读器用来呈现 pdf 的文件格式。任何语言都可以,但如果你能告诉我如何用 python 或 Java 来做,我将不胜感激。

我使用了 pypdf 和 pdfplumber,它们会给我文本、图像、字体信息等。但理想情况下我不需要处理过的信息,我想要完整的信息,这样我就可以处理它。了解这些模块(pypdf、pdfplumber)实际操作方式的工作知识也会有所帮助。

pdf pdf-generation pypdf pdfplumber iso-32000
1个回答
0
投票

感受一下,无需学习逐字节细节,就可以运行

cpdf -output-json in.pdf -o out.json

或者,如果您也希望解析页面数据:

cpdf -output-json -output-json-parse-content-streams in.pdf -o out.json

然后就可以跑了

cpdf -j out.json -o out.pdf

修改数据后,重建 PDF。

Java 和 Python 接口可用,并且目前处于开放许可之下。

注意事项:这是一次读取的 PDF 对象图的表示,并不反映加密、多个 PDF 修订版或特定文件布局等情况。

© www.soinside.com 2019 - 2024. All rights reserved.