如何提取pdf的正文？

Question

我想提取 pdf 的正文。我所说的正文是指 pdf 解析器/阅读器用来呈现 pdf 的文件格式。任何语言都可以，但如果你能告诉我如何用 python 或 Java 来做，我将不胜感激。

我使用了 pypdf 和 pdfplumber，它们会给我文本、图像、字体信息等。但理想情况下我不需要处理过的信息，我想要完整的信息，这样我就可以处理它。了解这些模块（pypdf、pdfplumber）实际操作方式的工作知识也会有所帮助。

Answer 1

感受一下，无需学习逐字节细节，就可以运行

cpdf -output-json in.pdf -o out.json

或者，如果您也希望解析页面数据：

cpdf -output-json -output-json-parse-content-streams in.pdf -o out.json

然后就可以跑了

cpdf -j out.json -o out.pdf

修改数据后，重建 PDF。

Java 和 Python 接口可用，并且目前处于开放许可之下。

注意事项：这是一次读取的 PDF 对象图的表示，并不反映加密、多个 PDF 修订版或特定文件布局等情况。