我想提取 pdf 的正文。我所说的正文是指 pdf 解析器/阅读器用来呈现 pdf 的文件格式。任何语言都可以,但如果你能告诉我如何用 python 或 Java 来做,我将不胜感激。
我使用了 pypdf 和 pdfplumber,它们会给我文本、图像、字体信息等。但理想情况下我不需要处理过的信息,我想要完整的信息,这样我就可以处理它。了解这些模块(pypdf、pdfplumber)实际操作方式的工作知识也会有所帮助。
感受一下,无需学习逐字节细节,就可以运行
cpdf -output-json in.pdf -o out.json
或者,如果您也希望解析页面数据:
cpdf -output-json -output-json-parse-content-streams in.pdf -o out.json
然后就可以跑了
cpdf -j out.json -o out.pdf
修改数据后,重建 PDF。
Java 和 Python 接口可用,并且目前处于开放许可之下。
注意事项:这是一次读取的 PDF 对象图的表示,并不反映加密、多个 PDF 修订版或特定文件布局等情况。