另存为 PDF 并保留文本

Question

我一整天都在尝试解决这个简单的问题，但我一生都无法弄清楚。我们有一个基于网络的 CRM 系统，可以创建一些文档。我正在使用 Chrome 将其另存为 PDF 文件。

PDF 文件创建良好，文本可编辑。我正在使用 Xfinium PDF 来阅读 PDF 并提取文档的某些部分。当我使用 Chrome 另存为 PDF 创建 PDF 时，文本是可编辑的。然而，文本却高度碎片化。几乎每个字母都被视为一个单独的片段。

我已经找到了解决这个问题的方法，但这并不是最简单的。基本上，该文档有一个包含多个标题的字段，例如“数量：”后跟数量，我希望扫描文档的数量，然后将值保存在变量中。但是，我要做的是查找“Q”，然后查找“u”...等等...然后捕获该值。

我尝试过各种打印到 pdf 选项，但几乎所有选项都不会保留文本，而是将所有内容压平为单个图像。 Adobe PDF 可以对此进行 OCR 并创建可搜索文档，但这是一个额外的过程。

我还发现 win2pdf 有 OCR 功能，但这也无法正常工作。

说实话，我不喜欢 PDF 格式。我愚蠢地认为文本会被分配一个标签名称。我也不喜欢我们的 CRM 系统，它是一个封闭的系统，我没有 API，所以从中提取我们自己的信息被证明是很困难的。

提前致谢，

安德鲁

Answer 1

不确定您是否找到了一种方法来完成您想要的操作，但如果您必须对保存的 PDF 运行 OCR 才能使其可搜索，并且您正在寻找 Adobe PDF 的开源替代品，您可以尝试 PdfOCRer 可在 GitHub 中获取。