我一整天都在尝试解决这个简单的问题,但我一生都无法弄清楚。我们有一个基于网络的 CRM 系统,可以创建一些文档。我正在使用 Chrome 将其另存为 PDF 文件。
PDF 文件创建良好,文本可编辑。我正在使用 Xfinium PDF 来阅读 PDF 并提取文档的某些部分。当我使用 Chrome 另存为 PDF 创建 PDF 时,文本是可编辑的。然而,文本却高度碎片化。几乎每个字母都被视为一个单独的片段。
我已经找到了解决这个问题的方法,但这并不是最简单的。基本上,该文档有一个包含多个标题的字段,例如“数量:”后跟数量,我希望扫描文档的数量,然后将值保存在变量中。但是,我要做的是查找“Q”,然后查找“u”...等等...然后捕获该值。
我尝试过各种打印到 pdf 选项,但几乎所有选项都不会保留文本,而是将所有内容压平为单个图像。 Adobe PDF 可以对此进行 OCR 并创建可搜索文档,但这是一个额外的过程。
我还发现 win2pdf 有 OCR 功能,但这也无法正常工作。
说实话,我不喜欢 PDF 格式。我愚蠢地认为文本会被分配一个标签名称。我也不喜欢我们的 CRM 系统,它是一个封闭的系统,我没有 API,所以从中提取我们自己的信息被证明是很困难的。
提前致谢,
安德鲁
不确定您是否找到了一种方法来完成您想要的操作,但如果您必须对保存的 PDF 运行 OCR 才能使其可搜索,并且您正在寻找 Adobe PDF 的开源替代品,您可以尝试 PdfOCRer 可在 GitHub 中获取。