比较同一个图的两个 pdf

问题描述 投票:0回答:1

我的问题的本质是:我有很多传入的 PDF,但为了工作,我不需要所有这些,只需要来自某个供应商的 PDF。我定义了只有该供应商拥有的关键字和关键字坐标,并在坐标之间画了线。我得到了一个图表,通过它我可以比较文档并过滤掉不必要的文档。也就是说,这个图是一种模板,我可以通过它找到我需要的文件。我将此图形模板保存为 pdf 文件。举个例子,请看下面。

enter image description here

接下来,我在收到的每个 PDF 文件上绘制图形(根据关键字和坐标),并查找我需要的图形(在本例中,这个单词“INVOICE”)。

enter image description here

现在的问题是:如何比较第一个 pdf(模板)和第二个 pdf 以了解第二个 pdf 是否与所需模板匹配?

我在网上搜索了信息,但没有找到类似的信息。也许你可以分享链接/代码。

我不排除我正在使用正确的解决方案来解决我的问题的可能性,所以我很高兴听到关于此事的想法。

python pdf pymupdf
1个回答
0
投票

有关将 PDF 转换为文本的 StackOverflow 提供了有关如何比较 PDF 的详细信息。此外,出于比较原因,PDFMiner将允许您对文件的各个部分进行切片。

© www.soinside.com 2019 - 2024. All rights reserved.