如何使用pdfimages从CV中仅提取ID照片

问题描述 投票:0回答:1

嗨,我尝试使用pdfimages从我的pdf简历文件中提取ID图像。然而,对于某些文件,它们还返回图标,表格线,边框图像,这些图像完全无关。无论如何我可以限制它只提取人物照片?我在想是否可以在输出上定义一定的大小限制?

python image pdf extract pypdf
1个回答
0
投票

您需要一种区分PDF中的图像的方法,以便提取感兴趣的图像。

我相信你有选择考虑:

  1. 图像特征,如宽度,高度,每个组件的位数,ColorSpace
  2. 关于图像的元数据信息(例如感兴趣的XMP标签)
  3. 面部识别照片中的人或表格识别身份证本身的结构。
  4. 提取所有图像,然后使用一些图像处理代码分析图像以识别感兴趣的图像。

我认为2)如果PDF的作者包含带有照片ID的信息,则可能是最可靠的方法。 3)可能难以实施并始终如一地获得可靠的结果。 1)只有在识别PDF文档的照片ID的可靠方法时才有效。

然后,您可以使用提取工具键入该信息(如果它允许您这样做)。否则,您需要使用PDF库编写自己的提取工具。

© www.soinside.com 2019 - 2024. All rights reserved.