我想识别图像中的框。我有一个这些盒子的数据库,存储它们的 ocr 和图像。我进行搜索并使用 ocr 对脸部进行粗略转换。大多数时候它工作得很好,但有时它会返回错误的面孔和错误的转换。由于我有源图像,我想利用它们来评估搜索识别结果。我将检测到的框区域转换为源图像,并将它们调整为相同的大小(因此它们来自相似的视角,相似的大小)。 我使用了 hog、alexnet 的倒数第二层、vitmae 和我自训练的卷积网络作为嵌入特征。但所有这些都不能很好地发挥作用。我还尝试了关键点功能。但所需时间比要求要长得多。当区分具有相同打印但不同大小的面孔时,它也会失败。
还有其他有效的方法来比较两个相似的图像吗?
尝试图像哈希,它创建一个紧凑的、固定长度的哈希来表示图像的视觉特征。我已经在 BIOS 映像上使用了它,它在我的案例中效果很好。