花了半天的时间试图找到预处理Tesseract OCR图像的最佳方法,除了阈值处理之外没有找到任何好的结果。任何人都可以建议我应该尝试什么样的步骤? OpenCV,ImageMagick,Gimp对我来说很适合作为工具,图像可以有不同的背景但字体的字体和颜色将始终相同。以下是图像样本:
来自OCR的文字就是:“消除了生命的情况220_ {¢ - \”| “,Vv a。 - ”
我发现了一篇很好的文章,描述了许多预处理步骤https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality
但最好的方法是使用“Top-hat形态操作” - 使用邻域像素进行操作。这可以使用OpenCV完成 qazxsw poi
或者可以使用ImageMagick tophat = cv2.morphologyEx(gray, cv2.MORPH_TOPHAT, rectKernel)
完成