改进OCR预处理的步骤

问题描述投票：-1回答：1

花了半天的时间试图找到预处理Tesseract OCR图像的最佳方法，除了阈值处理之外没有找到任何好的结果。任何人都可以建议我应该尝试什么样的步骤？ OpenCV，ImageMagick，Gimp对我来说很适合作为工具，图像可以有不同的背景但字体的字体和颜色将始终相同。以下是图像样本：

我有类似的东西，目前使用阈值过滤器：

来自OCR的文字就是：“消除了生命的情况220_ {¢ - \”| “，Vv a。 - ”

opencv ocr tesseract preprocessor

1个回答

0
投票

我发现了一篇很好的文章，描述了许多预处理步骤https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality

但最好的方法是使用“Top-hat形态操作” - 使用邻域像素进行操作。这可以使用OpenCV完成 qazxsw poi

或者可以使用ImageMagick tophat = cv2.morphologyEx(gray, cv2.MORPH_TOPHAT, rectKernel)完成

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.