文档图像字符补丁识别中的最大稳定外域(MSER)实现。

问题描述 投票:1回答:1

我的任务是识别文档图像中的字符补丁。请看下面的图片。

enter image description here

根据... 纸张,以提取字符补丁,将采用基于MSER的方法来检测字符候选。

"基于MSER的方法的主要优点是,即使在文档图像质量较低的情况下,这种算法也能找到最易读的字符"。

另一种 纸张 讨论的是关于MSER。我很难理解后一篇论文的内容。有谁能用简单的语言向我解释一下我应该采取什么步骤来实施 MSER 并在我的示例文档中提取字符补丁。我将用Python实现它,我需要完全掌握理解MSER的工作原理。

以下是识别图像文档中字符补丁的步骤(根据我的理解,如果我错了,请纠正我的观点

  1. "首先,像素按强度排序"

    我的理解。

    比如说,我在一张图片上有5个像素,强度是: (Pixel 1) 1, (Pixel 2) 9,(Pixel 3) 255,(Pixel 4) 3,(Pixel 5) 4 连续,那么如果越来越多的排序,根据强度,它将产生一个输出。Pixel 1,4,5,2 and 3.

  2. 经过排序后,像素被放置在图像中(按递减或递增的顺序),并使用高效的union-find算法维护连接的组件及其区域的列表。

    我的理解。

    以第一条为例 像素的排列方式如下。像素分量组和图像X,Y坐标只是例子。

     Pixel Number | Intensity Level | Pixel Component/Group | Image X,Y Coordinates
          1       |        1        |  Pixel Component # 5 | (14,12)
          4       |        3        |  Pixel Component # 1 | (234,213)
          5       |        4        |  Pixel Component # 2 | (231,14)
          2       |        9        |  Pixel Component # 3 | (23,21)
          3       |      255        |  Pixel Component # 1 | (234,214)
    
  3. "这个过程会产生一个数据结构,存储每个连接分量的面积,作为强度的函数。"

    我的理解。

    在#2的表格中会增加一列,叫作 Area. 它将统计一个特定组件中具有相同强度级别的像素数量。它就像组件组内具有相同强度水平的像素的集合。

    4. "最后,选择面积函数变化率的局部最小值的强度水平作为阈值产生MSER。在输出中,每个MSER由局部强度最小值(或最大值)和阈值的位置来表示。"

如何获得面积函数变化率的局部最小值 ?

请帮我理解这个什么,如何实现MSER。欢迎纠正我的理解。谢谢。

image image-processing blob signal-processing mser
1个回答
1
投票

在一个 文章 作者跟踪一个他们称之为 "稳定性 "的值(大致是指数据结构中从一个区域到另一个区域时的面积变化率),然后找到该值的局部最小值对应的区域(局部最小值是指感兴趣的值小于最近邻居的值的点)。如果这对你有帮助的话。此处 是MSER的一个C++实现(基于另一篇文章)。

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.