我的任务是识别文档图像中的字符补丁。请看下面的图片。
根据... 纸张,以提取字符补丁,将采用基于MSER的方法来检测字符候选。
"基于MSER的方法的主要优点是,即使在文档图像质量较低的情况下,这种算法也能找到最易读的字符"。
另一种 纸张 讨论的是关于MSER。我很难理解后一篇论文的内容。有谁能用简单的语言向我解释一下我应该采取什么步骤来实施 MSER
并在我的示例文档中提取字符补丁。我将用Python实现它,我需要完全掌握理解MSER的工作原理。
以下是识别图像文档中字符补丁的步骤(根据我的理解,如果我错了,请纠正我的观点
"首先,像素按强度排序"
我的理解。
比如说,我在一张图片上有5个像素,强度是: (Pixel 1) 1, (Pixel 2) 9,(Pixel 3) 255,(Pixel 4) 3,(Pixel 5) 4
连续,那么如果越来越多的排序,根据强度,它将产生一个输出。Pixel 1,4,5,2 and 3
.
经过排序后,像素被放置在图像中(按递减或递增的顺序),并使用高效的union-find算法维护连接的组件及其区域的列表。
我的理解。
以第一条为例 像素的排列方式如下。像素分量组和图像X,Y坐标只是例子。
Pixel Number | Intensity Level | Pixel Component/Group | Image X,Y Coordinates
1 | 1 | Pixel Component # 5 | (14,12)
4 | 3 | Pixel Component # 1 | (234,213)
5 | 4 | Pixel Component # 2 | (231,14)
2 | 9 | Pixel Component # 3 | (23,21)
3 | 255 | Pixel Component # 1 | (234,214)
"这个过程会产生一个数据结构,存储每个连接分量的面积,作为强度的函数。"
我的理解。
在#2的表格中会增加一列,叫作 Area
. 它将统计一个特定组件中具有相同强度级别的像素数量。它就像组件组内具有相同强度水平的像素的集合。
4. "最后,选择面积函数变化率的局部最小值的强度水平作为阈值产生MSER。在输出中,每个MSER由局部强度最小值(或最大值)和阈值的位置来表示。"
如何获得面积函数变化率的局部最小值 ?
请帮我理解这个什么,如何实现MSER。欢迎纠正我的理解。谢谢。