绘图数字化 - 从图形图像中抓取样本值

问题描述 投票:0回答:8

这并不是真正的“OCR”,因为它不识别字符,但它与应用于曲线的想法相同。 有人知道用于从(光栅)绘图图像检索值的图像处理库或已建立的算法吗? 例如,在这张图中,我很难用眼睛读取精确的值,因为网格线之间存在很大的间隙:

alt text

我可以使用直尺或其他东西,但它仍然容易出错。 如果有软件可以截取任何旧图表并自动将其转换为可以查询的值表或函数,那就太好了。

好像叫“曲线识别”? 也可用于从未发布基础数据的科学论文中的曲线中提取数据。

有一些人工指导也是可以的。 例如,OCR 没有理由无法读取“100”并将其与线条匹配,但在机器提取曲线相对于网格线的路径后,让人类给出线条数值是可以的。 我最感兴趣的是跟踪相对于网格的曲线的功能,即使网格倾斜、旋转或以非仿射方式扭曲

更新:

现在有一篇维基百科文章,名为“将扫描的图形转换为数据”,链接中包含一堆软件。 还有一些 alternativeto.net 上的软件。 我想现在该理论属于 http://dsp.stackexchange.com,而软件解决方案属于 http://superuser.com

image-processing charts plot ocr curve-fitting
8个回答
6
投票

图像是位图(仅像素)还是矢量(EMF、WMF、SVG、PS、PDF...)?矢量比像素好得多。我们处理矢量(包括 PDF),但不触及像素。我们的一些合作者会尝试使用像素,但仅限于最近的文档。
  1. 如果您被像素困扰,那么您的图像都来自同一来源吗?如果是这样,您提取字体信息的机会很小。恐怕你的形象太差了,需要做大量的工作。但是,如果您可以计算出字体,并且所有文档都来自同一来源,那么您就有机会提取文本和数字。您可以使用启发法(例如数字可能在哪里的规则)或机器学习(可以训练方法的功能列表)。
  2. 您的图像似乎已被扫描(因为轴已像素化)。这使得情况变得更糟。对于机器来说,肉眼看来是一条直线是可怕的。您的图像在页面上是否倾斜?您可能需要校正它。
  3. 如果您有直线和曲线的模型,那么您可能需要更改将预期参数建模到图像中的方法。但这并不是小事。
  4. 抱歉我这么悲观。如果您确实想要这些信息,那么可以通过大量投资或与从事此类工作的团体合作来完成。


3
投票
http://www.curveunscan.com/


3
投票
http://www.digitizeit.de/

是一个用于数字化图形的程序。


2
投票
potrace

,该页面又提到了其他替代方案


1
投票


1
投票
http://www.im2graph.co.il


0
投票

以下是我经常用来从图表和扫描文档中提取数据点的首选工具。

    PlotDigitizer.com
  1. :它是免费(在线)和付费(离线)的,支持许多图表。它还支持对数刻度,就像您图中的那样。 WebPlotDigitizer:这也是一个非常流行的工具,而且完全免费。但有时,我发现有很多错误和故障。
  2. Digitizeit:付费工具,没有在线版本。

0
投票
免费绘图数字化仪

(SplineCloud.com)是提取数据点的绝佳选择,包括来自对数刻度图表的数据点。它易于使用并且支持各种图表类型,使过程变得更加简单。

© www.soinside.com 2019 - 2024. All rights reserved.