Tesseract OCR大量文件

Question

我有大约135000个.TIF文件（1.2KB到1.4KB）坐在我的硬盘上。我需要从这些文件中提取文本。如果我把tesseract作为一个cron工作，我最多每小时500到600。任何人都可以建议我的策略，这样我每分钟至少可以得到500个？

更新：

下面是我执行@Mark提供的建议后的代码，我似乎每分钟超过20个文件。

#!/bin/bash

cd /mnt/ramdisk/input

function tess() 
{
    if [ -f /mnt/ramdisk/output/$2.txt ]
        then
        echo skipping $2
        return
    fi
    tesseract --tessdata-dir /mnt/ramdisk/tessdata -l eng+kan $1 /mnt/ramdisk/output/$2 > /dev/null 2>&1
}

export -f tess

find . -name \*.tif -print0 | parallel -0 -j100 --progress tess {/} {/.}

Answer 1

你需要GNU Parallel。在这里，我在iMac上以37s处理500个TIF文件，每个3kB。通过比较，如果在连续的for循环中完成，则相同的处理需要160s。

基本命令如下所示：

parallel --bar 'tesseract {} {.} > /dev/null 2>&1' ::: *.tif

这将显示进度条并使用您计算机上的所有可用内核。这是在行动：

如果你想在没有实际做任何事情的情况下看到它会做什么，请使用parallel --dry-run。

由于你有135,000个文件，它可能会溢出你的命令行长度 - 你可以像这样检查sysctl：

sysctl -a kern.argmax
kern.argmax: 262144

因此，您需要在其stdin上将文件名泵入GNU Parallel并将它们与空字符分开，这样您就不会遇到空格问题：

find . -iname \*.tif -print0 | parallel -0 --bar 'tesseract {} {.} > /dev/null 2>&1'

如果您正在处理大量文件，则可能需要考虑被中断和重新启动的可能性。您可以将mv每个TIF文件在处理到一个名为processed的子目录后，以便在重新启动时不会再次完成，或者您可以在处理任何txt之前测试相应的TIF文件的存在，如下所示：

#!/bin/bash

doit() {
   if [ -f "${2}.txt" ]; then
      echo Skipping $1...
      return
   fi
   tesseract "$1" "$2" > /dev/null 2>&1
}

export -f doit
time parallel --bar doit {} {.} ::: *.tif

如果你连续两次运行，你会看到它第二次接近瞬时，因为所有处理都是第一次完成。

如果你有数百万个文件，你可以考虑并行使用多台机器，所以只需确保你有网络中每台机器的ssh登录，然后运行4台机器，包括localhost，如下所示：

parallel -S :,remote1,remote2,remote3 ...

其中:是您运行的机器的简写。

Tesseract OCR大量文件

问题描述投票：1回答：1

1个回答

最新问题

Tesseract OCR大量文件

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1