tesseract 相关问题

Tesseract是一种OCR(光学字符识别)引擎,最初由惠普实验室开发,现在可作为开源库提供,由Google赞助开发。

Pytesseract 无法正确识别数字

我有这个函数可以从数独表中获取数字: def extract_sudoku(image_path): 图像 = cv2.imread(image_path) 灰色 = cv2.cvtColor(图像, cv2.COLOR_BGR2GRAY) 模糊= cv2。

回答 1 投票 0

Python - 解决基本的嘈杂验证码

我正在尝试解决有一点噪音的基本验证码,但事实证明这很困难。 这是其中一个验证码的示例图像: 这是我正在使用的代码: 导入CV2 来自

回答 1 投票 0

在 Windows 10 中使用 vcpkg 安装 Tesseract

我的设置:目前我正在 Windows 10 上的 Visual Studio 2017 中使用 C++。 目标:开始在我的基本 C++ 应用程序中使用 tesseract ocr。首先,确保我能够 #include

回答 2 投票 0

使用python从图像中读取阿拉伯语数据[关闭]

我有一个包含阿拉伯语单词和数字的图像,我如何从该图像读取数据并将其写入 Excel 工作表。我尝试使用 pytesseract python 但不起作用。 有人能帮我吗 ? 图像

回答 1 投票 0

我可以采取哪些图像预处理步骤来使该图像OCR可读?

我正在使用 tesseract ocr 从中提取文本。虽然它能够从其他类似图像中提取一些信息,尽管存在轻微的拼写错误,但它无法检测到其中的任何单词......

回答 1 投票 0

Java类Process:无法通过.sh执行第三方程序

我需要运行 .sh 脚本,我已经知道如何做到这一点,但我还有另一个问题。它看不到第三方(已安装)命令,因为在这种情况下它找不到 tesseract 命令,alt...

回答 1 投票 0

如何在使用Python阅读扫描的pdf时丢弃手写文本

我正在解决阅读扫描的 pdf 的问题。它几乎没有手写文字。我想要的只是获得打印文本。 然而,当我尝试使用 pytesseract 阅读时,它也会读取手写文本

回答 0 投票 0

Tesseract OCR 输出不良

我正在使用 Tesseract 库的 C# 包装器(如果我没记错的话,是 3.02)(https://github.com/charlesw/tesseract)。我已经让它运行并给出输出,但该输出本质上是垃圾。 ...

回答 3 投票 0

创建一个包含可执行文件的exe文件

我正在尝试使用 pyinstaller 构建一个使用 pytesseract OCR 的单文件 EXE。 .exe 文件将在多台 PC 上使用。 假设这是我想要转换为 .exe 的 .py 代码 重要...

回答 1 投票 0

带有 Tesseract 的空字符串

我正在尝试从一个大文件中读取不同的裁剪图像,并且我设法读取了其中的大部分图像,但是当我尝试使用超正方体读取它们时,其中一些图像会返回空字符串。 该公司...

回答 2 投票 0

从图像中提取表格作为 csvs

我有几个 pdf,其中每个页面都是模糊图像,我想从其页面中提取表格并将每个表格保存为单独的 csv,因此我问了这个问题: 用蓝光从 pdf 中提取表格...

回答 0 投票 0

如何使用python高亮图片中的文字?

我需要完成一项任务,要求我使用机器人框架结合 python 脚本突出显示图像中的文本,但我不知道该怎么做。有人可以帮我弄这个吗?我...

回答 1 投票 0

在 OCR 中只允许某些单词

我使用 tesseract 包中的 ocr() 函数,我的输入图像上出现的单词池相对较少。同时图像不是那么好,这使得文本

回答 1 投票 0

unicharset_extractor:找不到命令

我想使用 tesseract 创建新的火车数据。因此,请按照以下网站中提到的步骤进行操作。 https://blog.cedric.ws/how-to-train-tesseract-301 我在 OS X 中执行 Unicharset 时出现以下错误

回答 2 投票 0

“Tesseract 无法加载任何语言!”从 windows powershell 运行时出错

当我尝试将任何语言与 tesseract 一起使用时,我得到以下信息 “无法加载任何语言”错误。 我已经添加了必要的环境变量,并确保 tessdata

回答 1 投票 0

Pytesseract 和 OpenCV 尝试检测文本中的倾斜

我有一些图片,比如一个包。这个包,上面有一个标题,是文字。我一直在尝试找到一种方法来检测文本偏离的角度(例如 4 度、-4 度等......

回答 0 投票 0

从图像中读取所有数字

我有这张图片: 我试着阅读所有这些数字。 我正在尝试 com.asprise.ocr java-ocr-api 我有这张图片: 我尝试阅读所有这些数字。 我正在尝试 <dependency> <groupId>com.asprise.ocr</groupId> <artifactId>java-ocr-api</artifactId> <version>15.3.0.3</version> </dependency> Ocr.setUp(); Ocr ocr = new Ocr(); ocr.startEngine("eng", Ocr.SPEED_SLOW); String s = ocr.recognize(new File[]{new File("img.png")}, Ocr.RECOGNIZE_TYPE_TEXT, Ocr.OUTPUT_FORMAT_PLAINTEXT); System.out.println("Result: " + s); ocr.stopEngine(); 和 <dependency> <groupId>net.sourceforge.tess4j</groupId> <artifactId>tess4j</artifactId> <version>5.7.0</version> </dependency> //+ installed tesseract-ocr - 5.3.1.20230401 Tesseract tesseract = new Tesseract(); tesseract.setDatapath("D:\\programming\\tessaract-ocr\\tessdata"); String text = tesseract.doOCR(new File("img.png")); System.out.print(text); 但在这两种情况下,输出只是一些随机字符。 有一种方法可以从图像中读取数字吗? Edit1:我尝试了更大的数字,但仍然是同样的问题:

回答 0 投票 0

带有非标准字体的扫描打印文档

我尝试了多个 OCR 库,包括 Google Document AI - 但是文档没有以正确的格式提取。我应该如何进行这个练习? 我也尝试过使用

回答 0 投票 0

JNA 库不加载尽管存在

我正在尝试使用 Tesseract。 java.lang.NoClassDefFoundError: 无法初始化类 net.sourceforge.tess4j.TessAPI 我已经检查过是否通过 jna 调试找到了这个库。 找到图书馆资源...

回答 0 投票 0

如何处理重叠/套印标签上的 OCR?

我正在使用下面的代码来提取信息 def text_extract(图像): print("text_extract Tessaract OCR ") img_rgb = cv2.cvtColor(图像,cv2.COLOR_BGR2RGB) 打印(pytesser ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.