无法使用pytesseract正确解决验证码

问题描述 投票:0回答:1

我创建了一个 python 代码来使用 OCR 读取验证码并进一步填写表格。我使用 pytesseract 库来识别验证码中的字符。阅读后我无法检索到正确的字符序列。

这是代码-

from PIL import Image, ImageFilter, ImageOps
import pytesseract

# Open the image file
image_path = "image.png"
image = Image.open(image_path)

# Preprocess the image
# Convert to grayscale
image = ImageOps.grayscale(image)

# Apply a median filter to remove noise
image = image.filter(ImageFilter.MedianFilter(size=3))

# Apply thresholding to get a binary image
threshold = 128
image = image.point(lambda p: p > threshold and 255)

# Perform OCR
text = pytesseract.image_to_string(image, config='--psm 8')

print("Recognized text:", text)

这是验证码的示例,我想为其创建代码并读取它。 enter image description here

请建议我一种替代或更有效的方法,通过它我可以成功阅读它们。

selenium-webdriver web-scraping tesseract captcha python-tesseract
1个回答
0
投票

tesseract 无法正确识别大多数图像中的文本 capthca。最好使用第三方api。

© www.soinside.com 2019 - 2024. All rights reserved.