“手写和扫描的文件将被数字化”
像Tesseract OCR这样的开源对普通英语有好处,但我们的大多数文档都是用阿拉伯语写的。我尝试过使用阿拉伯语手写的AI和ML更好的Google OCR API here。我有谷歌云,创建存储,并在桶中上传手写阿拉伯语图像然后在云终端执行内部命令,给出正确的结果。
外部API调用:
curl -X POST \
-H "Authorization: Bearer "$(gcloud auth application-default print-access-token) \
-H "Content-Type: application/json; charset=utf-8" \
--data "{
'requests': [
{
'image': {
'source': {
'imageUri': 'gs://vision-api-handwriting-ocr-bucket/handwriting_image.png'
}
},
'features': [
{
'type': 'DOCUMENT_TEXT_DETECTION'
}
]
}
]
}" "https://vision.googleapis.com/v1/images:annotate"
内部Google Cloud cmd:
gcloud ml vision detect-document "gs://vision-api-handwriting-ocr-bucket/handwriting_image.png"
上面的内部谷歌云cmd代码在我的情况下工作正常。我需要在本地系统中实现。是否有可能在本地安装相同的Google云环境及其OCR引擎?如果它的价格也没有问题准备支付和购买。资源如高配置服务器,网络我们银行已经可用的一切。
谷歌的OCR仅在线。 =>离线阿拉伯语OCR替代方案: