如何在Databricks上安装Tesseract OCR

问题描述 投票:0回答:2

我正在尝试在 databrick python 笔记本上运行以下脚本:

pip install presidio-image-redactor
pip install pytesseract
python -m spacy download en_core_web_lg

from PIL import Image
from presidio_image_redactor import ImageRedactorEngine
import pytesseract

image = Image.open("images/ImageData.PNG")

engine = ImageRedactorEngine()

redacted_image = engine.redact(image, (255, 192, 203))

运行最后一行后,我收到以下错误:

TesseractNotFoundError:tesseract 未安装或不在您的路径中。

我错过了什么吗?

tesseract databricks azure-databricks python-tesseract
2个回答
6
投票

您可以在单独的单元格中使用

%sh
在驱动程序节点上执行 shell 命令。要安装 tesseract,你可以这样做:

%sh apt-get -f -y install tesseract-ocr 

如果需要将其安装到集群的所有节点,则需要使用 cluster init script 以及相同的命令(不带

%sh


0
投票

%sh apt-get -f -y 安装 tesseract-ocr 这个命令在我的旧 Databricks 环境中运行良好。 但它不适用于 databricks 免费试用帐户。

下面是我收到的错误消息: E:无法打开锁定文件 /var/lib/dpkg/lock-frontend - 打开(13:权限被拒绝) E: 无法获取 dpkg 前端锁 (/var/lib/dpkg/lock-frontend),您是 root 吗?

谁能帮我解决这个问题吗?

© www.soinside.com 2019 - 2024. All rights reserved.