是否可以使用自定义对象检测或分割(或任何其他 ML 技术)来跟踪文档字段?
要求是从文档中提取关键元素,例如名字、姓氏、身份证号码、到期日期等?
所以我知道正则表达式等可以在一定程度上解决这个问题,但是从paddle ocr或LayoutLM,LayoutXLM类型的模型和技术来看PP结构。看来人们正在这样做,而且概念确实存在。
我的问题特别是在像 android 或 ios 这样的低计算设备上这是否可能,这些设备没有使用张量流光或 ncnn 类型的移动兼容深度学习框架提供大量计算?
是的,这是可能的,我是如何做到的,使用 YoloV8
在带有字段标记的文档上训练对象检测模型
Preparing right data is very important here with proper
validation and test set of images. Also don't use same image for training and validation because it will end up overfitting.
YoloV9生成的默认模型是py torch模型,可以 转换为onnx(开放神经网络交换)可以转换 到张量流光模型。
一旦您拥有 tflight 模型,您就可以在 Android 应用程序中使用它来预测不同的标签,并使用 ML Kit 或 Paddle OCR 对这些裁剪后的标签图像执行 OCR。