我想在大约 4000 个图像中注释自定义对象,其中每个图像包含许多对象。正如你所理解的,我无法手工完成这项工作。我在 google 和 stackoverflow 上进行了搜索,但解决方案是基于“常见”注释,比如汽车、马、人、房子等。我想注释自定义数据集,它们不存在为“常见”/平台中“准备就绪”。我该如何继续?
我需要在每个自动注释的对象上添加多边形标签,而不仅仅是矩形。并具有 .json 格式的注释。有什么想法吗?
我可以建议以下策略来处理您想要完成的注释任务:
cvat
这样的开源注释平台先对小批量进行注释(例如500张图像) - cvat在带注释的图像上训练检测模型 -> 对第二批图像(假设另外 500 个)运行推理 -> 重新访问模型预测。重新审视预测应该花费更少的时间
重复1和2,直到完成需要注释的数据。
关于多边形要求,我建议使用像
SAM
这样的零样本分割模型,您可以使用从上面建议的注释阶段获得的地面实况矩形来提示它。