确保数据标注、数据注释的质量

问题描述 投票:0回答:1

我有一个包含 200 万个数据图像、视频和文本的数据集。哪个没有标记。我想雇佣来自世界各地的工人来给他们贴上标签。这是一个巨大的数字。如何确保员工标记的数据的质量?我担心他们只是为了赚钱而向工作发送垃圾邮件。

P/S:我不能使用其他公司如Scale'AI为我做标签。

用于简单分类。我可以使用验证码之类的方法。它效果很好,但对于其他情况,例如绘制边界框=或分割,我不知道如何检查标签数据的质量。

machine-learning artificial-intelligence data-science data-annotations labeling
1个回答
0
投票

这很棘手。您应该始终为注释者提供足够的指导,以使他们的工作更轻松,并减少他们偷懒的机会,更糟糕的是 - 可能会用错误的标签污染您的数据集。毫无疑问,有值得信赖的公司提供此类服务。此外,还有一些措施可以潜在地指出注释者之间的分歧,并防止其成为标签错误。我推荐 MIT 的 Data-Centric AI 课程,了解更多相关信息。

另一方面,现有的预训练 OD 模型(例如 YOLO)至少可以提供一个无需雇用任何人即可标记数据集的开始。至于被标记的数据的质量,恐怕这将涉及到对您所选择的 OD 模型输出的指标的一些信任,以及如果您决定继续下去的话,对您最终的结果进行一些手动检查的组合。这条路。一些用于可视化结果边界框/分割的工具可以帮助加快这一过程。

此外,还有 Hasty 和 Roboflow 等工具,它们也可以提供一些专业的数据注释服务。

最后,这始终取决于我们在这里讨论的数据类型。

我建议你尝试在这个问题上更具体一些,或者在这个领域更活跃的平台上提问。

© www.soinside.com 2019 - 2024. All rights reserved.