我想测试主动学习。 为此,我创建了一个包含 200 张图像的数据集,并将 MaxConcurrentTaskCount 设置为 50。 我希望主动学习在以下时间后开始: 50 + 0.2 * 200 = 90 张由人类标记的图像(如此线程中指定)
但是什么也没发生。这是我的标记工作描述的子集(在人工标记了 100 张图像之后):
'LabelingJobStatus': 'InProgress',
'LabelCounters': {'TotalLabeled': 100,
'HumanLabeled': 100,
'MachineLabeled': 0,
'FailedNonRetryableError': 0,
'Unlabeled': 100},
'LabelAttributeName': 'category',
'LabelingJobAlgorithmsConfig': {'LabelingJobAlgorithmSpecificationArn': 'arn:aws:sagemaker:eu-west-2:027400017018:labeling-job-algorithm-specification/object-detection',
'LabelingJobResourceConfig': {}},
'MaxConcurrentTaskCount': 50,
这有什么问题吗?
我预计主动学习会在 90 张图像之后开始
您是对的,对于 200 张图像的数据集大小,验证集是 90 张图像。然而,在标记这 90 张图像后,需要额外的人工标记数据来充分训练模型,然后才能开始自动标记。鉴于数据集相对较小,模型可能需要更多人工标记的示例才能获得启动自动标记过程所需的置信度。继续手动标记更多图像应该有助于触发主动学习阶段。
50 的
MaxConcurrentTaskCount
会影响标记率,但如果 Ground Truth 批量处理这些数据或等待所有任务的注释完成确认,也可能导致训练和触发主动学习的滞后。