除训练，验证和测试数据集外，如何在全新数据集上评估机器学习模型的性能？

Question

方案：我们的数据科学团队为分类任务构建机器学习模型。我们根据训练，验证和测试数据集评估模型性能。我们使用精度，召回率和F1得分。然后，我们在生产环境中的全新数据集上运行模型并进行预测。一周后，我们收到了有关预测模型执行情况的反馈。

问题：当我们在真实数据集上评估模型的性能时，应使用哪些指标？在这种情况下，预测准确性是更好的指标吗？

Answer 1

我认为您应该测量相同的指标或某些业务指标。

通常，模型针对特定损失/度量进行了优化，这意味着具有较高特定度量值的模型可能在不同度量上具有较差的值。

精度是一个指标，在很大程度上受数据中类平衡的影响，因此应谨慎使用。

所以我建议使用相同的指标。

另一种方法是使用一些业务指标，例如这些模型带来的收入。