机器学习中的测试标签和验证标签有什么区别？ [已关闭]

Question

我有关于数据集的训练和验证的问题。

我理解训练数据标签的概念，即 y_train。我不明白的是为什么我们的测试/验证样品也应该有标签。我假设通过给测试样本添加标签，我们可以在将它们通过算法之前定义它们是什么，对吗？

这么说吧，如果我有一个狗和猫的图片数据集，我分别将它们标记为 1 和 2。那么如果我想扔一张图片（狗）来测试我的模型，而它不在我的训练数据集中，为什么我应该给它贴上标签呢？如果我给它贴上 1 标签，那么我就预先告诉它它是一只狗，如果我给它贴上 2 标签，那么它已经是一只猫了。

我可以有一个没有标签的测试/验证数据集吗？

Answer 1

验证数据集用于微调模型中的参数，而测试集用于检查准确性。没有标签怎么能声称你的模型的正确性。这个概念在监督学习中是有效的，因此需要带有测试和验证数据集的标签。

Answer 2

顾名思义，

测试集的目的是测试模型在训练期间未见过的数据中的性能。为了获得这种性能指示，您当然需要具有已知标签的数据，以便将这些标签（基本事实）与相应的模型预测进行比较，并得出您的一些定量度量（例如准确性）模型性能 - 如果测试集中没有这些标签，您肯定无法做到这一点。如果我想扔一张图片（狗）来测试我的模型，为什么要给它贴上标签？如果我给它贴上 1 标签，那么我就预先告诉它它是一只狗，如果我给它贴上 2 标签，那么它已经是一只猫了。

您在这里非常宽松地使用术语“测试” - 这不是它在测试集上下文中的含义（我刚刚在上面描述了该上下文）。另请注意，测试标签可用这一事实并不意味着它们在预测期间被模型“使用”（它们当然不是 - 它们仅用于与模型预测进行“比较”，如上所述）。另外，您指的是一个非常具体的问题，其中答案（猫/狗）对于人类观察者来说是显而易见的 - 尝试使用相同的理由，例如在基因组学问题中，或者在要求对房价进行数字预测的问题中，您会发现情况并不
那样
简单明了（您是否可以通过查看

来说出房屋的价格）一排数字

？）... 这同样适用于验证集，只是这里的目标不同（即不是模型评估，而是模型调整）。诚然，有些人使用“测试数据”一词来泛指任何“看不见”的数据，但这是不正确的；在使用训练、验证和测试集构建和评估模型后，您可以使用新的且明显未见的数据来部署它，对于这些数据，它肯定不期望已经知道标签... 实际上有几十个关于这个主题的在线教程，SO 可以说不是解决此类问题的最合适的论坛 - 我只是希望我已经给了你第一个足够好的总体想法......

机器学习中的测试标签和验证标签有什么区别？ [已关闭]

问题描述投票：0回答：2

2个回答

最新问题

机器学习中的测试标签和验证标签有什么区别？ [已关闭]

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2