机器学习中的测试标签和验证标签有什么区别? [已关闭]

问题描述 投票:0回答:2

我有关于数据集的训练和验证的问题。

我理解训练数据标签的概念,即 y_train。我不明白的是为什么我们的测试/验证样品也应该有标签。 我假设通过给测试样本添加标签,我们可以在将它们通过算法之前定义它们是什么,对吗?

这么说吧,如果我有一个狗和猫的图片数据集,我分别将它们标记为 1 和 2。那么如果我想扔一张图片(狗)来测试我的模型,而它不在我的训练数据集中,为什么我应该给它贴上标签呢?如果我给它贴上 1 标签,那么我就预先告诉它它是一只狗,如果我给它贴上 2 标签,那么它已经是一只猫了。

我可以有一个没有标签的测试/验证数据集吗?

machine-learning deep-learning train-test-split test-data
2个回答
1
投票

验证数据集用于微调模型中的参数,而测试集用于检查准确性。没有标签怎么能声称你的模型的正确性。这个概念在监督学习中是有效的,因此需要带有测试和验证数据集的标签。


1
投票
顾名思义,

测试集的目的是测试模型在训练期间未见过的数据中的性能。为了获得这种性能指示,您当然需要具有已知标签的数据,以便将这些标签(基本事实)与相应的模型预测进行比较,并得出您的一些定量度量(例如准确性)模型性能 - 如果测试集中没有这些标签,您肯定无法做到这一点。 如果我想扔一张图片(狗)来测试我的模型,为什么要给它贴上标签?如果我给它贴上 1 标签,那么我就预先告诉它它是一只狗,如果我给它贴上 2 标签,那么它已经是一只猫了。

您在这里非常宽松地使用术语“测试” - 这不是它在测试集上下文中的含义(我刚刚在上面描述了该上下文)。另请注意,测试标签可用这一事实并不意味着它们在预测期间被模型“使用”(它们当然不是 - 它们仅用于与模型预测进行“比较”,如上所述)。另外,您指的是一个非常具体的问题,其中答案(猫/狗)对于人类观察者来说是显而易见的 - 尝试使用相同的理由,例如在基因组学问题中,或者在要求对房价进行数字预测的问题中,您会发现情况并不

那样

简单明了(您是否可以通过查看
来说出房屋的价格)一排数字

?)... 这同样适用于验证集,只是这里的目标不同(即不是模型评估,而是模型调整)。 诚然,有些人使用“测试数据”一词来泛指任何“看不见”的数据,但这是不正确的;在使用训练、验证和测试集构建和评估模型后,您可以使用新的且明显未见的数据来部署它,对于这些数据,它肯定期望已经知道标签... 实际上有几十个关于这个主题的在线教程,SO 可以说不是解决此类问题的最合适的论坛 - 我只是希望我已经给了你第一个足够好的总体想法......

© www.soinside.com 2019 - 2024. All rights reserved.