我正在使用libsvm进行分类任务。我有10倍交叉验证,其中F1得分为0.80。但是,当我将训练数据集分成两个(一个用于训练而另一个用于测试,我将其称为保持测试集)时,F1得分降至0.65。分割比例为.8至.2。
那么,我的问题是,在进行k折交叉验证与保持测试之间是否有任何显着差异?这两种技术中的哪一种会产生一种概括良好的模型?在这两种情况下,我的数据集都会缩放。
存在巨大差异,但精确分析需要大量统计数据。如需深入了解,请参阅Hastie,Tibshirani和Friedman撰写的The Elements of Statistical Learning: Data Mining, Inference, and Prediction。
简而言之 :
不同之处在于使用了一个分割,如果你尝试另一种方法将数据分成训练/测试(可能是通过改组),你会得到另一个值。因此,创建多个集合并对所有F1分数求平均值将得到相当于CV的结果。而CV更好地概括。