我正在对几种机器学习模型(例如 svm、ann、随机森林和 knn)进行 covid 19 爆发预测。我很困惑如何将哪个是最佳精度性能模型与训练和测试精度结果、均方误差以及 R 平方进行比较。还有一个问题,通常单位首选的训练和测试精度结果是什么?是否为百分比/整数/小数点
为了获得上述问题的清晰解释
简短回答:视情况而定。如果它是一个分类(如果你试图预测类别)问题,那么准确率、精确率、召回率、F1 分数和 AUC 都是很好的指标。如果您尝试预测连续变量,那么它是回归问题,因此 R2(r 平方)、均方误差、标准误差图等很有用。
根据问题,您可以选择正确的分类/回归算法(例如SVM、ANN、KNN、线性回归等)。对于像样的数据集,训练/测试比例通常为 75:25 或 80:20%。这个想法是在比较训练数据或现实场景时,在测试用例中具有良好的数据表示。
如果所有这些都是有效的,我会寻找 ~70% +- 5% 作为良好的起点,并开始调整参数和超参数以进行改进。拥有一个良好的基线模型并尝试不同的算法和参数。快乐实验!
如果您向我提供有关您试图解决的问题的更多信息,我可以提供帮助。