训练集:https://www.dropbox.com/s/ohc48uo2169zdi0/200214%20AlleJaren2012-2020%20THUISv1.arff?dl=0测试集:https://www.dropbox.com/s/5tkhbyevf6msvce/200214%20Testbestand%20ATP%20Rotterdam.arff?dl=0
大家好,
有人可以告诉我那些.arff文件在做什么错吗?输出显示问号而不是数字的原因是什么?
谢谢,
问候,
Cor
在您的测试集中,您没有赢家。因此,您只有获胜者的预测,但是“?”实际情况。
某些选项:1.只需分析训练集,但让Weka进行训练/测试拆分,即可获得准确性的度量。2.仅分析训练集,但让Weka进行10倍交叉验证。
这是我使用带有标准参数和10倍交叉验证的J48的结果:
Number of Leaves : 1915
Size of the tree : 1992
Time taken to build model: 2.47 seconds
=== Stratified cross-validation ===
=== Summary ===
Correctly Classified Instances 14504 64.1543 %
Incorrectly Classified Instances 8104 35.8457 %
Kappa statistic 0.2832
Mean absolute error 0.444
Root mean squared error 0.477
Relative absolute error 88.7915 %
Root relative squared error 95.3947 %
Total Number of Instances 22608
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure MCC ROC Area PRC Area Class
0.672 0.389 0.632 0.672 0.651 0.284 0.679 0.654 0
0.611 0.328 0.652 0.611 0.631 0.284 0.679 0.643 1
Weighted Avg. 0.642 0.358 0.642 0.642 0.641 0.284 0.679 0.649
=== Confusion Matrix ===
a b <-- classified as
7572 3694 | a = 0
4410 6932 | b = 1
我并不是说这是一个很好的模型;我只是以此为例。