我正在做文本分类任务。
我用火车文本数据构建了一个分类器,有1700多个属性(单词)。但是,我的测试数据只有500多个属性(单词),当我在上面的模型上运行测试数据时,它会抛出一个Train and test set are not compatible
异常。我怎样才能转换与列车数据一致的测试数据属性?
脱离我的头顶:
计算每个数据文件中的行数,记下行数。
将train和test文件一起复制到一个文件中,应用StringToWordVector Filter。
暂时删除导致的那个巨大稀疏矩阵的上部~75%(确切的值可能是73.4542%或其他)。
将对应于已转换数据集的较低25%的剩余记录(这些行代表原始测试集)导出到其自己的.arff文件中。
现在撤消上限75%的删除操作。反转选择。删除对应于测试集的较低25%。
运行分类器。
通过加载上面导出的新arff文件,将模型应用于测试集。