我正在使用随机森林的r包根据其氨基酸序列预测蛋白质对之间的距离,主要关注的是接近(距离较小)的蛋白质。我的训练数据集包含1万对蛋白质以及它们之间的实际距离。然而,很少有一对蛋白质(小于0.2%)之间的距离很小,问题是受过训练的随机森林在预测长距离蛋白质之间的距离时非常准确,而对之间距离很小的蛋白质则非常不利他们。我试图在我的训练数据中对距离较远的蛋白质进行下采样,但结果仍然不好。我对紧密的蛋白质(它们之间的距离较小的那对蛋白质)更感兴趣。因为我的训练准确度是78,而测试准确度是51%任何建议都受到高度赞赏
几个建议:
1)从gbm
包中查看GBM。
2)创建更多功能,以帮助RF了解距离的驱动因素。
3)绘制误差与各个变量的关系图,以找出驱动关系的原因。 (ggplot2特别适合使用colour
和size
选项。)
4)您还可以基于距离为y变量分配1或0(即,如果距离 5)尝试使用距离相关变量的日志。射频通常可以很好地补偿非线性,但尝试使用它也无害。 我的猜测是,#2是您想要花费时间的地方,尽管它也是最难的,并且需要最多的思考。
我认为,针对您的问题,可能会使用综合少数群体回归抽样技术(SMOTER)。关于此主题有一些研究。但是,正如您可能遇到的那样,与同类分类(SMOTE)相比,它的探索程度仍然较低。