我有一个数据集,其中有缺失的值,但这对XGBClassifier来说不是问题。它可以为您动态地填充值。我想把特征保存下来,让XGBClassifier来填充它们。我的目的是使用XGBoost来计算缺失的数据,然后我会尝试另一种不允许使用NaN值的算法。这可能吗?
XGBoost可以 处理 缺失的值,但它不会填充它们。所以答案是否定的,你不能用它来某种程度上填充特征中的缺失值。
在训练的时候,它处理缺失数据的方式是选择在每次分割时损失最小的方向。所以在处理缺失数据的过程中,所有的过程都是在根据损失函数最小化的多少来选择最优的路径,但是并没有涉及到值的归纳。
这在 公布:
从数据中学习最佳的默认方向。关键的改进是只访问非缺失的条目Ik。所提出的算法将不存在视为缺失值,并学习处理缺失值的最佳方向。