我对机器学习还很陌生,我正在寻找处理NaN值而不用任何模拟数值来插补或替换它们的ML模型。对于我正在使用的数据,NaN值没有实际替代。如果值为NaN,则我们需要模型来反映这一点,这不是丢失数据的情况,而是该列与行不相关的情况。
我已经成功使用XGBoost和LightGBM,但是我正在寻找其他可以正确处理NaN的模型以作比较。如果您知道其他任何模型,也可以使用您的反馈意见。
谢谢!
缺少价值支持是基于决策树的方法的特征。
您已经提到XGBoost和LightGBM。作为参考,请参见R的Generalized Boosted Regression Models(GBM)封装。
R的GBM为丢失的值生成一个特殊的分支,而XGBoost和LightGBM只是将丢失的值发送到“多数方式”。