我正在研究与 Kaggle 上的竞争相对应的房价模型。 https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques。 我发现分类数据中有很多缺失值。我读到,在删除它们之前,我需要查看它们和目标功能(连续)之间的关系,以了解它是否有用或直接删除它。
我无法衡量这种关系;(
皮尔逊相关 -> 对于连续特征 方差分析 -> 存在高缺失值的偏差 ...等等
我删除的特征缺失值超过 60%
删除后,有 47% 的功能缺失。但我不知道该放弃还是不放弃
我查了很多。并且只能找到“备件排名”,并且在计算之前它必须是完整的数据,所以我用KNN估算它然后计算。给我 0.1,所以我放弃了它。
我不知道我该怎么办,我做的对还是错,请帮忙