分类特征与连续目标特征之间的关系

问题描述 投票:0回答:1

我正在研究与 Kaggle 上的竞争相对应的房价模型。 https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques。 我发现分类数据中有很多缺失值。我读到,在删除它们之前,我需要查看它们和目标功能(连续)之间的关系,以了解它是否有用或直接删除它。

我无法衡量这种关系;(

皮尔逊相关 -> 对于连续特征 方差分析 -> 存在高缺失值的偏差 ...等等

我删除的特征缺失值超过 60%

删除后,有 47% 的功能缺失。但我不知道该放弃还是不放弃

我查了很多。并且只能找到“备件排名”,并且在计算之前它必须是完整的数据,所以我用KNN估算它然后计算。给我 0.1,所以我放弃了它。

我不知道我该怎么办,我做的对还是错,请帮忙

machine-learning deep-learning data-science artificial-intelligence data-preprocessing
1个回答
0
投票

我建议您从简单的方法开始彻底迭代到更复杂的方法,以便找到估算数据中缺失值的最佳方法。

我首先建议您建立一个严格的管道(数据处理、模型拟合和评估)(使用交叉验证,避免数据泄漏等)。您可以选择所学习的模型,例如开始线性回归。然后,您尝试不同的方法来处理 NaN 并评估它们对预测器性能的影响。探索性数据分析对于理解数据也很有用。

您可以像以前一样处理缺失值(如果缺失值的百分比超过阈值,则删除特征、删除线条、插值等)。方法有很多,但正确评估它们是否适合您的问题最重要。

您可以查看缺失值的插补(请注意,一些估计器处理缺失值)和特征选择

© www.soinside.com 2019 - 2024. All rights reserved.