我正在使用 kaggle house 数据集。我正在尝试使用神经网络进行练习。我正在尝试标准化数据。我的问题是:我有一个变量 BsmtFinSF1,它指的是“类型 1 成品平方英尺”,并且它有很多值为 0 的值。值零对应于“无地下室”,事实上,在另一个因子变量中它对应于一个级别。例如,如果“地下室条件”变量对应于“无地下室”,则意味着 BsmtFinSF1 变量将为 0。下面是 BsmtFinSF1 的直方图。如果我没有被我的新手弄错的话,如果没有零,分布就会是正常的。我怎样才能使其正常化,或者我什至应该使其正常化?
这将是两部分模型的一个很好的应用。基本上将您的变量视为两种不同的分布 - 一种用于预测存在/不存在,另一种用于估计您感兴趣的连续变量的值。此博客将其布局得非常整齐。