我具有包含产品,月,年,滞后功能和两个促销功能的销售数据。销售数量是因变量。挑战在于,当我使用二进制(0,1)的促销特征时,当我检查特征重要性时,促销特征作为弱预测变量的重要性为0,而当我检查线性回归,拉索,和里奇(Ridge),促销功能是最主要的预测指标。我尝试为这些变量制作虚拟功能,但看不到任何影响。输入类别时,是否需要在随机森林模型中设置任何参数?
谢谢!
首先,您无法进行这种比较,因为(线性回归)是一种非常简单的算法,始终被用作机器学习的澄清,它在实时应用中的用途很少,所以当然同时看到参数的重要性取决于与(随机森林)不同的因素最后一步是在每个步骤中计算一个功能/多个功能,以检查要选择的功能以及对下一步更重要的功能。请注意: