首先,我将说明我有一个数据集的场景;
ProductID,ProductType,MachineID,MachineModel,MachineSpeed,RejectDate,RejectVolume等。
我想找出哪个字段是我的RejectVolume增加的原因?此外,在该方案中,所有产品都具有RejectVolume。我的意思是RejectVolume非零,并且有连续但不同的值。多亏了这一点,我可以认识到原因并找到减少RejectVolume值的解决方案。
你能给我任何创建模型的想法吗?谢谢。
你想看看Feature Selection methods。
在这种情况下,您可以使用Linear Regression开始使用Lasso进行特征选择。这是通过连续增加套索正则化项来完成的,这将减少不重要特征的权重,使您具有影响最大的特征。