我要为100个人建立一个机器学习模型,例如将他们分为成功/不成功的学生,我可以添加他们的人ID(例如1~100)作为附加特征向量吗?
期望获得更好的表现?
我假设您有关于他们的成绩以及出勤率的数据?出于以下几个原因,您不应将学生 ID 作为特征包含在模型中:
如果您的目标是解释学生成功的原因,请考虑仅包含您怀疑与“成功”相关的那些特征。还要考虑每种类型的算法如何分解或解释重要性。例如,线性模型可以提供线性加性分解,其中 p 值描述特征重要性,而树模型或集成可以根据特定特征用于分割节点的频率提供“特征重要性”的估计。另请考虑阅读Shapley 值。