具有人员 ID 的全局模型

问题描述 投票:0回答:1

我要为100个人建立一个机器学习模型,例如将他们分为成功/不成功的学生,我可以添加他们的人ID(例如1~100)作为附加特征向量吗?

期望获得更好的表现?

model
1个回答
0
投票

我假设您有关于他们的成绩以及出勤率的数据?出于以下几个原因,您不应将学生 ID 作为特征包含在模型中:

  1. 它可能与结果(学生的成功)无关,除非 ID 是由 GPA 或类似的东西分配的。它不应提供任何可用于解释成功的信息。
  2. 如果您包含了 ID,然后可能使用高度非线性技术(例如决策树或深度神经网络)完全过度拟合您的训练数据,那么您的模型对于标记看不见的学生(例如学生 101)将毫无用处。 在这里您可以阅读一些有关过度拟合的内容。

如果您的目标是解释学生成功的原因,请考虑仅包含您怀疑与“成功”相关的那些特征。还要考虑每种类型的算法如何分解或解释重要性。例如,线性模型可以提供线性加性分解,其中 p 值描述特征重要性,而树模型或集成可以根据特定特征用于分割节点的频率提供“特征重要性”的估计。另请考虑阅读Shapley 值

© www.soinside.com 2019 - 2024. All rights reserved.