我们的模型中有一个国家/地区的功能,我们正在使用标签编码器,例如:
BEL - 1,US - 2,ENG - 3,
等等...
什么是XGBoost模型的最佳实践 - 将其用作数字编号或执行一个热编码?
谢谢,塔尔
没有黄金标准。
OHE更安全,因为它没有在类别中引入人为命令。在不利方面,它增加了具有多个唯一值的特征的内存占用,并且树可能会在数字特征的分割和新增的OHE特征之间找到平衡。通常(基于kaggle竞赛)标签编码的表现与OHE一样好或更好。
为什么不尝试这两种方法并选择一种能够在交叉验证中为您提供更好的评估指标?这样您就可以将此选项视为另一种类型的特征工程。请注意,您可能需要分别为两个scenarious运行超参数优化,因为在某些情况下,树深度等参数可能会非常不同。