对于我正在研究的推荐问题,大约有 50000 个独特品牌和 3 个级别的产品类别,level_1_cat(50 个类别)、level_2_cat(100 个类别)和 level_3_cat(1000 个类别)。所有这些项目特征仅用整数表示。到目前为止,我已经为我的 lightfm 模型尝试了二进制编码、标签编码和目标编码。使用二进制编码和标签编码,结果比不使用任何项目特征更糟糕。使用目标编码,结果与不使用任何项目特征类似。我想知道我还能尝试什么。
尝试正则化技术:L1 和 L2 最终将删除不必要的列。 正则化可以帮助模型在处理高基数特征时更好地泛化。 确保您应用适当的正则化以避免过度拟合,