如何编码具有大量类别的项目特征以进行推荐

问题描述 投票:0回答:1

对于我正在研究的推荐问题,大约有 50000 个独特品牌和 3 个级别的产品类别,level_1_cat(50 个类别)、level_2_cat(100 个类别)和 level_3_cat(1000 个类别)。所有这些项目特征仅用整数表示。到目前为止,我已经为我的 lightfm 模型尝试了二进制编码、标签编码和目标编码。使用二进制编码和标签编码,结果比不使用任何项目特征更糟糕。使用目标编码,结果与不使用任何项目特征类似。我想知道我还能尝试什么。

machine-learning encoding data-science categorical-data recommendation-engine
1个回答
0
投票

尝试正则化技术:L1 和 L2 最终将删除不必要的列。 正则化可以帮助模型在处理高基数特征时更好地泛化。 确保您应用适当的正则化以避免过度拟合,

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.