我有一个具有4000个独特级别的分类列。
当使用sklearn.feature_extraction.FeatureHasher进行编码时,该列应该是n_features值以避免冲突。
sklearn.feature_extraction.FeatureHasher
n_features应尽可能大,以避免碰撞。您是否有可能计算所有4000个级别的所有唯一值?如果是,您可以将n_features设置为此值。将n_features设置为非常大的值可能会占用大量RAM。通常n ^features在2 ^ 28到2 ^ 32之间就足够了
n_features